MaDICS

Automatisation du requêtage des API de Twitter pour une collecte à large spectre

Feb 15 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : UMR 6281- Université de Technologie de Troyes
Durée : 6 mois
Contact : babiga.birregah@utt.fr
Date limite de publication : 2017-02-15

Contexte :
L’analyse des réseaux sociaux pour la gestion de crise est souvent limitée par la prise en compte les limitations des API. Par exemple dans le cadre d’une stratégie de collecte à large spectre lors d’une crise généralisée il est souvent difficile de suivre simultanément toutes les thématiques tout en maîtrisant l’évolution des groupes de mots clés et thématiques dans les échanges. De plus l’émergence de nouvelles thématiques peut influencer la richesse et la pertinence des messages collectés.

Il est donc important de construire un moteur qui automatise (i) non seulement le suivi au fil de l’eau (et en ligne) de l’évolution des mots clés, (ii) mais aussi la détection de thématiques émergentes pour garantir la pertinence des paramètres de la collecte en cours.

Sujet :
Le ou la candidat(e) retenu(e) doit proposer une moteur de collecte large spectre de tweets capable de tourner sur une longue période sans interruption tout en adaptant les mots clés selon la trajectoire que prend l’événement en cours. Pour cela il ou elle devra mettre en place un algorithme de détection de thématiques d’intérêt qui permet de suggérer automatiquement des termes émergents pour adapter la collecte.

Profil du candidat :
Profil: Mathématiques/Inforatiques

Dossier de candidature : Le dossier de candidature doit être transmis uniquement par mail, à l’adresse suivante : babiga.birregah@utt.fr, en ajoutant dans l’objet la référence DL04- 1617.

Il doit contenir les pièces suivantes, sous format PDF:

– Une lettre de motivation indiquant clairement les expériences (stages, projets, etc.) en relation avec le stage

– Un CV contenant la liste des publications et autres réalisations (projets, logiciels, etc.)

Formation et compétences requises :
Compétences :
Gestion de base de données : PostgreSQL
Langages : Python / des connaissances en Java seraient un plus.

Bon relationnel et travail en équipe. Vous aurez à travailler avec les équipes du BRGM qui travaillent sur le suivi des catastrophes naturelles.

Poste à pourvoir : Stage Ingénieur/Master 2/Mastère Spécialisé

Adresse d’emploi :
Affectation structurelle : Université de Technologie de Troyes/ Equipe LM2S (UMR 6281)

Durée : 6 mois
Date de prise de fonction : Février 2017

Document attaché :

Categories: Stages

Mar

Wed

stage recherche M2 Informatique

Mar 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Inria Lille, CRIStAL
Durée : 6 mois
Contact : philippe.preux@univ-lille.fr
Date limite de publication : 2017-03-01

Contexte :
Le sujet se situe à l’interface entre deux domaines de l’informatique : génie logiciel et apprentissage automatique.
Cette problématique est étudiée depuis plusieurs années dans une collaboration entre les équipes Spirals et SequeL de Inria Lille / CRIStAL, par Martin Monperrus et Philippe Preux.
La réalisation du sujet demande à la fois un travail de recherche fondamental et de développement logiciel.
Elle demande la manipulation de concepts de théorie des graphes, développement logiciel et de statistiques.

Sujet :
Modélisation de l’évolution de logiciels

voir http://www.grappa.univ-lille3.fr/~ppreux/prje/m2info-a.php

Profil du candidat :
M1 d’informatique acquis, M2 en cours.

– fort attrait pour la théorie des graphes, l’algorithmique en général.
– curiosité, autonomie, capacité à écouter et à travailler en équipe.

Formation et compétences requises :
– capable de développer sans difficulté du code (java, C++, C, R, python)
– lecture de l’anglais.
– des notions (le plus possible) de statistiques, voire de mathématiques appliquées (en plus de la formation en informatique)

Adresse d’emploi :
Centre Inria
Villeneuve d’Ascq

Document attaché :

Categories: Stages

stage master en Big Data Warehouse

Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : irstea
Durée : 5 mois
Contact : sandro.bimonte@irstea.fr
Date limite de publication : 2017-03

Contexte :
Data Warehouse, Big Data et données agro-climatiques

Sujet :
Etude et implémentation d’une solution Spatial Big Data
Warehouse : Application aux données agro-climatologiques

Profil du candidat :
formation Big Data

Formation et compétences requises :
Les compétences en informatique recherchées sont :
– Entrepôts de données, et OLAP (i.e Mondrian)
-Technologies Big Data (bases de données – ex : Cassandra, MongoDB, etc. – plateformes –ex :
Hadoop)
-Java
-Les compétences en Systèmes d’Information Géographique seront considérées comme un plus

Adresse d’emploi :
9 av blaise pascal, Aubiere (clermont ferrand)

Document attaché : Offre-de-Stage-20183.pdf

Categories: Stages

Apr

Mon

Classification de signaux et d’images par descripteurs invariants/Signal and image classification with invariant descriptors (scattering transforms)

Apr 10 – Apr 11 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : IFP ENERGIES NOUVELLES
Durée : 5 mois
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2017-04-10

Contexte :
Le domaine de l’analyse de données complexes (science des données) s’intéresse notamment à l’extraction d’indicateurs pertinents, pour la réduction de dimension, la comparaison, la classification des données. Initialement basées sur des descripteurs (features) relativement physiques, spécifiques à l’application, de nouvelles méthodes apparaissent, basées sur des descripteurs numériques plus génériques et potentiellement multiéchelle, et des bases d’information pouvant servir à l’apprentissage ou la classification. Des exemples se trouvent dans les techniques de type SIFT (scale-invariant feature transform) et analogues (ORB, SURF), dans l’apprentissage non-supervisé de descripteurs, en apprentissage profond (deep learning). Ce stage s’intéresse spécifiquement à la gamme de techniques dites scattering transform (S. Mallat et al.) et aux techniques de classification associées. Elle permet d’obtenir des représentations de signaux, d’images ou de graphes présentant des propriétés d’invariance relatives à certaines transformations affectant les données : translation, rotation, échelle… Ses performances sont bien étudiées sur des données classiques (signaux audio, bases d’images, reconnaissance de chiffres manuscrits).

Sujet :
Ce stage s’intéresse à la mise en œuvre de ces méthodes sur des types de données moins étudiés : identification de la correspondance la plus proche d’une « image candidate » dans une base de données d’images modélisées du sous-sol et extraction d’empreintes pertinentes de signaux spectrométriques 1D issus de composés chimiques complexes pour l’apprentissage de propriétés physico-chimiques macroscopiques. Dans le premier cas, le défi réside dans l’échelle et la nature distincte des images candidates et modélisées, les secondes correspondant à une vision simplifiée des premières (proches de « sketches » ou cartoons »). Dans le second cas, la nature des signaux, formés d’une superposition de plusieurs centaines de pics (positifs), est de nature différente des informations traitées classiquement par les transformées en scattering. Une focalisation sur une des deux applications est envisagée, en fonction des succès ou difficultés rencontrés.

Profil du candidat :
Niveau 3e année élève ingénieur et/ou master

Formation et compétences requises :
Informatique/algorithmique, traitement de signal/image, statistiques, apprentissage automatique, mathématiques appliquées

Adresse d’emploi :
Rueil-Malmaison (92)

Document attaché : ifpen_stage-internship-2017-master-data-science-scattering-transform-english.pdf

Categories: Stages

May

Mon

Une approche graphe/r ́eseaux complexes pour mod ́eliser la nouveaut ́e dans des corpus textuels

May 1 – May 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIUM, équipe LST
Durée : 6 mois
Contact : nicolas.dugue@univ-lemans.fr
Date limite de publication : 2017-05-01

Contexte :
Le projet #neo s’intéresse à la détection automatique de néologismes en exploitant de grands corpus textuels. En particulier, il s’agit de détecter des mots qui changent de sens ou dont un nouveau sens apparaît. Dans ce stage, nous souhaitons fournir à ce projet un moyen d’évaluer les méthodes de détection automatique en créant des emph{modèles} de corpus artificiellement générés. Ces modèles devront ressembler le plus possible à des corpus réels. Par ailleurs, ils devront nous permettre d’introduire nous mêmes des changements de sens, de façon à tester les méthodes de détection.

Sujet :
Les objectifs du stage sont ainsi :
• de confirmer les propriétés des réseaux sur les corpus du projet #neo ;
• de modéliser les changements dans ces réseaux dans le temps ;
• de se baser sur l’état de l’art et les modèles de génération de graphe pour proposer et développer une approche de génération artificielle de modèles de corpus.

Une version plus détaillée du sujet est accessible sur le PDF.

Profil du candidat :
Master 2 :
– Programmation Python (ou Java) ;
– Intérêt pour les graphes ;
– Intérêt pour le Traitement de la langue.

Formation et compétences requises :
Master 2 :
– Programmation Python (ou Java) ;
– Intérêt pour les graphes ;
– Intérêt pour le Traitement de la langue.

Adresse d’emploi :
Le Mans, LIUM, équipe LST

Document attaché : stage-une-approche.pdf

Categories: Stages

Feb

Thu

Caractérisation des dynamiques spatiales dans le cadre de sources géolocalisée et non géolocalisée

Feb 1 – Feb 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LITIS (Rouen, Normandie)
Durée : 6 mois
Contact : geraldine.del_mondo@insa-rouen.fr
Date limite de publication : 20180201

Contexte :
Ce sujet de master s’inscrit dans les travaux réalisés dans la suite de l’ANR Modelespace qui s’est terminée en 2012. L’objectif était de développer une procédure d’étude permettant d’analyser les dynamiques spatiales des peuplements à partir de sources de données de différents types (e.g. plans cadastraux, photographies aériennes, documents dépourvus de plan comme des registres paroissiaux). Cette procédure doit rendre possible l’analyse des dynamiques spatiales non seulement sur les 200 à 300 dernières années, mais de remonter aux derniers siècles du Moyen Age lorsque la documentation le permet.

Dans ce but, l’idée générale est que la transformation des différents types de données dans un modèle commun (i.e. un graphe) peut permettre à la fois d’extraire plus facilement de l’information et de pouvoir les comparer. L’intérêt est notamment de détecter des patterns spécifiques (e.g. des forêts, qui ne sont pas inscrites dans les registres car non imposées ; connexions entre parcelles particulières) et des patterns de changement. Pour ces derniers on s’intéresse particulièrement à des changements de haut niveau (e.g. périodes de division/fusion de parcelles ; identification de zone dynamique vs. stable en terme de changement).

Les données, qu’elles soient issus de registres ou de plans géolocalisés ont été transformées dans des graphes de connectivité et les recherches se sont concentrées sur 1/ la transformation automatique des données dans ce format, 2/ la comparaison des graphes entre eux. Le principal problème auquel se sont heurtés ces travaux est l’absence de géolocalisation d’une partie des données.

Sujet :
En s’appuyant sur les travaux décrits dans le contexte, les objectifs de ce stage sont :

1. De repartir des données utilisées (6 bases de données de « cadastres » dont 4 non géolocalisés (1476, 1497, 1551, 1598) et 2 géolocalisés (1759, 1811)) sont disponibles.et de construire les graphes d’adjacences. Un travail
de remise en forme des données est nécessaire pour y parvenir.

2. Caractériser des patterns simples (zones non fiscalisées comme des forêts) et proposer des algorithmes afin de les retrouver dans ce graphe. Dans ce but, il sera souhaitable de proposer une analyse à plusieurs niveaux de détails (c’est à dire définir des zones et subdivisions de l’espace de manière cohérente) afin d’être capable de réduire les zones de recherche des patterns.

3. De proposer une architecture unifiée pour intégrer les points 1. et 2 et idéalement une interface minimale.

Profil du candidat :
Master (2ème année) ou dernière année d”école d’ingénieurs en informatique

Formation et compétences requises :

Adresse d’emploi :
Laboratoire LITIS, Rouen, Normandie

Document attaché :

Categories: Stages

Feb

Wed

Conception d’un coach sportif virtuel

Feb 28 – Mar 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : BEUTCH – CONSCIENCE,
Durée : 6 mois
Contact : francois.rioult@unicaen.fr
Date limite de publication : 2018-02-28

Contexte :
Basée entre Caen et Paris, BEUTCH est une société spécialisée dans le coaching digital. Avec une première application d’audio fitness nommés HUVII disponible début Décembre sur iOS et ensuite sur Android, BEUTCH se veut avant-gardiste sur le marché francophone du digital coaching. Afin d’aller encore plus loin, BEUTCH veut créer le premier coach digital intelligent en français.

Sujet :
Vous travaillerez au sein de notre équipe à Caen et avec CONSCIENCE, start up spécialisée dans le domaine de l’intelligence artificielle, afin de créer le tout premier coach digital intelligent, dans un premier temps dans le monde du running.

Vos principales missions :
• Vous nous assisterez sur la création des paramètres à intégrer
• Prototypage et développement de la version bêta, d’exploration et de navigation UX/UI
(détection, reconnaissance, analyse de la réaction de l’IA, …)
• Mise en place des tests et essais sur données réelles (cohérence, précision, temps de réaction..)
• Veille technologique et transmission de connaissances au reste de l’équipe
• Documentation des recherches, développements et algorithmes

Profil du candidat :
M2 ou ingénieur IA / Data Science

Formation et compétences requises :
M2 ou ingénieur IA / Data Science
autonomie, proactivité, rigueur, innovation.

Adresse d’emploi :
Caen, France

Document attaché : IA-011.pdf

Categories: Stages

Mar

Fri

Estimation de variables de trafic à grande échelle au travers de l’analyse et la fusion de données massives et multi-sources pour l’évaluation environnementale.

Mar 30 – Mar 31 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LICIT IFSTTAR-ENTPE Lyon
Durée : 5 mois
Contact : angelo.furno@ifsttar.fr
Date limite de publication : 30-03-2018

Contexte :
Sujet de master au LICIT avec possibilité d’une thèse CIFRE à suivre.

Titre: Estimation de variables de trafic à grande échelle au travers de la fusion de données massives et multi-sources pour l’évaluation environnementale.

Contexte et objectifs : Les villes doivent faire face à des défis environnementaux colossaux, notamment en matière de qualité de l’air et de changement climatique. Les émissions de particules fines (et parfois NO2) dans les villes dépassent très souvent des concentrations qui sont nocives pour la santé. Cette problématique environnementale incite ainsi les décideurs à gérer en même temps le besoin croissant en mobilité urbaine et la nécessité de réduire les émissions associées. C’est pourquoi la mise en œuvre de mesures d’analyse et gestion du trafic visant un transport durable est une nécessité.

Les activités de master représenteront une opportunité pour accéder à une thèse CIFRE qui débutera à la suite du stage et qui pourra impliquera l’étudiant(e), dans le cas d’un travail de master bien réussi. Encadrement du master : Le master se déroulera au LICIT et sera dirigée par Ludovic LECLERCQ et Angelo FURNO. Le co-encadrement par le CITEPA sera assuré par Thamara Vieira da Rocha.

Durée du master : 5 mois à partir d’Avril 2018

Contacts : angelo.furno@ifsttar.fr,ludovic.leclercq@ifsttar.fr, thamara.vieira.da.rocha@citepa.org

Sujet :
L’objectif de ce master est de reconstruire la dynamique du trafic dans les grandes villes par les données massives et multi-sources, afin d’évaluer avec précision les phénomènes de congestion. Pour cela, on s’appuiera sur une modélisation dynamique du trafic routier à une échelle agrégée, au travers des diagrammes fondamentaux de zone (MFD : Macroscopic Fundamental Diagrams) afin de déterminer les variables macroscopiques de trafic nécessaires au calcul d’émissions.

Introduit il y a une trentaine d’années, le concept de MFD vise à reproduire de manière agrégée les conditions de trafic d’une zone urbaine. Il constitue un outil performant pour accéder à une représentation dynamique du trafic : moins contraignante qu’une simulation microscopique (temps de calcul, données nécessaires à la calibration, etc.), tout en intégrant les phénomènes de congestion qui contribuent fortement aux émissions. C’est donc une source d’information de trafic pertinente pour l’évaluation des émissions de polluants et de gaz à effet de serre associés.

L’estimation des diagrammes fondamentales peut se faire au travers de technique de l’intelligence artificielle et du big data (fusion de données, techniques de machine learning supervisées et non-supervisées, technologies du big data), finalisées à reconstruire les trajectoires de mobilités des navetteurs à partir de différentes sources de données de mobilité et à caractériser donc la vitesse moyenne et les distances parcourues, variables agrégées nécessaires au calcul d’émission. L’étudiant(e) de master sera impliqué dans les activités nécessaires à l’estimation des variables agrégées (la vitesse moyenne et les distances parcourues) du diagramme MFD en utilisant plusieurs jeux de données massives de mobilité. En particulier, ces données, recueillies dans des villes de Colombie et transmises par le CITEPA, inclueront :
– des données de téléphonie mobile (Call Detail Records et données de signalisation sur le réseau mobile),
– des données de véhicules traceurs,
– des données de boucles électromagnétiques.

Des données similaires seront disponible sur plusieurs villes en France (Lyon et Paris), dans le cadre d’une collaboration entre le LICIT et Orange SA. Des solutions de clustering seront aussi nécessaires pour identifier des zones homogènes en termes de condition de trafic, une condition fondamentale pour l’estimation correcte des MFD.

Ce travail de master représente une activité préliminaire et crucial dans le cadre d’un projet de recherche collaboratif avec le CITEPA (https://www.citepa.org).

Profil du candidat :
* Formation recommandée
Ecole d’ingénieur/Master1 en Informatique/Mathématique/Statistique

Formation et compétences requises :
* Connaissances et savoir-faire souhaités
Experience en programmation (Pyhton/R), fouille de données, méthodes statistiques et apprentissage automatique
Environnement Linux, Solutions du Big Data (Spark, Scala) optionnel
Connaissance de la théorie du trafic optionnel

* Qualités requises
Esprit d’analyse et de synthèse, inventivité, rigueur, efficacité, autonomie.
Coopération et esprit d’équipe
Prise de fonction
02/04/2018

Adresse d’emploi :
Ifsttar de Lyon / Bron. Ifsttar – Lyon-Bron 25, avenue François Mitterrand, Case24 Cité des mobilités. F-69675 Bron Cedex

École nationale des travaux publics de l’État,
3 Rue Maurice Audin, 69518 Vaulx-en-Velin

Document attaché :

Categories: Stages

Mar

Sat

Analyse de données temporelles massives en Science de l’Environnement

Mar 31 – Apr 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube – Université de Strasbourg
Durée : 4 à 6 mois (Printemps 2019)
Contact : gancarski@unistra.fr
Date limite de publication : 2018-03-31

Contexte :
Dans le cadre d’un projet ANR, des bases de données massives liées à la gestion des ressources en eau ont été créées. Il s’agit dans ce projet, de fouiller ces données pour extraire des informations sur l’évolution de la qualité de l’eau. Ce projet implique des informaticiens mais aussi des spécialiste d’hydrologie.

Sujet :
L’objectif de ce stage est de proposer et mettre en place des outils permettant d’interroger les bases de données existantes afin d’extraire des données, qui une fois mises en forme, pourront « alimenter » le logiciel d’analyse de données (FoDoMuST). Il s’agira donc, de créer des modèles (template) de chaînes d’analyse de telles données en python. Par exemple : un template permettra de charger et mettre en forme les données, puis de les transférer à JCL (librairie de méthodes de classification) et enfin de mettre en forme pour un affichage. L’interface de FoDoMuST devra aussi être adaptée.

Profil du candidat :
Master 2 Informatique en cours (ou Ecole d’ingénieur à forte connotation Informatique)

Formation et compétences requises :
Connaissances (fortes) en fouille de données

Adresse d’emploi :
ICUBE CNRS UMR 7537
Pôle API
300 bld Sébastien Brant
Strasbourg – Illkirch

Document attaché : SujetM2_ADQeau-2019.pdf

Categories: Stages

Modélisation de données spatio-temporelles par un graphe

Mar 31 – Apr 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube
Durée : 4 à 6 mois
Contact : aurelie.leborgne@unistra.fr
Date limite de publication : 2018-03-31

Contexte :
Dans un contexte où de grandes quantités de données spatio-temporelles peuvent être accumulées, le besoin de valoriser ces données est grandissant. Ainsi, la nécessité de nouvelles approches innovantes d’analyse de ces données multi-sources se fait cruellement sentir. Les graphes étant des outils puissants à la fois théoriquement et méthodologiquement, nous nous proposons d’une part, de les utiliser pour formaliser et structurer ces informations et d’autre part, de construire des méthodes originales de fouille par exploration des graphes ainsi obtenus.
Les méthodes proposées seront le plus génériques possibles. Néanmoins, nous nous investirons plus spécifiquement sur la fouille de graphes appliquée à la télédétection et aux IRM fonctionnels.

Sujet :
Les objectifs scientifiques sont de plusieurs ordres. Le premier consiste à modéliser des données spatio-temporelles pertinentes, issues de contextes réels (télédétection et IRM fonctionnels), grâce à un graphe spatio-temporel [1].
Le deuxième objectif scientifique important est relatif à la pratique relativement récente du couplage des informations temporelles et spatiales. En effet, cela implique de nouvelles dépendances entre les objets, ce qui rend les approches de fouille purement spatiales ou temporelles inutilisables sous peine de perdre en précision et interprétabilité des résultats [2]. Cela implique également de gérer l’explosion combinatoire des relations à explorer lors de la fouille du graphe et de déterminer une valeur de similarité entre sous-graphes. Le but de cette fouille serait d’extraire des motifs caractérisant des évolutions spatio-temporelles. Par exemple, nous pourrions nous intéresser à la vitalité des forêts de châtaigniers

au cours du temps ou à la recherche de dysfonctionnements du cerveau liés à certaines maladies comme la schizophrénie.

[1] DEL MONDO, Géraldine, RODRÍGUEZ, M. Andrea, CLARAMUNT, Christophe, et al. Modeling consistency of spatio-temporal graphs. Data & Knowledge Engineering, 2013, vol. 84, p. 59-80.
[2] ATLURI, Gowtham, KARPATNE, Anuj, et KUMAR, Vipin. Spatio-temporal data mining: A survey of problems and methods. ACM Computing Surveys (CSUR), 2018, vol. 51, no 4, p. 83.

Profil du candidat :
Master 2 Informatique en cours (ou Ecole d’ingénieur à forte connotation Informatique)

Formation et compétences requises :
Bonnes compétences en programmation et théorie des graphes

Adresse d’emploi :
ICUBE CNRS UMR 7537
Pôle API
300 bld Sébastien Brant
Strasbourg – Illkirch

Document attaché : 2019-stageFinEtude.pdf

Categories: Stages

Apr

Tue

NLP/Machine learning pour le domaine RH

Apr 10 – Apr 11 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Myriad
Durée : a partir de 2 mois
Contact : mohammad@myriad-data.com
Date limite de publication : 2018-04-10

Contexte :
Aujourd’hui, 95% des RH regarde le processus de transformation
digitale comme une opportunité de développement de leur métier (Unow,
2017). En 2017 on constate que 49% des entreprises prévoient, dans un
futur proche, d’utiliser l’intelligence artificielle pour recruter
(Deloitte, 2017). Pour finir, 71% des RH sont intéressés par la
puissance d’analyse des outils digitaux RH.

D’une part on constate un marché compétitif avec une quête de
performance couplée à une période de croissance et d’autre part, on
réalise que 70% des candidatures aux annonces ne correspondent pas au
poste à pourvoir et 80% des postulant sont des candidats passifs
(Undercover Recruiter, 2017). Dans ce contexte, le recrutement, étant
une des taches chronographe du Responsable RH, s’est transformé en un
des premiers soucis des entreprises.

L’idée est d’optimiser le processus de recrutement à l’aide d’une
solution d’intelligence artificielle. Cette solution fait une
présélection qui fera un gain de temps considérable au recruteur et
lui permettra de se concentrer entièrement sur ses compétences. Outre
la mise en correspondance des annonces et des candidats, il peut être
utilisé aussi, tel un outil d’aide à la validation d’annonce. Si pour
une offre donnée, l’outil ne propose pas un nombre suffisant de
candidat pertinent, le RH ou d’autres instances décisionnaires,
pourraient reformuler ou revoir celle-ci offre afin d’agrandir
l’audience ciblée.

Sujet :
Le but de ce stage est d’utiliser les techniques de ” NLP ” dans la caractérisation et la mise en correspondance des candidats et des offres d’emplois.

Questions scientifiques et techniques

L’objectif de ce stage est de répondre aux question suivantes :

1. Trouver dans les données, les caractéristique (features) qui
permettent d’identifier les concepts présents dans un profil ou une
annonce. Identifier et les relations inter-concepts.

2-Combiner des modèles supervisés et non-supervisés en-ligne pour
trouver les meilleurs candidats à une annonce. Mettre en œuvre des
modèles de classification de candidat utilisant les modèles de Deep
Learning et comparer avec les solutions alternatives.

3-Construire un référentiel métier-compétences très innovant et évolutif

4-Comment évaluer ces modèles et quantifier l’incertitude de leurs résultats.

Profil du candidat :
Stage école d’ingénieur/M1 ou M2

Formation et compétences requises :
Informatique/Mathématique/Statistique

Adresse d’emploi :
16 rue Pierre Cherest,
92200 Neuilly-sur-Seine

Document attaché :

Categories: Stages

NLP/Machine learning pour le domaine RH

Apr 10 – Apr 11 all-day

Annonce en lien avec l’Action/le Réseau : Formation

Laboratoire/Entreprise : Myriad
Durée : a partir de 2 mois
Contact : mohammad.@myriad-data.com
Date limite de publication : 2018-04-10

Contexte :
Une des mission de la Responsable RH est sélectionner les candidats pertinents pour les postes à pourvoir, proposer des parcoursattractifs aux salariés et favoriser un environnement de travail épanouissant pour les collaborateurs. Cependant, certaines tâches chronophages, telles que la présélection (premier tri) de curriculum vitae, le détournent de son cœur de métier.

Cette problématique de présélection de candidats et d’évaluation de la pertinence de candidature par rapport à un besoin peut être assimilée à la conception d’un moteur de recherche ayant comme requêtes des offres de travaux et proposant les profils professionnels associés. Outre la mise en correspondance des offres de travaux et des profils professionnels, fonctionnalité principale du dispositif, il peut être utilisé aussi, comme un outil d’aide à la validation des offres de travaux. Ceci lui permet d’assister le Responsable RH à parfaire son
offre en améliorant son efficacité par la restitution, pour validation, des concepts (et leurs importances ou forces) contenus dans l’offre. La performance de l’offre pourra aussi se mesurer sur un jeu de test choisi. Le projet vise à répondre aux besoins internes de l’entreprise tels que la mobilité et la gestion de carrière et externes tel que le recrutement de candidat.

Sujet :

Le but de ce stage est d’utiliser les techniques de ” NLP ” dans la caractérisation et la mise en correspondance des candidats et des offres d’emplois.

Questions scientifiques et techniques

L’objectif de ce stage est de répondre aux question suivantes :

1. Trouver dans les données, les caractéristique (features) qui
permettent d’identifier les concepts présents dans un profil ou une
annonce. Identifier et les relations inter-concepts.

3-Construire un référentiel métier-compétences très innovant et évolutif

4-Comment évaluer ces modèles et quantifier l’incertitude de leurs résultats.

Profil du candidat :

Formation et compétences requises :
École d’ingénieur/M1 ou M2 en Informatique/Mathématique/Statistique

Adresse d’emploi :
16 rue Pierre Cherest,
92200 Neuilly-sur-Seine
Fixe : +33(0) 1 85 73 59 52

Document attaché :

Categories: Stages

Apr

Tue

Stage de recherche (fouille de données/échantillonnage)

Apr 17 – Apr 18 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : GREYC CNRS UMR 6072
Durée : 5 mois
Contact : albrecht.zimmermann@unicaen.fr
Date limite de publication : 2018-04-17

Contexte :

Dans le contexte du projet DECADE (Découverte et exploitation
des connaissances pour l’aide à la décision en chimie thérapeutique),
l’équipe CoDaG du laboratoire GREYC CNRS UM 6072 de l’université Caen
Normandie et l’équipe BdTln de l’université de Tours offre un stage
de recherche pour des masters 2ème année ou équivalent.

Le criblage à haut débit (high-throughput screening en anglais, HTS)
est devenu un processus incontournable pour trouver des molécules
prometteuses (i.e. des molécules ayant une activité envers certaines
cibles) pouvant ensuite donner lieu à des médicaments. Malheureusement,
le criblage fait aussi ressortir des molécules promiscues les “PAINS”
(Pan Assay Interference Compounds) qui ne conduiront pas à des
médicaments car pouvant présenter une certaine toxicité.
L’identification d’un PAINS in silico est difficile et, de plus,
des articles scientifiques décrivent comme prometteuses des molécules
qui sont en réalité des PAINS. Du point de vue des avancées en
chimie thérapeutique, le projet DECADE vise à l’identification
de nouveaux PAINS et à leur caractérisation.

Un défi de ce problème est que les PAINS ne sont pas précisément
définis. Nous disposons déjà d’un modèle créé à partir des “frequent
hitters”, des molécules qui montrent de l’activité envers plusieurs
cibles, mais il n’est pas clair qu’elles soient équivalentes aux PAINS.
Le but de ce stage est ainsi d’utiliser les connaissances d’experts
afin de valider ou corriger l’étiquetage des candidats PAINS.

Sujet :
Le travail va partir d’une approche pour étiqueter des données de type
itemsets à partir des retours des utilisateurs experts à des motifs qui
leur sont présentés au fur et à mesure. Le ou la stagiaire va adapter la
technique existante afin d’utiliser des motifs séquentiels/graphes, des
données graphes. En plus, elle ou il va préparer et mettre en oeuvre une
étude expérimentale afin d’évaluer l’approche développée.

Profil du candidat :
Le ou la candidat(e) devra avoir des connaissances en fouille de données
(fouille de séquences, fouille de graphes). Des bonnes compétences en
méthodes statistiques seraient appréciées. Des compétences en
programmation sont nécessaires.

Formation et compétences requises :
Master informatique

Adresse d’emploi :

Encadrant: Albrecht Zimmermann, Arnaud Soulet

Contact: albrecht.zimmermann@unicaen.fr

Document attaché :

Categories: Stages

Stage de recherche (fouille de données/programmation par contraintes)

Apr 17 – Apr 18 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : GREYC CNRS UMR 6072
Durée : 5 mois
Contact : albrecht.zimmermann@unicaen.fr
Date limite de publication : 2018-04-17

Contexte :
Dans le contexte du projet DECADE (Découverte et exploitation
des connaissances pour l’aide à la décision en chimie thérapeutique),
l’équipe CoDaG du laboratoire GREYC CNRS UMR 6072 de l’université
Caen Normandie et l’équipe CA du laboratoire LIFO de l’université
d’Orléans offre un stage de recherche pour des masters 2ème année
ou équivalent.

Le criblage à haut débit (high-throughput screening en anglais, HTS)
est devenu un processus incontournable pour trouver des molécules
prometteuses (i.e. des molécules ayant une activité envers certaines
cibles) pouvant ensuite donner lieu à des médicaments. Malheureusement,
le criblage fait aussi ressortir des molécules promiscues les “PAINS”
(Pan Assay Interference Compounds) qui ne conduiront pas à des
médicaments car pouvant présenter une certaine toxicité.
L’identification d’un PAINS in silico est difficile et, de plus,
des articles scientifiques décrivent comme prometteuses des molécules
qui sont en réalité des PAINS. Du point de vue des avancées en chimie
thérapeutique, le projet DECADE vise à l’identification de nouveaux
PAINS et à leur caractérisation.

Une approche est déjà en place pour apprendre un modèle réprésentant
des possibles PAINS. Cette approche utilise des sous-graphes
discriminants et un ensemble d’arbres de décision. La prochaine étape
consiste à exploiter les retours des experts afin de modifier à la fois
les sous-graphes fouillés et les arbres sans relancer le processes
d’apprentissage.

Sujet :
Le travail dans ce stage est fondé sur une méthode de programmation
par contraintes pour modifier minimalement un clustering en fonction
des retours d’utilisateurs. La tâche exige la définition des contraintes
sur des (ensembles de) graphes/arbres, le développement d’un mécanisme
pour obtenir des retours des experts et une méthode pour traduire
ces retours en contraintes.

Profil du candidat :
Le ou la candidat(e) devra avoir des connaissances en fouille de données
(fouille de graphes) et en programmation par contraintes. Des
compétences en programmation sont nécessaires.

Formation et compétences requises :

Adresse d’emploi :

Encadrants : Albrecht Zimmermann, Christel Vrain

Contact : albrecht.zimmermann@unicaen.fr

Document attaché :

Categories: Stages

May

Tue

Automatic ontology learning and semantic search in HR domain

May 1 – May 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Societé ALTEN et labo IRISA Rennes
Durée : 6 mois
Contact : zoltan.miklos@irisa.fr
Date limite de publication : 2018-05-01

Contexte :
Le Responsable RH a pour mission de sélectionner les candidats pertinents pour les postes à pourvoir, proposer des parcours attractifs aux salariés et favoriser un environnement de travail épanouissant pour les collaborateurs. Cependant, certaines tâches chronophages, telles que la présélection (premier tri) de curriculum vitae, le détournent de son cœur de métier. A titre d’exemple, Google recevrait chaque semaine 75 000 CV.
Cette problématique de présélection de candidats et d’évaluation de la pertinence de candidature par rapport à un besoin peut être assimilée à la conception d’un moteur de recherche ayant comme requêtes des offres de travaux et proposant les profils professionnels associés.
Outre la mise en correspondance des offres de travaux et des profils professionnels, fonctionnalité principale du dispositif, il peut être utilisé aussi, comme un outil d’aide à la validation des offres de travaux. Ceci lui permet d’assister le Responsable RH à parfaire son offre en améliorant son efficacité par la restitution, pour validation, des concepts (et leurs importances ou forces) contenus dans l’offre. La performance de l’offre pourra aussi se mesurer sur un jeu de test choisi.
Le projet vise à répondre aux besoins internes de l’entreprise tels que la mobilité et la gestion de carrière et externes tel que le recrutement de candidat.

Sujet :
Elaboration d’un modèle d’extraction et de représentation des connaissances des profils professionnels et des offres permettant d’effectuer des recherches sémantiques sur ces derniers. Ce projet s’inscrit dans la continuité des travaux de 3 projets réalisés par ALTEN (3 * 6 mois) et qui ont eu pour objectif d’exploiter le TALN (NLP), le web sémantique et l’apprentissage automatique pour extraire et hiérarchiser des concepts permettant la représentation des profils professionnels et des offres en vue de les mettre en correspondance.
Ce projet est une démarche concurrente à plusieurs projets ALTEN avec la même finalité mais basés sur des méthodes classiques. L’objectif sera aussi d’avoir une approche « comparée ».

Questions scientifiques et techniques

L’objectif des études à mener est de répondre aux incertitudes suivantes :
1. Comment identifier automatiquement les concepts présents dans un profil ou une offre ? Et comment extraire les relations inter-concepts?
2. Comment évaluer la performance du dispositif par rapport à ses enjeux ?
3. Concevoir et mettre en œuvre une méthode d’évaluation des distances entre concepts ? et concevoir un modèle de représentation tenant compte des relations inter-concepts et des distances entre ces derniers ?
4. Concevoir et mettre en œuvre une méthode de recherche (mise en correspondance entre les offres de poste et les profils professionnels)

Profil du candidat :
Profil d’un eleve qui voudrait continuer en these

Formation et compétences requises :
Master en Informatique orienté recherche

Adresse d’emploi :
Société ALTEN
12 Rue du Patis Tatelin, 35000 Rennes

Document attaché : Proposition-de-stage-Master-Recherche-Rennes-1.pdf

Categories: Stages

Deep learning based semantic search applied to recruitment platforms

May 1 – May 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Societé ALTEN et labo IRISA Rennes
Durée : 6 mois
Contact : zoltan.miklos@irisa.fr
Date limite de publication : 2018-05-01

Sujet :
L’enjeu principal est d’évaluer l’utilisation des techniques de « deep learning » dans la caractérisation et la mise en correspondance des profils professionnels et des offres de poste.
Ce projet est une démarche concurrente à plusieurs projets ALTEN avec la même finalité mais basés sur des méthodes classiques. L’objectif sera aussi d’avoir une approche « comparée ».

Questions scientifiques et techniques

L’objectif des études à mener est de répondre aux incertitudes suivantes :
1. Concevoir un/des modèles permettant l’extraction de connaissances à partir des profils professionnels et des offres.
2. Définir les critères de choix du corpus de profils destiné à l’apprentissage automatique.
3. Concevoir et mettre en œuvre une méthode d’évaluation de la pertinence du/des modèles
4. Concevoir un/des modèles d’apprentissage interactif en utilisant les techniques du deep learning et du reinforcement learning (intégration de l’évaluation humaine suite à une recherche)

Profil du candidat :
profil d’un(e) candidat(e) qui s’oriente vers une these apres le master

Formation et compétences requises :
master en informatique orienté recherche

Adresse d’emploi :
Societé ALTEN
12 Rue du Patis Tatelin, 35000 Rennes

Document attaché : Proposition-de-stage-Master-Recherche-Rennes-2.pdf

Categories: Stages

May

Sat

Capturing twitter streams for opinion mining on airport noise

May 5 – May 6 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ETIS / University of Cergy Pontoise
Durée : 6 mois
Contact : Dimitrios.Kotzinos@u-cergy.fr
Date limite de publication : 2018-05-05

Contexte :
This work is part of the EU-funded research project ANIMA.

Sujet :
Understanding the opinion of the users on specific matters (like events, public issues/debates, other people) is a hard task to be done automatically and for any event. But with the expansion of social media use, we have a source of information where people express (sometimes passionately) their opinions and participate in discussions, which we can track as they happen. Recently, social media are used to substitute traditional surveying methods like on the spot interviews or phone or web surveys. In this project, we plan to do the same but to limit our research on users who live in the area of the airport and discuss about noise problems emanating from the landing and takeoff of aircraft.
The collected information can be used in several ways:
(1) At the social media level, we can monitor discussions and exchanges over airport generated noise issues and try to understand if there are particular events that concern the users. We can analyze both the volume of a conversation in terms of numbers of posts and users but also the connections among these users (their social graph) and understand the possible influences and influencers.
(2) Tracking events through discussions on social media would allow us to also understand whether something out of the ordinary has happened and how the involved parties are reacting to this (e.g. through increased number of posts, etc.). This would require real time monitoring of the users’ interactions on social media.
The main goal of the work in this project will be the setup of a customizable platform that will be able to capture the stream of relevant tweets generated by the users, store it offline, identify the users involved in the discussions and build the social networks of discussions around them. Also we would like to characterize the discussions based on location and relevance to the subject of our research (airport noise).
We will do this by applying text mining and information retrieval techniques, combined with opinion mining techniques from social media texts and network analytics in order to analyze and build the correct social graph of the involved users.

Profil du candidat :
We are looking for a 2nd year Master Student (M2) that wants to do a 6-month internship with us. This can be combined with his/her master thesis.

Formation et compétences requises :
The position will be opened until filled. Starting date ideally is 01/04/2018. Apply by sending an e-mail with your CV, recommendation letters and grades for at least the 1st and 2nd year of the Master (M1 and M2) to:
Dimitrios.Kotzinos@u-cergy.fr

Adresse d’emploi :
MIDI team
Lab. ETIS UMR 8051
University of Paris-Seine, University of Cergy-Pontoise, ENSEA, CNRS
& Dept. Sciences Informatiques, Université de Cergy-Pontoise
2 av. Adolphe Chauvin
Site Saint Martin, bureau A561
95000 Pontoise
France

Document attaché : Description_stage_twitter_noise_final.pdf

Categories: Stages

Jun

Fri

Analysis and prediction of wavelet and filter-bank frames performance for machine learning

Jun 15 – Jun 16 all-day

Annonce en lien avec l’Action/le Réseau : Formation

Laboratoire/Entreprise : IFP Energies nouvelles.
Durée : 5 months
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2018-06-15

Contexte :
Details:
http://www.laurent-duval.eu/lcd-2018-intern-transform-classification.html

IFP Energies nouvelles (IFPEN) is a major research and training player in the fields of energy, transport, and environment. From research to industry, technological innovation is central to all its activities, structured around three strategic priorities: sustainable mobility, new energies, and responsible oil and gas. As part of the public-interest mission with which it has been tasked by the public authorities, IFPEN focuses on: (a) providing solutions to take up the challenges facing society in terms of energy and the climate, promoting the transition towards sustainable mobility and the emergence of a more diversified energy mix; (b) creating wealth and jobs by supporting French and European economic activity, and the competitiveness of related industrial sectors

Sujet :
We wish to study large datasets of experimental data (e.g. physico-chemical spectral signals, microscopy or geophysical subsurface images) toward clustering, classification and learning. When data satisfy regularity properties, they often admit sparse or compressible representations in a judicious transformed domain: a few transformed coefficients provide accurate data approximation. Such representations, like multiscale or wavelet transforms, are beneficial to subsequent processing, and they form the core of novel data processing methodologies, such as Scattering networks/transforms (SN) or Functional Data Analysis (FDA). Due to the variety of such transforms, without prior knowledge, it is not evident to find the most suitable representation for a given set of data. The aim of this subject is to investigate potential relations between transform properties and data compressibility on the one hand, and classification/clustering performance on the other hand, especially with respect to the robustness to shifts/translations or noise in data features, with matters in experimental applications. Rooting on a recent work, the first objective is to develop a framework to allow the use of different sparsifying transformations (bases or frames of wavelets and multiscale transformations) at the input of reference SN algorithms. This will permit to evaluate the latter on a variety of experimental datasets, with the aim of choosing the most appropriate, both in terms of performance and usability, since the redundancy in transformations may hinder their application to large datasets. A particular interest could be laid on complex-like transformations, that may improve either the sparsification or ”invariance properties” in the transformed data. Their importance has been underlined recently for deep convolutional networks. Then, starting from real data, the trainee will develop realistic models reproducing the expected behaviors in the data, for instance related to shifts or noise. Finally, the relative clustering/classification performances will be assessed with respect to different trans- formation choices, and their impact on both realistic models and real data. A particular interest could be laid on either transform properties (redundancy, frame bounds, asymptotic properties) or the resulting data multiscale statistics.

Sparse-domain data (signal/image) processing for classification and learning: basis/frame influence and selection
in designing and training scattering networks with experimental data (geosciences, chemistry)

Profil du candidat :
Second/third year engineering school and/or master of science with strong skills and curiosity in signal/image
processing, statistics, machine learning, applied mathematics.

Formation et compétences requises :
Applicants should provide a resume and a
motivation letter emphasizing prior knowledge related to the subject (esp. learning and sparsifying transforms).

Adresse d’emploi :
Rueil-Malmaison (Paris suburbs), France

Document attaché : IFPEN_2018_SUBJ_Internship-Multiscale-complex.pdf

Categories: Stages

Jun

Sat

Apprentissage du comportement, cas du jeu vidéo

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube
Durée : 6 mois
Contact : nicolas.lachiche@unistra.fr
Date limite de publication : 2018-06-30

Contexte :
Dans le cadre d’un projet entre les équipes SDC et CSTB du laboratoire ICube, à Strasbourg, nous travaillons sur l’apprentissage de comportements et souhaitons dans un premier temps étudier le cas du jeu vidéo.

Sujet :
L’étudiant étudiera la combinaison de travaux récents dans nos deux équipes.

Profil du candidat :
Informaticien ou data scientist

Formation et compétences requises :
Des compétences et expériences en intelligence artificielle et plus particulièrement en machine learning, seront appréciées.

Adresse d’emploi :
ICube
300 bd Brant
67412 Illkirch

Document attaché :

Categories: Stages

Jul

Sun

Caractérisation de motifs du plissement cortical par apprentissage automatique sur graphes.