MaDICS

2017

MaDICS : Réunion Bureau / comdir – annulée @ Visio-conf Rendez-vous

Sep 29 @ 16:00 – 17:30

Oct

2017

MaDICS : Réunion bureau & comdir @ Visio-conf Rendez-vous

Oct 27 @ 16:00 – 17:30

Categories: Réunions ComDir Réunions Direction

Jan

MaDICS : Réunion bureau @ Visio-conf Rendez-vous

Jan 12 @ 16:00 – 17:30

Categories: Réunions Direction

Feb

Thu

Caractérisation des dynamiques spatiales dans le cadre de sources géolocalisée et non géolocalisée

Feb 1 – Feb 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LITIS (Rouen, Normandie)
Durée : 6 mois
Contact : geraldine.del_mondo@insa-rouen.fr
Date limite de publication : 20180201

Contexte :
Ce sujet de master s’inscrit dans les travaux réalisés dans la suite de l’ANR Modelespace qui s’est terminée en 2012. L’objectif était de développer une procédure d’étude permettant d’analyser les dynamiques spatiales des peuplements à partir de sources de données de différents types (e.g. plans cadastraux, photographies aériennes, documents dépourvus de plan comme des registres paroissiaux). Cette procédure doit rendre possible l’analyse des dynamiques spatiales non seulement sur les 200 à 300 dernières années, mais de remonter aux derniers siècles du Moyen Age lorsque la documentation le permet.

Dans ce but, l’idée générale est que la transformation des différents types de données dans un modèle commun (i.e. un graphe) peut permettre à la fois d’extraire plus facilement de l’information et de pouvoir les comparer. L’intérêt est notamment de détecter des patterns spécifiques (e.g. des forêts, qui ne sont pas inscrites dans les registres car non imposées ; connexions entre parcelles particulières) et des patterns de changement. Pour ces derniers on s’intéresse particulièrement à des changements de haut niveau (e.g. périodes de division/fusion de parcelles ; identification de zone dynamique vs. stable en terme de changement).

Les données, qu’elles soient issus de registres ou de plans géolocalisés ont été transformées dans des graphes de connectivité et les recherches se sont concentrées sur 1/ la transformation automatique des données dans ce format, 2/ la comparaison des graphes entre eux. Le principal problème auquel se sont heurtés ces travaux est l’absence de géolocalisation d’une partie des données.

Sujet :
En s’appuyant sur les travaux décrits dans le contexte, les objectifs de ce stage sont :

1. De repartir des données utilisées (6 bases de données de « cadastres » dont 4 non géolocalisés (1476, 1497, 1551, 1598) et 2 géolocalisés (1759, 1811)) sont disponibles.et de construire les graphes d’adjacences. Un travail
de remise en forme des données est nécessaire pour y parvenir.

2. Caractériser des patterns simples (zones non fiscalisées comme des forêts) et proposer des algorithmes afin de les retrouver dans ce graphe. Dans ce but, il sera souhaitable de proposer une analyse à plusieurs niveaux de détails (c’est à dire définir des zones et subdivisions de l’espace de manière cohérente) afin d’être capable de réduire les zones de recherche des patterns.

3. De proposer une architecture unifiée pour intégrer les points 1. et 2 et idéalement une interface minimale.

Profil du candidat :
Master (2ème année) ou dernière année d”école d’ingénieurs en informatique

Formation et compétences requises :

Adresse d’emploi :
Laboratoire LITIS, Rouen, Normandie

Document attaché :

Categories: Stages

Feb

Wed

Conception d’un coach sportif virtuel

Feb 28 – Mar 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : BEUTCH – CONSCIENCE,
Durée : 6 mois
Contact : francois.rioult@unicaen.fr
Date limite de publication : 2018-02-28

Contexte :
Basée entre Caen et Paris, BEUTCH est une société spécialisée dans le coaching digital. Avec une première application d’audio fitness nommés HUVII disponible début Décembre sur iOS et ensuite sur Android, BEUTCH se veut avant-gardiste sur le marché francophone du digital coaching. Afin d’aller encore plus loin, BEUTCH veut créer le premier coach digital intelligent en français.

Sujet :
Vous travaillerez au sein de notre équipe à Caen et avec CONSCIENCE, start up spécialisée dans le domaine de l’intelligence artificielle, afin de créer le tout premier coach digital intelligent, dans un premier temps dans le monde du running.

Vos principales missions :
• Vous nous assisterez sur la création des paramètres à intégrer
• Prototypage et développement de la version bêta, d’exploration et de navigation UX/UI
(détection, reconnaissance, analyse de la réaction de l’IA, …)
• Mise en place des tests et essais sur données réelles (cohérence, précision, temps de réaction..)
• Veille technologique et transmission de connaissances au reste de l’équipe
• Documentation des recherches, développements et algorithmes

Profil du candidat :
M2 ou ingénieur IA / Data Science

Formation et compétences requises :
M2 ou ingénieur IA / Data Science
autonomie, proactivité, rigueur, innovation.

Adresse d’emploi :
Caen, France

Document attaché : IA-011.pdf

Categories: Stages

Mar

MaDICS : Réunion bureau @ Visio-conf Rendez-vous

Mar 2 @ 16:00 – 17:30

Categories: Réunions Direction

Mar

Estimation de variables de trafic à grande échelle au travers de l’analyse et la fusion de données massives et multi-sources pour l’évaluation environnementale.

Mar 30 – Mar 31 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LICIT IFSTTAR-ENTPE Lyon
Durée : 5 mois
Contact : angelo.furno@ifsttar.fr
Date limite de publication : 30-03-2018

Contexte :
Sujet de master au LICIT avec possibilité d’une thèse CIFRE à suivre.

Titre: Estimation de variables de trafic à grande échelle au travers de la fusion de données massives et multi-sources pour l’évaluation environnementale.

Contexte et objectifs : Les villes doivent faire face à des défis environnementaux colossaux, notamment en matière de qualité de l’air et de changement climatique. Les émissions de particules fines (et parfois NO2) dans les villes dépassent très souvent des concentrations qui sont nocives pour la santé. Cette problématique environnementale incite ainsi les décideurs à gérer en même temps le besoin croissant en mobilité urbaine et la nécessité de réduire les émissions associées. C’est pourquoi la mise en œuvre de mesures d’analyse et gestion du trafic visant un transport durable est une nécessité.

Les activités de master représenteront une opportunité pour accéder à une thèse CIFRE qui débutera à la suite du stage et qui pourra impliquera l’étudiant(e), dans le cas d’un travail de master bien réussi. Encadrement du master : Le master se déroulera au LICIT et sera dirigée par Ludovic LECLERCQ et Angelo FURNO. Le co-encadrement par le CITEPA sera assuré par Thamara Vieira da Rocha.

Durée du master : 5 mois à partir d’Avril 2018

Contacts : angelo.furno@ifsttar.fr,ludovic.leclercq@ifsttar.fr, thamara.vieira.da.rocha@citepa.org

Sujet :
L’objectif de ce master est de reconstruire la dynamique du trafic dans les grandes villes par les données massives et multi-sources, afin d’évaluer avec précision les phénomènes de congestion. Pour cela, on s’appuiera sur une modélisation dynamique du trafic routier à une échelle agrégée, au travers des diagrammes fondamentaux de zone (MFD : Macroscopic Fundamental Diagrams) afin de déterminer les variables macroscopiques de trafic nécessaires au calcul d’émissions.

Introduit il y a une trentaine d’années, le concept de MFD vise à reproduire de manière agrégée les conditions de trafic d’une zone urbaine. Il constitue un outil performant pour accéder à une représentation dynamique du trafic : moins contraignante qu’une simulation microscopique (temps de calcul, données nécessaires à la calibration, etc.), tout en intégrant les phénomènes de congestion qui contribuent fortement aux émissions. C’est donc une source d’information de trafic pertinente pour l’évaluation des émissions de polluants et de gaz à effet de serre associés.

L’estimation des diagrammes fondamentales peut se faire au travers de technique de l’intelligence artificielle et du big data (fusion de données, techniques de machine learning supervisées et non-supervisées, technologies du big data), finalisées à reconstruire les trajectoires de mobilités des navetteurs à partir de différentes sources de données de mobilité et à caractériser donc la vitesse moyenne et les distances parcourues, variables agrégées nécessaires au calcul d’émission. L’étudiant(e) de master sera impliqué dans les activités nécessaires à l’estimation des variables agrégées (la vitesse moyenne et les distances parcourues) du diagramme MFD en utilisant plusieurs jeux de données massives de mobilité. En particulier, ces données, recueillies dans des villes de Colombie et transmises par le CITEPA, inclueront :
– des données de téléphonie mobile (Call Detail Records et données de signalisation sur le réseau mobile),
– des données de véhicules traceurs,
– des données de boucles électromagnétiques.

Des données similaires seront disponible sur plusieurs villes en France (Lyon et Paris), dans le cadre d’une collaboration entre le LICIT et Orange SA. Des solutions de clustering seront aussi nécessaires pour identifier des zones homogènes en termes de condition de trafic, une condition fondamentale pour l’estimation correcte des MFD.

Ce travail de master représente une activité préliminaire et crucial dans le cadre d’un projet de recherche collaboratif avec le CITEPA (https://www.citepa.org).

Profil du candidat :
* Formation recommandée
Ecole d’ingénieur/Master1 en Informatique/Mathématique/Statistique

Formation et compétences requises :
* Connaissances et savoir-faire souhaités
Experience en programmation (Pyhton/R), fouille de données, méthodes statistiques et apprentissage automatique
Environnement Linux, Solutions du Big Data (Spark, Scala) optionnel
Connaissance de la théorie du trafic optionnel

* Qualités requises
Esprit d’analyse et de synthèse, inventivité, rigueur, efficacité, autonomie.
Coopération et esprit d’équipe
Prise de fonction
02/04/2018

Adresse d’emploi :
Ifsttar de Lyon / Bron. Ifsttar – Lyon-Bron 25, avenue François Mitterrand, Case24 Cité des mobilités. F-69675 Bron Cedex

École nationale des travaux publics de l’État,
3 Rue Maurice Audin, 69518 Vaulx-en-Velin

Document attaché :

Categories: Stages

Mar

Sat

Analyse de données temporelles massives en Science de l’Environnement

Mar 31 – Apr 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube – Université de Strasbourg
Durée : 4 à 6 mois (Printemps 2019)
Contact : gancarski@unistra.fr
Date limite de publication : 2018-03-31

Contexte :
Dans le cadre d’un projet ANR, des bases de données massives liées à la gestion des ressources en eau ont été créées. Il s’agit dans ce projet, de fouiller ces données pour extraire des informations sur l’évolution de la qualité de l’eau. Ce projet implique des informaticiens mais aussi des spécialiste d’hydrologie.

Sujet :
L’objectif de ce stage est de proposer et mettre en place des outils permettant d’interroger les bases de données existantes afin d’extraire des données, qui une fois mises en forme, pourront « alimenter » le logiciel d’analyse de données (FoDoMuST). Il s’agira donc, de créer des modèles (template) de chaînes d’analyse de telles données en python. Par exemple : un template permettra de charger et mettre en forme les données, puis de les transférer à JCL (librairie de méthodes de classification) et enfin de mettre en forme pour un affichage. L’interface de FoDoMuST devra aussi être adaptée.

Profil du candidat :
Master 2 Informatique en cours (ou Ecole d’ingénieur à forte connotation Informatique)

Formation et compétences requises :
Connaissances (fortes) en fouille de données

Adresse d’emploi :
ICUBE CNRS UMR 7537
Pôle API
300 bld Sébastien Brant
Strasbourg – Illkirch

Document attaché : SujetM2_ADQeau-2019.pdf

Categories: Stages

Modélisation de données spatio-temporelles par un graphe

Mar 31 – Apr 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube
Durée : 4 à 6 mois
Contact : aurelie.leborgne@unistra.fr
Date limite de publication : 2018-03-31

Contexte :
Dans un contexte où de grandes quantités de données spatio-temporelles peuvent être accumulées, le besoin de valoriser ces données est grandissant. Ainsi, la nécessité de nouvelles approches innovantes d’analyse de ces données multi-sources se fait cruellement sentir. Les graphes étant des outils puissants à la fois théoriquement et méthodologiquement, nous nous proposons d’une part, de les utiliser pour formaliser et structurer ces informations et d’autre part, de construire des méthodes originales de fouille par exploration des graphes ainsi obtenus.
Les méthodes proposées seront le plus génériques possibles. Néanmoins, nous nous investirons plus spécifiquement sur la fouille de graphes appliquée à la télédétection et aux IRM fonctionnels.

Sujet :
Les objectifs scientifiques sont de plusieurs ordres. Le premier consiste à modéliser des données spatio-temporelles pertinentes, issues de contextes réels (télédétection et IRM fonctionnels), grâce à un graphe spatio-temporel [1].
Le deuxième objectif scientifique important est relatif à la pratique relativement récente du couplage des informations temporelles et spatiales. En effet, cela implique de nouvelles dépendances entre les objets, ce qui rend les approches de fouille purement spatiales ou temporelles inutilisables sous peine de perdre en précision et interprétabilité des résultats [2]. Cela implique également de gérer l’explosion combinatoire des relations à explorer lors de la fouille du graphe et de déterminer une valeur de similarité entre sous-graphes. Le but de cette fouille serait d’extraire des motifs caractérisant des évolutions spatio-temporelles. Par exemple, nous pourrions nous intéresser à la vitalité des forêts de châtaigniers

au cours du temps ou à la recherche de dysfonctionnements du cerveau liés à certaines maladies comme la schizophrénie.

[1] DEL MONDO, Géraldine, RODRÍGUEZ, M. Andrea, CLARAMUNT, Christophe, et al. Modeling consistency of spatio-temporal graphs. Data & Knowledge Engineering, 2013, vol. 84, p. 59-80.
[2] ATLURI, Gowtham, KARPATNE, Anuj, et KUMAR, Vipin. Spatio-temporal data mining: A survey of problems and methods. ACM Computing Surveys (CSUR), 2018, vol. 51, no 4, p. 83.

Profil du candidat :
Master 2 Informatique en cours (ou Ecole d’ingénieur à forte connotation Informatique)

Formation et compétences requises :
Bonnes compétences en programmation et théorie des graphes

Adresse d’emploi :
ICUBE CNRS UMR 7537
Pôle API
300 bld Sébastien Brant
Strasbourg – Illkirch

Document attaché : 2019-stageFinEtude.pdf

Categories: Stages

Apr

Tue

NLP/Machine learning pour le domaine RH

Apr 10 – Apr 11 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Myriad
Durée : a partir de 2 mois
Contact : mohammad@myriad-data.com
Date limite de publication : 2018-04-10

Contexte :
Aujourd’hui, 95% des RH regarde le processus de transformation
digitale comme une opportunité de développement de leur métier (Unow,
2017). En 2017 on constate que 49% des entreprises prévoient, dans un
futur proche, d’utiliser l’intelligence artificielle pour recruter
(Deloitte, 2017). Pour finir, 71% des RH sont intéressés par la
puissance d’analyse des outils digitaux RH.

D’une part on constate un marché compétitif avec une quête de
performance couplée à une période de croissance et d’autre part, on
réalise que 70% des candidatures aux annonces ne correspondent pas au
poste à pourvoir et 80% des postulant sont des candidats passifs
(Undercover Recruiter, 2017). Dans ce contexte, le recrutement, étant
une des taches chronographe du Responsable RH, s’est transformé en un
des premiers soucis des entreprises.

L’idée est d’optimiser le processus de recrutement à l’aide d’une
solution d’intelligence artificielle. Cette solution fait une
présélection qui fera un gain de temps considérable au recruteur et
lui permettra de se concentrer entièrement sur ses compétences. Outre
la mise en correspondance des annonces et des candidats, il peut être
utilisé aussi, tel un outil d’aide à la validation d’annonce. Si pour
une offre donnée, l’outil ne propose pas un nombre suffisant de
candidat pertinent, le RH ou d’autres instances décisionnaires,
pourraient reformuler ou revoir celle-ci offre afin d’agrandir
l’audience ciblée.

Sujet :
Le but de ce stage est d’utiliser les techniques de ” NLP ” dans la caractérisation et la mise en correspondance des candidats et des offres d’emplois.

Questions scientifiques et techniques

L’objectif de ce stage est de répondre aux question suivantes :

1. Trouver dans les données, les caractéristique (features) qui
permettent d’identifier les concepts présents dans un profil ou une
annonce. Identifier et les relations inter-concepts.

2-Combiner des modèles supervisés et non-supervisés en-ligne pour
trouver les meilleurs candidats à une annonce. Mettre en œuvre des
modèles de classification de candidat utilisant les modèles de Deep
Learning et comparer avec les solutions alternatives.

3-Construire un référentiel métier-compétences très innovant et évolutif

4-Comment évaluer ces modèles et quantifier l’incertitude de leurs résultats.

Profil du candidat :
Stage école d’ingénieur/M1 ou M2

Formation et compétences requises :
Informatique/Mathématique/Statistique

Adresse d’emploi :
16 rue Pierre Cherest,
92200 Neuilly-sur-Seine

Document attaché :

Categories: Stages

NLP/Machine learning pour le domaine RH

Apr 10 – Apr 11 all-day

Annonce en lien avec l’Action/le Réseau : Formation

Laboratoire/Entreprise : Myriad
Durée : a partir de 2 mois
Contact : mohammad.@myriad-data.com
Date limite de publication : 2018-04-10

Contexte :
Une des mission de la Responsable RH est sélectionner les candidats pertinents pour les postes à pourvoir, proposer des parcoursattractifs aux salariés et favoriser un environnement de travail épanouissant pour les collaborateurs. Cependant, certaines tâches chronophages, telles que la présélection (premier tri) de curriculum vitae, le détournent de son cœur de métier.

Cette problématique de présélection de candidats et d’évaluation de la pertinence de candidature par rapport à un besoin peut être assimilée à la conception d’un moteur de recherche ayant comme requêtes des offres de travaux et proposant les profils professionnels associés. Outre la mise en correspondance des offres de travaux et des profils professionnels, fonctionnalité principale du dispositif, il peut être utilisé aussi, comme un outil d’aide à la validation des offres de travaux. Ceci lui permet d’assister le Responsable RH à parfaire son
offre en améliorant son efficacité par la restitution, pour validation, des concepts (et leurs importances ou forces) contenus dans l’offre. La performance de l’offre pourra aussi se mesurer sur un jeu de test choisi. Le projet vise à répondre aux besoins internes de l’entreprise tels que la mobilité et la gestion de carrière et externes tel que le recrutement de candidat.

Sujet :

Le but de ce stage est d’utiliser les techniques de ” NLP ” dans la caractérisation et la mise en correspondance des candidats et des offres d’emplois.

Questions scientifiques et techniques

L’objectif de ce stage est de répondre aux question suivantes :

1. Trouver dans les données, les caractéristique (features) qui
permettent d’identifier les concepts présents dans un profil ou une
annonce. Identifier et les relations inter-concepts.

3-Construire un référentiel métier-compétences très innovant et évolutif

4-Comment évaluer ces modèles et quantifier l’incertitude de leurs résultats.

Profil du candidat :

Formation et compétences requises :
École d’ingénieur/M1 ou M2 en Informatique/Mathématique/Statistique

Adresse d’emploi :
16 rue Pierre Cherest,
92200 Neuilly-sur-Seine
Fixe : +33(0) 1 85 73 59 52

Document attaché :

Categories: Stages

Apr

Tue

Stage de recherche (fouille de données/échantillonnage)

Apr 17 – Apr 18 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : GREYC CNRS UMR 6072
Durée : 5 mois
Contact : albrecht.zimmermann@unicaen.fr
Date limite de publication : 2018-04-17

Contexte :

Dans le contexte du projet DECADE (Découverte et exploitation
des connaissances pour l’aide à la décision en chimie thérapeutique),
l’équipe CoDaG du laboratoire GREYC CNRS UM 6072 de l’université Caen
Normandie et l’équipe BdTln de l’université de Tours offre un stage
de recherche pour des masters 2ème année ou équivalent.

Le criblage à haut débit (high-throughput screening en anglais, HTS)
est devenu un processus incontournable pour trouver des molécules
prometteuses (i.e. des molécules ayant une activité envers certaines
cibles) pouvant ensuite donner lieu à des médicaments. Malheureusement,
le criblage fait aussi ressortir des molécules promiscues les “PAINS”
(Pan Assay Interference Compounds) qui ne conduiront pas à des
médicaments car pouvant présenter une certaine toxicité.
L’identification d’un PAINS in silico est difficile et, de plus,
des articles scientifiques décrivent comme prometteuses des molécules
qui sont en réalité des PAINS. Du point de vue des avancées en
chimie thérapeutique, le projet DECADE vise à l’identification
de nouveaux PAINS et à leur caractérisation.

Un défi de ce problème est que les PAINS ne sont pas précisément
définis. Nous disposons déjà d’un modèle créé à partir des “frequent
hitters”, des molécules qui montrent de l’activité envers plusieurs
cibles, mais il n’est pas clair qu’elles soient équivalentes aux PAINS.
Le but de ce stage est ainsi d’utiliser les connaissances d’experts
afin de valider ou corriger l’étiquetage des candidats PAINS.

Sujet :
Le travail va partir d’une approche pour étiqueter des données de type
itemsets à partir des retours des utilisateurs experts à des motifs qui
leur sont présentés au fur et à mesure. Le ou la stagiaire va adapter la
technique existante afin d’utiliser des motifs séquentiels/graphes, des
données graphes. En plus, elle ou il va préparer et mettre en oeuvre une
étude expérimentale afin d’évaluer l’approche développée.

Profil du candidat :
Le ou la candidat(e) devra avoir des connaissances en fouille de données
(fouille de séquences, fouille de graphes). Des bonnes compétences en
méthodes statistiques seraient appréciées. Des compétences en
programmation sont nécessaires.

Formation et compétences requises :
Master informatique

Adresse d’emploi :

Encadrant: Albrecht Zimmermann, Arnaud Soulet

Contact: albrecht.zimmermann@unicaen.fr

Document attaché :

Categories: Stages

Stage de recherche (fouille de données/programmation par contraintes)

Apr 17 – Apr 18 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : GREYC CNRS UMR 6072
Durée : 5 mois
Contact : albrecht.zimmermann@unicaen.fr
Date limite de publication : 2018-04-17

Contexte :
Dans le contexte du projet DECADE (Découverte et exploitation
des connaissances pour l’aide à la décision en chimie thérapeutique),
l’équipe CoDaG du laboratoire GREYC CNRS UMR 6072 de l’université
Caen Normandie et l’équipe CA du laboratoire LIFO de l’université
d’Orléans offre un stage de recherche pour des masters 2ème année
ou équivalent.

Le criblage à haut débit (high-throughput screening en anglais, HTS)
est devenu un processus incontournable pour trouver des molécules
prometteuses (i.e. des molécules ayant une activité envers certaines
cibles) pouvant ensuite donner lieu à des médicaments. Malheureusement,
le criblage fait aussi ressortir des molécules promiscues les “PAINS”
(Pan Assay Interference Compounds) qui ne conduiront pas à des
médicaments car pouvant présenter une certaine toxicité.
L’identification d’un PAINS in silico est difficile et, de plus,
des articles scientifiques décrivent comme prometteuses des molécules
qui sont en réalité des PAINS. Du point de vue des avancées en chimie
thérapeutique, le projet DECADE vise à l’identification de nouveaux
PAINS et à leur caractérisation.

Une approche est déjà en place pour apprendre un modèle réprésentant
des possibles PAINS. Cette approche utilise des sous-graphes
discriminants et un ensemble d’arbres de décision. La prochaine étape
consiste à exploiter les retours des experts afin de modifier à la fois
les sous-graphes fouillés et les arbres sans relancer le processes
d’apprentissage.

Sujet :
Le travail dans ce stage est fondé sur une méthode de programmation
par contraintes pour modifier minimalement un clustering en fonction
des retours d’utilisateurs. La tâche exige la définition des contraintes
sur des (ensembles de) graphes/arbres, le développement d’un mécanisme
pour obtenir des retours des experts et une méthode pour traduire
ces retours en contraintes.

Profil du candidat :
Le ou la candidat(e) devra avoir des connaissances en fouille de données
(fouille de graphes) et en programmation par contraintes. Des
compétences en programmation sont nécessaires.

Formation et compétences requises :

Adresse d’emploi :

Encadrants : Albrecht Zimmermann, Christel Vrain

Contact : albrecht.zimmermann@unicaen.fr

Document attaché :

Categories: Stages

May

Tue

Automatic ontology learning and semantic search in HR domain

May 1 – May 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Societé ALTEN et labo IRISA Rennes
Durée : 6 mois
Contact : zoltan.miklos@irisa.fr
Date limite de publication : 2018-05-01

Contexte :
Le Responsable RH a pour mission de sélectionner les candidats pertinents pour les postes à pourvoir, proposer des parcours attractifs aux salariés et favoriser un environnement de travail épanouissant pour les collaborateurs. Cependant, certaines tâches chronophages, telles que la présélection (premier tri) de curriculum vitae, le détournent de son cœur de métier. A titre d’exemple, Google recevrait chaque semaine 75 000 CV.
Cette problématique de présélection de candidats et d’évaluation de la pertinence de candidature par rapport à un besoin peut être assimilée à la conception d’un moteur de recherche ayant comme requêtes des offres de travaux et proposant les profils professionnels associés.
Outre la mise en correspondance des offres de travaux et des profils professionnels, fonctionnalité principale du dispositif, il peut être utilisé aussi, comme un outil d’aide à la validation des offres de travaux. Ceci lui permet d’assister le Responsable RH à parfaire son offre en améliorant son efficacité par la restitution, pour validation, des concepts (et leurs importances ou forces) contenus dans l’offre. La performance de l’offre pourra aussi se mesurer sur un jeu de test choisi.
Le projet vise à répondre aux besoins internes de l’entreprise tels que la mobilité et la gestion de carrière et externes tel que le recrutement de candidat.

Sujet :
Elaboration d’un modèle d’extraction et de représentation des connaissances des profils professionnels et des offres permettant d’effectuer des recherches sémantiques sur ces derniers. Ce projet s’inscrit dans la continuité des travaux de 3 projets réalisés par ALTEN (3 * 6 mois) et qui ont eu pour objectif d’exploiter le TALN (NLP), le web sémantique et l’apprentissage automatique pour extraire et hiérarchiser des concepts permettant la représentation des profils professionnels et des offres en vue de les mettre en correspondance.
Ce projet est une démarche concurrente à plusieurs projets ALTEN avec la même finalité mais basés sur des méthodes classiques. L’objectif sera aussi d’avoir une approche « comparée ».

Questions scientifiques et techniques

L’objectif des études à mener est de répondre aux incertitudes suivantes :
1. Comment identifier automatiquement les concepts présents dans un profil ou une offre ? Et comment extraire les relations inter-concepts?
2. Comment évaluer la performance du dispositif par rapport à ses enjeux ?
3. Concevoir et mettre en œuvre une méthode d’évaluation des distances entre concepts ? et concevoir un modèle de représentation tenant compte des relations inter-concepts et des distances entre ces derniers ?
4. Concevoir et mettre en œuvre une méthode de recherche (mise en correspondance entre les offres de poste et les profils professionnels)

Profil du candidat :
Profil d’un eleve qui voudrait continuer en these

Formation et compétences requises :
Master en Informatique orienté recherche

Adresse d’emploi :
Société ALTEN
12 Rue du Patis Tatelin, 35000 Rennes

Document attaché : Proposition-de-stage-Master-Recherche-Rennes-1.pdf

Categories: Stages

Deep learning based semantic search applied to recruitment platforms

May 1 – May 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Societé ALTEN et labo IRISA Rennes
Durée : 6 mois
Contact : zoltan.miklos@irisa.fr
Date limite de publication : 2018-05-01

Sujet :
L’enjeu principal est d’évaluer l’utilisation des techniques de « deep learning » dans la caractérisation et la mise en correspondance des profils professionnels et des offres de poste.
Ce projet est une démarche concurrente à plusieurs projets ALTEN avec la même finalité mais basés sur des méthodes classiques. L’objectif sera aussi d’avoir une approche « comparée ».

Questions scientifiques et techniques

L’objectif des études à mener est de répondre aux incertitudes suivantes :
1. Concevoir un/des modèles permettant l’extraction de connaissances à partir des profils professionnels et des offres.
2. Définir les critères de choix du corpus de profils destiné à l’apprentissage automatique.
3. Concevoir et mettre en œuvre une méthode d’évaluation de la pertinence du/des modèles
4. Concevoir un/des modèles d’apprentissage interactif en utilisant les techniques du deep learning et du reinforcement learning (intégration de l’évaluation humaine suite à une recherche)

Profil du candidat :
profil d’un(e) candidat(e) qui s’oriente vers une these apres le master

Formation et compétences requises :
master en informatique orienté recherche

Adresse d’emploi :
Societé ALTEN
12 Rue du Patis Tatelin, 35000 Rennes

Document attaché : Proposition-de-stage-Master-Recherche-Rennes-2.pdf

Categories: Stages

May

Sat

Capturing twitter streams for opinion mining on airport noise

May 5 – May 6 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ETIS / University of Cergy Pontoise
Durée : 6 mois
Contact : Dimitrios.Kotzinos@u-cergy.fr
Date limite de publication : 2018-05-05

Contexte :
This work is part of the EU-funded research project ANIMA.

Sujet :
Understanding the opinion of the users on specific matters (like events, public issues/debates, other people) is a hard task to be done automatically and for any event. But with the expansion of social media use, we have a source of information where people express (sometimes passionately) their opinions and participate in discussions, which we can track as they happen. Recently, social media are used to substitute traditional surveying methods like on the spot interviews or phone or web surveys. In this project, we plan to do the same but to limit our research on users who live in the area of the airport and discuss about noise problems emanating from the landing and takeoff of aircraft.
The collected information can be used in several ways:
(1) At the social media level, we can monitor discussions and exchanges over airport generated noise issues and try to understand if there are particular events that concern the users. We can analyze both the volume of a conversation in terms of numbers of posts and users but also the connections among these users (their social graph) and understand the possible influences and influencers.
(2) Tracking events through discussions on social media would allow us to also understand whether something out of the ordinary has happened and how the involved parties are reacting to this (e.g. through increased number of posts, etc.). This would require real time monitoring of the users’ interactions on social media.
The main goal of the work in this project will be the setup of a customizable platform that will be able to capture the stream of relevant tweets generated by the users, store it offline, identify the users involved in the discussions and build the social networks of discussions around them. Also we would like to characterize the discussions based on location and relevance to the subject of our research (airport noise).
We will do this by applying text mining and information retrieval techniques, combined with opinion mining techniques from social media texts and network analytics in order to analyze and build the correct social graph of the involved users.

Profil du candidat :
We are looking for a 2nd year Master Student (M2) that wants to do a 6-month internship with us. This can be combined with his/her master thesis.

Formation et compétences requises :
The position will be opened until filled. Starting date ideally is 01/04/2018. Apply by sending an e-mail with your CV, recommendation letters and grades for at least the 1st and 2nd year of the Master (M1 and M2) to:
Dimitrios.Kotzinos@u-cergy.fr

Adresse d’emploi :
MIDI team
Lab. ETIS UMR 8051
University of Paris-Seine, University of Cergy-Pontoise, ENSEA, CNRS
& Dept. Sciences Informatiques, Université de Cergy-Pontoise
2 av. Adolphe Chauvin
Site Saint Martin, bureau A561
95000 Pontoise
France

Document attaché : Description_stage_twitter_noise_final.pdf

Categories: Stages

Jun

MaDICS : Réunion bureau @ Visio-conf Rendez-vous

Jun 8 @ 16:00 – 17:30

Categories: Réunions Direction

Jun

Analysis and prediction of wavelet and filter-bank frames performance for machine learning

Jun 15 – Jun 16 all-day

Annonce en lien avec l’Action/le Réseau : Formation

Laboratoire/Entreprise : IFP Energies nouvelles.
Durée : 5 months
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2018-06-15

Contexte :
Details:
http://www.laurent-duval.eu/lcd-2018-intern-transform-classification.html

IFP Energies nouvelles (IFPEN) is a major research and training player in the fields of energy, transport, and environment. From research to industry, technological innovation is central to all its activities, structured around three strategic priorities: sustainable mobility, new energies, and responsible oil and gas. As part of the public-interest mission with which it has been tasked by the public authorities, IFPEN focuses on: (a) providing solutions to take up the challenges facing society in terms of energy and the climate, promoting the transition towards sustainable mobility and the emergence of a more diversified energy mix; (b) creating wealth and jobs by supporting French and European economic activity, and the competitiveness of related industrial sectors

Sujet :
We wish to study large datasets of experimental data (e.g. physico-chemical spectral signals, microscopy or geophysical subsurface images) toward clustering, classification and learning. When data satisfy regularity properties, they often admit sparse or compressible representations in a judicious transformed domain: a few transformed coefficients provide accurate data approximation. Such representations, like multiscale or wavelet transforms, are beneficial to subsequent processing, and they form the core of novel data processing methodologies, such as Scattering networks/transforms (SN) or Functional Data Analysis (FDA). Due to the variety of such transforms, without prior knowledge, it is not evident to find the most suitable representation for a given set of data. The aim of this subject is to investigate potential relations between transform properties and data compressibility on the one hand, and classification/clustering performance on the other hand, especially with respect to the robustness to shifts/translations or noise in data features, with matters in experimental applications. Rooting on a recent work, the first objective is to develop a framework to allow the use of different sparsifying transformations (bases or frames of wavelets and multiscale transformations) at the input of reference SN algorithms. This will permit to evaluate the latter on a variety of experimental datasets, with the aim of choosing the most appropriate, both in terms of performance and usability, since the redundancy in transformations may hinder their application to large datasets. A particular interest could be laid on complex-like transformations, that may improve either the sparsification or ”invariance properties” in the transformed data. Their importance has been underlined recently for deep convolutional networks. Then, starting from real data, the trainee will develop realistic models reproducing the expected behaviors in the data, for instance related to shifts or noise. Finally, the relative clustering/classification performances will be assessed with respect to different trans- formation choices, and their impact on both realistic models and real data. A particular interest could be laid on either transform properties (redundancy, frame bounds, asymptotic properties) or the resulting data multiscale statistics.

Sparse-domain data (signal/image) processing for classification and learning: basis/frame influence and selection
in designing and training scattering networks with experimental data (geosciences, chemistry)

Profil du candidat :
Second/third year engineering school and/or master of science with strong skills and curiosity in signal/image
processing, statistics, machine learning, applied mathematics.

Formation et compétences requises :
Applicants should provide a resume and a
motivation letter emphasizing prior knowledge related to the subject (esp. learning and sparsifying transforms).

Adresse d’emploi :
Rueil-Malmaison (Paris suburbs), France

Document attaché : IFPEN_2018_SUBJ_Internship-Multiscale-complex.pdf

Categories: Stages

Jun

Sat

Apprentissage du comportement, cas du jeu vidéo

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube
Durée : 6 mois
Contact : nicolas.lachiche@unistra.fr
Date limite de publication : 2018-06-30

Contexte :
Dans le cadre d’un projet entre les équipes SDC et CSTB du laboratoire ICube, à Strasbourg, nous travaillons sur l’apprentissage de comportements et souhaitons dans un premier temps étudier le cas du jeu vidéo.

Sujet :
L’étudiant étudiera la combinaison de travaux récents dans nos deux équipes.

Profil du candidat :
Informaticien ou data scientist

Formation et compétences requises :
Des compétences et expériences en intelligence artificielle et plus particulièrement en machine learning, seront appréciées.

Adresse d’emploi :
ICube
300 bd Brant
67412 Illkirch

Document attaché :

Categories: Stages

Jul

Sun

Caractérisation de motifs du plissement cortical par apprentissage automatique sur graphes.