Présentation Générale

 



           
Huitième édition du Symposium MaDICS

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Une Session Poster sera spécialement consacrée aux jeunes chercheuses et jeunes chercheurs souhaitant présenter leurs travaux en analyse et gestion de données et dans les domaines interdisciplinaires autour de la Science des Données. Cette session sera également l’occasion d’échanger avec des collègues académiques et des acteurs industriels sur les thématiques de recherche présentées.

Dates importantes :

  • Soumission de posters : au plus tard le 23 mars 2026
  • Retour : 9 avril 2026
  • Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Mar
30
Fri
2018
Estimation de variables de trafic à grande échelle au travers de l’analyse et la fusion de données massives et multi-sources pour l’évaluation environnementale.
Mar 30 – Mar 31 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LICIT IFSTTAR-ENTPE Lyon
Durée : 5 mois
Contact : angelo.furno@ifsttar.fr
Date limite de publication : 30-03-2018

Contexte :
Sujet de master au LICIT avec possibilité d’une thèse CIFRE à suivre.

Titre: Estimation de variables de trafic à grande échelle au travers de la fusion de données massives et multi-sources pour l’évaluation environnementale.

Contexte et objectifs : Les villes doivent faire face à des défis environnementaux colossaux, notamment en matière de qualité de l’air et de changement climatique. Les émissions de particules fines (et parfois NO2) dans les villes dépassent très souvent des concentrations qui sont nocives pour la santé. Cette problématique environnementale incite ainsi les décideurs à gérer en même temps le besoin croissant en mobilité urbaine et la nécessité de réduire les émissions associées. C’est pourquoi la mise en œuvre de mesures d’analyse et gestion du trafic visant un transport durable est une nécessité.

Les activités de master représenteront une opportunité pour accéder à une thèse CIFRE qui débutera à la suite du stage et qui pourra impliquera l’étudiant(e), dans le cas d’un travail de master bien réussi. Encadrement du master : Le master se déroulera au LICIT et sera dirigée par Ludovic LECLERCQ et Angelo FURNO. Le co-encadrement par le CITEPA sera assuré par Thamara Vieira da Rocha.

Durée du master : 5 mois à partir d’Avril 2018

Contacts : angelo.furno@ifsttar.fr,ludovic.leclercq@ifsttar.fr, thamara.vieira.da.rocha@citepa.org

Sujet :
L’objectif de ce master est de reconstruire la dynamique du trafic dans les grandes villes par les données massives et multi-sources, afin d’évaluer avec précision les phénomènes de congestion. Pour cela, on s’appuiera sur une modélisation dynamique du trafic routier à une échelle agrégée, au travers des diagrammes fondamentaux de zone (MFD : Macroscopic Fundamental Diagrams) afin de déterminer les variables macroscopiques de trafic nécessaires au calcul d’émissions.

Introduit il y a une trentaine d’années, le concept de MFD vise à reproduire de manière agrégée les conditions de trafic d’une zone urbaine. Il constitue un outil performant pour accéder à une représentation dynamique du trafic : moins contraignante qu’une simulation microscopique (temps de calcul, données nécessaires à la calibration, etc.), tout en intégrant les phénomènes de congestion qui contribuent fortement aux émissions. C’est donc une source d’information de trafic pertinente pour l’évaluation des émissions de polluants et de gaz à effet de serre associés.

L’estimation des diagrammes fondamentales peut se faire au travers de technique de l’intelligence artificielle et du big data (fusion de données, techniques de machine learning supervisées et non-supervisées, technologies du big data), finalisées à reconstruire les trajectoires de mobilités des navetteurs à partir de différentes sources de données de mobilité et à caractériser donc la vitesse moyenne et les distances parcourues, variables agrégées nécessaires au calcul d’émission. L’étudiant(e) de master sera impliqué dans les activités nécessaires à l’estimation des variables agrégées (la vitesse moyenne et les distances parcourues) du diagramme MFD en utilisant plusieurs jeux de données massives de mobilité. En particulier, ces données, recueillies dans des villes de Colombie et transmises par le CITEPA, inclueront :
– des données de téléphonie mobile (Call Detail Records et données de signalisation sur le réseau mobile),
– des données de véhicules traceurs,
– des données de boucles électromagnétiques.

Des données similaires seront disponible sur plusieurs villes en France (Lyon et Paris), dans le cadre d’une collaboration entre le LICIT et Orange SA. Des solutions de clustering seront aussi nécessaires pour identifier des zones homogènes en termes de condition de trafic, une condition fondamentale pour l’estimation correcte des MFD.

Ce travail de master représente une activité préliminaire et crucial dans le cadre d’un projet de recherche collaboratif avec le CITEPA (https://www.citepa.org).

Les activités de master représenteront une opportunité pour accéder à une thèse CIFRE qui débutera à la suite du stage et qui pourra impliquera l’étudiant(e), dans le cas d’un travail de master bien réussi.

Profil du candidat :
* Formation recommandée
Ecole d’ingénieur/Master1 en Informatique/Mathématique/Statistique

Formation et compétences requises :
* Connaissances et savoir-faire souhaités
Experience en programmation (Pyhton/R), fouille de données, méthodes statistiques et apprentissage automatique
Environnement Linux, Solutions du Big Data (Spark, Scala) optionnel
Connaissance de la théorie du trafic optionnel

* Qualités requises
Esprit d’analyse et de synthèse, inventivité, rigueur, efficacité, autonomie.
Coopération et esprit d’équipe
Prise de fonction
02/04/2018

Adresse d’emploi :
Ifsttar de Lyon / Bron. Ifsttar – Lyon-Bron 25, avenue François Mitterrand, Case24 Cité des mobilités. F-69675 Bron Cedex

et

École nationale des travaux publics de l’État,
3 Rue Maurice Audin, 69518 Vaulx-en-Velin

Document attaché :

Mar
31
Sat
2018
Analyse de données temporelles massives en Science de l’Environnement
Mar 31 – Apr 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube – Université de Strasbourg
Durée : 4 à 6 mois (Printemps 2019)
Contact : gancarski@unistra.fr
Date limite de publication : 2018-03-31

Contexte :
Dans le cadre d’un projet ANR, des bases de données massives liées à la gestion des ressources en eau ont été créées. Il s’agit dans ce projet, de fouiller ces données pour extraire des informations sur l’évolution de la qualité de l’eau. Ce projet implique des informaticiens mais aussi des spécialiste d’hydrologie.

Sujet :
L’objectif de ce stage est de proposer et mettre en place des outils permettant d’interroger les bases de données existantes afin d’extraire des données, qui une fois mises en forme, pourront « alimenter » le logiciel d’analyse de données (FoDoMuST). Il s’agira donc, de créer des modèles (template) de chaînes d’analyse de telles données en python. Par exemple : un template permettra de charger et mettre en forme les données, puis de les transférer à JCL (librairie de méthodes de classification) et enfin de mettre en forme pour un affichage. L’interface de FoDoMuST devra aussi être adaptée.

Profil du candidat :
Master 2 Informatique en cours (ou Ecole d’ingénieur à forte connotation Informatique)

Formation et compétences requises :
Connaissances (fortes) en fouille de données

Adresse d’emploi :
ICUBE CNRS UMR 7537
Pôle API
300 bld Sébastien Brant
Strasbourg – Illkirch

Document attaché : SujetM2_ADQeau-2019.pdf

Modélisation de données spatio-temporelles par un graphe
Mar 31 – Apr 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube
Durée : 4 à 6 mois
Contact : aurelie.leborgne@unistra.fr
Date limite de publication : 2018-03-31

Contexte :
Dans un contexte où de grandes quantités de données spatio-temporelles peuvent être accumulées, le besoin de valoriser ces données est grandissant. Ainsi, la nécessité de nouvelles approches innovantes d’analyse de ces données multi-sources se fait cruellement sentir. Les graphes étant des outils puissants à la fois théoriquement et méthodologiquement, nous nous proposons d’une part, de les utiliser pour formaliser et structurer ces informations et d’autre part, de construire des méthodes originales de fouille par exploration des graphes ainsi obtenus.
Les méthodes proposées seront le plus génériques possibles. Néanmoins, nous nous investirons plus spécifiquement sur la fouille de graphes appliquée à la télédétection et aux IRM fonctionnels.

Sujet :
Les objectifs scientifiques sont de plusieurs ordres. Le premier consiste à modéliser des données spatio-temporelles pertinentes, issues de contextes réels (télédétection et IRM fonctionnels), grâce à un graphe spatio-temporel [1].
Le deuxième objectif scientifique important est relatif à la pratique relativement récente du couplage des informations temporelles et spatiales. En effet, cela implique de nouvelles dépendances entre les objets, ce qui rend les approches de fouille purement spatiales ou temporelles inutilisables sous peine de perdre en précision et interprétabilité des résultats [2]. Cela implique également de gérer l’explosion combinatoire des relations à explorer lors de la fouille du graphe et de déterminer une valeur de similarité entre sous-graphes. Le but de cette fouille serait d’extraire des motifs caractérisant des évolutions spatio-temporelles. Par exemple, nous pourrions nous intéresser à la vitalité des forêts de châtaigniers

au cours du temps ou à la recherche de dysfonctionnements du cerveau liés à certaines maladies comme la schizophrénie.

[1] DEL MONDO, Géraldine, RODRÍGUEZ, M. Andrea, CLARAMUNT, Christophe, et al. Modeling consistency of spatio-temporal graphs. Data & Knowledge Engineering, 2013, vol. 84, p. 59-80.
[2] ATLURI, Gowtham, KARPATNE, Anuj, et KUMAR, Vipin. Spatio-temporal data mining: A survey of problems and methods. ACM Computing Surveys (CSUR), 2018, vol. 51, no 4, p. 83.

Profil du candidat :
Master 2 Informatique en cours (ou Ecole d’ingénieur à forte connotation Informatique)

Formation et compétences requises :
Bonnes compétences en programmation et théorie des graphes

Adresse d’emploi :
ICUBE CNRS UMR 7537
Pôle API
300 bld Sébastien Brant
Strasbourg – Illkirch

Document attaché : 2019-stageFinEtude.pdf

Apr
10
Tue
2018
NLP/Machine learning pour le domaine RH
Apr 10 – Apr 11 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Myriad
Durée : a partir de 2 mois
Contact : mohammad@myriad-data.com
Date limite de publication : 2018-04-10

Contexte :
Aujourd’hui, 95% des RH regarde le processus de transformation
digitale comme une opportunité de développement de leur métier (Unow,
2017). En 2017 on constate que 49% des entreprises prévoient, dans un
futur proche, d’utiliser l’intelligence artificielle pour recruter
(Deloitte, 2017). Pour finir, 71% des RH sont intéressés par la
puissance d’analyse des outils digitaux RH.

D’une part on constate un marché compétitif avec une quête de
performance couplée à une période de croissance et d’autre part, on
réalise que 70% des candidatures aux annonces ne correspondent pas au
poste à pourvoir et 80% des postulant sont des candidats passifs
(Undercover Recruiter, 2017). Dans ce contexte, le recrutement, étant
une des taches chronographe du Responsable RH, s’est transformé en un
des premiers soucis des entreprises.

L’idée est d’optimiser le processus de recrutement à l’aide d’une
solution d’intelligence artificielle. Cette solution fait une
présélection qui fera un gain de temps considérable au recruteur et
lui permettra de se concentrer entièrement sur ses compétences. Outre
la mise en correspondance des annonces et des candidats, il peut être
utilisé aussi, tel un outil d’aide à la validation d’annonce. Si pour
une offre donnée, l’outil ne propose pas un nombre suffisant de
candidat pertinent, le RH ou d’autres instances décisionnaires,
pourraient reformuler ou revoir celle-ci offre afin d’agrandir
l’audience ciblée.

Sujet :
Le but de ce stage est d’utiliser les techniques de ” NLP ” dans la caractérisation et la mise en correspondance des candidats et des offres d’emplois.

Questions scientifiques et techniques

L’objectif de ce stage est de répondre aux question suivantes :

1. Trouver dans les données, les caractéristique (features) qui
permettent d’identifier les concepts présents dans un profil ou une
annonce. Identifier et les relations inter-concepts.

2-Combiner des modèles supervisés et non-supervisés en-ligne pour
trouver les meilleurs candidats à une annonce. Mettre en œuvre des
modèles de classification de candidat utilisant les modèles de Deep
Learning et comparer avec les solutions alternatives.

3-Construire un référentiel métier-compétences très innovant et évolutif

4-Comment évaluer ces modèles et quantifier l’incertitude de leurs résultats.

Profil du candidat :
Stage école d’ingénieur/M1 ou M2

Formation et compétences requises :
Informatique/Mathématique/Statistique

Adresse d’emploi :
16 rue Pierre Cherest,
92200 Neuilly-sur-Seine

Document attaché :

NLP/Machine learning pour le domaine RH
Apr 10 – Apr 11 all-day

Annonce en lien avec l’Action/le Réseau : Formation

Laboratoire/Entreprise : Myriad
Durée : a partir de 2 mois
Contact : mohammad.@myriad-data.com
Date limite de publication : 2018-04-10

Contexte :
Une des mission de la Responsable RH est sélectionner les candidats pertinents pour les postes à pourvoir, proposer des parcoursattractifs aux salariés et favoriser un environnement de travail épanouissant pour les collaborateurs. Cependant, certaines tâches chronophages, telles que la présélection (premier tri) de curriculum vitae, le détournent de son cœur de métier.

Cette problématique de présélection de candidats et d’évaluation de la pertinence de candidature par rapport à un besoin peut être assimilée à la conception d’un moteur de recherche ayant comme requêtes des offres de travaux et proposant les profils professionnels associés. Outre la mise en correspondance des offres de travaux et des profils professionnels, fonctionnalité principale du dispositif, il peut être utilisé aussi, comme un outil d’aide à la validation des offres de travaux. Ceci lui permet d’assister le Responsable RH à parfaire son
offre en améliorant son efficacité par la restitution, pour validation, des concepts (et leurs importances ou forces) contenus dans l’offre. La performance de l’offre pourra aussi se mesurer sur un jeu de test choisi. Le projet vise à répondre aux besoins internes de l’entreprise tels que la mobilité et la gestion de carrière et externes tel que le recrutement de candidat.

Sujet :

Le but de ce stage est d’utiliser les techniques de ” NLP ” dans la caractérisation et la mise en correspondance des candidats et des offres d’emplois.

Questions scientifiques et techniques

L’objectif de ce stage est de répondre aux question suivantes :

1. Trouver dans les données, les caractéristique (features) qui
permettent d’identifier les concepts présents dans un profil ou une
annonce. Identifier et les relations inter-concepts.

2-Combiner des modèles supervisés et non-supervisés en-ligne pour
trouver les meilleurs candidats à une annonce. Mettre en œuvre des
modèles de classification de candidat utilisant les modèles de Deep
Learning et comparer avec les solutions alternatives.

3-Construire un référentiel métier-compétences très innovant et évolutif

4-Comment évaluer ces modèles et quantifier l’incertitude de leurs résultats.

Profil du candidat :

Formation et compétences requises :
École d’ingénieur/M1 ou M2 en Informatique/Mathématique/Statistique

Adresse d’emploi :
16 rue Pierre Cherest,
92200 Neuilly-sur-Seine
Fixe : +33(0) 1 85 73 59 52

Document attaché :

Apr
17
Tue
2018
Stage de recherche (fouille de données/échantillonnage)
Apr 17 – Apr 18 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : GREYC CNRS UMR 6072
Durée : 5 mois
Contact : albrecht.zimmermann@unicaen.fr
Date limite de publication : 2018-04-17

Contexte :

Dans le contexte du projet DECADE (Découverte et exploitation
des connaissances pour l’aide à la décision en chimie thérapeutique),
l’équipe CoDaG du laboratoire GREYC CNRS UM 6072 de l’université Caen
Normandie et l’équipe BdTln de l’université de Tours offre un stage
de recherche pour des masters 2ème année ou équivalent.

Le criblage à haut débit (high-throughput screening en anglais, HTS)
est devenu un processus incontournable pour trouver des molécules
prometteuses (i.e. des molécules ayant une activité envers certaines
cibles) pouvant ensuite donner lieu à des médicaments. Malheureusement,
le criblage fait aussi ressortir des molécules promiscues les “PAINS”
(Pan Assay Interference Compounds) qui ne conduiront pas à des
médicaments car pouvant présenter une certaine toxicité.
L’identification d’un PAINS in silico est difficile et, de plus,
des articles scientifiques décrivent comme prometteuses des molécules
qui sont en réalité des PAINS. Du point de vue des avancées en
chimie thérapeutique, le projet DECADE vise à l’identification
de nouveaux PAINS et à leur caractérisation.

Un défi de ce problème est que les PAINS ne sont pas précisément
définis. Nous disposons déjà d’un modèle créé à partir des “frequent
hitters”, des molécules qui montrent de l’activité envers plusieurs
cibles, mais il n’est pas clair qu’elles soient équivalentes aux PAINS.
Le but de ce stage est ainsi d’utiliser les connaissances d’experts
afin de valider ou corriger l’étiquetage des candidats PAINS.

Sujet :
Le travail va partir d’une approche pour étiqueter des données de type
itemsets à partir des retours des utilisateurs experts à des motifs qui
leur sont présentés au fur et à mesure. Le ou la stagiaire va adapter la
technique existante afin d’utiliser des motifs séquentiels/graphes, des
données graphes. En plus, elle ou il va préparer et mettre en oeuvre une
étude expérimentale afin d’évaluer l’approche développée.

Profil du candidat :
Le ou la candidat(e) devra avoir des connaissances en fouille de données
(fouille de séquences, fouille de graphes). Des bonnes compétences en
méthodes statistiques seraient appréciées. Des compétences en
programmation sont nécessaires.

Formation et compétences requises :
Master informatique

Adresse d’emploi :

Encadrant: Albrecht Zimmermann, Arnaud Soulet

Contact: albrecht.zimmermann@unicaen.fr

Document attaché :

Stage de recherche (fouille de données/programmation par contraintes)
Apr 17 – Apr 18 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : GREYC CNRS UMR 6072
Durée : 5 mois
Contact : albrecht.zimmermann@unicaen.fr
Date limite de publication : 2018-04-17

Contexte :
Dans le contexte du projet DECADE (Découverte et exploitation
des connaissances pour l’aide à la décision en chimie thérapeutique),
l’équipe CoDaG du laboratoire GREYC CNRS UMR 6072 de l’université
Caen Normandie et l’équipe CA du laboratoire LIFO de l’université
d’Orléans offre un stage de recherche pour des masters 2ème année
ou équivalent.

Le criblage à haut débit (high-throughput screening en anglais, HTS)
est devenu un processus incontournable pour trouver des molécules
prometteuses (i.e. des molécules ayant une activité envers certaines
cibles) pouvant ensuite donner lieu à des médicaments. Malheureusement,
le criblage fait aussi ressortir des molécules promiscues les “PAINS”
(Pan Assay Interference Compounds) qui ne conduiront pas à des
médicaments car pouvant présenter une certaine toxicité.
L’identification d’un PAINS in silico est difficile et, de plus,
des articles scientifiques décrivent comme prometteuses des molécules
qui sont en réalité des PAINS. Du point de vue des avancées en chimie
thérapeutique, le projet DECADE vise à l’identification de nouveaux
PAINS et à leur caractérisation.

Une approche est déjà en place pour apprendre un modèle réprésentant
des possibles PAINS. Cette approche utilise des sous-graphes
discriminants et un ensemble d’arbres de décision. La prochaine étape
consiste à exploiter les retours des experts afin de modifier à la fois
les sous-graphes fouillés et les arbres sans relancer le processes
d’apprentissage.

Sujet :
Le travail dans ce stage est fondé sur une méthode de programmation
par contraintes pour modifier minimalement un clustering en fonction
des retours d’utilisateurs. La tâche exige la définition des contraintes
sur des (ensembles de) graphes/arbres, le développement d’un mécanisme
pour obtenir des retours des experts et une méthode pour traduire
ces retours en contraintes.

Profil du candidat :
Le ou la candidat(e) devra avoir des connaissances en fouille de données
(fouille de graphes) et en programmation par contraintes. Des
compétences en programmation sont nécessaires.

Formation et compétences requises :

Adresse d’emploi :

Encadrants : Albrecht Zimmermann, Christel Vrain

Contact : albrecht.zimmermann@unicaen.fr

Document attaché :

May
1
Tue
2018
Automatic ontology learning and semantic search in HR domain
May 1 – May 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Societé ALTEN et labo IRISA Rennes
Durée : 6 mois
Contact : zoltan.miklos@irisa.fr
Date limite de publication : 2018-05-01

Contexte :
Le Responsable RH a pour mission de sélectionner les candidats pertinents pour les postes à pourvoir, proposer des parcours attractifs aux salariés et favoriser un environnement de travail épanouissant pour les collaborateurs. Cependant, certaines tâches chronophages, telles que la présélection (premier tri) de curriculum vitae, le détournent de son cœur de métier. A titre d’exemple, Google recevrait chaque semaine 75 000 CV.
Cette problématique de présélection de candidats et d’évaluation de la pertinence de candidature par rapport à un besoin peut être assimilée à la conception d’un moteur de recherche ayant comme requêtes des offres de travaux et proposant les profils professionnels associés.
Outre la mise en correspondance des offres de travaux et des profils professionnels, fonctionnalité principale du dispositif, il peut être utilisé aussi, comme un outil d’aide à la validation des offres de travaux. Ceci lui permet d’assister le Responsable RH à parfaire son offre en améliorant son efficacité par la restitution, pour validation, des concepts (et leurs importances ou forces) contenus dans l’offre. La performance de l’offre pourra aussi se mesurer sur un jeu de test choisi.
Le projet vise à répondre aux besoins internes de l’entreprise tels que la mobilité et la gestion de carrière et externes tel que le recrutement de candidat.

Sujet :
Elaboration d’un modèle d’extraction et de représentation des connaissances des profils professionnels et des offres permettant d’effectuer des recherches sémantiques sur ces derniers. Ce projet s’inscrit dans la continuité des travaux de 3 projets réalisés par ALTEN (3 * 6 mois) et qui ont eu pour objectif d’exploiter le TALN (NLP), le web sémantique et l’apprentissage automatique pour extraire et hiérarchiser des concepts permettant la représentation des profils professionnels et des offres en vue de les mettre en correspondance.
Ce projet est une démarche concurrente à plusieurs projets ALTEN avec la même finalité mais basés sur des méthodes classiques. L’objectif sera aussi d’avoir une approche « comparée ».

Questions scientifiques et techniques

L’objectif des études à mener est de répondre aux incertitudes suivantes :
1. Comment identifier automatiquement les concepts présents dans un profil ou une offre ? Et comment extraire les relations inter-concepts?
2. Comment évaluer la performance du dispositif par rapport à ses enjeux ?
3. Concevoir et mettre en œuvre une méthode d’évaluation des distances entre concepts ? et concevoir un modèle de représentation tenant compte des relations inter-concepts et des distances entre ces derniers ?
4. Concevoir et mettre en œuvre une méthode de recherche (mise en correspondance entre les offres de poste et les profils professionnels)

Profil du candidat :
Profil d’un eleve qui voudrait continuer en these

Formation et compétences requises :
Master en Informatique orienté recherche

Adresse d’emploi :
Société ALTEN
12 Rue du Patis Tatelin, 35000 Rennes

Document attaché : Proposition-de-stage-Master-Recherche-Rennes-1.pdf

Deep learning based semantic search applied to recruitment platforms
May 1 – May 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Societé ALTEN et labo IRISA Rennes
Durée : 6 mois
Contact : zoltan.miklos@irisa.fr
Date limite de publication : 2018-05-01

Contexte :
Le Responsable RH a pour mission de sélectionner les candidats pertinents pour les postes à pourvoir, proposer des parcours attractifs aux salariés et favoriser un environnement de travail épanouissant pour les collaborateurs. Cependant, certaines tâches chronophages, telles que la présélection (premier tri) de curriculum vitae, le détournent de son cœur de métier. A titre d’exemple, Google recevrait chaque semaine 75 000 CV.
Cette problématique de présélection de candidats et d’évaluation de la pertinence de candidature par rapport à un besoin peut être assimilée à la conception d’un moteur de recherche ayant comme requêtes des offres de travaux et proposant les profils professionnels associés.
Outre la mise en correspondance des offres de travaux et des profils professionnels, fonctionnalité principale du dispositif, il peut être utilisé aussi, comme un outil d’aide à la validation des offres de travaux. Ceci lui permet d’assister le Responsable RH à parfaire son offre en améliorant son efficacité par la restitution, pour validation, des concepts (et leurs importances ou forces) contenus dans l’offre. La performance de l’offre pourra aussi se mesurer sur un jeu de test choisi.
Le projet vise à répondre aux besoins internes de l’entreprise tels que la mobilité et la gestion de carrière et externes tel que le recrutement de candidat.

Sujet :
L’enjeu principal est d’évaluer l’utilisation des techniques de « deep learning » dans la caractérisation et la mise en correspondance des profils professionnels et des offres de poste.
Ce projet est une démarche concurrente à plusieurs projets ALTEN avec la même finalité mais basés sur des méthodes classiques. L’objectif sera aussi d’avoir une approche « comparée ».

Questions scientifiques et techniques

L’objectif des études à mener est de répondre aux incertitudes suivantes :
1. Concevoir un/des modèles permettant l’extraction de connaissances à partir des profils professionnels et des offres.
2. Définir les critères de choix du corpus de profils destiné à l’apprentissage automatique.
3. Concevoir et mettre en œuvre une méthode d’évaluation de la pertinence du/des modèles
4. Concevoir un/des modèles d’apprentissage interactif en utilisant les techniques du deep learning et du reinforcement learning (intégration de l’évaluation humaine suite à une recherche)

Profil du candidat :
profil d’un(e) candidat(e) qui s’oriente vers une these apres le master

Formation et compétences requises :
master en informatique orienté recherche

Adresse d’emploi :
Societé ALTEN
12 Rue du Patis Tatelin, 35000 Rennes

Document attaché : Proposition-de-stage-Master-Recherche-Rennes-2.pdf

May
5
Sat
2018
Capturing twitter streams for opinion mining on airport noise
May 5 – May 6 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ETIS / University of Cergy Pontoise
Durée : 6 mois
Contact : Dimitrios.Kotzinos@u-cergy.fr
Date limite de publication : 2018-05-05

Contexte :
This work is part of the EU-funded research project ANIMA.

Sujet :
Understanding the opinion of the users on specific matters (like events, public issues/debates, other people) is a hard task to be done automatically and for any event. But with the expansion of social media use, we have a source of information where people express (sometimes passionately) their opinions and participate in discussions, which we can track as they happen. Recently, social media are used to substitute traditional surveying methods like on the spot interviews or phone or web surveys. In this project, we plan to do the same but to limit our research on users who live in the area of the airport and discuss about noise problems emanating from the landing and takeoff of aircraft.
The collected information can be used in several ways:
(1) At the social media level, we can monitor discussions and exchanges over airport generated noise issues and try to understand if there are particular events that concern the users. We can analyze both the volume of a conversation in terms of numbers of posts and users but also the connections among these users (their social graph) and understand the possible influences and influencers.
(2) Tracking events through discussions on social media would allow us to also understand whether something out of the ordinary has happened and how the involved parties are reacting to this (e.g. through increased number of posts, etc.). This would require real time monitoring of the users’ interactions on social media.
The main goal of the work in this project will be the setup of a customizable platform that will be able to capture the stream of relevant tweets generated by the users, store it offline, identify the users involved in the discussions and build the social networks of discussions around them. Also we would like to characterize the discussions based on location and relevance to the subject of our research (airport noise).
We will do this by applying text mining and information retrieval techniques, combined with opinion mining techniques from social media texts and network analytics in order to analyze and build the correct social graph of the involved users.

Profil du candidat :
We are looking for a 2nd year Master Student (M2) that wants to do a 6-month internship with us. This can be combined with his/her master thesis.

Formation et compétences requises :
The position will be opened until filled. Starting date ideally is 01/04/2018. Apply by sending an e-mail with your CV, recommendation letters and grades for at least the 1st and 2nd year of the Master (M1 and M2) to:
Dimitrios.Kotzinos@u-cergy.fr

Adresse d’emploi :
MIDI team
Lab. ETIS UMR 8051
University of Paris-Seine, University of Cergy-Pontoise, ENSEA, CNRS
& Dept. Sciences Informatiques, Université de Cergy-Pontoise
2 av. Adolphe Chauvin
Site Saint Martin, bureau A561
95000 Pontoise
France

Document attaché : Description_stage_twitter_noise_final.pdf

Jun
8
Fri
2018
MaDICS : Réunion bureau @ Visio-conf Rendez-vous
Jun 8 @ 16:00 – 17:30
Jun
15
Fri
2018
Analysis and prediction of wavelet and filter-bank frames performance for machine learning
Jun 15 – Jun 16 all-day

Annonce en lien avec l’Action/le Réseau : Formation

Laboratoire/Entreprise : IFP Energies nouvelles.
Durée : 5 months
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2018-06-15

Contexte :
Details:
http://www.laurent-duval.eu/lcd-2018-intern-transform-classification.html

IFP Energies nouvelles (IFPEN) is a major research and training player in the fields of energy, transport, and environment. From research to industry, technological innovation is central to all its activities, structured around three strategic priorities: sustainable mobility, new energies, and responsible oil and gas. As part of the public-interest mission with which it has been tasked by the public authorities, IFPEN focuses on: (a) providing solutions to take up the challenges facing society in terms of energy and the climate, promoting the transition towards sustainable mobility and the emergence of a more diversified energy mix; (b) creating wealth and jobs by supporting French and European economic activity, and the competitiveness of related industrial sectors

Sujet :
We wish to study large datasets of experimental data (e.g. physico-chemical spectral signals, microscopy or geophysical subsurface images) toward clustering, classification and learning. When data satisfy regularity properties, they often admit sparse or compressible representations in a judicious transformed domain: a few transformed coefficients provide accurate data approximation. Such representations, like multiscale or wavelet transforms, are beneficial to subsequent processing, and they form the core of novel data processing methodologies, such as Scattering networks/transforms (SN) or Functional Data Analysis (FDA). Due to the variety of such transforms, without prior knowledge, it is not evident to find the most suitable representation for a given set of data. The aim of this subject is to investigate potential relations between transform properties and data compressibility on the one hand, and classification/clustering performance on the other hand, especially with respect to the robustness to shifts/translations or noise in data features, with matters in experimental applications. Rooting on a recent work, the first objective is to develop a framework to allow the use of different sparsifying transformations (bases or frames of wavelets and multiscale transformations) at the input of reference SN algorithms. This will permit to evaluate the latter on a variety of experimental datasets, with the aim of choosing the most appropriate, both in terms of performance and usability, since the redundancy in transformations may hinder their application to large datasets. A particular interest could be laid on complex-like transformations, that may improve either the sparsification or ”invariance properties” in the transformed data. Their importance has been underlined recently for deep convolutional networks. Then, starting from real data, the trainee will develop realistic models reproducing the expected behaviors in the data, for instance related to shifts or noise. Finally, the relative clustering/classification performances will be assessed with respect to different trans- formation choices, and their impact on both realistic models and real data. A particular interest could be laid on either transform properties (redundancy, frame bounds, asymptotic properties) or the resulting data multiscale statistics.

Sparse-domain data (signal/image) processing for classification and learning: basis/frame influence and selection
in designing and training scattering networks with experimental data (geosciences, chemistry)

Profil du candidat :
Second/third year engineering school and/or master of science with strong skills and curiosity in signal/image
processing, statistics, machine learning, applied mathematics.

Formation et compétences requises :
Applicants should provide a resume and a
motivation letter emphasizing prior knowledge related to the subject (esp. learning and sparsifying transforms).

Adresse d’emploi :
Rueil-Malmaison (Paris suburbs), France

Document attaché : IFPEN_2018_SUBJ_Internship-Multiscale-complex.pdf

Jun
30
Sat
2018
Apprentissage du comportement, cas du jeu vidéo
Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube
Durée : 6 mois
Contact : nicolas.lachiche@unistra.fr
Date limite de publication : 2018-06-30

Contexte :
Dans le cadre d’un projet entre les équipes SDC et CSTB du laboratoire ICube, à Strasbourg, nous travaillons sur l’apprentissage de comportements et souhaitons dans un premier temps étudier le cas du jeu vidéo.

Sujet :
L’étudiant étudiera la combinaison de travaux récents dans nos deux équipes.

Profil du candidat :
Informaticien ou data scientist

Formation et compétences requises :
Des compétences et expériences en intelligence artificielle et plus particulièrement en machine learning, seront appréciées.

Adresse d’emploi :
ICube
300 bd Brant
67412 Illkirch

Document attaché :

Jul
1
Sun
2018
Caractérisation de motifs du plissement cortical par apprentissage automatique sur graphes.
Jul 1 – Jul 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Institut de Neurosciences de la Timone, Marseille
Durée : 4-6 mois
Contact : sylvain.takerkart@univ-amu.fr
Date limite de publication : 2018-07-01

Contexte :
En neurosciences, caractériser la forme du cerveau est un domaine scientifique primordial pour la compréhension des processus du développement cérébral et des anomalies de forme observées dans les maladies psychiatriques et neurologiques. Pour cet objectif, il est connu que l’étude du plissement cortical en gyrus et sillons est particulièrement pertinente.

Nous avons récemment développé une nouvelle méthode qui permet de mener à bien des études de morphologie cérébrale au travers de l’étude de motifs locaux du plissement cortical mesuré en imagerie par résonance magnétique (IRM) [1]. Dans cette méthode, l’organisation spatiale de tels motifs est modélisée sous forme de graphes attribués comme illustré sur la figure 1, ce qui demande le développement d’outils quantitatifs pour permettre de les caractériser. Dans cet article, ceci est fait en introduisant un nouveau noyau de graphe, ce qui permet d’envisager l’utilisation des nombreuses méthodes à noyaux pour répondre à des questions variées telles que la classification, la régression etc.

[1] Structural Graph-Based Morphometry: a multiscale searchlight framework based on sulcal pits
S Takerkart, G Auzias, L Brun, O Coulon – Medical Image Analysis, 2017

Sujet :
Ce stage visera donc à poursuivre ce travail, avec plusieurs objectifs complémentaires :
– au niveau méthodologique, il faudra développer des outils pour faciliter l’interprétation des résultats ; pour cela, nous envisageons de nous tourner vers des méthodes d’apprentissage automatique de type manifold learning, kernel regression.
– au niveau logiciel, il faudra implémenter ces outils en python.
– au niveau applicatif, le stagiaire appliquera ces nouveaux outils sur des données disponibles à l’INT comprenant plus de 1000 IRM pour lesquelles les graphes ont déjà été calculés, afin de détecter des marqueurs précoces du développement sain (chez une population de jeunes enfants) et pathologiques (en essayant de caractériser les déficiences chez des patients autistes).

Profil du candidat :
M2 ou élève ingénieur.e dernière année

Formation et compétences requises :
Compétences requises:
– apprentissage statistique, classification (par ex. Support Vector Machines, deep learning…)
– notions de traitement d’image et d’imagerie médicale
– bon niveau en programmation (python)
– bon niveau en anglais
– pas besoin de connaissances en neurosciences, mais un intérêt pour le contexte est bien sûr nécessaire.

Adresse d’emploi :
Institut de Neurosciences de la Timone
27 bvd Jean Moulin
13005 Marseille

Document attaché :

Développement d’un modèle prédictif de récupération après traumatisme crânien sévère.
Jul 1 – Jul 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Institut de Neurosciences de la Timone, Marseille
Durée : 4-6 mois
Contact : sylvain.takerkart@univ-amu.fr
Date limite de publication : 2018-07-01

Contexte :
Aujourd’hui la prise en charge des patients admis en réanimation après un traumatisme crânien sévère est soumise à la grande incertitude sur la récupération à long terme. Dans ce contexte, l’accès à des outils diagnostiques et pronostiques fiables et performants est un progrès majeur qu’accompagne la start-up BrainTale (http://www.braintale.fr/) en collaboration avec le groupe COMA, groupe de recherche associant le département d’anesthésie-réanimation de l’Hôpital de la Pitié-Salpêtrière (APHP, Paris) et le Laboratoire d’Imagerie Biomédicale (Sorbonnes Université, Paris), et avec l’équipe MECA de l’Institut de Neurosciences de la Timone (INT, Marseille; http://www.meca-brain.org/). L’approche innovante proposée aujourd’hui se base sur un traitement calibré des données d’IRM permettant des mesures robustes d’altérations microstructurelles cérébrales à partir de descripteurs définis a priori et de solutions d’apprentissage statistique adaptées se nourrissant d’une base de données de patients cérébrolésés unique au monde.

Sujet :
Dans la continuité de ces travaux, ce stage s’inscrit dans une collaboration entre l’équipe MECA et BrainTale qui se base sur la combinaison de connaissances en neurosciences et de méthodes d’intelligence artificielle innovantes. Le projet du / de la stagiaire consistera à améliorer le modèle pronostic existant en développant un nouveau pipeline basé sur une extraction de caractéristiques aléatoire et une stratégie ensembliste d’apprentissage. Le stage se déroulera à Marseille au sein de l’INT.

Ce travail pourra éventuellement donner suite à une prolongation dans le cadre d’une thèse CIFRE.

Profil du candidat :
M2 ou ingénieur dernière année

Formation et compétences requises :
Compétences requises :
– apprentissage statistique, classification (par ex. Support Vector Machines, deep learning…)
– très bon niveau en programmation (python ou C/C++)
– bon niveau en anglais
– notions de traitement d’image et/ou d’imagerie médicale
– pas besoin de connaissances en neurosciences, mais un intérêt pour le domaine serait un plus.

Adresse d’emploi :
Institut de Neurosciences de la Timone
27 boulevard Jean Moulin
13005 Marseille

Document attaché :

Dec
1
Sat
2018
Segmentation de queues de marées au voisinage de galaxies en interaction
Dec 1 – Dec 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube & Observatoire de Strasbourg
Durée : Mars 2019 -July 2019
Contact : mireille.louys@unistra.fr
Date limite de publication : 2018-12-01

Contexte :
Les algorithmes de détection classiques, tels Sextractor, ont été développés pour dépister les sources relativement compactes, mais pas les structures ayant un S/N par pixel très faible. Ont toutefois émergé récemment de nouveaux algorithmes ad hoc, aptes à connecter des pixels appartenant au même objet, en particulier NoiseChisel
(https://www.gnu.org/software/gnuastro/manual/html_node/NoiseChisel.html) , Akhlaghi and Ichikawa [2015]. Basé sur des techniques de dilation et érosion, NoiseChisel est particulièrement rapide et performant pour dépister des structures très faibles par rapport au fond du ciel. L’étape suivante de segmentation des objets (séparation de galaxies se chevauchant, de régions physiquement distinctes au sein d’une même galaxie, ou de halos d’étoiles d’avant plan contaminant les galaxies) reste toutefois imprécise et nécessite des ajustements fins manuels particulièrement fastidieux.

Sujet :
L’objet du stage est d’améliorer l’étape de segmentation à l intérieur des zones considérées comme objets, d’utiliser les cartes construite par NoiseChisel pour segmenter le fond de ciel et de cartographier les sous structures de type queues de marées, coquilles, halo, bulbe, etc, par une segmentation markovienne en quad-arbre, appliquée aux pixels des régions annotées comme objet par rapport au ciel.
Les régions détectées pourront ensuite être comparées aux annotations fournies par les astronomes experts.

Profil du candidat :
Niveau Master 2 , en traitement d’images , science des données ou en astrophysique.

Formation et compétences requises :
Des candidats ayant de solides compétences en analyse de données, traitement du signal et des images et en mathématiques appliquées sont attendus. Une formation en astrophysique est également un plus. Des compétences en programmation informatique sont indispensables.

Adresse d’emploi :
Laboratoire Icube , Pole Api ,
300 Bd Sébastien Brant, 67400 Illkirch-Graffenstaden
and
Observatoire de Strasbourg , 11, rue de l Université , 67000 Strasbourg

Document attaché : Stage3MasterAstro-IPSEO-2018-11-19.pdf

Dec
12
Wed
2018
Détection des valeurs manquantes déguisées et redressement des dépendances fonctionnelles
Dec 12 – Dec 13 all-day

Annonce en lien avec l’Action/le Réseau : ARQUADS

Laboratoire/Entreprise : Laboratoire d’Informatique et des Systèmes (LIS UMR CNRS 7020), Marseille
Durée : 4 à 5 mois
Contact : Noël Novelli (noel.novelli@lis-lab.fr) et Laure Berti-Equille (laure.berti@lis-lab.fr)
Date limite de publication : 20181212

Contexte :
Le stage se déroulera au LIS à Marseille dans le cadre du projet ANR QualiHealth financé par l’ANR (2018-2022) qui s’intéresse à la qualité des données de Santé en partenariat avec l’Institut Cochin, l’Hôpital Européen Georges-Pompidou, les laboratoires de recherche LIRIS (porteur), LIMOS et la société Gnubila.

Sujet :
Les valeurs manquantes “déguisées” [1] sont des valeurs par défaut utilisées à tort et par obligation pour remplacer des valeurs à l’origine manquantes pour lesquelles l’utilisateur ne connaît pas ou ne souhaite pas renseigner la vraie valeur. Par exemple, lors de la saisie d’un formulaire, de nombreux utilisateurs noteront le 1er janvier par défaut comme date de naissance sur le champs imposé par le formulaire. On pourra alors éventuellement observer que la distribution des valeurs de dates de naissances est quelque peu “anormale” mais comment identifier, de façon automatique dans les données, les personnes qui sont vraiment nées le 1er janvier et les distinguer des autres ? Comment corriger les données erronées ? Des approches ont été proposées pour cela [2] et certaines reposent sur la découverte de dépendances fonctionnelles dans les données [3]. Cependant, elles ne sont pas robustes au problème des valeurs manquantes “déguisées”.
L’objectif du stage consistera donc à prendre du recul sur ces approches pour proposer une solution plus robuste. Il sera demandé au (à la) candidat(e) retenu(e) de réaliser un état de l’art des approches actuelles avec leurs implémentations et de proposer une solution robuste. Cette solution sera implémentée et testée sur des données réelles et synthétiques. Enfin, elle sera comparée aux approches existantes en mettant en place des expérimentations adéquates.

Références
[1] R. K. Pearson. The problem of disguised missing values. SIGKDD 2006. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.443.6794&rep=rep1&type=pdf
[2] M. Hua and J. Pei. Cleaning Disguised Missing Data: A Heuristic Approach. KDD 2007. https://www.cs.sfu.ca/~jpei/publications/dmv-kdd07.pdf
[3] L. Berti-Équille, H. Harmouch, F. Naumann, N. Novelli, S. Thirumuruganathan, Discovery of Genuine Functional Dependencies from Relational Data with Missing Values. Proceedings of VLDB 2018. http://www.vldb.org/pvldb/vol11/p880-berti-equille.pdf

Profil du candidat :
Etudiant(e) de Master 2 ou de dernière année d’école d’ingénieur sur un cursus d’informatique.
Bon niveau en informatique et plus précisément en bases de données, analyse des données et algorithmique.
Bon niveau en Python.
Bon niveau de communication scientifique à l’écrit et oral, notamment en anglais.

Formation et compétences requises :
L’étudiant retenu devra présenter de bonnes compétences dans le domaine des systèmes de gestion de données massives, l’analyse des données et l’algorithmique. Elle ou il devra avoir un très bon cursus universitaire et une forte motivation pour la recherche afin de permettre une éventuelle poursuite en thèse à l’issue du stage.

Adresse d’emploi :
Laboratoire d’Informatique et des Systèmes (LIS UMR CNRS 7020)
Marseille

Document attaché :

Dec
31
Mon
2018
Organ detection in multi-modality medical images via deep domain adaptation
Dec 31 2018 – Jan 1 2019 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Creatis – INSA-Lyon
Durée : 6 mois
Contact : razmig.kechichian@creatis.insa-lyon.fr
Date limite de publication : 2018-12-31

Contexte :
Organ detection and localization in medical images are important tasks in both clinical procedures and as an intermediate step in image analysis algorithms, such as image segmentation. Multi-modality methods are of particular interest for robust organ detection in heterogeneous datasets stored in PACS systems of healthcare and medical research centers. Such datasets are often of large size and diverse content challenging the task of efficient organ detection.

Sujet :
We seek a fast multi-modality object detection method capable of localizing up to 2 dozens of thoracic and abdominal organs in 3D radiological images (CT and MRI). Recent deep learning-based object detection methods [2-4] were proven to be very effective in the supervised setting where hundreds of annotated training examples are available for each object class. In medical imaging, such large annotated datasets are rare and annotations are expensive, therefore supervised deep learning methods that estimate millions of deep network parameters would fail.

Data augmentation techniques, both image transformation-based [8,12] and, more recently, GAN (generative adversarial network) -based [9-11] can help alleviate the lack of annotated data by generating additional examples similar to those in available training sets. On the other hand, annotations are often available and more abundant for certain image modalities, such as contrasted CT. Organ detectors learned on these source images could be transferred or adapted to target images, such as MRI, comprising similar anatomies by domain adaptation methods [1]. Existing domain adaptive object detection methods often adapt a learned classification and detection model by fine-tuning deep network parameters such as [5]. Recent adversarial approaches propose particularly interesting alternatives. In [7] for example, a convolutional neural network (CNN) -based detector learned on a source domain is adapted to the target domain through GAN-generated examples resembling the target domain carrying source labels and pseudo labels in the target domain. In [6], the supervised CNN detector is extended via 2 adversarial pathways to tackle image and instance-level shift in the target domain.

The aim of this project is therefore to study and propose an efficient cross-modality organ detection method for medical images capable of adapting supervised detectors learned in a source modality, possibly via data augmentation to counter the lack of annotated data, to a target modality, possibly in an adversarial manner.

Profil du candidat :
We are looking for a motivated collaborator capable of critical thinking, able to work autonomously as well as in a collective setting, having interest for medical imaging and good sense of responsibility (and humor ;). The candidate should be studying towards completing a master degree in computer science or a related engineering field. She should have a solid background in applied mathematics, image processing and computer science, in addition to good programming skills, preferably in Python programming language. A working knowledge of deep learning methods is necessary.

Formation et compétences requises :
See above.

Adresse d’emploi :
CREATIS – INSA-Lyon, bât. B. Pascal
7 avenue Jean Capelle 69100 Villeurbanne

Document attaché : sujet-stage-kechichian.pdf

Jan
4
Fri
2019
Stage Data Scientist
Jan 4 – Jan 5 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : TRAXENS
Durée : 6 Mois
Contact : r.khouani@traxens.com
Date limite de publication : 01/04/2019

Contexte :
IOT for logistics, « Real Data for logistics excellence ».
Traxens fournit, collecte et distribue la meilleure donnée au monde sur les unités de transport logistiques, permettant à tous les acteurs du transport multimodal d’améliorer leurs coûts et d’optimiser leurs performances. Traxens a mené un programme de R & D de 3 ans pour développer une solution verticale comprenant le boitier connecté, la plateforme de données et les applications métiers afin de produire de la donnée en temps réel partout dans le monde et de la rendre la plus intelligente possible. CMA CGM, MSC et SNCF font confiance à Traxens et déploient sur leurs flottes logistiques depuis 2017. Nous rejoindre pour un stage c’est l’opportunité de découvrir le monde de l’IoT et ses applications B2B, s’intégrer dans une équipe jeune, solidaire et passionnée. Les opportunités de recrutement sont fréquentes.

Sujet :
L’objectif principal est de réaliser un algorithme prédictif sur la recommandation de zones d’intérêt (ZOI dans le vocabulaire Traxens) à partir de trajectoire GPS, mouvements, ouverture de porte, accélérations et tout autre donnée générée par le boitier TRAXENS.

L’algorithme devra permettre d’identifier automatiquement si une unité logistique (conteneur) entre/sort d’une ZOI et de quel type of ZOI il s’agit. (Exemple de types de ZOI : Port maritime, Dépôt, aire de chargement/déchargement etc …)

Missions :

Extraction de la donnée à partir de différentes sources,
Préparation de la donnée brute en donnée qualifiée,
Analyse statistique,
Établissement de modèles prédictifs,
Interprétation des résultats,
Optimisation et apprentissage en continue.

Littérature :
https://www.tandfonline.com/doi/citedby/10.1080/13658816.2015.1005094

https://www.sciencedirect.com/science/article/pii/S0198971515000587?via%3Dihub

https://link.springer.com/content/pdf/10.1007%2Fs40534-015-0079-x.pdf

Profil du candidat :
Vous possédez une maîtrise des langages scripts (Python, Scala, etc.).
Une première expérience en transport maritime ou logistique serait un plus.
Votre entourage vous décrit comme curieux et impliqué.Vous êtes bon communicant et aimer travailler en équipe.Vous aimez les challenges intellectuels auxquels vous trouvez des solutions innovantes grâce à votre excellente capacité d’analyse.

Formation et compétences requises :
Diplômé(e) d’une école d’ingénieur ou Master 2 en Intelligence Artificielle & Apprentissage Automatique ou Mathématiques informatiques/statistiques.

Adresse d’emploi :
Marseille

Document attaché : TRX-ANA-Offre-de-stage-data-scientist-20190127.pdf

Jan
31
Thu
2019
Generative Adversarial Networks pour le design génératif
Jan 31 – Feb 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Centre d’études et de recherche en Informatique et Communications (CEDRIC) – Cnam Paris
Durée : 6 mois
Contact : michel.crucianu@cnam.fr
Date limite de publication : 2019-01-31

Contexte :
Les réseaux antagonistes génératifs (generative adversarial networks, GANs), introduits en 2014 par [5] sont des modèles génératifs qui cherchent à modéliser une distribution de probabilités à partir de données. Un GAN est basé sur la compétition entre deux composantes (le plus souvent des réseaux de neurones profonds), un « générateur » et un « discriminateur » . Le générateur produit des données candidates (par ex. des images) et le discriminateur cherche à déterminer si les données présentées sont issues de la « vraie » distribution ou non. Les données « authentiques » de départ servent à entraı̂ner le discriminateur avant le début de la compétition. Suit une étape d’apprentissage commune (à la fois pour le générateur et pour le discriminateur) durant laquelle le générateur cherche à tromper le discriminateur en produisant des candidats qui ressemblent de plus en plus aux données authentiques, alors que le discriminateur s’améliore aussi en essayant de détecter comme non authentiques tous les candidats produits par le générateur. Cette étape d’apprentissage étant connue pour être difficile et souvent instable, de nombreux travaux ont visé à améliorer la qualité de cet apprentissage, voir par ex. l’introduction des Wasserstein GAN [1, 6].

Sujet :
Les GANs sont principalement employés pour générer des images réalistes (visages, animaux, scènes, etc.), sans tenir compte de la structure interne de ces images, c’est à dire des objets présents et des relations entre ces objets. Quelques applications au design d’objets (voir par ex. [3]) emploient la même méthodologie pour la génération d’images d’objets. Utilisés dans [7] pour la génération d’objets 3D, les GAN produisent des objets qui sont des volumes composés de voxels (éléments de volume) mais suivant une approche similaire, qui ignore la structure interne de ces objets. Peu de travaux s’intéressent à la génération d’objets composés et emploient pour cela une architecture hiérarchique, voir par ex. [2].

Le premier objectif du stage proposé, correspondant à une première étape du travail, est d’évaluer des versions récentes des GAN, comme les Wasserstein GAN [1, 6], sur des images d’objets composés (constitués de composantes qui présentent des relations particulières entre elles), sans tenir compte de cette structure. Les résultats de cette phase doivent servir de référence aux développements ultérieurs.

Le second objectif du stage est de chercher à modéliser par apprentissage la structure des objets composés et à la prendre en compte lors du processus génératif. Les résultats issus de cette seconde phase du travail seront comparés à la référence obtenue lors de la première phase.

Suivant le temps disponible, il est envisageable de s’intéresser aussi à la séparation entre « style » et structure, suivant les idées de [4] ou [8].

[1] Martı́n Arjovsky, Soumith Chintala, and Léon Bottou. Wasserstein generative adversarial networks. In Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017, pages 214–223, 2017.
[2] Wei Chen, Ashwin Jeyaseelan, and Mark Fuge. Synthesizing designs with inter-part dependencies using hierarchical generative adversarial networks. In ASME 2018 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference, Quebec City, Canada, Aug 2018. ASME.
[3] Jaime Deverall. Using generative adversarial networks to design shoes : The preliminary steps. In New Product Design with Popular Fashion Style Discovery Using Machine Learning: Proceedings of the Artificial Intelligence on Fashion and Textiles (AIFT) Conference 2018, Hong Kong, July 3–6, 2018, 01 2018.
[4] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2414–2423, June 2016.
[5] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Proceedings of the 27th International Conference on Neural Information Processing Systems – Volume 2, NIPS’14, pages 2672–2680, Cambridge, MA, USA, 2014. MIT Press.
[6] Ishaan Gulrajani, Faruk Ahmed, Martı́n Arjovsky, Vincent Dumoulin, and Aaron C. Courville. Improved training of wasserstein gans. CoRR, abs/1704.00028, 2017.
[7] Jiajun Wu, Chengkai Zhang, Tianfan Xue, William T Freeman, and Joshua B Tenenbaum. Learning a probabilistic latent space of object shapes via 3d generative-adversarial modeling. In Advances in Neural Information Processing Systems, pages 82–90, 2016.
[8] Rui Zhang, Sheng Tang, Yu Li, Junbo Guo, Yongdong Zhang, Jintao Li, and Shuicheng Yan. Style separation and synthesis via generative adversarial networks. In Proceedings of the 26th ACM International Conference on Multimedia, MM ’18, pages 183–191, New York, NY, USA, 2018. ACM.

Profil du candidat :
Le (la) candidat(e) doit avoir une bonne maı̂trise du domaine de l’apprentissage statistique et de l’apprentissage profond, avec à la base de bonnes connaissances mathématiques. De bonnes capacités à programmer en Python sont également nécessaires, l’emploi de modèles d’apprentissage profond nécessitant l’utilisation de librairies comme TensorFlow, PyTorch, etc. avec portage du code sur GPU.
Envoyez vos candidatures (avec CV, lettre de motivation, notes obtenues) à Michel Crucianu, Marin Ferecatu et Nicolas Thome (courriels : prénom.nom@cnam.fr).

Formation et compétences requises :
Le (la) candidat(e) doit avoir une bonne maı̂trise du domaine de l’apprentissage statistique et de l’apprentissage profond, avec à la base de bonnes connaissances mathématiques. De bonnes capacités à programmer en Python sont également nécessaires, l’emploi de modèles d’apprentissage profond nécessitant l’utilisation de librairies comme TensorFlow, PyTorch, etc. avec portage du code sur GPU.
Envoyez vos candidatures (avec CV, lettre de motivation, notes obtenues) à Michel Crucianu, Marin Ferecatu et Nicolas Thome (courriels : prénom.nom@cnam.fr).

Adresse d’emploi :
Le stage débutera au printemps 2019 et durera 6 mois, sous la co-direction de Michel Crucianu, Marin Ferecatu (équipe Vertigo) et Nicolas Thome (équipe MSDMA).
Le stage se déroulera au CNAM Paris (http://www.cnam.fr/) dans les équipes de recherche Vertigo et MSDMA du laboratoire CEDRIC (http://cedric.cnam.fr/). Plusieurs enseignants-chercheurs, doctorants et post-doctorants du CEDRIC travaillent sur l’apprentissage profond et certains sur les GANs.

Document attaché : stageSGAN.pdf