MaDICS

Huitième édition du Symposium MaDICS (les inscriptions sont ouvertes !)

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Dates importantes :

Date limite d’inscription : ~~30 avril 2026~~ 7 mai 2026
Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda et à vous inscrire !
Inscrivez-vous ici

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…

Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.

Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus…
Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus…
Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus…
Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…

Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS

Apr

Tue

2018

NLP/Machine learning pour le domaine RH

Tickets

Apr 10 – Apr 11 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Myriad
Durée : a partir de 2 mois
Contact : mohammad@myriad-data.com
Date limite de publication : 2018-04-10

Contexte :
Aujourd’hui, 95% des RH regarde le processus de transformation
digitale comme une opportunité de développement de leur métier (Unow,
2017). En 2017 on constate que 49% des entreprises prévoient, dans un
futur proche, d’utiliser l’intelligence artificielle pour recruter
(Deloitte, 2017). Pour finir, 71% des RH sont intéressés par la
puissance d’analyse des outils digitaux RH.

D’une part on constate un marché compétitif avec une quête de
performance couplée à une période de croissance et d’autre part, on
réalise que 70% des candidatures aux annonces ne correspondent pas au
poste à pourvoir et 80% des postulant sont des candidats passifs
(Undercover Recruiter, 2017). Dans ce contexte, le recrutement, étant
une des taches chronographe du Responsable RH, s’est transformé en un
des premiers soucis des entreprises.

L’idée est d’optimiser le processus de recrutement à l’aide d’une
solution d’intelligence artificielle. Cette solution fait une
présélection qui fera un gain de temps considérable au recruteur et
lui permettra de se concentrer entièrement sur ses compétences. Outre
la mise en correspondance des annonces et des candidats, il peut être
utilisé aussi, tel un outil d’aide à la validation d’annonce. Si pour
une offre donnée, l’outil ne propose pas un nombre suffisant de
candidat pertinent, le RH ou d’autres instances décisionnaires,
pourraient reformuler ou revoir celle-ci offre afin d’agrandir
l’audience ciblée.

Sujet :
Le but de ce stage est d’utiliser les techniques de ” NLP ” dans la caractérisation et la mise en correspondance des candidats et des offres d’emplois.

Questions scientifiques et techniques

L’objectif de ce stage est de répondre aux question suivantes :

1. Trouver dans les données, les caractéristique (features) qui
permettent d’identifier les concepts présents dans un profil ou une
annonce. Identifier et les relations inter-concepts.

2-Combiner des modèles supervisés et non-supervisés en-ligne pour
trouver les meilleurs candidats à une annonce. Mettre en œuvre des
modèles de classification de candidat utilisant les modèles de Deep
Learning et comparer avec les solutions alternatives.

3-Construire un référentiel métier-compétences très innovant et évolutif

4-Comment évaluer ces modèles et quantifier l’incertitude de leurs résultats.

Profil du candidat :
Stage école d’ingénieur/M1 ou M2

Formation et compétences requises :
Informatique/Mathématique/Statistique

Adresse d’emploi :
16 rue Pierre Cherest,
92200 Neuilly-sur-Seine

Document attaché :

Categories: Stages

NLP/Machine learning pour le domaine RH

Tickets

Apr 10 – Apr 11 all-day

Annonce en lien avec l’Action/le Réseau : Formation

Laboratoire/Entreprise : Myriad
Durée : a partir de 2 mois
Contact : mohammad.@myriad-data.com
Date limite de publication : 2018-04-10

Contexte :
Une des mission de la Responsable RH est sélectionner les candidats pertinents pour les postes à pourvoir, proposer des parcoursattractifs aux salariés et favoriser un environnement de travail épanouissant pour les collaborateurs. Cependant, certaines tâches chronophages, telles que la présélection (premier tri) de curriculum vitae, le détournent de son cœur de métier.

Cette problématique de présélection de candidats et d’évaluation de la pertinence de candidature par rapport à un besoin peut être assimilée à la conception d’un moteur de recherche ayant comme requêtes des offres de travaux et proposant les profils professionnels associés. Outre la mise en correspondance des offres de travaux et des profils professionnels, fonctionnalité principale du dispositif, il peut être utilisé aussi, comme un outil d’aide à la validation des offres de travaux. Ceci lui permet d’assister le Responsable RH à parfaire son
offre en améliorant son efficacité par la restitution, pour validation, des concepts (et leurs importances ou forces) contenus dans l’offre. La performance de l’offre pourra aussi se mesurer sur un jeu de test choisi. Le projet vise à répondre aux besoins internes de l’entreprise tels que la mobilité et la gestion de carrière et externes tel que le recrutement de candidat.

Sujet :

Le but de ce stage est d’utiliser les techniques de ” NLP ” dans la caractérisation et la mise en correspondance des candidats et des offres d’emplois.

Questions scientifiques et techniques

L’objectif de ce stage est de répondre aux question suivantes :

1. Trouver dans les données, les caractéristique (features) qui
permettent d’identifier les concepts présents dans un profil ou une
annonce. Identifier et les relations inter-concepts.

3-Construire un référentiel métier-compétences très innovant et évolutif

4-Comment évaluer ces modèles et quantifier l’incertitude de leurs résultats.

Profil du candidat :

Formation et compétences requises :
École d’ingénieur/M1 ou M2 en Informatique/Mathématique/Statistique

Adresse d’emploi :
16 rue Pierre Cherest,
92200 Neuilly-sur-Seine
Fixe : +33(0) 1 85 73 59 52

Document attaché :

Categories: Stages

Apr

Tue

2018

Stage de recherche (fouille de données/échantillonnage)

Tickets

Apr 17 – Apr 18 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : GREYC CNRS UMR 6072
Durée : 5 mois
Contact : albrecht.zimmermann@unicaen.fr
Date limite de publication : 2018-04-17

Contexte :

Dans le contexte du projet DECADE (Découverte et exploitation
des connaissances pour l’aide à la décision en chimie thérapeutique),
l’équipe CoDaG du laboratoire GREYC CNRS UM 6072 de l’université Caen
Normandie et l’équipe BdTln de l’université de Tours offre un stage
de recherche pour des masters 2ème année ou équivalent.

Le criblage à haut débit (high-throughput screening en anglais, HTS)
est devenu un processus incontournable pour trouver des molécules
prometteuses (i.e. des molécules ayant une activité envers certaines
cibles) pouvant ensuite donner lieu à des médicaments. Malheureusement,
le criblage fait aussi ressortir des molécules promiscues les “PAINS”
(Pan Assay Interference Compounds) qui ne conduiront pas à des
médicaments car pouvant présenter une certaine toxicité.
L’identification d’un PAINS in silico est difficile et, de plus,
des articles scientifiques décrivent comme prometteuses des molécules
qui sont en réalité des PAINS. Du point de vue des avancées en
chimie thérapeutique, le projet DECADE vise à l’identification
de nouveaux PAINS et à leur caractérisation.

Un défi de ce problème est que les PAINS ne sont pas précisément
définis. Nous disposons déjà d’un modèle créé à partir des “frequent
hitters”, des molécules qui montrent de l’activité envers plusieurs
cibles, mais il n’est pas clair qu’elles soient équivalentes aux PAINS.
Le but de ce stage est ainsi d’utiliser les connaissances d’experts
afin de valider ou corriger l’étiquetage des candidats PAINS.

Sujet :
Le travail va partir d’une approche pour étiqueter des données de type
itemsets à partir des retours des utilisateurs experts à des motifs qui
leur sont présentés au fur et à mesure. Le ou la stagiaire va adapter la
technique existante afin d’utiliser des motifs séquentiels/graphes, des
données graphes. En plus, elle ou il va préparer et mettre en oeuvre une
étude expérimentale afin d’évaluer l’approche développée.

Profil du candidat :
Le ou la candidat(e) devra avoir des connaissances en fouille de données
(fouille de séquences, fouille de graphes). Des bonnes compétences en
méthodes statistiques seraient appréciées. Des compétences en
programmation sont nécessaires.

Formation et compétences requises :
Master informatique

Adresse d’emploi :

Encadrant: Albrecht Zimmermann, Arnaud Soulet

Contact: albrecht.zimmermann@unicaen.fr

Document attaché :

Categories: Stages

Stage de recherche (fouille de données/programmation par contraintes)

Tickets

Apr 17 – Apr 18 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : GREYC CNRS UMR 6072
Durée : 5 mois
Contact : albrecht.zimmermann@unicaen.fr
Date limite de publication : 2018-04-17

Contexte :
Dans le contexte du projet DECADE (Découverte et exploitation
des connaissances pour l’aide à la décision en chimie thérapeutique),
l’équipe CoDaG du laboratoire GREYC CNRS UMR 6072 de l’université
Caen Normandie et l’équipe CA du laboratoire LIFO de l’université
d’Orléans offre un stage de recherche pour des masters 2ème année
ou équivalent.

Le criblage à haut débit (high-throughput screening en anglais, HTS)
est devenu un processus incontournable pour trouver des molécules
prometteuses (i.e. des molécules ayant une activité envers certaines
cibles) pouvant ensuite donner lieu à des médicaments. Malheureusement,
le criblage fait aussi ressortir des molécules promiscues les “PAINS”
(Pan Assay Interference Compounds) qui ne conduiront pas à des
médicaments car pouvant présenter une certaine toxicité.
L’identification d’un PAINS in silico est difficile et, de plus,
des articles scientifiques décrivent comme prometteuses des molécules
qui sont en réalité des PAINS. Du point de vue des avancées en chimie
thérapeutique, le projet DECADE vise à l’identification de nouveaux
PAINS et à leur caractérisation.

Une approche est déjà en place pour apprendre un modèle réprésentant
des possibles PAINS. Cette approche utilise des sous-graphes
discriminants et un ensemble d’arbres de décision. La prochaine étape
consiste à exploiter les retours des experts afin de modifier à la fois
les sous-graphes fouillés et les arbres sans relancer le processes
d’apprentissage.

Sujet :
Le travail dans ce stage est fondé sur une méthode de programmation
par contraintes pour modifier minimalement un clustering en fonction
des retours d’utilisateurs. La tâche exige la définition des contraintes
sur des (ensembles de) graphes/arbres, le développement d’un mécanisme
pour obtenir des retours des experts et une méthode pour traduire
ces retours en contraintes.

Profil du candidat :
Le ou la candidat(e) devra avoir des connaissances en fouille de données
(fouille de graphes) et en programmation par contraintes. Des
compétences en programmation sont nécessaires.

Formation et compétences requises :

Adresse d’emploi :

Encadrants : Albrecht Zimmermann, Christel Vrain

Contact : albrecht.zimmermann@unicaen.fr

Document attaché :

Categories: Stages

May

Tue

2018

Automatic ontology learning and semantic search in HR domain

Tickets

May 1 – May 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Societé ALTEN et labo IRISA Rennes
Durée : 6 mois
Contact : zoltan.miklos@irisa.fr
Date limite de publication : 2018-05-01

Contexte :
Le Responsable RH a pour mission de sélectionner les candidats pertinents pour les postes à pourvoir, proposer des parcours attractifs aux salariés et favoriser un environnement de travail épanouissant pour les collaborateurs. Cependant, certaines tâches chronophages, telles que la présélection (premier tri) de curriculum vitae, le détournent de son cœur de métier. A titre d’exemple, Google recevrait chaque semaine 75 000 CV.
Cette problématique de présélection de candidats et d’évaluation de la pertinence de candidature par rapport à un besoin peut être assimilée à la conception d’un moteur de recherche ayant comme requêtes des offres de travaux et proposant les profils professionnels associés.
Outre la mise en correspondance des offres de travaux et des profils professionnels, fonctionnalité principale du dispositif, il peut être utilisé aussi, comme un outil d’aide à la validation des offres de travaux. Ceci lui permet d’assister le Responsable RH à parfaire son offre en améliorant son efficacité par la restitution, pour validation, des concepts (et leurs importances ou forces) contenus dans l’offre. La performance de l’offre pourra aussi se mesurer sur un jeu de test choisi.
Le projet vise à répondre aux besoins internes de l’entreprise tels que la mobilité et la gestion de carrière et externes tel que le recrutement de candidat.

Sujet :
Elaboration d’un modèle d’extraction et de représentation des connaissances des profils professionnels et des offres permettant d’effectuer des recherches sémantiques sur ces derniers. Ce projet s’inscrit dans la continuité des travaux de 3 projets réalisés par ALTEN (3 * 6 mois) et qui ont eu pour objectif d’exploiter le TALN (NLP), le web sémantique et l’apprentissage automatique pour extraire et hiérarchiser des concepts permettant la représentation des profils professionnels et des offres en vue de les mettre en correspondance.
Ce projet est une démarche concurrente à plusieurs projets ALTEN avec la même finalité mais basés sur des méthodes classiques. L’objectif sera aussi d’avoir une approche « comparée ».

Questions scientifiques et techniques

L’objectif des études à mener est de répondre aux incertitudes suivantes :
1. Comment identifier automatiquement les concepts présents dans un profil ou une offre ? Et comment extraire les relations inter-concepts?
2. Comment évaluer la performance du dispositif par rapport à ses enjeux ?
3. Concevoir et mettre en œuvre une méthode d’évaluation des distances entre concepts ? et concevoir un modèle de représentation tenant compte des relations inter-concepts et des distances entre ces derniers ?
4. Concevoir et mettre en œuvre une méthode de recherche (mise en correspondance entre les offres de poste et les profils professionnels)

Profil du candidat :
Profil d’un eleve qui voudrait continuer en these

Formation et compétences requises :
Master en Informatique orienté recherche

Adresse d’emploi :
Société ALTEN
12 Rue du Patis Tatelin, 35000 Rennes

Document attaché : Proposition-de-stage-Master-Recherche-Rennes-1.pdf

Categories: Stages

Deep learning based semantic search applied to recruitment platforms

Tickets

May 1 – May 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Societé ALTEN et labo IRISA Rennes
Durée : 6 mois
Contact : zoltan.miklos@irisa.fr
Date limite de publication : 2018-05-01

Sujet :
L’enjeu principal est d’évaluer l’utilisation des techniques de « deep learning » dans la caractérisation et la mise en correspondance des profils professionnels et des offres de poste.
Ce projet est une démarche concurrente à plusieurs projets ALTEN avec la même finalité mais basés sur des méthodes classiques. L’objectif sera aussi d’avoir une approche « comparée ».

Questions scientifiques et techniques

L’objectif des études à mener est de répondre aux incertitudes suivantes :
1. Concevoir un/des modèles permettant l’extraction de connaissances à partir des profils professionnels et des offres.
2. Définir les critères de choix du corpus de profils destiné à l’apprentissage automatique.
3. Concevoir et mettre en œuvre une méthode d’évaluation de la pertinence du/des modèles
4. Concevoir un/des modèles d’apprentissage interactif en utilisant les techniques du deep learning et du reinforcement learning (intégration de l’évaluation humaine suite à une recherche)

Profil du candidat :
profil d’un(e) candidat(e) qui s’oriente vers une these apres le master

Formation et compétences requises :
master en informatique orienté recherche

Adresse d’emploi :
Societé ALTEN
12 Rue du Patis Tatelin, 35000 Rennes

Document attaché : Proposition-de-stage-Master-Recherche-Rennes-2.pdf

Categories: Stages

May

Sat

2018

Capturing twitter streams for opinion mining on airport noise

Tickets

May 5 – May 6 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ETIS / University of Cergy Pontoise
Durée : 6 mois
Contact : Dimitrios.Kotzinos@u-cergy.fr
Date limite de publication : 2018-05-05

Contexte :
This work is part of the EU-funded research project ANIMA.

Sujet :
Understanding the opinion of the users on specific matters (like events, public issues/debates, other people) is a hard task to be done automatically and for any event. But with the expansion of social media use, we have a source of information where people express (sometimes passionately) their opinions and participate in discussions, which we can track as they happen. Recently, social media are used to substitute traditional surveying methods like on the spot interviews or phone or web surveys. In this project, we plan to do the same but to limit our research on users who live in the area of the airport and discuss about noise problems emanating from the landing and takeoff of aircraft.
The collected information can be used in several ways:
(1) At the social media level, we can monitor discussions and exchanges over airport generated noise issues and try to understand if there are particular events that concern the users. We can analyze both the volume of a conversation in terms of numbers of posts and users but also the connections among these users (their social graph) and understand the possible influences and influencers.
(2) Tracking events through discussions on social media would allow us to also understand whether something out of the ordinary has happened and how the involved parties are reacting to this (e.g. through increased number of posts, etc.). This would require real time monitoring of the users’ interactions on social media.
The main goal of the work in this project will be the setup of a customizable platform that will be able to capture the stream of relevant tweets generated by the users, store it offline, identify the users involved in the discussions and build the social networks of discussions around them. Also we would like to characterize the discussions based on location and relevance to the subject of our research (airport noise).
We will do this by applying text mining and information retrieval techniques, combined with opinion mining techniques from social media texts and network analytics in order to analyze and build the correct social graph of the involved users.

Profil du candidat :
We are looking for a 2nd year Master Student (M2) that wants to do a 6-month internship with us. This can be combined with his/her master thesis.

Formation et compétences requises :
The position will be opened until filled. Starting date ideally is 01/04/2018. Apply by sending an e-mail with your CV, recommendation letters and grades for at least the 1st and 2nd year of the Master (M1 and M2) to:
Dimitrios.Kotzinos@u-cergy.fr

Adresse d’emploi :
MIDI team
Lab. ETIS UMR 8051
University of Paris-Seine, University of Cergy-Pontoise, ENSEA, CNRS
& Dept. Sciences Informatiques, Université de Cergy-Pontoise
2 av. Adolphe Chauvin
Site Saint Martin, bureau A561
95000 Pontoise
France

Document attaché : Description_stage_twitter_noise_final.pdf

Categories: Stages

Jun

Fri

2018

MaDICS : Réunion bureau @ Visio-conf Rendez-vous

Tickets

Jun 8 @ 16:00 – 17:30

Categories: Réunions Direction

Jun

Fri

2018

Analysis and prediction of wavelet and filter-bank frames performance for machine learning

Tickets

Jun 15 – Jun 16 all-day

Annonce en lien avec l’Action/le Réseau : Formation

Laboratoire/Entreprise : IFP Energies nouvelles.
Durée : 5 months
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2018-06-15

Contexte :
Details:
http://www.laurent-duval.eu/lcd-2018-intern-transform-classification.html

IFP Energies nouvelles (IFPEN) is a major research and training player in the fields of energy, transport, and environment. From research to industry, technological innovation is central to all its activities, structured around three strategic priorities: sustainable mobility, new energies, and responsible oil and gas. As part of the public-interest mission with which it has been tasked by the public authorities, IFPEN focuses on: (a) providing solutions to take up the challenges facing society in terms of energy and the climate, promoting the transition towards sustainable mobility and the emergence of a more diversified energy mix; (b) creating wealth and jobs by supporting French and European economic activity, and the competitiveness of related industrial sectors

Sujet :
We wish to study large datasets of experimental data (e.g. physico-chemical spectral signals, microscopy or geophysical subsurface images) toward clustering, classification and learning. When data satisfy regularity properties, they often admit sparse or compressible representations in a judicious transformed domain: a few transformed coefficients provide accurate data approximation. Such representations, like multiscale or wavelet transforms, are beneficial to subsequent processing, and they form the core of novel data processing methodologies, such as Scattering networks/transforms (SN) or Functional Data Analysis (FDA). Due to the variety of such transforms, without prior knowledge, it is not evident to find the most suitable representation for a given set of data. The aim of this subject is to investigate potential relations between transform properties and data compressibility on the one hand, and classification/clustering performance on the other hand, especially with respect to the robustness to shifts/translations or noise in data features, with matters in experimental applications. Rooting on a recent work, the first objective is to develop a framework to allow the use of different sparsifying transformations (bases or frames of wavelets and multiscale transformations) at the input of reference SN algorithms. This will permit to evaluate the latter on a variety of experimental datasets, with the aim of choosing the most appropriate, both in terms of performance and usability, since the redundancy in transformations may hinder their application to large datasets. A particular interest could be laid on complex-like transformations, that may improve either the sparsification or ”invariance properties” in the transformed data. Their importance has been underlined recently for deep convolutional networks. Then, starting from real data, the trainee will develop realistic models reproducing the expected behaviors in the data, for instance related to shifts or noise. Finally, the relative clustering/classification performances will be assessed with respect to different trans- formation choices, and their impact on both realistic models and real data. A particular interest could be laid on either transform properties (redundancy, frame bounds, asymptotic properties) or the resulting data multiscale statistics.

Sparse-domain data (signal/image) processing for classification and learning: basis/frame influence and selection
in designing and training scattering networks with experimental data (geosciences, chemistry)

Profil du candidat :
Second/third year engineering school and/or master of science with strong skills and curiosity in signal/image
processing, statistics, machine learning, applied mathematics.

Formation et compétences requises :
Applicants should provide a resume and a
motivation letter emphasizing prior knowledge related to the subject (esp. learning and sparsifying transforms).

Adresse d’emploi :
Rueil-Malmaison (Paris suburbs), France

Document attaché : IFPEN_2018_SUBJ_Internship-Multiscale-complex.pdf

Categories: Stages

Jun

Sat

2018

Apprentissage du comportement, cas du jeu vidéo

Tickets

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube
Durée : 6 mois
Contact : nicolas.lachiche@unistra.fr
Date limite de publication : 2018-06-30

Contexte :
Dans le cadre d’un projet entre les équipes SDC et CSTB du laboratoire ICube, à Strasbourg, nous travaillons sur l’apprentissage de comportements et souhaitons dans un premier temps étudier le cas du jeu vidéo.

Sujet :
L’étudiant étudiera la combinaison de travaux récents dans nos deux équipes.

Profil du candidat :
Informaticien ou data scientist

Formation et compétences requises :
Des compétences et expériences en intelligence artificielle et plus particulièrement en machine learning, seront appréciées.

Adresse d’emploi :
ICube
300 bd Brant
67412 Illkirch

Document attaché :

Categories: Stages

Jul

Sun

2018

Caractérisation de motifs du plissement cortical par apprentissage automatique sur graphes.

Tickets

Jul 1 – Jul 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Institut de Neurosciences de la Timone, Marseille
Durée : 4-6 mois
Contact : sylvain.takerkart@univ-amu.fr
Date limite de publication : 2018-07-01

Contexte :
En neurosciences, caractériser la forme du cerveau est un domaine scientifique primordial pour la compréhension des processus du développement cérébral et des anomalies de forme observées dans les maladies psychiatriques et neurologiques. Pour cet objectif, il est connu que l’étude du plissement cortical en gyrus et sillons est particulièrement pertinente.

Nous avons récemment développé une nouvelle méthode qui permet de mener à bien des études de morphologie cérébrale au travers de l’étude de motifs locaux du plissement cortical mesuré en imagerie par résonance magnétique (IRM) [1]. Dans cette méthode, l’organisation spatiale de tels motifs est modélisée sous forme de graphes attribués comme illustré sur la figure 1, ce qui demande le développement d’outils quantitatifs pour permettre de les caractériser. Dans cet article, ceci est fait en introduisant un nouveau noyau de graphe, ce qui permet d’envisager l’utilisation des nombreuses méthodes à noyaux pour répondre à des questions variées telles que la classification, la régression etc.

[1] Structural Graph-Based Morphometry: a multiscale searchlight framework based on sulcal pits
S Takerkart, G Auzias, L Brun, O Coulon – Medical Image Analysis, 2017

Sujet :
Ce stage visera donc à poursuivre ce travail, avec plusieurs objectifs complémentaires :
– au niveau méthodologique, il faudra développer des outils pour faciliter l’interprétation des résultats ; pour cela, nous envisageons de nous tourner vers des méthodes d’apprentissage automatique de type manifold learning, kernel regression.
– au niveau logiciel, il faudra implémenter ces outils en python.
– au niveau applicatif, le stagiaire appliquera ces nouveaux outils sur des données disponibles à l’INT comprenant plus de 1000 IRM pour lesquelles les graphes ont déjà été calculés, afin de détecter des marqueurs précoces du développement sain (chez une population de jeunes enfants) et pathologiques (en essayant de caractériser les déficiences chez des patients autistes).

Profil du candidat :
M2 ou élève ingénieur.e dernière année

Formation et compétences requises :
Compétences requises:
– apprentissage statistique, classification (par ex. Support Vector Machines, deep learning…)
– notions de traitement d’image et d’imagerie médicale
– bon niveau en programmation (python)
– bon niveau en anglais
– pas besoin de connaissances en neurosciences, mais un intérêt pour le contexte est bien sûr nécessaire.

Adresse d’emploi :
Institut de Neurosciences de la Timone
27 bvd Jean Moulin
13005 Marseille

Document attaché :

Categories: Stages

Développement d’un modèle prédictif de récupération après traumatisme crânien sévère.

Tickets

Jul 1 – Jul 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Institut de Neurosciences de la Timone, Marseille
Durée : 4-6 mois
Contact : sylvain.takerkart@univ-amu.fr
Date limite de publication : 2018-07-01

Contexte :
Aujourd’hui la prise en charge des patients admis en réanimation après un traumatisme crânien sévère est soumise à la grande incertitude sur la récupération à long terme. Dans ce contexte, l’accès à des outils diagnostiques et pronostiques fiables et performants est un progrès majeur qu’accompagne la start-up BrainTale (http://www.braintale.fr/) en collaboration avec le groupe COMA, groupe de recherche associant le département d’anesthésie-réanimation de l’Hôpital de la Pitié-Salpêtrière (APHP, Paris) et le Laboratoire d’Imagerie Biomédicale (Sorbonnes Université, Paris), et avec l’équipe MECA de l’Institut de Neurosciences de la Timone (INT, Marseille; http://www.meca-brain.org/). L’approche innovante proposée aujourd’hui se base sur un traitement calibré des données d’IRM permettant des mesures robustes d’altérations microstructurelles cérébrales à partir de descripteurs définis a priori et de solutions d’apprentissage statistique adaptées se nourrissant d’une base de données de patients cérébrolésés unique au monde.

Sujet :
Dans la continuité de ces travaux, ce stage s’inscrit dans une collaboration entre l’équipe MECA et BrainTale qui se base sur la combinaison de connaissances en neurosciences et de méthodes d’intelligence artificielle innovantes. Le projet du / de la stagiaire consistera à améliorer le modèle pronostic existant en développant un nouveau pipeline basé sur une extraction de caractéristiques aléatoire et une stratégie ensembliste d’apprentissage. Le stage se déroulera à Marseille au sein de l’INT.

Ce travail pourra éventuellement donner suite à une prolongation dans le cadre d’une thèse CIFRE.

Profil du candidat :
M2 ou ingénieur dernière année

Formation et compétences requises :
Compétences requises :
– apprentissage statistique, classification (par ex. Support Vector Machines, deep learning…)
– très bon niveau en programmation (python ou C/C++)
– bon niveau en anglais
– notions de traitement d’image et/ou d’imagerie médicale
– pas besoin de connaissances en neurosciences, mais un intérêt pour le domaine serait un plus.

Adresse d’emploi :
Institut de Neurosciences de la Timone
27 boulevard Jean Moulin
13005 Marseille

Document attaché :

Categories: Stages

Dec

Sat

2018

Segmentation de queues de marées au voisinage de galaxies en interaction

Tickets

Dec 1 – Dec 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube & Observatoire de Strasbourg
Durée : Mars 2019 -July 2019
Contact : mireille.louys@unistra.fr
Date limite de publication : 2018-12-01

Contexte :
Les algorithmes de détection classiques, tels Sextractor, ont été développés pour dépister les sources relativement compactes, mais pas les structures ayant un S/N par pixel très faible. Ont toutefois émergé récemment de nouveaux algorithmes ad hoc, aptes à connecter des pixels appartenant au même objet, en particulier NoiseChisel
(https://www.gnu.org/software/gnuastro/manual/html_node/NoiseChisel.html) , Akhlaghi and Ichikawa [2015]. Basé sur des techniques de dilation et érosion, NoiseChisel est particulièrement rapide et performant pour dépister des structures très faibles par rapport au fond du ciel. L’étape suivante de segmentation des objets (séparation de galaxies se chevauchant, de régions physiquement distinctes au sein d’une même galaxie, ou de halos d’étoiles d’avant plan contaminant les galaxies) reste toutefois imprécise et nécessite des ajustements fins manuels particulièrement fastidieux.

Sujet :
L’objet du stage est d’améliorer l’étape de segmentation à l intérieur des zones considérées comme objets, d’utiliser les cartes construite par NoiseChisel pour segmenter le fond de ciel et de cartographier les sous structures de type queues de marées, coquilles, halo, bulbe, etc, par une segmentation markovienne en quad-arbre, appliquée aux pixels des régions annotées comme objet par rapport au ciel.
Les régions détectées pourront ensuite être comparées aux annotations fournies par les astronomes experts.

Profil du candidat :
Niveau Master 2 , en traitement d’images , science des données ou en astrophysique.

Formation et compétences requises :
Des candidats ayant de solides compétences en analyse de données, traitement du signal et des images et en mathématiques appliquées sont attendus. Une formation en astrophysique est également un plus. Des compétences en programmation informatique sont indispensables.

Adresse d’emploi :
Laboratoire Icube , Pole Api ,
300 Bd Sébastien Brant, 67400 Illkirch-Graffenstaden
and
Observatoire de Strasbourg , 11, rue de l Université , 67000 Strasbourg

Document attaché : Stage3MasterAstro-IPSEO-2018-11-19.pdf

Categories: Stages

Dec

Wed

2018

Détection des valeurs manquantes déguisées et redressement des dépendances fonctionnelles

Tickets

Dec 12 – Dec 13 all-day

Annonce en lien avec l’Action/le Réseau : ARQUADS

Laboratoire/Entreprise : Laboratoire d’Informatique et des Systèmes (LIS UMR CNRS 7020), Marseille
Durée : 4 à 5 mois
Contact : Noël Novelli (noel.novelli@lis-lab.fr) et Laure Berti-Equille (laure.berti@lis-lab.fr)
Date limite de publication : 20181212

Contexte :
Le stage se déroulera au LIS à Marseille dans le cadre du projet ANR QualiHealth financé par l’ANR (2018-2022) qui s’intéresse à la qualité des données de Santé en partenariat avec l’Institut Cochin, l’Hôpital Européen Georges-Pompidou, les laboratoires de recherche LIRIS (porteur), LIMOS et la société Gnubila.

Sujet :
Les valeurs manquantes “déguisées” [1] sont des valeurs par défaut utilisées à tort et par obligation pour remplacer des valeurs à l’origine manquantes pour lesquelles l’utilisateur ne connaît pas ou ne souhaite pas renseigner la vraie valeur. Par exemple, lors de la saisie d’un formulaire, de nombreux utilisateurs noteront le 1er janvier par défaut comme date de naissance sur le champs imposé par le formulaire. On pourra alors éventuellement observer que la distribution des valeurs de dates de naissances est quelque peu “anormale” mais comment identifier, de façon automatique dans les données, les personnes qui sont vraiment nées le 1er janvier et les distinguer des autres ? Comment corriger les données erronées ? Des approches ont été proposées pour cela [2] et certaines reposent sur la découverte de dépendances fonctionnelles dans les données [3]. Cependant, elles ne sont pas robustes au problème des valeurs manquantes “déguisées”.
L’objectif du stage consistera donc à prendre du recul sur ces approches pour proposer une solution plus robuste. Il sera demandé au (à la) candidat(e) retenu(e) de réaliser un état de l’art des approches actuelles avec leurs implémentations et de proposer une solution robuste. Cette solution sera implémentée et testée sur des données réelles et synthétiques. Enfin, elle sera comparée aux approches existantes en mettant en place des expérimentations adéquates.

Références
[1] R. K. Pearson. The problem of disguised missing values. SIGKDD 2006. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.443.6794&rep=rep1&type=pdf
[2] M. Hua and J. Pei. Cleaning Disguised Missing Data: A Heuristic Approach. KDD 2007. https://www.cs.sfu.ca/~jpei/publications/dmv-kdd07.pdf
[3] L. Berti-Équille, H. Harmouch, F. Naumann, N. Novelli, S. Thirumuruganathan, Discovery of Genuine Functional Dependencies from Relational Data with Missing Values. Proceedings of VLDB 2018. http://www.vldb.org/pvldb/vol11/p880-berti-equille.pdf

Profil du candidat :
Etudiant(e) de Master 2 ou de dernière année d’école d’ingénieur sur un cursus d’informatique.
Bon niveau en informatique et plus précisément en bases de données, analyse des données et algorithmique.
Bon niveau en Python.
Bon niveau de communication scientifique à l’écrit et oral, notamment en anglais.

Formation et compétences requises :
L’étudiant retenu devra présenter de bonnes compétences dans le domaine des systèmes de gestion de données massives, l’analyse des données et l’algorithmique. Elle ou il devra avoir un très bon cursus universitaire et une forte motivation pour la recherche afin de permettre une éventuelle poursuite en thèse à l’issue du stage.

Adresse d’emploi :
Laboratoire d’Informatique et des Systèmes (LIS UMR CNRS 7020)
Marseille

Document attaché :

Categories: Stages

Dec

Mon

2018

Organ detection in multi-modality medical images via deep domain adaptation

Tickets

Dec 31 2018 – Jan 1 2019 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Creatis – INSA-Lyon
Durée : 6 mois
Contact : razmig.kechichian@creatis.insa-lyon.fr
Date limite de publication : 2018-12-31

Contexte :
Organ detection and localization in medical images are important tasks in both clinical procedures and as an intermediate step in image analysis algorithms, such as image segmentation. Multi-modality methods are of particular interest for robust organ detection in heterogeneous datasets stored in PACS systems of healthcare and medical research centers. Such datasets are often of large size and diverse content challenging the task of efficient organ detection.

Sujet :
We seek a fast multi-modality object detection method capable of localizing up to 2 dozens of thoracic and abdominal organs in 3D radiological images (CT and MRI). Recent deep learning-based object detection methods [2-4] were proven to be very effective in the supervised setting where hundreds of annotated training examples are available for each object class. In medical imaging, such large annotated datasets are rare and annotations are expensive, therefore supervised deep learning methods that estimate millions of deep network parameters would fail.

Data augmentation techniques, both image transformation-based [8,12] and, more recently, GAN (generative adversarial network) -based [9-11] can help alleviate the lack of annotated data by generating additional examples similar to those in available training sets. On the other hand, annotations are often available and more abundant for certain image modalities, such as contrasted CT. Organ detectors learned on these source images could be transferred or adapted to target images, such as MRI, comprising similar anatomies by domain adaptation methods [1]. Existing domain adaptive object detection methods often adapt a learned classification and detection model by fine-tuning deep network parameters such as [5]. Recent adversarial approaches propose particularly interesting alternatives. In [7] for example, a convolutional neural network (CNN) -based detector learned on a source domain is adapted to the target domain through GAN-generated examples resembling the target domain carrying source labels and pseudo labels in the target domain. In [6], the supervised CNN detector is extended via 2 adversarial pathways to tackle image and instance-level shift in the target domain.

The aim of this project is therefore to study and propose an efficient cross-modality organ detection method for medical images capable of adapting supervised detectors learned in a source modality, possibly via data augmentation to counter the lack of annotated data, to a target modality, possibly in an adversarial manner.

Profil du candidat :
We are looking for a motivated collaborator capable of critical thinking, able to work autonomously as well as in a collective setting, having interest for medical imaging and good sense of responsibility (and humor ;). The candidate should be studying towards completing a master degree in computer science or a related engineering field. She should have a solid background in applied mathematics, image processing and computer science, in addition to good programming skills, preferably in Python programming language. A working knowledge of deep learning methods is necessary.

Formation et compétences requises :
See above.

Adresse d’emploi :
CREATIS – INSA-Lyon, bât. B. Pascal
7 avenue Jean Capelle 69100 Villeurbanne

Document attaché : sujet-stage-kechichian.pdf

Categories: Stages

Stage Data Scientist

Jan 4 – Jan 5 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : TRAXENS
Durée : 6 Mois
Contact : r.khouani@traxens.com
Date limite de publication : 01/04/2019

Contexte :
IOT for logistics, « Real Data for logistics excellence ».
Traxens fournit, collecte et distribue la meilleure donnée au monde sur les unités de transport logistiques, permettant à tous les acteurs du transport multimodal d’améliorer leurs coûts et d’optimiser leurs performances. Traxens a mené un programme de R & D de 3 ans pour développer une solution verticale comprenant le boitier connecté, la plateforme de données et les applications métiers afin de produire de la donnée en temps réel partout dans le monde et de la rendre la plus intelligente possible. CMA CGM, MSC et SNCF font confiance à Traxens et déploient sur leurs flottes logistiques depuis 2017. Nous rejoindre pour un stage c’est l’opportunité de découvrir le monde de l’IoT et ses applications B2B, s’intégrer dans une équipe jeune, solidaire et passionnée. Les opportunités de recrutement sont fréquentes.

Sujet :
L’objectif principal est de réaliser un algorithme prédictif sur la recommandation de zones d’intérêt (ZOI dans le vocabulaire Traxens) à partir de trajectoire GPS, mouvements, ouverture de porte, accélérations et tout autre donnée générée par le boitier TRAXENS.

L’algorithme devra permettre d’identifier automatiquement si une unité logistique (conteneur) entre/sort d’une ZOI et de quel type of ZOI il s’agit. (Exemple de types de ZOI : Port maritime, Dépôt, aire de chargement/déchargement etc …)

Missions :

Extraction de la donnée à partir de différentes sources,
Préparation de la donnée brute en donnée qualifiée,
Analyse statistique,
Établissement de modèles prédictifs,
Interprétation des résultats,
Optimisation et apprentissage en continue.

Littérature :
https://www.tandfonline.com/doi/citedby/10.1080/13658816.2015.1005094

https://www.sciencedirect.com/science/article/pii/S0198971515000587?via%3Dihub

https://link.springer.com/content/pdf/10.1007%2Fs40534-015-0079-x.pdf

Profil du candidat :
Vous possédez une maîtrise des langages scripts (Python, Scala, etc.).
Une première expérience en transport maritime ou logistique serait un plus.
Votre entourage vous décrit comme curieux et impliqué.Vous êtes bon communicant et aimer travailler en équipe.Vous aimez les challenges intellectuels auxquels vous trouvez des solutions innovantes grâce à votre excellente capacité d’analyse.

Formation et compétences requises :
Diplômé(e) d’une école d’ingénieur ou Master 2 en Intelligence Artificielle & Apprentissage Automatique ou Mathématiques informatiques/statistiques.

Adresse d’emploi :
Marseille

Document attaché : TRX-ANA-Offre-de-stage-data-scientist-20190127.pdf

Categories: Stages

Jan

Thu

2019

Generative Adversarial Networks pour le design génératif

Tickets

Jan 31 – Feb 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Centre d’études et de recherche en Informatique et Communications (CEDRIC) – Cnam Paris
Durée : 6 mois
Contact : michel.crucianu@cnam.fr
Date limite de publication : 2019-01-31

Contexte :
Les réseaux antagonistes génératifs (generative adversarial networks, GANs), introduits en 2014 par [5] sont des modèles génératifs qui cherchent à modéliser une distribution de probabilités à partir de données. Un GAN est basé sur la compétition entre deux composantes (le plus souvent des réseaux de neurones profonds), un « générateur » et un « discriminateur » . Le générateur produit des données candidates (par ex. des images) et le discriminateur cherche à déterminer si les données présentées sont issues de la « vraie » distribution ou non. Les données « authentiques » de départ servent à entraı̂ner le discriminateur avant le début de la compétition. Suit une étape d’apprentissage commune (à la fois pour le générateur et pour le discriminateur) durant laquelle le générateur cherche à tromper le discriminateur en produisant des candidats qui ressemblent de plus en plus aux données authentiques, alors que le discriminateur s’améliore aussi en essayant de détecter comme non authentiques tous les candidats produits par le générateur. Cette étape d’apprentissage étant connue pour être difficile et souvent instable, de nombreux travaux ont visé à améliorer la qualité de cet apprentissage, voir par ex. l’introduction des Wasserstein GAN [1, 6].

Sujet :
Les GANs sont principalement employés pour générer des images réalistes (visages, animaux, scènes, etc.), sans tenir compte de la structure interne de ces images, c’est à dire des objets présents et des relations entre ces objets. Quelques applications au design d’objets (voir par ex. [3]) emploient la même méthodologie pour la génération d’images d’objets. Utilisés dans [7] pour la génération d’objets 3D, les GAN produisent des objets qui sont des volumes composés de voxels (éléments de volume) mais suivant une approche similaire, qui ignore la structure interne de ces objets. Peu de travaux s’intéressent à la génération d’objets composés et emploient pour cela une architecture hiérarchique, voir par ex. [2].

Le premier objectif du stage proposé, correspondant à une première étape du travail, est d’évaluer des versions récentes des GAN, comme les Wasserstein GAN [1, 6], sur des images d’objets composés (constitués de composantes qui présentent des relations particulières entre elles), sans tenir compte de cette structure. Les résultats de cette phase doivent servir de référence aux développements ultérieurs.

Le second objectif du stage est de chercher à modéliser par apprentissage la structure des objets composés et à la prendre en compte lors du processus génératif. Les résultats issus de cette seconde phase du travail seront comparés à la référence obtenue lors de la première phase.

Suivant le temps disponible, il est envisageable de s’intéresser aussi à la séparation entre « style » et structure, suivant les idées de [4] ou [8].

[1] Martı́n Arjovsky, Soumith Chintala, and Léon Bottou. Wasserstein generative adversarial networks. In Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017, pages 214–223, 2017.
[2] Wei Chen, Ashwin Jeyaseelan, and Mark Fuge. Synthesizing designs with inter-part dependencies using hierarchical generative adversarial networks. In ASME 2018 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference, Quebec City, Canada, Aug 2018. ASME.
[3] Jaime Deverall. Using generative adversarial networks to design shoes : The preliminary steps. In New Product Design with Popular Fashion Style Discovery Using Machine Learning: Proceedings of the Artificial Intelligence on Fashion and Textiles (AIFT) Conference 2018, Hong Kong, July 3–6, 2018, 01 2018.
[4] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2414–2423, June 2016.
[5] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Proceedings of the 27th International Conference on Neural Information Processing Systems – Volume 2, NIPS’14, pages 2672–2680, Cambridge, MA, USA, 2014. MIT Press.
[6] Ishaan Gulrajani, Faruk Ahmed, Martı́n Arjovsky, Vincent Dumoulin, and Aaron C. Courville. Improved training of wasserstein gans. CoRR, abs/1704.00028, 2017.
[7] Jiajun Wu, Chengkai Zhang, Tianfan Xue, William T Freeman, and Joshua B Tenenbaum. Learning a probabilistic latent space of object shapes via 3d generative-adversarial modeling. In Advances in Neural Information Processing Systems, pages 82–90, 2016.
[8] Rui Zhang, Sheng Tang, Yu Li, Junbo Guo, Yongdong Zhang, Jintao Li, and Shuicheng Yan. Style separation and synthesis via generative adversarial networks. In Proceedings of the 26th ACM International Conference on Multimedia, MM ’18, pages 183–191, New York, NY, USA, 2018. ACM.

Profil du candidat :
Le (la) candidat(e) doit avoir une bonne maı̂trise du domaine de l’apprentissage statistique et de l’apprentissage profond, avec à la base de bonnes connaissances mathématiques. De bonnes capacités à programmer en Python sont également nécessaires, l’emploi de modèles d’apprentissage profond nécessitant l’utilisation de librairies comme TensorFlow, PyTorch, etc. avec portage du code sur GPU.
Envoyez vos candidatures (avec CV, lettre de motivation, notes obtenues) à Michel Crucianu, Marin Ferecatu et Nicolas Thome (courriels : prénom.nom@cnam.fr).

Formation et compétences requises :
Le (la) candidat(e) doit avoir une bonne maı̂trise du domaine de l’apprentissage statistique et de l’apprentissage profond, avec à la base de bonnes connaissances mathématiques. De bonnes capacités à programmer en Python sont également nécessaires, l’emploi de modèles d’apprentissage profond nécessitant l’utilisation de librairies comme TensorFlow, PyTorch, etc. avec portage du code sur GPU.
Envoyez vos candidatures (avec CV, lettre de motivation, notes obtenues) à Michel Crucianu, Marin Ferecatu et Nicolas Thome (courriels : prénom.nom@cnam.fr).

Adresse d’emploi :
Le stage débutera au printemps 2019 et durera 6 mois, sous la co-direction de Michel Crucianu, Marin Ferecatu (équipe Vertigo) et Nicolas Thome (équipe MSDMA).
Le stage se déroulera au CNAM Paris (http://www.cnam.fr/) dans les équipes de recherche Vertigo et MSDMA du laboratoire CEDRIC (http://cedric.cnam.fr/). Plusieurs enseignants-chercheurs, doctorants et post-doctorants du CEDRIC travaillent sur l’apprentissage profond et certains sur les GANs.

Document attaché : stageSGAN.pdf

Categories: Stages

Interpretability models for fault identification and diagnosis in connected manufacturing

Tickets

Jan 31 – Feb 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire LADIS du CEA LIST et CEDRIC -Cnam
Durée : 6 mois
Contact : pierre.blanchart@cea.fr
Date limite de publication : 2019-01-31

Contexte :
Modern factories operation and optimization rely on fine-grained monitoring of machines and products. Besides classical purposes such as energy optimization and smart production planning, there is a high demand for systems able to detect and isolate the location of faults occurring in production chains. Thus, there has been a tremendous effort to design computational intelligences able to represent the underlying dynamics of such complex systems, with the goal of detecting, identifying and possibly explaining the occurrence of faults while the system is in operation.

Sujet :
Within the teams of the CEA/LADIS, we have been investigating fault detection models working on a global set of engineered features extracted from sensor measurements at the workstations level. We deployed such models on several real life datasets, coming both from our projects partners and from fault detection challenges in which we participated. More recently, we have been looking into making the decision of those models interpretable, without impacting the performance of the original fault detection models. The purpose is to answer the following questions : ”Is there a fault ?”, ”where/when did it happen ?”, ”why did it happen ?”. While the first question is answered by the fault detection model itself, the two others cannot be answered without explaining/interpreting the decision taken by this model.
In this internship, we propose to build on the work realized in our teams to add interpretability to a specific class of models known as gradient boosted trees [1] that were used as fault detection models. Since they are decision tree-based models, they keep some interpretability in the sense that they analyze individual features sequentially, without any non-linear transformation of the original feature space. But, the trained models are nevertheless too heavy to be analyzed directly by a human operator. The expected task would thus be to design machine learning models that learn to interpret forests/tree based fault detection models learned on massive data and large feature spaces, and produce a human readable diagnosis related to a fault occurrence.
The data as well as the fault detection models would be provided to the candidate. Preliminary works regarding interpretability (including development code) have been performed [2], which would serve as a basis to start the internship. In particular, recurrent neural network-based sequential models [3] analyzing paths inside decision trees have been investigated as
a possible solution. The internship would be axed on investigating similar models, and, as such, is more leaned towards research than development.

[1] Tianqi Chen and Carlos Guestrin. 2016. XGBoost: A Scalable Tree Boosting System. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’16). ACM, New York, NY, USA, 785-794. DOI: https://doi.org/10.1145/2939672.2939785
[2] Blanchart P., Gouy-Pailler C. (2017) WHODID: Web-Based Interface for Human-Assisted Factory Operations in Fault Detection, Identification and Diagnosis. In: Altun Y. et al. (eds) Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2017. Lecture Notes in Computer Science, vol 10536. Springer.
[3] Sepp Hochreiter and Jürgen Schmidhuber. 1997. Long Short-Term Memory. Neural Comput. 9, 8 (November 1997), 1735-1780.

Profil du candidat :
The candidate should have a background in machine learning / deep learning and a general background in data/statistical analysis. Programming skills in a usual prototype language such as R, Matlab or Python are required as well. The internship is proposed for candidates following a master of science program.

Formation et compétences requises :
The candidate should have a background in machine learning / deep learning and a general background in data/statistical analysis. Programming skills in a usual prototype language such as R, Matlab or Python are required as well. The internship is proposed for candidates following a master of science program.

Adresse d’emploi :
The internship is to take place in the Laboratoire LADIS of the CEA LIST, located on the campus of Saclay, and will be co-supervised by Marin Ferecatu and Michel Crucianu from the VERTIGO Team of the CEDRIC – Conservatoire National des Arts et Métiers (CNAM). The internship is to last 5-6 months and is intended for master of science students in their second year. To apply, please send your candidature via email (curriculum + short cover letter) to pierre.blanchart@cea.fr and michel.crucianu@cnam.fr

Document attaché : stage_manufacturing.pdf

Categories: Stages

Stage : Building footprint detection in satellite imagery using deep learning and image segmentation

Tickets

Jan 31 – Feb 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube / Université de Strasbourg
Durée : 6 mois
Contact :
Date limite de publication : 2019-01-31

Contexte :
SERTIT, a service platform of ICube, known for its ISO certified rapid mapping service, is seeking to accelerate its mapping activities through artificial intelligence. This service assists in post-crisis emergency management (e.g. ground rescue, reconstruction efforts …).

Sujet :
– Users need to map buildings during rapid mapping after a disaster strikes
– Collaborate with research teams to transfer techniques from medical imaging to remote sensing
– Develop new innovative solutions to automatically extract building footprints using:
* Deep Learning
* Object based segmentation algorithms
* A combination of the above

Profil du candidat :
Undergraduate student of a computer science/geomatics degree or similar

Formation et compétences requises :
– Experience with the Python scientific computing ecosystem (Pandas, numpy, scikit-learn, scikit-image, etc.)
– Knowledge of Machine Learning workflows and techniques (e.g. best practices around training data management, understand basics of numerical optimization)
– Familiarity with Linux environments
– Have excellent communication skills and a strong team player
– Good knowledge of English, French is not mandatory
– Can-do attitude!

Adresse d’emploi :
ICube
300 boulevard Sébastien Brant
CS 10413
67412 Illkirch Cedex

Document attaché : Stage-2019-Offre-EN.pdf

Categories: Stages

Feb

Fri

2019

Simulation distribuée de modèles structure-fonction de plantes

Tickets

Feb 1 – Feb 2 all-day

Annonce en lien avec l’Action/le Réseau : ReProVirtuFlowFormation

Laboratoire/Entreprise : AGAP / Zenith
Durée : 6 mois
Contact : christophe.pradal@inria.fr
Date limite de publication : 2019-02-01

Contexte :
Pour satisfaire les demandes sociétales pour une agriculture plus durable et écologique dans un contexte de changement climatique, des modèles simulant la croissance et le fonctionnement des plantes (FSPM) sont
développés par la communauté scientifique. Les L-systèmes, un formalisme de grammaire formelle permettant
la réécriture efficace d’arborescences, se sont imposés dans la définition de ce type de modèle. Dans le cadre
de la plateforme libre OpenAlea, l’équipe M2P2 développe depuis plusieurs années le framework logiciel L-Py
qui combine les L-systems avec le langage de modélisation Python et permet de simuler efficacement des
modèles complexes. Cependant, le niveau de détails des modèles FSPM, généralement définis à l’échelle de
l’organe, induit une complexité et un temps de calcul prohibitif lorsqu’il s’agit de simuler le développement, le
fonctionnement et la compétition de couverts (centaines de plantes en interaction), même de taille modeste
(Evers, 2016). Une structure de donnée complémentaire de graphe multi-échelles, appelée MTG, permet la
manipulation d’une plante ou d’un ensemble de plantes à plusieurs niveaux d’abstraction permettant ainsi de
simplifier certains calculs. Pourtant la simulation d’un couvert reste difficilement accessible avec les
simulateurs actuels.

Sujet :
Le challenge auquel nous essayons de répondre est de simuler efficacement un ensemble de plantes variées en
interaction. Pour cela, il est nécessaire de se doter d’un formalisme permettant la distribution des calculs sur
des infrastructures de calcul parallèles (Pradal et al., 2017). L’objectif de ce stage est d’analyser différentes
stratégies de parallélisation pour simuler en 3D la croissance et le fonctionnement de peuplement sur
architecture à mémoire partagée, mais aussi en environnement distribué. Un des enjeux est d’adapter le
formalisme de modélisation pour permettre la communication et la synchronisation entre différents
composants de la simulation.
Le travail de l’étudiant(e) consistera en :
– Parallélisation du moteur de réécriture L-systèmes dans le logiciel L-Py
– Définition d’un protocole d’échange d’informations et de synchronisation entre différents composants de
la simulation.
– Formalisation d’une stratégie de distribution des calculs sur plusieurs machines ou clusters en utilisant les
MTGs.
– Définition de cas d’utilisations (Use Cases) pour analyser les performances des différentes approches de
parallélisation à partir de modèles existants (simulation de peuplement, couplage de modèle racinaire et
aérien de plante).

Profil du candidat :
– Informaticien(ne) avec un goût pour la simulation 3D des plantes. Aptitude à travailler en équipe.
– Bonne connaissance du C++ et Python.
– Connaissance en calculs parallèles et distribués.

Formation et compétences requises :
Master 2, Ecole d’ingénieur

Adresse d’emploi :
Montpellier

Document attaché : offre-stage-calcul-distribue-fspm-2019.pdf

Categories: Stages

April 2018 – February 2019 Apr 2018 – Feb 2019

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Présentation Générale

Manifestations à venir

Actions, Ateliers et Groupes de Travail :