
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : ETIS – ENSEA / Université de Cergy-Pontoise / CNRS
Durée : 6 mois
Contact : claudia.marinica@u-cergy.fr
Date limite de publication : 2016-04-30
Contexte :
Object: Internship Master / Engineer
Place: Paris Area, ETIS Lab, Université de Cergy-Pontoise, Cergy-Pontoise, France (http://www-etis.ensea.fr/)
Subject: Privacy in mining of semantic trajectories among moving objects
Period: 6 months internship from April/May to September/October 2015 – approx. 508€/month
Supervision:
– Dimitris Kotzinos, PU, UCP, Dimitrios.Kotzinos@u-cergy.fr
– Claudia Marinica, MCF, UCP, Claudia.Marinica@u-cergy.fr
Applications (with CV and motivation letter) should be sent to Claudia.Marinica@u-cergy.fr .
Sujet :
Description: Trajectory pattern mining proposes to extract from location-like data frequent movement/mobility behaviour that characterise the individuals. Significant advances have been made with regard to knowledge discovery starting with the pioneer work of Giannotti et al. in 2009 [2], so lately the main interest in this research area went from efficient trajectory pattern mining to the possible risks that the discovered movement behaviour can bring to individual privacy (e.g. GeoKDD project [1]).
On the other side, the semantic web is a research area aiming to provide an easy way to find, share, reuse, etc information. To this end, it proposed a set of languages for knowledge representation, but also defines important notion such as “ontologies” permitting to represent domain semantics.
First works combining semantic web and trajectory analysis propose either to use ontologies in order to understand user’s behaviour [3] or to use taxonomies in order to improve user’s privacy [4]. Moreover, we would like to assess the threats that the addition of semantics will bring to the users’ privacy through the provision of more detailed information for the movements.
The goal of this internship is:
(1) first to study the existing methods combining semantic web and trajectory analysis in order to (mainly) improve user’s privacy;
(2) second to propose a new approach for using semantic information on available trajectories so as to improve the overall understanding of the trajectories themselves, while offering enhanced privacy considerations.
Applications (with CV and motivation letter) should be sent to Claudia.Marinica@u-cergy.fr .
[1] Mirco Nanni, Roberto Trasarti, Chiara Renso, Fosca Giannotti, and Dino Pedreschi (2010) Advanced knowledge discovery on movement data with the GeoPKDD system. EDBT, ACM International Conference Proceeding Series, page 693-696. ACM.
[2] Fosca Giannotti, Mirco Nanni, Fabio Pinelli, and Dino Pedreschi. 2007. Trajectory pattern mining. In Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD ’07). ACM, New York, NY, USA, 330-339.
[2] C. Renso, M. Baglioni, J. A. F. de Macˆedo, R. Trasarti, and M. Wachowicz. How you move reveals who you are: understanding human behavior by analyzing trajectory data. Knowl. Inf. Syst., 37(2):331–362, 2013.
[2] Anna Monreale, Roberto Trasarti, Chiara Renso, Dino Pedreschi, and Vania Bogorny. 2010. Preserving privacy in semantic-rich trajectories of human mobility. 3rd ACM SIGSPATIAL International Workshop on Security and Privacy in GIS and LBS. 47-54.
Profil du candidat :
Knowledge in data mining techniques and programming skills are required.
Formation et compétences requises :
Knowledge in data mining techniques and programming skills are required.
Adresse d’emploi :
Laboratoire ETIS, UCP, 2 Avenue Adolphe Chauvin, 95300, Cergy-Pontoise
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : ForumPHP, 27 rue de la Rochefoucauld 75009 PARIS (2è étage)
Durée : 6 mois
Contact : veronique[ dot ]guillaumin[ @ ]forumhabitatprive[ dot ]org
Date limite de publication : 2017-02-10
Contexte :
Le Forum des Politiques de l’habitat privé (Forum PHP) est une association nationale créée en 2012. C’est un réseau de réseaux, un centre de ressources et une communauté de professionnels de l’habitat privé à destination principalement des collectivités territoriales.
De nombreuses collectivités territoriales sont en plein questionnement sur les opportunités (voire les limites) de notions telles que l’open-data, le big-data, le self-data et la constitution d’entrepôt de données et de data lakes. En matière de politique locale de l’habitat (compétence intercommunale), le rapport d’Etalab 2015 rend compte des données habituellement utilisées et sources mobilisées pour élaborer un diagnostic ou un observatoire de l’habitat (données relatives au parc, aux habitants, au marché de l’habitat, …).
Dans votre travail vous aurez des interactions avec des acteurs tels que les représentants des réseaux membres de l’association lors des réunions (mensuelles à trimestrielles) des 5 groupes de travail thématiques, du comité technique trimestriel, du conseil d’administration trimestriel
Sujet :
Vous travaillerez sur la modélisation des données et sur la conception d’un outil pour le diagnostic data d’un territoire afin de proposer une vision 360° pour l’aide à la décision pour les acteurs des politiques de l’habitat. Ce travail reposera spécifiquement sur la construction d’indicateurs pertinents, de leur présentation sous forme de tableau de bord et de la valorisation au travers de modules de visualisation sur des preuves de concepts (POC) répondant à la problématique d’enrichissement des politiques locales de l’habitat.
Il est donc proposé de partir d’une politique publique, l’habitat, compétence intercommunale, pour montrer le champ des possibles.
1- Proposer et valider une approche méthodologique pour dresser l’inventaire des données présentes sur un territoire, urbain ou rural, tous canaux confondus.
2- Etablir une cartographie producteurs/consommateurs de ces données mettant en lumière le cycle qui peut s’établir de la donnée brute à la valeur en passant éventuellement par une étape d’enrichissement et/ou augmentation.
3- Construire des cartes de maturité data pour la mesure du potentiel d’innovation orientée sur les données dans un territoire.
Profil du candidat :
Science de l’information
Gestion des connaissances
Traitement de données
Formation et compétences requises :
Informatique, Système d’information
Adresse d’emploi :
Affectation structurelle : ForumPHP, 27 rue de la Rochefoucauld 75009 PARIS (2è étage)
Contact : Mme Véronique GUILLAUMIN veronique[ dot ]guillaumin[ @ ]forumhabitatprive[ dot ]org
Document attaché : sujet_stage_diagnostic_data_fphp.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : UMR 6281- Université de Technologie de Troyes
Durée : 6 mois
Contact : babiga.birregah@utt.fr
Date limite de publication : 2017-02-15
Contexte :
L’analyse des réseaux sociaux pour la gestion de crise est souvent limitée par la prise en compte les limitations des API. Par exemple dans le cadre d’une stratégie de collecte à large spectre lors d’une crise généralisée il est souvent difficile de suivre simultanément toutes les thématiques tout en maîtrisant l’évolution des groupes de mots clés et thématiques dans les échanges. De plus l’émergence de nouvelles thématiques peut influencer la richesse et la pertinence des messages collectés.
Il est donc important de construire un moteur qui automatise (i) non seulement le suivi au fil de l’eau (et en ligne) de l’évolution des mots clés, (ii) mais aussi la détection de thématiques émergentes pour garantir la pertinence des paramètres de la collecte en cours.
Sujet :
Le ou la candidat(e) retenu(e) doit proposer une moteur de collecte large spectre de tweets capable de tourner sur une longue période sans interruption tout en adaptant les mots clés selon la trajectoire que prend l’événement en cours. Pour cela il ou elle devra mettre en place un algorithme de détection de thématiques d’intérêt qui permet de suggérer automatiquement des termes émergents pour adapter la collecte.
Profil du candidat :
Profil: Mathématiques/Inforatiques
Dossier de candidature : Le dossier de candidature doit être transmis uniquement par mail, à l’adresse suivante : babiga.birregah@utt.fr, en ajoutant dans l’objet la référence DL04- 1617.
Il doit contenir les pièces suivantes, sous format PDF:
– Une lettre de motivation indiquant clairement les expériences (stages, projets, etc.) en relation avec le stage
– Un CV contenant la liste des publications et autres réalisations (projets, logiciels, etc.)
Formation et compétences requises :
Compétences :
Gestion de base de données : PostgreSQL
Langages : Python / des connaissances en Java seraient un plus.
Bon relationnel et travail en équipe. Vous aurez à travailler avec les équipes du BRGM qui travaillent sur le suivi des catastrophes naturelles.
Poste à pourvoir : Stage Ingénieur/Master 2/Mastère Spécialisé
Adresse d’emploi :
Affectation structurelle : Université de Technologie de Troyes/ Equipe LM2S (UMR 6281)
Durée : 6 mois
Date de prise de fonction : Février 2017
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Inria Lille, CRIStAL
Durée : 6 mois
Contact : philippe.preux@univ-lille.fr
Date limite de publication : 2017-03-01
Contexte :
Le sujet se situe à l’interface entre deux domaines de l’informatique : génie logiciel et apprentissage automatique.
Cette problématique est étudiée depuis plusieurs années dans une collaboration entre les équipes Spirals et SequeL de Inria Lille / CRIStAL, par Martin Monperrus et Philippe Preux.
La réalisation du sujet demande à la fois un travail de recherche fondamental et de développement logiciel.
Elle demande la manipulation de concepts de théorie des graphes, développement logiciel et de statistiques.
Sujet :
Modélisation de l’évolution de logiciels
voir http://www.grappa.univ-lille3.fr/~ppreux/prje/m2info-a.php
Profil du candidat :
M1 d’informatique acquis, M2 en cours.
– fort attrait pour la théorie des graphes, l’algorithmique en général.
– curiosité, autonomie, capacité à écouter et à travailler en équipe.
Formation et compétences requises :
– capable de développer sans difficulté du code (java, C++, C, R, python)
– lecture de l’anglais.
– des notions (le plus possible) de statistiques, voire de mathématiques appliquées (en plus de la formation en informatique)
Adresse d’emploi :
Centre Inria
Villeneuve d’Ascq
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : irstea
Durée : 5 mois
Contact : sandro.bimonte@irstea.fr
Date limite de publication : 2017-03
Contexte :
Data Warehouse, Big Data et données agro-climatiques
Sujet :
Etude et implémentation d’une solution Spatial Big Data
Warehouse : Application aux données agro-climatologiques
Profil du candidat :
formation Big Data
Formation et compétences requises :
Les compétences en informatique recherchées sont :
– Entrepôts de données, et OLAP (i.e Mondrian)
-Technologies Big Data (bases de données – ex : Cassandra, MongoDB, etc. – plateformes –ex :
Hadoop)
-Java
-Les compétences en Systèmes d’Information Géographique seront considérées comme un plus
Adresse d’emploi :
9 av blaise pascal, Aubiere (clermont ferrand)
Document attaché : Offre-de-Stage-20183.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : IFP ENERGIES NOUVELLES
Durée : 5 mois
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2017-04-10
Contexte :
Le domaine de l’analyse de données complexes (science des données) s’intéresse notamment à l’extraction d’indicateurs pertinents, pour la réduction de dimension, la comparaison, la classification des données. Initialement basées sur des descripteurs (features) relativement physiques, spécifiques à l’application, de nouvelles méthodes apparaissent, basées sur des descripteurs numériques plus génériques et potentiellement multiéchelle, et des bases d’information pouvant servir à l’apprentissage ou la classification. Des exemples se trouvent dans les techniques de type SIFT (scale-invariant feature transform) et analogues (ORB, SURF), dans l’apprentissage non-supervisé de descripteurs, en apprentissage profond (deep learning). Ce stage s’intéresse spécifiquement à la gamme de techniques dites scattering transform (S. Mallat et al.) et aux techniques de classification associées. Elle permet d’obtenir des représentations de signaux, d’images ou de graphes présentant des propriétés d’invariance relatives à certaines transformations affectant les données : translation, rotation, échelle… Ses performances sont bien étudiées sur des données classiques (signaux audio, bases d’images, reconnaissance de chiffres manuscrits).
Sujet :
Ce stage s’intéresse à la mise en œuvre de ces méthodes sur des types de données moins étudiés : identification de la correspondance la plus proche d’une « image candidate » dans une base de données d’images modélisées du sous-sol et extraction d’empreintes pertinentes de signaux spectrométriques 1D issus de composés chimiques complexes pour l’apprentissage de propriétés physico-chimiques macroscopiques. Dans le premier cas, le défi réside dans l’échelle et la nature distincte des images candidates et modélisées, les secondes correspondant à une vision simplifiée des premières (proches de « sketches » ou cartoons »). Dans le second cas, la nature des signaux, formés d’une superposition de plusieurs centaines de pics (positifs), est de nature différente des informations traitées classiquement par les transformées en scattering. Une focalisation sur une des deux applications est envisagée, en fonction des succès ou difficultés rencontrés.
Profil du candidat :
Niveau 3e année élève ingénieur et/ou master
Formation et compétences requises :
Informatique/algorithmique, traitement de signal/image, statistiques, apprentissage automatique, mathématiques appliquées
Adresse d’emploi :
Rueil-Malmaison (92)
Document attaché : ifpen_stage-internship-2017-master-data-science-scattering-transform-english.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LIUM, équipe LST
Durée : 6 mois
Contact : nicolas.dugue@univ-lemans.fr
Date limite de publication : 2017-05-01
Contexte :
Le projet #neo s’intéresse à la détection automatique de néologismes en exploitant de grands corpus textuels. En particulier, il s’agit de détecter des mots qui changent de sens ou dont un nouveau sens apparaît. Dans ce stage, nous souhaitons fournir à ce projet un moyen d’évaluer les méthodes de détection automatique en créant des emph{modèles} de corpus artificiellement générés. Ces modèles devront ressembler le plus possible à des corpus réels. Par ailleurs, ils devront nous permettre d’introduire nous mêmes des changements de sens, de façon à tester les méthodes de détection.
Sujet :
Les objectifs du stage sont ainsi :
• de confirmer les propriétés des réseaux sur les corpus du projet #neo ;
• de modéliser les changements dans ces réseaux dans le temps ;
• de se baser sur l’état de l’art et les modèles de génération de graphe pour proposer et développer une approche de génération artificielle de modèles de corpus.
Une version plus détaillée du sujet est accessible sur le PDF.
Profil du candidat :
Master 2 :
– Programmation Python (ou Java) ;
– Intérêt pour les graphes ;
– Intérêt pour le Traitement de la langue.
Formation et compétences requises :
Master 2 :
– Programmation Python (ou Java) ;
– Intérêt pour les graphes ;
– Intérêt pour le Traitement de la langue.
Adresse d’emploi :
Le Mans, LIUM, équipe LST
Document attaché : stage-une-approche.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LITIS (Rouen, Normandie)
Durée : 6 mois
Contact : geraldine.del_mondo@insa-rouen.fr
Date limite de publication : 20180201
Contexte :
Ce sujet de master s’inscrit dans les travaux réalisés dans la suite de l’ANR Modelespace qui s’est terminée en 2012. L’objectif était de développer une procédure d’étude permettant d’analyser les dynamiques spatiales des peuplements à partir de sources de données de différents types (e.g. plans cadastraux, photographies aériennes, documents dépourvus de plan comme des registres paroissiaux). Cette procédure doit rendre possible l’analyse des dynamiques spatiales non seulement sur les 200 à 300 dernières années, mais de remonter aux derniers siècles du Moyen Age lorsque la documentation le permet.
Dans ce but, l’idée générale est que la transformation des différents types de données dans un modèle commun (i.e. un graphe) peut permettre à la fois d’extraire plus facilement de l’information et de pouvoir les comparer. L’intérêt est notamment de détecter des patterns spécifiques (e.g. des forêts, qui ne sont pas inscrites dans les registres car non imposées ; connexions entre parcelles particulières) et des patterns de changement. Pour ces derniers on s’intéresse particulièrement à des changements de haut niveau (e.g. périodes de division/fusion de parcelles ; identification de zone dynamique vs. stable en terme de changement).
Les données, qu’elles soient issus de registres ou de plans géolocalisés ont été transformées dans des graphes de connectivité et les recherches se sont concentrées sur 1/ la transformation automatique des données dans ce format, 2/ la comparaison des graphes entre eux. Le principal problème auquel se sont heurtés ces travaux est l’absence de géolocalisation d’une partie des données.
Sujet :
En s’appuyant sur les travaux décrits dans le contexte, les objectifs de ce stage sont :
1. De repartir des données utilisées (6 bases de données de « cadastres » dont 4 non géolocalisés (1476, 1497, 1551, 1598) et 2 géolocalisés (1759, 1811)) sont disponibles.et de construire les graphes d’adjacences. Un travail
de remise en forme des données est nécessaire pour y parvenir.
2. Caractériser des patterns simples (zones non fiscalisées comme des forêts) et proposer des algorithmes afin de les retrouver dans ce graphe. Dans ce but, il sera souhaitable de proposer une analyse à plusieurs niveaux de détails (c’est à dire définir des zones et subdivisions de l’espace de manière cohérente) afin d’être capable de réduire les zones de recherche des patterns.
3. De proposer une architecture unifiée pour intégrer les points 1. et 2 et idéalement une interface minimale.
Profil du candidat :
Master (2ème année) ou dernière année d”école d’ingénieurs en informatique
Formation et compétences requises :
Adresse d’emploi :
Laboratoire LITIS, Rouen, Normandie
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : BEUTCH – CONSCIENCE,
Durée : 6 mois
Contact : francois.rioult@unicaen.fr
Date limite de publication : 2018-02-28
Contexte :
Basée entre Caen et Paris, BEUTCH est une société spécialisée dans le coaching digital. Avec une première application d’audio fitness nommés HUVII disponible début Décembre sur iOS et ensuite sur Android, BEUTCH se veut avant-gardiste sur le marché francophone du digital coaching. Afin d’aller encore plus loin, BEUTCH veut créer le premier coach digital intelligent en français.
Sujet :
Vous travaillerez au sein de notre équipe à Caen et avec CONSCIENCE, start up spécialisée dans le domaine de l’intelligence artificielle, afin de créer le tout premier coach digital intelligent, dans un premier temps dans le monde du running.
Vos principales missions :
• Vous nous assisterez sur la création des paramètres à intégrer
• Prototypage et développement de la version bêta, d’exploration et de navigation UX/UI
(détection, reconnaissance, analyse de la réaction de l’IA, …)
• Mise en place des tests et essais sur données réelles (cohérence, précision, temps de réaction..)
• Veille technologique et transmission de connaissances au reste de l’équipe
• Documentation des recherches, développements et algorithmes
Profil du candidat :
M2 ou ingénieur IA / Data Science
Formation et compétences requises :
M2 ou ingénieur IA / Data Science
autonomie, proactivité, rigueur, innovation.
Adresse d’emploi :
Caen, France
Document attaché : IA-011.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LICIT IFSTTAR-ENTPE Lyon
Durée : 5 mois
Contact : angelo.furno@ifsttar.fr
Date limite de publication : 30-03-2018
Contexte :
Sujet de master au LICIT avec possibilité d’une thèse CIFRE à suivre.
Titre: Estimation de variables de trafic à grande échelle au travers de la fusion de données massives et multi-sources pour l’évaluation environnementale.
Contexte et objectifs : Les villes doivent faire face à des défis environnementaux colossaux, notamment en matière de qualité de l’air et de changement climatique. Les émissions de particules fines (et parfois NO2) dans les villes dépassent très souvent des concentrations qui sont nocives pour la santé. Cette problématique environnementale incite ainsi les décideurs à gérer en même temps le besoin croissant en mobilité urbaine et la nécessité de réduire les émissions associées. C’est pourquoi la mise en œuvre de mesures d’analyse et gestion du trafic visant un transport durable est une nécessité.
Les activités de master représenteront une opportunité pour accéder à une thèse CIFRE qui débutera à la suite du stage et qui pourra impliquera l’étudiant(e), dans le cas d’un travail de master bien réussi. Encadrement du master : Le master se déroulera au LICIT et sera dirigée par Ludovic LECLERCQ et Angelo FURNO. Le co-encadrement par le CITEPA sera assuré par Thamara Vieira da Rocha.
Durée du master : 5 mois à partir d’Avril 2018
Contacts : angelo.furno@ifsttar.fr,ludovic.leclercq@ifsttar.fr, thamara.vieira.da.rocha@citepa.org
Sujet :
L’objectif de ce master est de reconstruire la dynamique du trafic dans les grandes villes par les données massives et multi-sources, afin d’évaluer avec précision les phénomènes de congestion. Pour cela, on s’appuiera sur une modélisation dynamique du trafic routier à une échelle agrégée, au travers des diagrammes fondamentaux de zone (MFD : Macroscopic Fundamental Diagrams) afin de déterminer les variables macroscopiques de trafic nécessaires au calcul d’émissions.
Introduit il y a une trentaine d’années, le concept de MFD vise à reproduire de manière agrégée les conditions de trafic d’une zone urbaine. Il constitue un outil performant pour accéder à une représentation dynamique du trafic : moins contraignante qu’une simulation microscopique (temps de calcul, données nécessaires à la calibration, etc.), tout en intégrant les phénomènes de congestion qui contribuent fortement aux émissions. C’est donc une source d’information de trafic pertinente pour l’évaluation des émissions de polluants et de gaz à effet de serre associés.
L’estimation des diagrammes fondamentales peut se faire au travers de technique de l’intelligence artificielle et du big data (fusion de données, techniques de machine learning supervisées et non-supervisées, technologies du big data), finalisées à reconstruire les trajectoires de mobilités des navetteurs à partir de différentes sources de données de mobilité et à caractériser donc la vitesse moyenne et les distances parcourues, variables agrégées nécessaires au calcul d’émission. L’étudiant(e) de master sera impliqué dans les activités nécessaires à l’estimation des variables agrégées (la vitesse moyenne et les distances parcourues) du diagramme MFD en utilisant plusieurs jeux de données massives de mobilité. En particulier, ces données, recueillies dans des villes de Colombie et transmises par le CITEPA, inclueront :
– des données de téléphonie mobile (Call Detail Records et données de signalisation sur le réseau mobile),
– des données de véhicules traceurs,
– des données de boucles électromagnétiques.
Des données similaires seront disponible sur plusieurs villes en France (Lyon et Paris), dans le cadre d’une collaboration entre le LICIT et Orange SA. Des solutions de clustering seront aussi nécessaires pour identifier des zones homogènes en termes de condition de trafic, une condition fondamentale pour l’estimation correcte des MFD.
Ce travail de master représente une activité préliminaire et crucial dans le cadre d’un projet de recherche collaboratif avec le CITEPA (https://www.citepa.org).
Les activités de master représenteront une opportunité pour accéder à une thèse CIFRE qui débutera à la suite du stage et qui pourra impliquera l’étudiant(e), dans le cas d’un travail de master bien réussi.
Profil du candidat :
* Formation recommandée
Ecole d’ingénieur/Master1 en Informatique/Mathématique/Statistique
Formation et compétences requises :
* Connaissances et savoir-faire souhaités
Experience en programmation (Pyhton/R), fouille de données, méthodes statistiques et apprentissage automatique
Environnement Linux, Solutions du Big Data (Spark, Scala) optionnel
Connaissance de la théorie du trafic optionnel
* Qualités requises
Esprit d’analyse et de synthèse, inventivité, rigueur, efficacité, autonomie.
Coopération et esprit d’équipe
Prise de fonction
02/04/2018
Adresse d’emploi :
Ifsttar de Lyon / Bron. Ifsttar – Lyon-Bron 25, avenue François Mitterrand, Case24 Cité des mobilités. F-69675 Bron Cedex
et
École nationale des travaux publics de l’État,
3 Rue Maurice Audin, 69518 Vaulx-en-Velin
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : ICube – Université de Strasbourg
Durée : 4 à 6 mois (Printemps 2019)
Contact : gancarski@unistra.fr
Date limite de publication : 2018-03-31
Contexte :
Dans le cadre d’un projet ANR, des bases de données massives liées à la gestion des ressources en eau ont été créées. Il s’agit dans ce projet, de fouiller ces données pour extraire des informations sur l’évolution de la qualité de l’eau. Ce projet implique des informaticiens mais aussi des spécialiste d’hydrologie.
Sujet :
L’objectif de ce stage est de proposer et mettre en place des outils permettant d’interroger les bases de données existantes afin d’extraire des données, qui une fois mises en forme, pourront « alimenter » le logiciel d’analyse de données (FoDoMuST). Il s’agira donc, de créer des modèles (template) de chaînes d’analyse de telles données en python. Par exemple : un template permettra de charger et mettre en forme les données, puis de les transférer à JCL (librairie de méthodes de classification) et enfin de mettre en forme pour un affichage. L’interface de FoDoMuST devra aussi être adaptée.
Profil du candidat :
Master 2 Informatique en cours (ou Ecole d’ingénieur à forte connotation Informatique)
Formation et compétences requises :
Connaissances (fortes) en fouille de données
Adresse d’emploi :
ICUBE CNRS UMR 7537
Pôle API
300 bld Sébastien Brant
Strasbourg – Illkirch
Document attaché : SujetM2_ADQeau-2019.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : ICube
Durée : 4 à 6 mois
Contact : aurelie.leborgne@unistra.fr
Date limite de publication : 2018-03-31
Contexte :
Dans un contexte où de grandes quantités de données spatio-temporelles peuvent être accumulées, le besoin de valoriser ces données est grandissant. Ainsi, la nécessité de nouvelles approches innovantes d’analyse de ces données multi-sources se fait cruellement sentir. Les graphes étant des outils puissants à la fois théoriquement et méthodologiquement, nous nous proposons d’une part, de les utiliser pour formaliser et structurer ces informations et d’autre part, de construire des méthodes originales de fouille par exploration des graphes ainsi obtenus.
Les méthodes proposées seront le plus génériques possibles. Néanmoins, nous nous investirons plus spécifiquement sur la fouille de graphes appliquée à la télédétection et aux IRM fonctionnels.
Sujet :
Les objectifs scientifiques sont de plusieurs ordres. Le premier consiste à modéliser des données spatio-temporelles pertinentes, issues de contextes réels (télédétection et IRM fonctionnels), grâce à un graphe spatio-temporel [1].
Le deuxième objectif scientifique important est relatif à la pratique relativement récente du couplage des informations temporelles et spatiales. En effet, cela implique de nouvelles dépendances entre les objets, ce qui rend les approches de fouille purement spatiales ou temporelles inutilisables sous peine de perdre en précision et interprétabilité des résultats [2]. Cela implique également de gérer l’explosion combinatoire des relations à explorer lors de la fouille du graphe et de déterminer une valeur de similarité entre sous-graphes. Le but de cette fouille serait d’extraire des motifs caractérisant des évolutions spatio-temporelles. Par exemple, nous pourrions nous intéresser à la vitalité des forêts de châtaigniers
au cours du temps ou à la recherche de dysfonctionnements du cerveau liés à certaines maladies comme la schizophrénie.
[1] DEL MONDO, Géraldine, RODRÍGUEZ, M. Andrea, CLARAMUNT, Christophe, et al. Modeling consistency of spatio-temporal graphs. Data & Knowledge Engineering, 2013, vol. 84, p. 59-80.
[2] ATLURI, Gowtham, KARPATNE, Anuj, et KUMAR, Vipin. Spatio-temporal data mining: A survey of problems and methods. ACM Computing Surveys (CSUR), 2018, vol. 51, no 4, p. 83.
Profil du candidat :
Master 2 Informatique en cours (ou Ecole d’ingénieur à forte connotation Informatique)
Formation et compétences requises :
Bonnes compétences en programmation et théorie des graphes
Adresse d’emploi :
ICUBE CNRS UMR 7537
Pôle API
300 bld Sébastien Brant
Strasbourg – Illkirch
Document attaché : 2019-stageFinEtude.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Myriad
Durée : a partir de 2 mois
Contact : mohammad@myriad-data.com
Date limite de publication : 2018-04-10
Contexte :
Aujourd’hui, 95% des RH regarde le processus de transformation
digitale comme une opportunité de développement de leur métier (Unow,
2017). En 2017 on constate que 49% des entreprises prévoient, dans un
futur proche, d’utiliser l’intelligence artificielle pour recruter
(Deloitte, 2017). Pour finir, 71% des RH sont intéressés par la
puissance d’analyse des outils digitaux RH.
D’une part on constate un marché compétitif avec une quête de
performance couplée à une période de croissance et d’autre part, on
réalise que 70% des candidatures aux annonces ne correspondent pas au
poste à pourvoir et 80% des postulant sont des candidats passifs
(Undercover Recruiter, 2017). Dans ce contexte, le recrutement, étant
une des taches chronographe du Responsable RH, s’est transformé en un
des premiers soucis des entreprises.
L’idée est d’optimiser le processus de recrutement à l’aide d’une
solution d’intelligence artificielle. Cette solution fait une
présélection qui fera un gain de temps considérable au recruteur et
lui permettra de se concentrer entièrement sur ses compétences. Outre
la mise en correspondance des annonces et des candidats, il peut être
utilisé aussi, tel un outil d’aide à la validation d’annonce. Si pour
une offre donnée, l’outil ne propose pas un nombre suffisant de
candidat pertinent, le RH ou d’autres instances décisionnaires,
pourraient reformuler ou revoir celle-ci offre afin d’agrandir
l’audience ciblée.
Sujet :
Le but de ce stage est d’utiliser les techniques de ” NLP ” dans la caractérisation et la mise en correspondance des candidats et des offres d’emplois.
Questions scientifiques et techniques
L’objectif de ce stage est de répondre aux question suivantes :
1. Trouver dans les données, les caractéristique (features) qui
permettent d’identifier les concepts présents dans un profil ou une
annonce. Identifier et les relations inter-concepts.
2-Combiner des modèles supervisés et non-supervisés en-ligne pour
trouver les meilleurs candidats à une annonce. Mettre en œuvre des
modèles de classification de candidat utilisant les modèles de Deep
Learning et comparer avec les solutions alternatives.
3-Construire un référentiel métier-compétences très innovant et évolutif
4-Comment évaluer ces modèles et quantifier l’incertitude de leurs résultats.
Profil du candidat :
Stage école d’ingénieur/M1 ou M2
Formation et compétences requises :
Informatique/Mathématique/Statistique
Adresse d’emploi :
16 rue Pierre Cherest,
92200 Neuilly-sur-Seine
Annonce en lien avec l’Action/le Réseau : Formation
Laboratoire/Entreprise : Myriad
Durée : a partir de 2 mois
Contact : mohammad.@myriad-data.com
Date limite de publication : 2018-04-10
Contexte :
Une des mission de la Responsable RH est sélectionner les candidats pertinents pour les postes à pourvoir, proposer des parcoursattractifs aux salariés et favoriser un environnement de travail épanouissant pour les collaborateurs. Cependant, certaines tâches chronophages, telles que la présélection (premier tri) de curriculum vitae, le détournent de son cœur de métier.
Cette problématique de présélection de candidats et d’évaluation de la pertinence de candidature par rapport à un besoin peut être assimilée à la conception d’un moteur de recherche ayant comme requêtes des offres de travaux et proposant les profils professionnels associés. Outre la mise en correspondance des offres de travaux et des profils professionnels, fonctionnalité principale du dispositif, il peut être utilisé aussi, comme un outil d’aide à la validation des offres de travaux. Ceci lui permet d’assister le Responsable RH à parfaire son
offre en améliorant son efficacité par la restitution, pour validation, des concepts (et leurs importances ou forces) contenus dans l’offre. La performance de l’offre pourra aussi se mesurer sur un jeu de test choisi. Le projet vise à répondre aux besoins internes de l’entreprise tels que la mobilité et la gestion de carrière et externes tel que le recrutement de candidat.
Sujet :
Le but de ce stage est d’utiliser les techniques de ” NLP ” dans la caractérisation et la mise en correspondance des candidats et des offres d’emplois.
Questions scientifiques et techniques
L’objectif de ce stage est de répondre aux question suivantes :
1. Trouver dans les données, les caractéristique (features) qui
permettent d’identifier les concepts présents dans un profil ou une
annonce. Identifier et les relations inter-concepts.
2-Combiner des modèles supervisés et non-supervisés en-ligne pour
trouver les meilleurs candidats à une annonce. Mettre en œuvre des
modèles de classification de candidat utilisant les modèles de Deep
Learning et comparer avec les solutions alternatives.
3-Construire un référentiel métier-compétences très innovant et évolutif
4-Comment évaluer ces modèles et quantifier l’incertitude de leurs résultats.
Profil du candidat :
Formation et compétences requises :
École d’ingénieur/M1 ou M2 en Informatique/Mathématique/Statistique
Adresse d’emploi :
16 rue Pierre Cherest,
92200 Neuilly-sur-Seine
Fixe : +33(0) 1 85 73 59 52
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : GREYC CNRS UMR 6072
Durée : 5 mois
Contact : albrecht.zimmermann@unicaen.fr
Date limite de publication : 2018-04-17
Contexte :
Dans le contexte du projet DECADE (Découverte et exploitation
des connaissances pour l’aide à la décision en chimie thérapeutique),
l’équipe CoDaG du laboratoire GREYC CNRS UM 6072 de l’université Caen
Normandie et l’équipe BdTln de l’université de Tours offre un stage
de recherche pour des masters 2ème année ou équivalent.
Le criblage à haut débit (high-throughput screening en anglais, HTS)
est devenu un processus incontournable pour trouver des molécules
prometteuses (i.e. des molécules ayant une activité envers certaines
cibles) pouvant ensuite donner lieu à des médicaments. Malheureusement,
le criblage fait aussi ressortir des molécules promiscues les “PAINS”
(Pan Assay Interference Compounds) qui ne conduiront pas à des
médicaments car pouvant présenter une certaine toxicité.
L’identification d’un PAINS in silico est difficile et, de plus,
des articles scientifiques décrivent comme prometteuses des molécules
qui sont en réalité des PAINS. Du point de vue des avancées en
chimie thérapeutique, le projet DECADE vise à l’identification
de nouveaux PAINS et à leur caractérisation.
Un défi de ce problème est que les PAINS ne sont pas précisément
définis. Nous disposons déjà d’un modèle créé à partir des “frequent
hitters”, des molécules qui montrent de l’activité envers plusieurs
cibles, mais il n’est pas clair qu’elles soient équivalentes aux PAINS.
Le but de ce stage est ainsi d’utiliser les connaissances d’experts
afin de valider ou corriger l’étiquetage des candidats PAINS.
Sujet :
Le travail va partir d’une approche pour étiqueter des données de type
itemsets à partir des retours des utilisateurs experts à des motifs qui
leur sont présentés au fur et à mesure. Le ou la stagiaire va adapter la
technique existante afin d’utiliser des motifs séquentiels/graphes, des
données graphes. En plus, elle ou il va préparer et mettre en oeuvre une
étude expérimentale afin d’évaluer l’approche développée.
Profil du candidat :
Le ou la candidat(e) devra avoir des connaissances en fouille de données
(fouille de séquences, fouille de graphes). Des bonnes compétences en
méthodes statistiques seraient appréciées. Des compétences en
programmation sont nécessaires.
Formation et compétences requises :
Master informatique
Adresse d’emploi :
Encadrant: Albrecht Zimmermann, Arnaud Soulet
Contact: albrecht.zimmermann@unicaen.fr
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : GREYC CNRS UMR 6072
Durée : 5 mois
Contact : albrecht.zimmermann@unicaen.fr
Date limite de publication : 2018-04-17
Contexte :
Dans le contexte du projet DECADE (Découverte et exploitation
des connaissances pour l’aide à la décision en chimie thérapeutique),
l’équipe CoDaG du laboratoire GREYC CNRS UMR 6072 de l’université
Caen Normandie et l’équipe CA du laboratoire LIFO de l’université
d’Orléans offre un stage de recherche pour des masters 2ème année
ou équivalent.
Le criblage à haut débit (high-throughput screening en anglais, HTS)
est devenu un processus incontournable pour trouver des molécules
prometteuses (i.e. des molécules ayant une activité envers certaines
cibles) pouvant ensuite donner lieu à des médicaments. Malheureusement,
le criblage fait aussi ressortir des molécules promiscues les “PAINS”
(Pan Assay Interference Compounds) qui ne conduiront pas à des
médicaments car pouvant présenter une certaine toxicité.
L’identification d’un PAINS in silico est difficile et, de plus,
des articles scientifiques décrivent comme prometteuses des molécules
qui sont en réalité des PAINS. Du point de vue des avancées en chimie
thérapeutique, le projet DECADE vise à l’identification de nouveaux
PAINS et à leur caractérisation.
Une approche est déjà en place pour apprendre un modèle réprésentant
des possibles PAINS. Cette approche utilise des sous-graphes
discriminants et un ensemble d’arbres de décision. La prochaine étape
consiste à exploiter les retours des experts afin de modifier à la fois
les sous-graphes fouillés et les arbres sans relancer le processes
d’apprentissage.
Sujet :
Le travail dans ce stage est fondé sur une méthode de programmation
par contraintes pour modifier minimalement un clustering en fonction
des retours d’utilisateurs. La tâche exige la définition des contraintes
sur des (ensembles de) graphes/arbres, le développement d’un mécanisme
pour obtenir des retours des experts et une méthode pour traduire
ces retours en contraintes.
Profil du candidat :
Le ou la candidat(e) devra avoir des connaissances en fouille de données
(fouille de graphes) et en programmation par contraintes. Des
compétences en programmation sont nécessaires.
Formation et compétences requises :
Adresse d’emploi :
Encadrants : Albrecht Zimmermann, Christel Vrain
Contact : albrecht.zimmermann@unicaen.fr
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Societé ALTEN et labo IRISA Rennes
Durée : 6 mois
Contact : zoltan.miklos@irisa.fr
Date limite de publication : 2018-05-01
Contexte :
Le Responsable RH a pour mission de sélectionner les candidats pertinents pour les postes à pourvoir, proposer des parcours attractifs aux salariés et favoriser un environnement de travail épanouissant pour les collaborateurs. Cependant, certaines tâches chronophages, telles que la présélection (premier tri) de curriculum vitae, le détournent de son cœur de métier. A titre d’exemple, Google recevrait chaque semaine 75 000 CV.
Cette problématique de présélection de candidats et d’évaluation de la pertinence de candidature par rapport à un besoin peut être assimilée à la conception d’un moteur de recherche ayant comme requêtes des offres de travaux et proposant les profils professionnels associés.
Outre la mise en correspondance des offres de travaux et des profils professionnels, fonctionnalité principale du dispositif, il peut être utilisé aussi, comme un outil d’aide à la validation des offres de travaux. Ceci lui permet d’assister le Responsable RH à parfaire son offre en améliorant son efficacité par la restitution, pour validation, des concepts (et leurs importances ou forces) contenus dans l’offre. La performance de l’offre pourra aussi se mesurer sur un jeu de test choisi.
Le projet vise à répondre aux besoins internes de l’entreprise tels que la mobilité et la gestion de carrière et externes tel que le recrutement de candidat.
Sujet :
Elaboration d’un modèle d’extraction et de représentation des connaissances des profils professionnels et des offres permettant d’effectuer des recherches sémantiques sur ces derniers. Ce projet s’inscrit dans la continuité des travaux de 3 projets réalisés par ALTEN (3 * 6 mois) et qui ont eu pour objectif d’exploiter le TALN (NLP), le web sémantique et l’apprentissage automatique pour extraire et hiérarchiser des concepts permettant la représentation des profils professionnels et des offres en vue de les mettre en correspondance.
Ce projet est une démarche concurrente à plusieurs projets ALTEN avec la même finalité mais basés sur des méthodes classiques. L’objectif sera aussi d’avoir une approche « comparée ».
Questions scientifiques et techniques
L’objectif des études à mener est de répondre aux incertitudes suivantes :
1. Comment identifier automatiquement les concepts présents dans un profil ou une offre ? Et comment extraire les relations inter-concepts?
2. Comment évaluer la performance du dispositif par rapport à ses enjeux ?
3. Concevoir et mettre en œuvre une méthode d’évaluation des distances entre concepts ? et concevoir un modèle de représentation tenant compte des relations inter-concepts et des distances entre ces derniers ?
4. Concevoir et mettre en œuvre une méthode de recherche (mise en correspondance entre les offres de poste et les profils professionnels)
Profil du candidat :
Profil d’un eleve qui voudrait continuer en these
Formation et compétences requises :
Master en Informatique orienté recherche
Adresse d’emploi :
Société ALTEN
12 Rue du Patis Tatelin, 35000 Rennes
Document attaché : Proposition-de-stage-Master-Recherche-Rennes-1.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Societé ALTEN et labo IRISA Rennes
Durée : 6 mois
Contact : zoltan.miklos@irisa.fr
Date limite de publication : 2018-05-01
Contexte :
Le Responsable RH a pour mission de sélectionner les candidats pertinents pour les postes à pourvoir, proposer des parcours attractifs aux salariés et favoriser un environnement de travail épanouissant pour les collaborateurs. Cependant, certaines tâches chronophages, telles que la présélection (premier tri) de curriculum vitae, le détournent de son cœur de métier. A titre d’exemple, Google recevrait chaque semaine 75 000 CV.
Cette problématique de présélection de candidats et d’évaluation de la pertinence de candidature par rapport à un besoin peut être assimilée à la conception d’un moteur de recherche ayant comme requêtes des offres de travaux et proposant les profils professionnels associés.
Outre la mise en correspondance des offres de travaux et des profils professionnels, fonctionnalité principale du dispositif, il peut être utilisé aussi, comme un outil d’aide à la validation des offres de travaux. Ceci lui permet d’assister le Responsable RH à parfaire son offre en améliorant son efficacité par la restitution, pour validation, des concepts (et leurs importances ou forces) contenus dans l’offre. La performance de l’offre pourra aussi se mesurer sur un jeu de test choisi.
Le projet vise à répondre aux besoins internes de l’entreprise tels que la mobilité et la gestion de carrière et externes tel que le recrutement de candidat.
Sujet :
L’enjeu principal est d’évaluer l’utilisation des techniques de « deep learning » dans la caractérisation et la mise en correspondance des profils professionnels et des offres de poste.
Ce projet est une démarche concurrente à plusieurs projets ALTEN avec la même finalité mais basés sur des méthodes classiques. L’objectif sera aussi d’avoir une approche « comparée ».
Questions scientifiques et techniques
L’objectif des études à mener est de répondre aux incertitudes suivantes :
1. Concevoir un/des modèles permettant l’extraction de connaissances à partir des profils professionnels et des offres.
2. Définir les critères de choix du corpus de profils destiné à l’apprentissage automatique.
3. Concevoir et mettre en œuvre une méthode d’évaluation de la pertinence du/des modèles
4. Concevoir un/des modèles d’apprentissage interactif en utilisant les techniques du deep learning et du reinforcement learning (intégration de l’évaluation humaine suite à une recherche)
Profil du candidat :
profil d’un(e) candidat(e) qui s’oriente vers une these apres le master
Formation et compétences requises :
master en informatique orienté recherche
Adresse d’emploi :
Societé ALTEN
12 Rue du Patis Tatelin, 35000 Rennes
Document attaché : Proposition-de-stage-Master-Recherche-Rennes-2.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : ETIS / University of Cergy Pontoise
Durée : 6 mois
Contact : Dimitrios.Kotzinos@u-cergy.fr
Date limite de publication : 2018-05-05
Contexte :
This work is part of the EU-funded research project ANIMA.
Sujet :
Understanding the opinion of the users on specific matters (like events, public issues/debates, other people) is a hard task to be done automatically and for any event. But with the expansion of social media use, we have a source of information where people express (sometimes passionately) their opinions and participate in discussions, which we can track as they happen. Recently, social media are used to substitute traditional surveying methods like on the spot interviews or phone or web surveys. In this project, we plan to do the same but to limit our research on users who live in the area of the airport and discuss about noise problems emanating from the landing and takeoff of aircraft.
The collected information can be used in several ways:
(1) At the social media level, we can monitor discussions and exchanges over airport generated noise issues and try to understand if there are particular events that concern the users. We can analyze both the volume of a conversation in terms of numbers of posts and users but also the connections among these users (their social graph) and understand the possible influences and influencers.
(2) Tracking events through discussions on social media would allow us to also understand whether something out of the ordinary has happened and how the involved parties are reacting to this (e.g. through increased number of posts, etc.). This would require real time monitoring of the users’ interactions on social media.
The main goal of the work in this project will be the setup of a customizable platform that will be able to capture the stream of relevant tweets generated by the users, store it offline, identify the users involved in the discussions and build the social networks of discussions around them. Also we would like to characterize the discussions based on location and relevance to the subject of our research (airport noise).
We will do this by applying text mining and information retrieval techniques, combined with opinion mining techniques from social media texts and network analytics in order to analyze and build the correct social graph of the involved users.
Profil du candidat :
We are looking for a 2nd year Master Student (M2) that wants to do a 6-month internship with us. This can be combined with his/her master thesis.
Formation et compétences requises :
The position will be opened until filled. Starting date ideally is 01/04/2018. Apply by sending an e-mail with your CV, recommendation letters and grades for at least the 1st and 2nd year of the Master (M1 and M2) to:
Dimitrios.Kotzinos@u-cergy.fr
Adresse d’emploi :
MIDI team
Lab. ETIS UMR 8051
University of Paris-Seine, University of Cergy-Pontoise, ENSEA, CNRS
& Dept. Sciences Informatiques, Université de Cergy-Pontoise
2 av. Adolphe Chauvin
Site Saint Martin, bureau A561
95000 Pontoise
France
Document attaché : Description_stage_twitter_noise_final.pdf
Annonce en lien avec l’Action/le Réseau : Formation
Laboratoire/Entreprise : IFP Energies nouvelles.
Durée : 5 months
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2018-06-15
Contexte :
Details:
http://www.laurent-duval.eu/lcd-2018-intern-transform-classification.html
IFP Energies nouvelles (IFPEN) is a major research and training player in the fields of energy, transport, and environment. From research to industry, technological innovation is central to all its activities, structured around three strategic priorities: sustainable mobility, new energies, and responsible oil and gas. As part of the public-interest mission with which it has been tasked by the public authorities, IFPEN focuses on: (a) providing solutions to take up the challenges facing society in terms of energy and the climate, promoting the transition towards sustainable mobility and the emergence of a more diversified energy mix; (b) creating wealth and jobs by supporting French and European economic activity, and the competitiveness of related industrial sectors
Sujet :
We wish to study large datasets of experimental data (e.g. physico-chemical spectral signals, microscopy or geophysical subsurface images) toward clustering, classification and learning. When data satisfy regularity properties, they often admit sparse or compressible representations in a judicious transformed domain: a few transformed coefficients provide accurate data approximation. Such representations, like multiscale or wavelet transforms, are beneficial to subsequent processing, and they form the core of novel data processing methodologies, such as Scattering networks/transforms (SN) or Functional Data Analysis (FDA). Due to the variety of such transforms, without prior knowledge, it is not evident to find the most suitable representation for a given set of data. The aim of this subject is to investigate potential relations between transform properties and data compressibility on the one hand, and classification/clustering performance on the other hand, especially with respect to the robustness to shifts/translations or noise in data features, with matters in experimental applications. Rooting on a recent work, the first objective is to develop a framework to allow the use of different sparsifying transformations (bases or frames of wavelets and multiscale transformations) at the input of reference SN algorithms. This will permit to evaluate the latter on a variety of experimental datasets, with the aim of choosing the most appropriate, both in terms of performance and usability, since the redundancy in transformations may hinder their application to large datasets. A particular interest could be laid on complex-like transformations, that may improve either the sparsification or ”invariance properties” in the transformed data. Their importance has been underlined recently for deep convolutional networks. Then, starting from real data, the trainee will develop realistic models reproducing the expected behaviors in the data, for instance related to shifts or noise. Finally, the relative clustering/classification performances will be assessed with respect to different trans- formation choices, and their impact on both realistic models and real data. A particular interest could be laid on either transform properties (redundancy, frame bounds, asymptotic properties) or the resulting data multiscale statistics.
Sparse-domain data (signal/image) processing for classification and learning: basis/frame influence and selection
in designing and training scattering networks with experimental data (geosciences, chemistry)
Profil du candidat :
Second/third year engineering school and/or master of science with strong skills and curiosity in signal/image
processing, statistics, machine learning, applied mathematics.
Formation et compétences requises :
Applicants should provide a resume and a
motivation letter emphasizing prior knowledge related to the subject (esp. learning and sparsifying transforms).
Adresse d’emploi :
Rueil-Malmaison (Paris suburbs), France
Document attaché : IFPEN_2018_SUBJ_Internship-Multiscale-complex.pdf
