
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : ForumPHP, 27 rue de la Rochefoucauld 75009 PARIS (2è étage)
Durée : 6 mois
Contact : veronique[ dot ]guillaumin[ @ ]forumhabitatprive[ dot ]org
Date limite de publication : 2017-02-10
Contexte :
Le Forum des Politiques de l’habitat privé (Forum PHP) est une association nationale créée en 2012. C’est un réseau de réseaux, un centre de ressources et une communauté de professionnels de l’habitat privé à destination principalement des collectivités territoriales.
De nombreuses collectivités territoriales sont en plein questionnement sur les opportunités (voire les limites) de notions telles que l’open-data, le big-data, le self-data et la constitution d’entrepôt de données et de data lakes. En matière de politique locale de l’habitat (compétence intercommunale), le rapport d’Etalab 2015 rend compte des données habituellement utilisées et sources mobilisées pour élaborer un diagnostic ou un observatoire de l’habitat (données relatives au parc, aux habitants, au marché de l’habitat, …).
Dans votre travail vous aurez des interactions avec des acteurs tels que les représentants des réseaux membres de l’association lors des réunions (mensuelles à trimestrielles) des 5 groupes de travail thématiques, du comité technique trimestriel, du conseil d’administration trimestriel
Sujet :
Vous travaillerez sur la modélisation des données et sur la conception d’un outil pour le diagnostic data d’un territoire afin de proposer une vision 360° pour l’aide à la décision pour les acteurs des politiques de l’habitat. Ce travail reposera spécifiquement sur la construction d’indicateurs pertinents, de leur présentation sous forme de tableau de bord et de la valorisation au travers de modules de visualisation sur des preuves de concepts (POC) répondant à la problématique d’enrichissement des politiques locales de l’habitat.
Il est donc proposé de partir d’une politique publique, l’habitat, compétence intercommunale, pour montrer le champ des possibles.
1- Proposer et valider une approche méthodologique pour dresser l’inventaire des données présentes sur un territoire, urbain ou rural, tous canaux confondus.
2- Etablir une cartographie producteurs/consommateurs de ces données mettant en lumière le cycle qui peut s’établir de la donnée brute à la valeur en passant éventuellement par une étape d’enrichissement et/ou augmentation.
3- Construire des cartes de maturité data pour la mesure du potentiel d’innovation orientée sur les données dans un territoire.
Profil du candidat :
Science de l’information
Gestion des connaissances
Traitement de données
Formation et compétences requises :
Informatique, Système d’information
Adresse d’emploi :
Affectation structurelle : ForumPHP, 27 rue de la Rochefoucauld 75009 PARIS (2è étage)
Contact : Mme Véronique GUILLAUMIN veronique[ dot ]guillaumin[ @ ]forumhabitatprive[ dot ]org
Document attaché : sujet_stage_diagnostic_data_fphp.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : UMR 6281- Université de Technologie de Troyes
Durée : 6 mois
Contact : babiga.birregah@utt.fr
Date limite de publication : 2017-02-15
Contexte :
L’analyse des réseaux sociaux pour la gestion de crise est souvent limitée par la prise en compte les limitations des API. Par exemple dans le cadre d’une stratégie de collecte à large spectre lors d’une crise généralisée il est souvent difficile de suivre simultanément toutes les thématiques tout en maîtrisant l’évolution des groupes de mots clés et thématiques dans les échanges. De plus l’émergence de nouvelles thématiques peut influencer la richesse et la pertinence des messages collectés.
Il est donc important de construire un moteur qui automatise (i) non seulement le suivi au fil de l’eau (et en ligne) de l’évolution des mots clés, (ii) mais aussi la détection de thématiques émergentes pour garantir la pertinence des paramètres de la collecte en cours.
Sujet :
Le ou la candidat(e) retenu(e) doit proposer une moteur de collecte large spectre de tweets capable de tourner sur une longue période sans interruption tout en adaptant les mots clés selon la trajectoire que prend l’événement en cours. Pour cela il ou elle devra mettre en place un algorithme de détection de thématiques d’intérêt qui permet de suggérer automatiquement des termes émergents pour adapter la collecte.
Profil du candidat :
Profil: Mathématiques/Inforatiques
Dossier de candidature : Le dossier de candidature doit être transmis uniquement par mail, à l’adresse suivante : babiga.birregah@utt.fr, en ajoutant dans l’objet la référence DL04- 1617.
Il doit contenir les pièces suivantes, sous format PDF:
– Une lettre de motivation indiquant clairement les expériences (stages, projets, etc.) en relation avec le stage
– Un CV contenant la liste des publications et autres réalisations (projets, logiciels, etc.)
Formation et compétences requises :
Compétences :
Gestion de base de données : PostgreSQL
Langages : Python / des connaissances en Java seraient un plus.
Bon relationnel et travail en équipe. Vous aurez à travailler avec les équipes du BRGM qui travaillent sur le suivi des catastrophes naturelles.
Poste à pourvoir : Stage Ingénieur/Master 2/Mastère Spécialisé
Adresse d’emploi :
Affectation structurelle : Université de Technologie de Troyes/ Equipe LM2S (UMR 6281)
Durée : 6 mois
Date de prise de fonction : Février 2017
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Inria Lille, CRIStAL
Durée : 6 mois
Contact : philippe.preux@univ-lille.fr
Date limite de publication : 2017-03-01
Contexte :
Le sujet se situe à l’interface entre deux domaines de l’informatique : génie logiciel et apprentissage automatique.
Cette problématique est étudiée depuis plusieurs années dans une collaboration entre les équipes Spirals et SequeL de Inria Lille / CRIStAL, par Martin Monperrus et Philippe Preux.
La réalisation du sujet demande à la fois un travail de recherche fondamental et de développement logiciel.
Elle demande la manipulation de concepts de théorie des graphes, développement logiciel et de statistiques.
Sujet :
Modélisation de l’évolution de logiciels
voir http://www.grappa.univ-lille3.fr/~ppreux/prje/m2info-a.php
Profil du candidat :
M1 d’informatique acquis, M2 en cours.
– fort attrait pour la théorie des graphes, l’algorithmique en général.
– curiosité, autonomie, capacité à écouter et à travailler en équipe.
Formation et compétences requises :
– capable de développer sans difficulté du code (java, C++, C, R, python)
– lecture de l’anglais.
– des notions (le plus possible) de statistiques, voire de mathématiques appliquées (en plus de la formation en informatique)
Adresse d’emploi :
Centre Inria
Villeneuve d’Ascq
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : irstea
Durée : 5 mois
Contact : sandro.bimonte@irstea.fr
Date limite de publication : 2017-03
Contexte :
Data Warehouse, Big Data et données agro-climatiques
Sujet :
Etude et implémentation d’une solution Spatial Big Data
Warehouse : Application aux données agro-climatologiques
Profil du candidat :
formation Big Data
Formation et compétences requises :
Les compétences en informatique recherchées sont :
– Entrepôts de données, et OLAP (i.e Mondrian)
-Technologies Big Data (bases de données – ex : Cassandra, MongoDB, etc. – plateformes –ex :
Hadoop)
-Java
-Les compétences en Systèmes d’Information Géographique seront considérées comme un plus
Adresse d’emploi :
9 av blaise pascal, Aubiere (clermont ferrand)
Document attaché : Offre-de-Stage-20183.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : IFP ENERGIES NOUVELLES
Durée : 5 mois
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2017-04-10
Contexte :
Le domaine de l’analyse de données complexes (science des données) s’intéresse notamment à l’extraction d’indicateurs pertinents, pour la réduction de dimension, la comparaison, la classification des données. Initialement basées sur des descripteurs (features) relativement physiques, spécifiques à l’application, de nouvelles méthodes apparaissent, basées sur des descripteurs numériques plus génériques et potentiellement multiéchelle, et des bases d’information pouvant servir à l’apprentissage ou la classification. Des exemples se trouvent dans les techniques de type SIFT (scale-invariant feature transform) et analogues (ORB, SURF), dans l’apprentissage non-supervisé de descripteurs, en apprentissage profond (deep learning). Ce stage s’intéresse spécifiquement à la gamme de techniques dites scattering transform (S. Mallat et al.) et aux techniques de classification associées. Elle permet d’obtenir des représentations de signaux, d’images ou de graphes présentant des propriétés d’invariance relatives à certaines transformations affectant les données : translation, rotation, échelle… Ses performances sont bien étudiées sur des données classiques (signaux audio, bases d’images, reconnaissance de chiffres manuscrits).
Sujet :
Ce stage s’intéresse à la mise en œuvre de ces méthodes sur des types de données moins étudiés : identification de la correspondance la plus proche d’une « image candidate » dans une base de données d’images modélisées du sous-sol et extraction d’empreintes pertinentes de signaux spectrométriques 1D issus de composés chimiques complexes pour l’apprentissage de propriétés physico-chimiques macroscopiques. Dans le premier cas, le défi réside dans l’échelle et la nature distincte des images candidates et modélisées, les secondes correspondant à une vision simplifiée des premières (proches de « sketches » ou cartoons »). Dans le second cas, la nature des signaux, formés d’une superposition de plusieurs centaines de pics (positifs), est de nature différente des informations traitées classiquement par les transformées en scattering. Une focalisation sur une des deux applications est envisagée, en fonction des succès ou difficultés rencontrés.
Profil du candidat :
Niveau 3e année élève ingénieur et/ou master
Formation et compétences requises :
Informatique/algorithmique, traitement de signal/image, statistiques, apprentissage automatique, mathématiques appliquées
Adresse d’emploi :
Rueil-Malmaison (92)
Document attaché : ifpen_stage-internship-2017-master-data-science-scattering-transform-english.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LIUM, équipe LST
Durée : 6 mois
Contact : nicolas.dugue@univ-lemans.fr
Date limite de publication : 2017-05-01
Contexte :
Le projet #neo s’intéresse à la détection automatique de néologismes en exploitant de grands corpus textuels. En particulier, il s’agit de détecter des mots qui changent de sens ou dont un nouveau sens apparaît. Dans ce stage, nous souhaitons fournir à ce projet un moyen d’évaluer les méthodes de détection automatique en créant des emph{modèles} de corpus artificiellement générés. Ces modèles devront ressembler le plus possible à des corpus réels. Par ailleurs, ils devront nous permettre d’introduire nous mêmes des changements de sens, de façon à tester les méthodes de détection.
Sujet :
Les objectifs du stage sont ainsi :
• de confirmer les propriétés des réseaux sur les corpus du projet #neo ;
• de modéliser les changements dans ces réseaux dans le temps ;
• de se baser sur l’état de l’art et les modèles de génération de graphe pour proposer et développer une approche de génération artificielle de modèles de corpus.
Une version plus détaillée du sujet est accessible sur le PDF.
Profil du candidat :
Master 2 :
– Programmation Python (ou Java) ;
– Intérêt pour les graphes ;
– Intérêt pour le Traitement de la langue.
Formation et compétences requises :
Master 2 :
– Programmation Python (ou Java) ;
– Intérêt pour les graphes ;
– Intérêt pour le Traitement de la langue.
Adresse d’emploi :
Le Mans, LIUM, équipe LST
Document attaché : stage-une-approche.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LITIS (Rouen, Normandie)
Durée : 6 mois
Contact : geraldine.del_mondo@insa-rouen.fr
Date limite de publication : 20180201
Contexte :
Ce sujet de master s’inscrit dans les travaux réalisés dans la suite de l’ANR Modelespace qui s’est terminée en 2012. L’objectif était de développer une procédure d’étude permettant d’analyser les dynamiques spatiales des peuplements à partir de sources de données de différents types (e.g. plans cadastraux, photographies aériennes, documents dépourvus de plan comme des registres paroissiaux). Cette procédure doit rendre possible l’analyse des dynamiques spatiales non seulement sur les 200 à 300 dernières années, mais de remonter aux derniers siècles du Moyen Age lorsque la documentation le permet.
Dans ce but, l’idée générale est que la transformation des différents types de données dans un modèle commun (i.e. un graphe) peut permettre à la fois d’extraire plus facilement de l’information et de pouvoir les comparer. L’intérêt est notamment de détecter des patterns spécifiques (e.g. des forêts, qui ne sont pas inscrites dans les registres car non imposées ; connexions entre parcelles particulières) et des patterns de changement. Pour ces derniers on s’intéresse particulièrement à des changements de haut niveau (e.g. périodes de division/fusion de parcelles ; identification de zone dynamique vs. stable en terme de changement).
Les données, qu’elles soient issus de registres ou de plans géolocalisés ont été transformées dans des graphes de connectivité et les recherches se sont concentrées sur 1/ la transformation automatique des données dans ce format, 2/ la comparaison des graphes entre eux. Le principal problème auquel se sont heurtés ces travaux est l’absence de géolocalisation d’une partie des données.
Sujet :
En s’appuyant sur les travaux décrits dans le contexte, les objectifs de ce stage sont :
1. De repartir des données utilisées (6 bases de données de « cadastres » dont 4 non géolocalisés (1476, 1497, 1551, 1598) et 2 géolocalisés (1759, 1811)) sont disponibles.et de construire les graphes d’adjacences. Un travail
de remise en forme des données est nécessaire pour y parvenir.
2. Caractériser des patterns simples (zones non fiscalisées comme des forêts) et proposer des algorithmes afin de les retrouver dans ce graphe. Dans ce but, il sera souhaitable de proposer une analyse à plusieurs niveaux de détails (c’est à dire définir des zones et subdivisions de l’espace de manière cohérente) afin d’être capable de réduire les zones de recherche des patterns.
3. De proposer une architecture unifiée pour intégrer les points 1. et 2 et idéalement une interface minimale.
Profil du candidat :
Master (2ème année) ou dernière année d”école d’ingénieurs en informatique
Formation et compétences requises :
Adresse d’emploi :
Laboratoire LITIS, Rouen, Normandie
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : BEUTCH – CONSCIENCE,
Durée : 6 mois
Contact : francois.rioult@unicaen.fr
Date limite de publication : 2018-02-28
Contexte :
Basée entre Caen et Paris, BEUTCH est une société spécialisée dans le coaching digital. Avec une première application d’audio fitness nommés HUVII disponible début Décembre sur iOS et ensuite sur Android, BEUTCH se veut avant-gardiste sur le marché francophone du digital coaching. Afin d’aller encore plus loin, BEUTCH veut créer le premier coach digital intelligent en français.
Sujet :
Vous travaillerez au sein de notre équipe à Caen et avec CONSCIENCE, start up spécialisée dans le domaine de l’intelligence artificielle, afin de créer le tout premier coach digital intelligent, dans un premier temps dans le monde du running.
Vos principales missions :
• Vous nous assisterez sur la création des paramètres à intégrer
• Prototypage et développement de la version bêta, d’exploration et de navigation UX/UI
(détection, reconnaissance, analyse de la réaction de l’IA, …)
• Mise en place des tests et essais sur données réelles (cohérence, précision, temps de réaction..)
• Veille technologique et transmission de connaissances au reste de l’équipe
• Documentation des recherches, développements et algorithmes
Profil du candidat :
M2 ou ingénieur IA / Data Science
Formation et compétences requises :
M2 ou ingénieur IA / Data Science
autonomie, proactivité, rigueur, innovation.
Adresse d’emploi :
Caen, France
Document attaché : IA-011.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LICIT IFSTTAR-ENTPE Lyon
Durée : 5 mois
Contact : angelo.furno@ifsttar.fr
Date limite de publication : 30-03-2018
Contexte :
Sujet de master au LICIT avec possibilité d’une thèse CIFRE à suivre.
Titre: Estimation de variables de trafic à grande échelle au travers de la fusion de données massives et multi-sources pour l’évaluation environnementale.
Contexte et objectifs : Les villes doivent faire face à des défis environnementaux colossaux, notamment en matière de qualité de l’air et de changement climatique. Les émissions de particules fines (et parfois NO2) dans les villes dépassent très souvent des concentrations qui sont nocives pour la santé. Cette problématique environnementale incite ainsi les décideurs à gérer en même temps le besoin croissant en mobilité urbaine et la nécessité de réduire les émissions associées. C’est pourquoi la mise en œuvre de mesures d’analyse et gestion du trafic visant un transport durable est une nécessité.
Les activités de master représenteront une opportunité pour accéder à une thèse CIFRE qui débutera à la suite du stage et qui pourra impliquera l’étudiant(e), dans le cas d’un travail de master bien réussi. Encadrement du master : Le master se déroulera au LICIT et sera dirigée par Ludovic LECLERCQ et Angelo FURNO. Le co-encadrement par le CITEPA sera assuré par Thamara Vieira da Rocha.
Durée du master : 5 mois à partir d’Avril 2018
Contacts : angelo.furno@ifsttar.fr,ludovic.leclercq@ifsttar.fr, thamara.vieira.da.rocha@citepa.org
Sujet :
L’objectif de ce master est de reconstruire la dynamique du trafic dans les grandes villes par les données massives et multi-sources, afin d’évaluer avec précision les phénomènes de congestion. Pour cela, on s’appuiera sur une modélisation dynamique du trafic routier à une échelle agrégée, au travers des diagrammes fondamentaux de zone (MFD : Macroscopic Fundamental Diagrams) afin de déterminer les variables macroscopiques de trafic nécessaires au calcul d’émissions.
Introduit il y a une trentaine d’années, le concept de MFD vise à reproduire de manière agrégée les conditions de trafic d’une zone urbaine. Il constitue un outil performant pour accéder à une représentation dynamique du trafic : moins contraignante qu’une simulation microscopique (temps de calcul, données nécessaires à la calibration, etc.), tout en intégrant les phénomènes de congestion qui contribuent fortement aux émissions. C’est donc une source d’information de trafic pertinente pour l’évaluation des émissions de polluants et de gaz à effet de serre associés.
L’estimation des diagrammes fondamentales peut se faire au travers de technique de l’intelligence artificielle et du big data (fusion de données, techniques de machine learning supervisées et non-supervisées, technologies du big data), finalisées à reconstruire les trajectoires de mobilités des navetteurs à partir de différentes sources de données de mobilité et à caractériser donc la vitesse moyenne et les distances parcourues, variables agrégées nécessaires au calcul d’émission. L’étudiant(e) de master sera impliqué dans les activités nécessaires à l’estimation des variables agrégées (la vitesse moyenne et les distances parcourues) du diagramme MFD en utilisant plusieurs jeux de données massives de mobilité. En particulier, ces données, recueillies dans des villes de Colombie et transmises par le CITEPA, inclueront :
– des données de téléphonie mobile (Call Detail Records et données de signalisation sur le réseau mobile),
– des données de véhicules traceurs,
– des données de boucles électromagnétiques.
Des données similaires seront disponible sur plusieurs villes en France (Lyon et Paris), dans le cadre d’une collaboration entre le LICIT et Orange SA. Des solutions de clustering seront aussi nécessaires pour identifier des zones homogènes en termes de condition de trafic, une condition fondamentale pour l’estimation correcte des MFD.
Ce travail de master représente une activité préliminaire et crucial dans le cadre d’un projet de recherche collaboratif avec le CITEPA (https://www.citepa.org).
Les activités de master représenteront une opportunité pour accéder à une thèse CIFRE qui débutera à la suite du stage et qui pourra impliquera l’étudiant(e), dans le cas d’un travail de master bien réussi.
Profil du candidat :
* Formation recommandée
Ecole d’ingénieur/Master1 en Informatique/Mathématique/Statistique
Formation et compétences requises :
* Connaissances et savoir-faire souhaités
Experience en programmation (Pyhton/R), fouille de données, méthodes statistiques et apprentissage automatique
Environnement Linux, Solutions du Big Data (Spark, Scala) optionnel
Connaissance de la théorie du trafic optionnel
* Qualités requises
Esprit d’analyse et de synthèse, inventivité, rigueur, efficacité, autonomie.
Coopération et esprit d’équipe
Prise de fonction
02/04/2018
Adresse d’emploi :
Ifsttar de Lyon / Bron. Ifsttar – Lyon-Bron 25, avenue François Mitterrand, Case24 Cité des mobilités. F-69675 Bron Cedex
et
École nationale des travaux publics de l’État,
3 Rue Maurice Audin, 69518 Vaulx-en-Velin
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : ICube – Université de Strasbourg
Durée : 4 à 6 mois (Printemps 2019)
Contact : gancarski@unistra.fr
Date limite de publication : 2018-03-31
Contexte :
Dans le cadre d’un projet ANR, des bases de données massives liées à la gestion des ressources en eau ont été créées. Il s’agit dans ce projet, de fouiller ces données pour extraire des informations sur l’évolution de la qualité de l’eau. Ce projet implique des informaticiens mais aussi des spécialiste d’hydrologie.
Sujet :
L’objectif de ce stage est de proposer et mettre en place des outils permettant d’interroger les bases de données existantes afin d’extraire des données, qui une fois mises en forme, pourront « alimenter » le logiciel d’analyse de données (FoDoMuST). Il s’agira donc, de créer des modèles (template) de chaînes d’analyse de telles données en python. Par exemple : un template permettra de charger et mettre en forme les données, puis de les transférer à JCL (librairie de méthodes de classification) et enfin de mettre en forme pour un affichage. L’interface de FoDoMuST devra aussi être adaptée.
Profil du candidat :
Master 2 Informatique en cours (ou Ecole d’ingénieur à forte connotation Informatique)
Formation et compétences requises :
Connaissances (fortes) en fouille de données
Adresse d’emploi :
ICUBE CNRS UMR 7537
Pôle API
300 bld Sébastien Brant
Strasbourg – Illkirch
Document attaché : SujetM2_ADQeau-2019.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : ICube
Durée : 4 à 6 mois
Contact : aurelie.leborgne@unistra.fr
Date limite de publication : 2018-03-31
Contexte :
Dans un contexte où de grandes quantités de données spatio-temporelles peuvent être accumulées, le besoin de valoriser ces données est grandissant. Ainsi, la nécessité de nouvelles approches innovantes d’analyse de ces données multi-sources se fait cruellement sentir. Les graphes étant des outils puissants à la fois théoriquement et méthodologiquement, nous nous proposons d’une part, de les utiliser pour formaliser et structurer ces informations et d’autre part, de construire des méthodes originales de fouille par exploration des graphes ainsi obtenus.
Les méthodes proposées seront le plus génériques possibles. Néanmoins, nous nous investirons plus spécifiquement sur la fouille de graphes appliquée à la télédétection et aux IRM fonctionnels.
Sujet :
Les objectifs scientifiques sont de plusieurs ordres. Le premier consiste à modéliser des données spatio-temporelles pertinentes, issues de contextes réels (télédétection et IRM fonctionnels), grâce à un graphe spatio-temporel [1].
Le deuxième objectif scientifique important est relatif à la pratique relativement récente du couplage des informations temporelles et spatiales. En effet, cela implique de nouvelles dépendances entre les objets, ce qui rend les approches de fouille purement spatiales ou temporelles inutilisables sous peine de perdre en précision et interprétabilité des résultats [2]. Cela implique également de gérer l’explosion combinatoire des relations à explorer lors de la fouille du graphe et de déterminer une valeur de similarité entre sous-graphes. Le but de cette fouille serait d’extraire des motifs caractérisant des évolutions spatio-temporelles. Par exemple, nous pourrions nous intéresser à la vitalité des forêts de châtaigniers
au cours du temps ou à la recherche de dysfonctionnements du cerveau liés à certaines maladies comme la schizophrénie.
[1] DEL MONDO, Géraldine, RODRÍGUEZ, M. Andrea, CLARAMUNT, Christophe, et al. Modeling consistency of spatio-temporal graphs. Data & Knowledge Engineering, 2013, vol. 84, p. 59-80.
[2] ATLURI, Gowtham, KARPATNE, Anuj, et KUMAR, Vipin. Spatio-temporal data mining: A survey of problems and methods. ACM Computing Surveys (CSUR), 2018, vol. 51, no 4, p. 83.
Profil du candidat :
Master 2 Informatique en cours (ou Ecole d’ingénieur à forte connotation Informatique)
Formation et compétences requises :
Bonnes compétences en programmation et théorie des graphes
Adresse d’emploi :
ICUBE CNRS UMR 7537
Pôle API
300 bld Sébastien Brant
Strasbourg – Illkirch
Document attaché : 2019-stageFinEtude.pdf
