Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Mar
31
Thu
2016
Repairing SQL queries to retrieve missing answers
Mar 31 – Apr 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ETIS
Durée : 6 mois
Contact : Dimitrios.Kotzinos@u-cergy.fr
Date limite de publication : 2016-03-31

Contexte :
The internship will take place in the MIDI team of the ETIS Lab (ENSEA / UCP / CNRS UMR 8051) based in the area of Cergy Pontoise, just outside Paris.

The internship will have a net salary of around 508 euros/month and a duration of up to 6 months, starting on March or April 2017.

Interested candidates are requested to send a detailed CV, one recommendation letter and university/master transcripts to Katerina Tzompanaki at atzompan@u-cergy.fr.

Sujet :
Repairing SQL queries to retrieve missing answers.

The increasing load of data produced nowadays is coupled with an increasing need for complex data transformations that developers design in order to process or integrate these data. These transformations, commonly specified declaratively in the form of queries, may fail to produce all the expected results leading to what we call missing data. Understanding the reasons why missing data occur, and how the original query can be modified in order to overcome these reasons, can be tricky if manually performed. In the context of relational databases, [1] proposed a novel way (Why-Not polynomials) to explain missing data given a certain query. Consequently, [3] described a first approach of utilizing Why-Not polynomials in order to effectively repair the query, while [2] shows a prototype implementing these algorithms. As the query repairing phase of the framework heavily depends on the size of the database and the complexity of the Why-Not polynomial, a more efficient solution needs to be devised, either by improving the existing algorithm or by proposing a new one. This will be the focus of the master internship.

More specifically, the candidate is expected to

1) Verify/Identify the bottlenecks of the existing solution, algorithmically and experimentally.
2) Propose improvements of the algorithm.
3) Implement the new improved algorithm and experimentally prove its efficiency.

References

[1] Bidoit, Nicole, Melanie Herschel, and Aikaterini Tzompanaki. “Efficient computation of polynomial explanations of why-not questions.” Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. ACM, 2015.
[2] Bidoit, Nicole, Melanie Herschel, and Katerina Tzompanaki. “EFQ: Why-not answer polynomials in action.” Proceedings of the VLDB Endowment 8.12, 2015.
[3] Bidoit, Nicole, Melanie Herschel, and Katerina Tzompanaki. “Refining SQL Queries based on Why-Not Polynomials.” 8th USENIX Workshop on the Theory and Practice of Provenance (TaPP 2016). 2016.

Profil du candidat :
The candidate shoukd be an M2 level student.

Formation et compétences requises :
The candidate will have solid knowledge of the Java programming language. Familiarity with SQL query language and relational databases is desired.

Adresse d’emploi :
MIDI team
ETIS Lab (ENSEA / UCP / CNRS UMR 8051)
Site St. Martin
2 Av. Adolph Chauvin
95000 Pontoise

Document attaché :

Apr
1
Fri
2016
Offre de stage – Master 2 : conception de profil utilisateur à partir de traces de navigation
Apr 1 – Apr 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LINA/POLYTECHNANTES
Durée : 6 mois
Contact : antoine.pigeau@univ-nantes.fr
Date limite de publication : 2016-04-01

Contexte :
The Open Class Room website provides online courses in various area, from art and culture to computer science. A course is composed of text, video or ebook that users browse/read/download after a registration process. The validation of a course is carried out thanks to exercises and quizzes.
A validation of a course may result in a certificate if the user chooses a premium registration.

The success of Open Class Room enables the availability of many user profiles with their associated traces on the courses:
• the personal information are provided on the registration process. Each user provides his name, his gender, his skills, his grade, his job and the courses taken;
• the traces contain all the actions carried out by the users on both the client and server sides.

Accesses to each course, parts of a course or a chapter, quiz and exercise are then recorded for each user. The goal of the project is to study the reasons for the failure or the success of the students.
Providing such an answer is of much interest for both the course designers and the managers of the Open Class Room website. The objective of such a study is to improve the design of the courses
and to be capable of anticipating the failure of a student

Sujet :
Le détail du sujet est disponible sur la page “positions>Master Topics” du site de l’équipe Duke:
http://duke.univ-nantes.fr/wp-content/uploads/2015/12/StageHubble-DUKe.pdf

The objective of the internship is the modelling of user profiles based on their personal information and on the way they browse/learn a course.

Our input data are the personal information of the user and his traces, and the output is a set of user’s profiles. Such a profile will summarize the background, the interests and the learning
methods of a user (or a group of users).

The following research area will be studied to generate the profiles:
• process modelling : a set of user traces on a same course is summarized to emphasized
the main step to learn a course, from the beginning to the validation exercises;
• pattern mining and sequential pattern mining : search for sequence similarities on a specific course, or a set of courses. For instance, a pattern obtained from users with high marks could be pertinent to motivate a good practice;
• user clustering: search for groups of users with similar backgrounds and a similar way to browse/learn the courses. The clustering could be obtained from the two previous points.
Group of users would be defined with a similar process or similar frequent patterns.

Each data mining process can be applied on a subset of users, defined with specific values of the personal user’s information, the skills and grades for example. The objective here will be to
study the correlations between set of users with different properties.

Profil du candidat :
Les seules contraintes concernent la formation et les compétences.

Formation et compétences requises :
Niveau de formation demandé : Master 2

Le candidat doit avoir des compétences dans les domaines suivants:
– Clustering
– pattern mining
– process modelling

Adresse d’emploi :
PolytechNantes

Document attaché : stagehubble-duke.pdf

Apr
30
Sat
2016
A data flux comparison among different Distributed Frequents Itemset Mining Algorithms over MapReduce platform
Apr 30 – May 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ETIS – ENSEA / Université de Cergy-Pontoise / CNRS
Durée : 6 mois
Contact : Tao-Yuan.Jen@u-cergy.fr
Date limite de publication : 2016-04-30

Contexte :
Object: Internship Master / Engineer

Place: Paris Area, Université de Cergy-Pontoise, Cergy-Pontoise, France

Subject: A data flux comparison among different Distributed Frequents Itemset Mining Algorithms over MapReduce platform

Period: 6 months internship from April/May to September/October 2015 – approx. 508€/month

For further information on the internship subject please contact:
Tao Yuan Jen

Sujet :
Description: This internship subject deals with two research fields: Data Mining and Cloud Computing.

The objective of the internship is
(1) to implement or find the source code for the following Distributed Frequents Itemset Mining Algorithms over MapReduce platform :
MRApriori algorithm, IMRApriori algorithm, SPC and DPC algorithms, DPFPM algorithm, Mreclat algorithm, and Apriori-V algorithm.
(2) to compare the mining performance, the quantity of data distributed in each data node before the mining work and the quantity of data communicated among each node in the mining work among these algorithms.
(3) to develop or find the source code for a vertical data layout bitmap converter, if it is necessary, for the preparation of data sets in different experiences.
(4) to study and implement, if it’s possible with the time constraint, some improvements for Apriori-V algorithm.

This internship will contribute in order to:
1. understand different waysof working of the main types of Distributed Frequents Itemset Mining Algorithms over MapReduce platform;
2. clarify the utilisations and the flux of different data types in Distributed Frequents Itemset Mining Algorithms over MapReduce platform;
3. plan our future development and improvements for our ongoing studies related to Apriori-V algorithm in this domain.

The internship is available immediately, will take place at the ETIS Lab (ENSEA / UCP / CNRS UMR 8051) located at Cergy Pontoise in the Paris area and will last for 6 months.

For further information on the internship subject please contact:
Tao Yuan Jen

Profil du candidat :
Engineer/Master2

Formation et compétences requises :
The candidate should be familiar to data mining techniques and the MapReduce platform.

Adresse d’emploi :
2 avenue Adolphe-Chauvin
BP 222, Pontoise
95302 Cergy-Pontoise cedex

Document attaché :

Stage Master2R : Privacy in mining of semantic trajectories among moving objects
Apr 30 – May 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ETIS – ENSEA / Université de Cergy-Pontoise / CNRS
Durée : 6 mois
Contact : claudia.marinica@u-cergy.fr
Date limite de publication : 2016-04-30

Contexte :
Object: Internship Master / Engineer

Place: Paris Area, ETIS Lab, Université de Cergy-Pontoise, Cergy-Pontoise, France (http://www-etis.ensea.fr/)

Subject: Privacy in mining of semantic trajectories among moving objects

Period: 6 months internship from April/May to September/October 2015 – approx. 508€/month

Supervision:
– Dimitris Kotzinos, PU, UCP, Dimitrios.Kotzinos@u-cergy.fr
– Claudia Marinica, MCF, UCP, Claudia.Marinica@u-cergy.fr

Applications (with CV and motivation letter) should be sent to Claudia.Marinica@u-cergy.fr .

Sujet :
Description: Trajectory pattern mining proposes to extract from location-like data frequent movement/mobility behaviour that characterise the individuals. Significant advances have been made with regard to knowledge discovery starting with the pioneer work of Giannotti et al. in 2009 [2], so lately the main interest in this research area went from efficient trajectory pattern mining to the possible risks that the discovered movement behaviour can bring to individual privacy (e.g. GeoKDD project [1]).
On the other side, the semantic web is a research area aiming to provide an easy way to find, share, reuse, etc information. To this end, it proposed a set of languages for knowledge representation, but also defines important notion such as “ontologies” permitting to represent domain semantics.
First works combining semantic web and trajectory analysis propose either to use ontologies in order to understand user’s behaviour [3] or to use taxonomies in order to improve user’s privacy [4]. Moreover, we would like to assess the threats that the addition of semantics will bring to the users’ privacy through the provision of more detailed information for the movements.
The goal of this internship is:
(1) first to study the existing methods combining semantic web and trajectory analysis in order to (mainly) improve user’s privacy;
(2) second to propose a new approach for using semantic information on available trajectories so as to improve the overall understanding of the trajectories themselves, while offering enhanced privacy considerations.

Applications (with CV and motivation letter) should be sent to Claudia.Marinica@u-cergy.fr .

[1] Mirco Nanni, Roberto Trasarti, Chiara Renso, Fosca Giannotti, and Dino Pedreschi (2010) Advanced knowledge discovery on movement data with the GeoPKDD system. EDBT, ACM International Conference Proceeding Series, page 693-696. ACM.
[2] Fosca Giannotti, Mirco Nanni, Fabio Pinelli, and Dino Pedreschi. 2007. Trajectory pattern mining. In Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD ’07). ACM, New York, NY, USA, 330-339.
[2] C. Renso, M. Baglioni, J. A. F. de Macˆedo, R. Trasarti, and M. Wachowicz. How you move reveals who you are: understanding human behavior by analyzing trajectory data. Knowl. Inf. Syst., 37(2):331–362, 2013.
[2] Anna Monreale, Roberto Trasarti, Chiara Renso, Dino Pedreschi, and Vania Bogorny. 2010. Preserving privacy in semantic-rich trajectories of human mobility. 3rd ACM SIGSPATIAL International Workshop on Security and Privacy in GIS and LBS. 47-54.

Profil du candidat :
Knowledge in data mining techniques and programming skills are required.

Formation et compétences requises :
Knowledge in data mining techniques and programming skills are required.

Adresse d’emploi :
Laboratoire ETIS, UCP, 2 Avenue Adolphe Chauvin, 95300, Cergy-Pontoise

Document attaché :

May
12
Thu
2016
MaDICS : Réunion bureau @ visio-conf
May 12 @ 15:30 – 17:30
Jun
10
Fri
2016
MaDICS: réunion bureau @ visio-conf
Jun 10 @ 11:30 – 13:00
Sep
1
Thu
2016
MaDICS : réunion bureau @ visio-conf
Sep 1 @ 15:30 – 17:30
Sep
22
Thu
2016
MaDICS : Réunion bureau @ visio-conf
Sep 22 @ 15:30 – 17:30
Oct
5
Wed
2016
MaDICS : Réunion bureau @ visio-conf
Oct 5 @ 13:00 – 14:30
Oct
27
Thu
2016
MaDICS : Réunion bureau @ visio-conf
Oct 27 @ 15:30 – 17:30
Nov
22
Tue
2016
Echange INS2i @ Paris LIP6 ?
Nov 22 @ 14:00 – 17:00
Jan
13
Fri
2017
MaDICS : Réunion bureau @ visio-conf
Jan 13 @ 15:30 – 17:30
Feb
10
Fri
2017
Chargé de mission en Modélisation et conception d’outil pour le diagnostic data de territoires
Feb 10 – Feb 11 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ForumPHP, 27 rue de la Rochefoucauld 75009 PARIS (2è étage)
Durée : 6 mois
Contact : veronique[ dot ]guillaumin[ @ ]forumhabitatprive[ dot ]org
Date limite de publication : 2017-02-10

Contexte :
Le Forum des Politiques de l’habitat privé (Forum PHP) est une association nationale créée en 2012. C’est un réseau de réseaux, un centre de ressources et une communauté de professionnels de l’habitat privé à destination principalement des collectivités territoriales.
De nombreuses collectivités territoriales sont en plein questionnement sur les opportunités (voire les limites) de notions telles que l’open-data, le big-data, le self-data et la constitution d’entrepôt de données et de data lakes. En matière de politique locale de l’habitat (compétence intercommunale), le rapport d’Etalab 2015 rend compte des données habituellement utilisées et sources mobilisées pour élaborer un diagnostic ou un observatoire de l’habitat (données relatives au parc, aux habitants, au marché de l’habitat, …).
Dans votre travail vous aurez des interactions avec des acteurs tels que les représentants des réseaux membres de l’association lors des réunions (mensuelles à trimestrielles) des 5 groupes de travail thématiques, du comité technique trimestriel, du conseil d’administration trimestriel

Sujet :
Vous travaillerez sur la modélisation des données et sur la conception d’un outil pour le diagnostic data d’un territoire afin de proposer une vision 360° pour l’aide à la décision pour les acteurs des politiques de l’habitat. Ce travail reposera spécifiquement sur la construction d’indicateurs pertinents, de leur présentation sous forme de tableau de bord et de la valorisation au travers de modules de visualisation sur des preuves de concepts (POC) répondant à la problématique d’enrichissement des politiques locales de l’habitat.
Il est donc proposé de partir d’une politique publique, l’habitat, compétence intercommunale, pour montrer le champ des possibles.
1- Proposer et valider une approche méthodologique pour dresser l’inventaire des données présentes sur un territoire, urbain ou rural, tous canaux confondus.
2- Etablir une cartographie producteurs/consommateurs de ces données mettant en lumière le cycle qui peut s’établir de la donnée brute à la valeur en passant éventuellement par une étape d’enrichissement et/ou augmentation.
3- Construire des cartes de maturité data pour la mesure du potentiel d’innovation orientée sur les données dans un territoire.

Profil du candidat :
Science de l’information
Gestion des connaissances
Traitement de données

Formation et compétences requises :
Informatique, Système d’information

Adresse d’emploi :
Affectation structurelle : ForumPHP, 27 rue de la Rochefoucauld 75009 PARIS (2è étage)
Contact : Mme Véronique GUILLAUMIN veronique[ dot ]guillaumin[ @ ]forumhabitatprive[ dot ]org

Document attaché : sujet_stage_diagnostic_data_fphp.pdf

Feb
15
Wed
2017
Automatisation du requêtage des API de Twitter pour une collecte à large spectre
Feb 15 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : UMR 6281- Université de Technologie de Troyes
Durée : 6 mois
Contact : babiga.birregah@utt.fr
Date limite de publication : 2017-02-15

Contexte :
L’analyse des réseaux sociaux pour la gestion de crise est souvent limitée par la prise en compte les limitations des API. Par exemple dans le cadre d’une stratégie de collecte à large spectre lors d’une crise généralisée il est souvent difficile de suivre simultanément toutes les thématiques tout en maîtrisant l’évolution des groupes de mots clés et thématiques dans les échanges. De plus l’émergence de nouvelles thématiques peut influencer la richesse et la pertinence des messages collectés.

Il est donc important de construire un moteur qui automatise (i) non seulement le suivi au fil de l’eau (et en ligne) de l’évolution des mots clés, (ii) mais aussi la détection de thématiques émergentes pour garantir la pertinence des paramètres de la collecte en cours.

Sujet :
Le ou la candidat(e) retenu(e) doit proposer une moteur de collecte large spectre de tweets capable de tourner sur une longue période sans interruption tout en adaptant les mots clés selon la trajectoire que prend l’événement en cours. Pour cela il ou elle devra mettre en place un algorithme de détection de thématiques d’intérêt qui permet de suggérer automatiquement des termes émergents pour adapter la collecte.

Profil du candidat :
Profil: Mathématiques/Inforatiques

Dossier de candidature : Le dossier de candidature doit être transmis uniquement par mail, à l’adresse suivante : babiga.birregah@utt.fr, en ajoutant dans l’objet la référence DL04- 1617.

Il doit contenir les pièces suivantes, sous format PDF:

– Une lettre de motivation indiquant clairement les expériences (stages, projets, etc.) en relation avec le stage

– Un CV contenant la liste des publications et autres réalisations (projets, logiciels, etc.)

Formation et compétences requises :
Compétences :
Gestion de base de données : PostgreSQL
Langages : Python / des connaissances en Java seraient un plus.

Bon relationnel et travail en équipe. Vous aurez à travailler avec les équipes du BRGM qui travaillent sur le suivi des catastrophes naturelles.

Poste à pourvoir : Stage Ingénieur/Master 2/Mastère Spécialisé

Adresse d’emploi :
Affectation structurelle : Université de Technologie de Troyes/ Equipe LM2S (UMR 6281)

Durée : 6 mois
Date de prise de fonction : Février 2017

Document attaché :

Mar
1
Wed
2017
stage recherche M2 Informatique
Mar 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Inria Lille, CRIStAL
Durée : 6 mois
Contact : philippe.preux@univ-lille.fr
Date limite de publication : 2017-03-01

Contexte :
Le sujet se situe à l’interface entre deux domaines de l’informatique : génie logiciel et apprentissage automatique.
Cette problématique est étudiée depuis plusieurs années dans une collaboration entre les équipes Spirals et SequeL de Inria Lille / CRIStAL, par Martin Monperrus et Philippe Preux.
La réalisation du sujet demande à la fois un travail de recherche fondamental et de développement logiciel.
Elle demande la manipulation de concepts de théorie des graphes, développement logiciel et de statistiques.

Sujet :
Modélisation de l’évolution de logiciels

voir http://www.grappa.univ-lille3.fr/~ppreux/prje/m2info-a.php

Profil du candidat :
M1 d’informatique acquis, M2 en cours.

– fort attrait pour la théorie des graphes, l’algorithmique en général.
– curiosité, autonomie, capacité à écouter et à travailler en équipe.

Formation et compétences requises :
– capable de développer sans difficulté du code (java, C++, C, R, python)
– lecture de l’anglais.
– des notions (le plus possible) de statistiques, voire de mathématiques appliquées (en plus de la formation en informatique)

Adresse d’emploi :
Centre Inria
Villeneuve d’Ascq

Document attaché :

stage master en Big Data Warehouse
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : irstea
Durée : 5 mois
Contact : sandro.bimonte@irstea.fr
Date limite de publication : 2017-03

Contexte :
Data Warehouse, Big Data et données agro-climatiques

Sujet :
Etude et implémentation d’une solution Spatial Big Data
Warehouse : Application aux données agro-climatologiques

Profil du candidat :
formation Big Data

Formation et compétences requises :
Les compétences en informatique recherchées sont :
– Entrepôts de données, et OLAP (i.e Mondrian)
-Technologies Big Data (bases de données – ex : Cassandra, MongoDB, etc. – plateformes –ex :
Hadoop)
-Java
-Les compétences en Systèmes d’Information Géographique seront considérées comme un plus

Adresse d’emploi :
9 av blaise pascal, Aubiere (clermont ferrand)

Document attaché : Offre-de-Stage-20183.pdf

Mar
17
Fri
2017
MaDICS : Réunion bureau @ visio-conf
Mar 17 @ 16:00 – 17:30
Apr
10
Mon
2017
Classification de signaux et d’images par descripteurs invariants/Signal and image classification with invariant descriptors (scattering transforms)
Apr 10 – Apr 11 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : IFP ENERGIES NOUVELLES
Durée : 5 mois
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2017-04-10

Contexte :
Le domaine de l’analyse de données complexes (science des données) s’intéresse notamment à l’extraction d’indicateurs pertinents, pour la réduction de dimension, la comparaison, la classification des données. Initialement basées sur des descripteurs (features) relativement physiques, spécifiques à l’application, de nouvelles méthodes apparaissent, basées sur des descripteurs numériques plus génériques et potentiellement multiéchelle, et des bases d’information pouvant servir à l’apprentissage ou la classification. Des exemples se trouvent dans les techniques de type SIFT (scale-invariant feature transform) et analogues (ORB, SURF), dans l’apprentissage non-supervisé de descripteurs, en apprentissage profond (deep learning). Ce stage s’intéresse spécifiquement à la gamme de techniques dites scattering transform (S. Mallat et al.) et aux techniques de classification associées. Elle permet d’obtenir des représentations de signaux, d’images ou de graphes présentant des propriétés d’invariance relatives à certaines transformations affectant les données : translation, rotation, échelle… Ses performances sont bien étudiées sur des données classiques (signaux audio, bases d’images, reconnaissance de chiffres manuscrits).

Sujet :
Ce stage s’intéresse à la mise en œuvre de ces méthodes sur des types de données moins étudiés : identification de la correspondance la plus proche d’une « image candidate » dans une base de données d’images modélisées du sous-sol et extraction d’empreintes pertinentes de signaux spectrométriques 1D issus de composés chimiques complexes pour l’apprentissage de propriétés physico-chimiques macroscopiques. Dans le premier cas, le défi réside dans l’échelle et la nature distincte des images candidates et modélisées, les secondes correspondant à une vision simplifiée des premières (proches de « sketches » ou cartoons »). Dans le second cas, la nature des signaux, formés d’une superposition de plusieurs centaines de pics (positifs), est de nature différente des informations traitées classiquement par les transformées en scattering. Une focalisation sur une des deux applications est envisagée, en fonction des succès ou difficultés rencontrés.

Profil du candidat :
Niveau 3e année élève ingénieur et/ou master

Formation et compétences requises :
Informatique/algorithmique, traitement de signal/image, statistiques, apprentissage automatique, mathématiques appliquées

Adresse d’emploi :
Rueil-Malmaison (92)

Document attaché : ifpen_stage-internship-2017-master-data-science-scattering-transform-english.pdf

Apr
28
Fri
2017
MaDICS : Réunion bureau @ visio-conf
Apr 28 @ 16:00 – 17:00
May
1
Mon
2017
Une approche graphe/r ́eseaux complexes pour mod ́eliser la nouveaut ́e dans des corpus textuels
May 1 – May 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIUM, équipe LST
Durée : 6 mois
Contact : nicolas.dugue@univ-lemans.fr
Date limite de publication : 2017-05-01

Contexte :
Le projet #neo s’intéresse à la détection automatique de néologismes en exploitant de grands corpus textuels. En particulier, il s’agit de détecter des mots qui changent de sens ou dont un nouveau sens apparaît. Dans ce stage, nous souhaitons fournir à ce projet un moyen d’évaluer les méthodes de détection automatique en créant des emph{modèles} de corpus artificiellement générés. Ces modèles devront ressembler le plus possible à des corpus réels. Par ailleurs, ils devront nous permettre d’introduire nous mêmes des changements de sens, de façon à tester les méthodes de détection.

Sujet :
Les objectifs du stage sont ainsi :
• de confirmer les propriétés des réseaux sur les corpus du projet #neo ;
• de modéliser les changements dans ces réseaux dans le temps ;
• de se baser sur l’état de l’art et les modèles de génération de graphe pour proposer et développer une approche de génération artificielle de modèles de corpus.

Une version plus détaillée du sujet est accessible sur le PDF.

Profil du candidat :
Master 2 :
– Programmation Python (ou Java) ;
– Intérêt pour les graphes ;
– Intérêt pour le Traitement de la langue.

Formation et compétences requises :
Master 2 :
– Programmation Python (ou Java) ;
– Intérêt pour les graphes ;
– Intérêt pour le Traitement de la langue.

Adresse d’emploi :
Le Mans, LIUM, équipe LST

Document attaché : stage-une-approche.pdf