Présentation Générale

 



           
Huitième édition du Symposium MaDICS (les inscriptions sont ouvertes !)

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Dates importantes :

  • Date limite d’inscription : 30 avril 2026 7 mai 2026
  • Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda et à vous inscrire !
Inscrivez-vous ici

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Feb
3
Sun
2019
Évolution de réseaux sociaux personnels en ligne : nouvelles techniques et comparaisons.
Feb 3 – Feb 4 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire ETIS, équipe MIDI – https://www-etis.ensea.fr/fr/equipe-midi.html
Durée : 6 mois
Contact : claudia.marinica@ensea.fr
Date limite de publication : 2019-02-03

Contexte :
L’équipe MIDI (Multimedia Indexation et Data Integration) du laboratoire ETIS – ENSEA/UCP/CNRS 8051 est la principale équipe du laboratoire dans le domaine de la science de données et l’analyse de données multimédia.
Ce stage se situe dans la continuation d’un travail de thèse qui devrait être soutenue courant 2019 ; nous avons obtenus plusieurs résultats que nous souhaitons valider en utilisant de différents techniques.

Sujet :
Les réseaux sociaux online permettent aujourd’hui aux utilisateurs d’être en contact direct, de s’échanger des messages, informations, etc. ; ces réseaux évoluent avec l’évolution de la vie des utilisateurs. De plus, un réseau social peut être vu comme le regroupement de plusieurs réseaux plus petits et centrés sur un individu à la fois. Ces réseaux portent le nom de réseaux personnels en ligne [1], car ils sont composés d’un individu central (le ego) et de plusieurs individus (les alters) avec lesquels le ego est connecté de manière directe ou indirecte.
Pour aller plus loin, les réseaux personnels (comme les réseaux sociaux classiques) évoluent dans le temps, mais étant donné que leur étude est très récente, il n’est toujours pas clair si leur évolution est comparable à celle des réseaux classiques. Dans les travaux que nous avons réalisés dans [2], nous avons étudié l’évolution des réseaux de collaboration (comme DBLP) en analysant l’évolution des valeurs d’un certain nombre de métrique dans le temps, et nous sommes actuellement en train de proposer un modèle d’évolution dédié.
Ce sujet aborde deux points : (1) l’étude de l’évolution des réseaux personnels en utilisant d’autres techniques afin de pouvoir comparer les résultats obtenus et les valider, et (2) rendre disponibles à la communauté les outils que nous avons développés au fil de nos travaux.
Le premier point concerne l’utilisation des techniques de fouilles de données afin de comprendre l’évolution des réseaux personnels. En effet, une représentation spécifique des réseaux sociaux à temps t pourrait nous permettre d’extraire des informations du style « si un réseau a gagné 2 nœuds en temps t, il a la tendance de gagner 2 nœuds en temps t+1 ». Dans ce contexte, plusieurs défis peuvent être soulignés comme le choix de la technique de fouille de données et la modélisation des données afin de pouvoir appliquer la technique choisie. Ces deux défis sont clairement liés, et diverses techniques peuvent être utilisées en fonction du résultat étendu.
Le deuxième point concerne le développement d’un outil pour l’analyse de l’évolution des réseaux personnels présents dans un réseau social ; cet outil serait utilisable par les experts qui étudient un réseau social spécifique et qui voudront comprendre comment les réseaux personnels inclus dans le réseau social évoluent dans le temps. Ce point se basera sur des développements déjà existant réalisés dans le cadre d’une thèse.

Profil du candidat :
Nous cherchons en candidat qui apprécie à la fois la recherche et le développement car dans ce sujet concerne les deux aspects.
Il s’agit d’un stage pour un étudiant en Master 2.

Formation et compétences requises :
Le candidat doit être familier (un minimum avec les techniques de fouille de motifs fréquents et/ou avec l’analyse de réseaux sociaux/analyse de graphes).
Des compétences de mise en place d’une application web sont nécessaire, ainsi que dans le langage Java afin de pouvoir porter ce qui a déjà été développé dans une application web.

Adresse d’emploi :
2, avenue Adolphe-Chauvin, Cergy-Pontoise (région parisienne)

Document attaché : sujet_stage.pdf

Feb
11
Mon
2019
Offre de stage LabHC
Feb 11 – Feb 12 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire Hubert Curien
Durée : 4 – 6 months
Contact : christine.largeron@univ-st-etienne.fr
Date limite de publication : 2019-02-11

Contexte :
This project aims to understand how people’s stance on contentious issues is influenced by the information diffusions they are exposed to. Our incipient research concerning the discussion on Reddit around Brexit indicates that users change their attitude depending on what content they are exposed to. In this project, we intend to uncover the precise interaction patterns that are most effective in swaying user attitude, and accurately predict what would be a users’ opinion in the close future, based on their past actions and the discussion they were exposed to recently.

Sujet :
This project proposes to jointly use social community detection developed at the University Jean Monnet [7,8], and information diffusions analysis tools [9] currently under development at the University of Technology Sydney to analyse user activity within particular discussion topics together with their stance. More precisely, in this project we will develop upon recently proposed information diffusion mechanisms [5,6] to build spatio-temporal modelling tools, which allow understanding the diffusion paths of information through particular online communities. This project will advance both the theoretical knowledge in the spatio-temporal modelling information diffusion and detecting online communities, and also will build an online platform for visualising in real time the spread of particular discussion topics via popular platforms (e.g. Twitter). The students in this project will employ two readily available datasets around Brexit: a Reddit dataset and a Twitter dataset.
Opportunities. The work in this project will follow upon incipient analysis on the same datasets, and profiling measure which show the feasibility of the approach. The student who will undertake this project will be based in St Etienne, at the Hubert Curien laboratory.

Profil du candidat :
Student in last year of engineering school or Master 2 Computer Science with skills in Data mining / Machine learning

Formation et compétences requises :
Good math skills: probabilities and stochastic calculus; linear algebra
Good programming skills
Background Machine Learning and/or Data Science methods;
Performing (computer) experiments and analysing results
Git, R/Python, desire to make sense of real data and solve real issues

Adresse d’emploi :
Laboratoire Hubert Curien
Université Jean Monnet – Saint-Etienne
18 rue Lauras
42000 Saint-Etienne

Document attaché : 2019_10_02_M2_Largeron_Rizoiu_2019-2020.pdf

Feb
13
Wed
2019
TOWARDS AN OPTIMIZED AND GENERIC STORAGE MODEL FOR ASTRONOMICAL DATA IN SPARK
Feb 13 – Feb 14 all-day

Annonce en lien avec l’Action/le Réseau : MAESTRO

Laboratoire/Entreprise : DAVID – Université de Versailles
Durée : 5 à 6 mois
Contact : Karine.Zeitouni@uvsq.fr
Date limite de publication : 2019-02-13

Contexte :
Applications in universe science are among the most demanding of Big Data technology. Indeed, recent new programs for sky and earth surveying
will produce peta bytes of data. Exploratory analysis of these data is crucial to enable scientists and practitioners to better understand their data and optimize various processes. This requires ecient database systems to manage and query these unprecedented amount of data.
Efficient query processing of astronomical data leads to optimize the data representation. Today, the most used formats in astronomy are FITS, HDF5, or simple csv, mainly for data exchange purpose. Besides, Parquet format, recommended by the Apache consortium, is becoming a de facto standard adopted by a large variety of Big Data tools, and NoSQL system. However, there exists a gap between the astronomical standard formats and Parquet, as a matter of fact. More importantly, due to the amount of astronomical data, it adds a significant over-cost to the loading process in NoSQL systems like Spark, since the data should be converted from FITS to the format adopted in the target system.

Sujet :
The main objective of this internship is to ll this gap by proposing an optimized generic storage in Spark to represent at least FITS and HDF5 data formats into Spark DataFrame. A focus, in the proposed solution is to take the advantages of FITS/HDF5 data organization for optimizing current existing astronomical operators. The proposed design should be scalable
and support incremental upload of large datasets, and optimize the related performance. The internship will take place as follows:
– At first, the trainee will get acquainted with the team’s knowledge about ASTROIDE (a distributed data server for big astronomical data https://cnesuvsqastroide.github.io) and NoSQL technologies required by the project.
– Next, she/he will propose a baseline solution, not necessarily optimal from the querying point of view, but more optimal to load FITS and HDF5 into DataFrame.
-Finally, she/he will optimize further both the ingestion and the query performances and compare them to the baseline.

Profil du candidat :
We seek highly motivated and ambitious candidates with a deep interest in working on big data technology, with strong object oriented programming skills. The candidate should be familiar with Unix scripting environment and tools like git, maven, . . . This internship may open the way to a PhD thesis in collaboration between DAVID Lab at UVSQ/Paris-Saclay University and the CNES (Centre National d’Etudes Spatiales). A good background in data mining / machine learning is a plus for the purpose of the PhD thesis.

Formation et compétences requises :
Open for MASTER 2 level students or equivalent in computer science in the domain of data engineering or data science.

Adresse d’emploi :
DAVID Laboratory (located in Versailles city – France), University of
Versailles Saint-Quentin / University of Paris-Saclay.
45 Avenue des Etats-Unis – 78000 Versailles, France.
web: www.david.uvsq.fr

Document attaché : Master_Internship_Versailles.pdf

Feb
28
Thu
2019
Analyse conjointe de nomenclatures d’occupation du sol pour la classification d’images satellites
Feb 28 – Mar 1 all-day

Annonce en lien avec l’Action/le Réseau : Formation

Laboratoire/Entreprise : IGN/LaSTIG
Durée : 5 mois
Contact : clement.mallet@ign.fr
Date limite de publication : 2019-02-28

Contexte :
La classification de l’occupation ou de l’usage des sols à partir d’images satellites consiste à prédire pour chaque pixel de l’image la classe la plus probable parmi un jeu d’étiquettes
prédéfinies (nomenclature). Cette nomenclature varie selon les usages et les résolutions spatiales. Parfois la nomenclature est hiérarchique : elle gagne en détails avec la profondeur de
l’arbre des étiquettes (« végétation haute » → « espèces d’arbres » ; « cultures → types de culture »).
La plupart du temps, dans un contexte supervisé de mise à jour ou de détection de changements, la nomenclature est issue de bases de données géographiques (BD) existantes (format vecteur). Ces bases de données sont très utiles pour effectuer l’apprentissage des classes existantes pour la tâche de discrimination des différentes classes de la nomenclature.
Il existe un grand nombre de BD avec des emprises et des précisions spatiales (mondiales, européennes, nationales, locales) et sémantiques (occupation ou usage du sol, e.g., «bâtiments » ou « résidentiel »/ « commercial ») très différentes. Entre ces bases de données, on note des classes couvrant des concepts similaires (par exemple, « forêts »), emboîtés (« urbain dense » et « bati ») ou présentes dans une seule BD et discriminables à partir d’une seule
source de données image.
Aujourd’hui, on souhaite définir des nomenclatures pour la classification des images satellites reprenant des concepts de plusieurs bases de données à la fois. Il faut donc être capable :
● de mettre en correspondance les classes appartenant à plusieurs bases de données géographiques ;
● de définir quelles classes parmi toutes celles fournies par les BD peuvent co-exister pour une classification d’images efficace ;
● d’évaluer quelles classes ne peuvent pas être discriminer à une échelle spatiale donnée.

Le stage se déroule dans le cadre de l’ANR MAESTRIA (2019-2022).

Sujet :
L’objectif du stage est de mettre en correspondance des classes appartenant à plusieurs bases de données géographiques existantes (Europe, France, occupation des sols régionales). Cela
se fera à travers l’analyse sémantique de ces BD mais également l’analyse des images satellites que l’on souhaite classer. Cela fournira un graphe de relations entre classes de ces bases de données et permettra de définir des nomenclatures plausibles.
La confrontation des classes des BD avec les images satellites dans un processus de classification supervisée devra en parallèle nous indiquer quelles classes ne peuvent être utilisées à une résolution spatiale donnée.
On comparera ces résultats aux besoins exprimés par plusieurs types d’utilisateurs avec qui nous entretenons des contacts avancés (ministères, scientifiques, collectivités locales, agences
cartographiques et spatiales).

Profil du candidat :
Le candidat doit avoir de bonnes connaissances en traitement d’images, apprentissage, télédétection.
Il doit être issu d’un Master 2 ou être en 3eme année d’école d’ingénieurs.

Formation et compétences requises :
Une bonne connaissance d’une langage de programmation (C++/Python) est nécessaire. Une appétence particulière pour les données géographiques et une connaissance sur les bases de
données géographiques est un plus.

Adresse d’emploi :
73 avenue de Paris
94160 Saint-Mandé

Document attaché : StageMAESTRIA2019.pdf

Fouille de textes (text-mining) de type Traitement Automatique du Langage Naturel et Analyse Sémantique
Feb 28 – Mar 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : SESSTIM UMR1252, Aix-Marseille Université
Durée : 5-6 mois
Contact : jean-charles.dufour@univ-amu.fr
Date limite de publication : 2019-02-28

Contexte :
Il sera question de participer à une partie de l’étude et des développements informatiques qui seront conduit dans le projet ApiAppS (cf. https://sesstim.univ-amu.fr/projet/apiapps) financé par l’Agence Nationale de la Recherche (2018-2020).
Une partie du projet ApiAppS consiste à développer, puis à intégrer un système d’aide à la prescription/ recommandation d’applications mobiles de santé adaptées aux profils des patients, ces derniers déduits à partir des informations contenues dans un dossier patient informatisé (DPI). Pour cela des règles d’inférence pourront être récupérés soit du portail des terminologies de Santé HeTOP (Health Terminology/Ontology Portal), de documents textuels non structurés ou dans du texte libre (exemple : sources fiables comme les recommandations de la HAS « Haute Autorité de Santé »)

Sujet :
Avec des techniques et outils de text mining TALN/analyse sémantique, le travail de stage consiste donc à :

• Prendre connaissance de la chaîne de traitement et de l’analyse à réaliser et proposer des pistes d’amélioration ;
• Contribuer à la priorisation des pistes d’amélioration avec les chercheurs ApiApps ;
• Concevoir, développer et évaluer des améliorations et compléments dans l’ontologie et la chaîne de traitement ;
• Positionner la solution mise en œuvre dans l’étude vis-à-vis des autres solutions déjà décrites dans la littérature scientifique sur d’autres projets.

Profil du candidat :
Etudiant(e) niveau ingénieur ou master 2 en informatique

Formation et compétences requises :
Compétences en modélisation des connaissances, en techniques de fouille de textes, en text-mining de type Traitement Automatique du Langage Naturel et Analyse Sémantique, ainsi que des techniques et outils du web sémantique.

Adresse d’emploi :
Faculté de Médecine, 27 Bd Jean Moulin, 13385 Marseille Cedex 5

Document attaché : Proposition-Stage-SESSTIM-ApiAppS-février2019.pdf

Mar
1
Fri
2019
Amélioration des données de microscopie en phase quantitative par techniques de réseaux convolutifs
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : SAMOVAR/Télécom SudParis
Durée : 6 mois
Contact : bernadette.dorizzi@telecom-sudparis.eu, Yaneck Gottesman@telecom-sudparis.eu
Date limite de publication : 20190301

Contexte :
Il s’agit d’une collaboration entre l’équipe ARMEDIA du laboratoire SAMOVAR (science des données) et l’équipe TIPIC (groupe optique). Au cours de ces 20 dernières années, les techniques d’holographie numérique ont énormément progressées. Elles permettent notamment l’observation de spécimens biologiques sans utilisation de marqueur (qui perturbent le fonctionnement des cellules) et donc sous des conditions proches de celles rencontrées dans le corps humain. Ce type d’imagerie dite ‘label-free’ ouvre de nouvelles perspectives pour la compréhension de l’évolution des cellules étudiées. Cela est souhaitable pour le développement de nouveaux médicaments ou encore la détection précoce de pathologies.
Malgré le formidable potentiel de ces techniques, plusieurs éléments freinent encore leur portée. Entre autres, 1) elles ne permettent pas d’enregistrer des spécimens à la fois sur de grands champs et à très haute résolution, 2) la précision de la phase enregistrée n’est pas toujours satisfaisante (stabilité de la mesure et bruit).
Pour dépasser les limitations actuelles nous avons développé un nouveau type de microscope reposant sur une imagerie à ouverture synthétique permettant de dépasser les limites de résolution classiques, mais la qualité des images résultantes reste encore limitée.

Sujet :
Bien qu’il ne s’agisse pas à proprement parler d’une technique d’holographie numérique, elle acquière des informations similaires (intensité et phase). Dès lors elle doit permettre de réutiliser certaines techniques d’exploitation des images holographiques déjà disponibles et en particulier celles disponibles pour l’amélioration de la phase enregistrée. L’objectif du stage proposé est d’utiliser la force des techniques de réseaux de neurones convolutionnels pour améliorer la qualité des images. Ce stage se décomposera en deux tâches. La première repose sur l’enregistrement du même échantillon sous différentes conditions de mise au point. La redondance d’information sur l’échantillon sera exploitée pour réduire le bruit de phase global (minimisation de l’erreur totale) et produire une image de bonne qualité qui servira de réalité terrain dans la deuxième phase. La seconde approche concerne la reconstruction de la phase quantitative par réseaux de neurones à convolution. Elle utilisera la réalité terrain obtenue précédemment pour l’apprentissage.

Travail demandé :
Dans un premier temps, le stagiaire cherchera à comprendre (partiellement) le fonctionnement du microscope développé et s’appropriera les algorithmes d’holographie numériques à mettre en place (bibliographie). Il s’agira de spécifier et d’implémenter les algorithmes à mettre en place pour exploiter les images de ce microscope.
Dans un second temps, pour la mise en oeuvre des réseaux de neurones, les codes informatiques (sous Matlab ou éventuellement sous python) seront implémentés, en utilisant des bibliothèques existantes.
Enfin, les performances obtenues en amélioration de la phase quantitative seront testées et analysées à l’aide de critères à préciser sur des données expérimentales. Pour cela, une base d’apprentissage sera constituée.

Profil du candidat :
Ingénieur grande école ou Master II, spécialité traitement du signal et des images ou informatique ou optique.

Formation et compétences requises :
Rigoureux, méthodique et relativement autonome le candidat aura une précédente expérience en programmation Matlab ou Pyhton. Doté d’un bon relationnel, le candidat saura évoluer dans une équipe pluridisciplinaire (optique, traitement des images, biologie) et aura à cœur de présenter régulièrement l’avancement de ses travaux.

Adresse d’emploi :
Telecom SudParis, site Nano-Innov, 8 avenue de la Vauve, 91120, Palaiseau

Document attaché :

Approche dirigée par les modèles pour la démoralisation de schéma NoSQL
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : ADOC

Laboratoire/Entreprise : CEDRIC/CNAM
Durée : 5 mois
Contact : faten.atigui@cnam.fr
Date limite de publication : 2019-03-01

Contexte :
Les systèmes d’information doivent faire face à une quantité toujours plus grande de données, et cherche à prendre en compte toutes les dimensions de leur éco-système afin de répondre aux exigences du métier. Ce volume toujours plus grand, complexe et dynamique (connu comme les 3V) a mis à mal les techniques traditionnelles de bases de données relationnelles et les entrepôts de données. Ainsi, pour des problèmes de passage à l’échelle, les bases de données NoSQL (HBase, Cassandra, MongoDB, Néo4J, etc.) ont vu le jour depuis une dizaine d’années et tentent de répondre à ces besoins. De nouvelles solutions sont proposées chaque année en vue de cibler une optimisation particulière, toutefois, ces fonctionnalités restent ad-hoc.

En conséquence, le choix de la bonne solution NoSQL en fonction des besoins métiers est fondamental pour le système d’information. Il peut avoir d’énormes impacts sur le passage à l’échelle et la pérennité de la solution. Ce choix implique une connaissance précise du besoin, en matière de volumes et dynamicité des données, de diversité d’interrogations et de contraintes sur le système. De plus, être capable de faire la corrélation entre les besoins et les solutions demande une réelle expertise sur le marché de la Data, ce qui très souvent s’avère donner une orientation commerciale plutôt que qualitative.

L’objectif de nos travaux de recherche est donc de proposer une approche d’aide au choix d’orientation technologique et de conception d’un système d’information, en reposant sur une méthodologie de modélisation des données, simulation de distribution des données et un modèle de coût adaptatif (pour intégrer de nouvelles fonctionnalités NoSQL). Nous nous intéressons à la fois à un niveau d’abstraction pour la modélisation de SI, mais également à un niveau physique pour favoriser l’optimisation du système. Ces deux approches traditionnellement séparées (architecture ANSI-SPARC) se doivent d’interagir finement pour s’adapter à un contexte d’optimisation extrêmement contraint et complexe.

Sujet :
Le stage débutera par l’étude des méthodes de dénormalisation de schéma conceptuels (entités/associations ou diagrammes de classes UML) pour le NoSQL de la littérature [1,2,3,4], ainsi que les différentes solutions NoSQL existantes [5,6,7] pour comprendre les fonctionnalités spécifiques de chacune. Ensuite, l’objectif de ce stage est de :
1. Compléter l’étude de l’état de l’art proposépar [8];
2. Proposer une approche dirigée par les modèles permettant de guider le choix du modèle logique et du système NoSQL en se basant principalement sur le modèle conceptuel (diagramme de classes) et les besoins de l’utilisateur formalisés sous forme de requêtes SQL. L’idée est d’étudier les types d’associations spécifiques à UML : agrégation, composition, héritage, etc. ainsi que leur impact sur l’imbrication ou l’éclatement de schémas ;
3. Comparer les résultats issus des recommandations basées sur les modèles conceptuels aux résultats de recommandation basés sur les tests et les expérimentations [8]. Les expérimentations seront testées principalement sur la base MongoDB, mais une ouverture sur HBase est envisagée ;
4. Automatiser le processus de transformation du schéma conceptuel vers le schéma logique et puis en schéma physique.
La finalité est de proposer des orientations d’implémentation pondérées, tout en donnant les avantages et les inconvénients de chaque solution envisagée.

Profil du candidat :
Etudiant(e) de Master 2 ou de dernière année d’école d’ingénieur sur un cursus d’informatique
Bon niveau en informatique et plus précisément en systèmes d’information et bases de données, systèmes NoSQL.
Bon niveau de communication scientifique à l’écrit et oral, notamment en anglais

Formation et compétences requises :
L’étudiant retenu devra présenter de bonnes compétences dans le domaine des systèmes de gestion de données massives, l’analyse des données. Elle ou il devra avoir un très bon cursus universitaire et une forte motivation pour la recherche afin de permettre une éventuelle poursuite en thèse à l’issue du stage.

Adresse d’emploi :
CNAM
2 rue Conté, 75003 Paris

Document attaché : Sujet-Stage-Fusion-de-schemas-CEDRIC-CNAM-2019.pdf

Biodiversité et pratique de recherche : extraction automatique de mots-clés caractérisant les thématiques saillantes issues de données textuelles
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Cirad (Montpellier)
Durée : 5 à 6 mois
Contact : mathieu.roche@cirad.fr, christian.leclerc@cirad.fr
Date limite de publication : 2019-03-01

Contexte :
De nombreux travaux de fouille de textes permettent (i) de faire émerger les descripteurs linguistiques les plus significatifs (mots, syntagmes) à partir d’un corpus puis (ii) de les regrouper. Ceci permet de mettre en relief, de manière automatique, les thématiques abordées dans les textes facilitant l’organisation et l’indexation des documents, la recherche d’information, la compréhension et l’analyse des textes. Il permet aussi de comparer, pour une période donnée, les approches privilégiées par différentes unités de recherche, ou encore de décrire l’évolution de ces approches au cours du temps. Cette analyse portera sur Biodiversité et pratique de recherche au Cirad, avec l’objectif d’appliquer la méthode à d’autres thématiques, notamment le territoire et la mobilité.

Sujet :
La réalisation du premier point (identification des descripteurs linguistiques significatifs) s’appuie, en grande partie, sur l’utilisation de méthodes d’extraction de la terminologie à partir de textes, en combinant méthodes linguistiques et statistiques pour constituer une liste de descripteurs linguistiques. La deuxième étape du processus consiste à utiliser ces descripteurs afin de mettre en lumière les différentes thématiques abordées dans les textes. Pour découvrir des structures thématiques “cachées” dans les corpus de textes, les méthodes appelées “topic models” seront utilisées, notamment, le modèle probabiliste génératif LDA, i.e. Latent Dirichlet Allocation.

Dans ce contexte, les objectifs du stage sont déclinés selon 4 sous-tâches :
(1) Intégrer des outils de la littérature d’extraction de la terminologie (en particulier BioTex – http://tubo.lirmm.fr:8080/biotex) et des approches LDA dans le cadre du développement d’un système générique et utilisable par des non informaticiens.
(2) Intégrer et combiner des ressources sémantiques (vocabulaire contrôlé) fournies par les utilisateurs aux méthodes d’extraction de la terminologie.
(3) Étudier la valeur structurante des termes rares (queue de distribution) associées aux fonctions de rangs propres aux systèmes d’extraction de la terminologie. De nouvelles fonctions de rangs pourront alors être proposées, pour mettre en valeur les termes rares et pertinents.

Profil du candidat :
Master 2 ou École d’Ingénieur en Informatique / Science des Données

Formation et compétences requises :
Fouille de données, fouille de textes, Recherche d’Information

Adresse d’emploi :
Cirad – UMR TETIS
500, rue J.F. Breton
34093 Montpellier Cedex 5, France

Document attaché : stageM2_FdT_et_Biodiv_2019.pdf

Intégration d’informations sémantiques pour identifier les variables essentielles à partir de données textuelles hétérogènes : application à la Malherbologie
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Cirad (Montpellier)
Durée : 5 à 6 mois
Contact : sandrine.auzoux@cirad.fr, mathieu.roche@cirad.fr
Date limite de publication : 2019-03-01

Contexte :
Les adventices (mauvaises herbes) sont une contrainte majeure de la production agricole tropicale, induisant des pertes de récoltes de 30 à 80%. Le calage des pratiques de désherbage dans les itinéraires techniques nécessite une bonne connaissance de leur comportement. Le développement de l’agroécologie en région tropicale nous amène à considérer les dimensions négatives et positives des adventices.

Le travail proposé dans le cadre de ce stage au Cirad (TETIS/AIDA) consiste à proposer et mettre en œuvre une méthode automatique d’identification de variables essentielles pour la gestion des adventices qui implique la mise en place de nouvelles pratiques agricoles et la mobilisation de la biodiversité. Nous définissons les variables essentielles comme une combinaison d’éléments caractéristiques, par exemple le climat, le milieu, la localisation et le nom vernaculaire.

Sujet :
Le but du stage est d’identifier, par des méthodes de fouille de textes, les variables essentielles de manière automatique à partir de données textuelles.

Dans le processus de fouille de textes à mettre en place, deux verrous scientifiques seront particulièrement étudiés :
– Adapter les méthodes de fouille de textes aux différents types de données mobilisées (scientifique vs. grand public).
– Intégrer des ressources sémantiques et scientifiques (par exemple, thésaurus) au processus proposé.

Dans ce cadre, le processus reposera sur 3 grandes étapes qui seront mises en place et évaluées avec des experts du domaine :

1) Acquisition de données textuelles en anglais par des méthodes semi-automatiques (web crawling / web scraping). Deux types de documents seront étudiés : (1) des documents « grand public » issus du web (blogs, sites touristiques, presse) et (2) des publications scientifiques (articles scientifiques).

2) Extraction de variables essentielles dans ces données par des méthodes adaptées au domaine de la Malherbologie. Ces méthodes s’appuieront sur l’intégration de connaissances sémantiques notamment spatiales (par exemple, Geonames, OpenStreetMap, etc.) et thématiques (par exemple, Agrovoc, dictionnaire des plantes, etc.)

3) Evaluation de ces informations dans un cadre pluridisciplinaire et mise en lien avec des bases de données de référence.

Profil du candidat :
Master 2 ou École d’Ingénieur en Informatique / Science des Données

Formation et compétences requises :
Intégration et gestions de données, Fouille de textes, Recherche d’Information

Adresse d’emploi :
Ce stage basé au Cirad à Montpellier (https://www.cirad.fr/) bénéficie d’une gratification mensuelle de 580 euros.

Cirad – UMR TETIS
500, rue J.F. Breton
34093 Montpellier Cedex 5, France

Document attaché : stageM2_FdT_et_Malherbologie.pdf

Master 2 internship: Machine learning based classification for identifying metastatic tissue in histopathologic images
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ISEN Lille,
Durée : 6 months
Contact : feryal.windal@isen.fr
Date limite de publication : 2019-03-01

Contexte :
Developing histopathologic image analysis algorithms represents a real scientific challenge. This is mainly due to the lack of representation structure in these images. More precisely, these images are registered in the form of a pixel matrix in which no information is provided on the nature of the tissue and its microenvironment. Additionally, the variation of environmental conditions during the acquisition process of these images using microscopes will generate a noise that may affect the analysis results.
One of the promising directions to face the previously mentioned issues is the integration of artificial intelligence in the developed algorithms. This can be done using learning techniques to describe and characterize the collected data. In the histopathologic image analysis field, exploiting this type of techniques has become an obvious choice for boosting the performance of analysis algorithms.
More generally, in the medical image analysis field, deep learning techniques which are mainly based on a convolutional neural network (CNN) architecture have shown high performance in multiple difficult tasks including segmentation, classification and retrieval

Sujet :
In this context, the main goal of the internship is to develop two machine learning based classification algorithms (a handcrafted method and a deep learning method) to identify metastatic cancer in a large histopathological image dataset. The dataset is provided within the frame of a Kaggle competition1 for the machine learning community. The results obtained by the two algorithms will be submitted to the competition.

Profil du candidat :
The funding of this internship is covered by a European project (Interreg 2 Seas) for which we also have obtained a funding for a Ph.D thesis that will start after the internship. The successful candidate will have the opportunity to pursue, if he/she wants, a Ph.D thesis. He/she will be asked during the internship to develop a website for communication on the project.

Formation et compétences requises :
Training level: Master 2 or Engineer fifth year
Good knowledge on machine learning techniques and image processing
Strong capability of coding using Python or C/C++ or Matlab is appreciated
Good knowledge on web development is a plus

Adresse d’emploi :
ISEN-Lille, 41 boulevard Vauban 59800 Lille, France/ IEMN CNRS laboratory/ digital systems and life sciences team.

Document attaché : M2Internship.pdf

Prédiction de la distribution des communautés végétales et des types de milieux par apprentissage profond
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIRMM (Université de Montpellier)
Durée : 6 mois
Contact : servajean@lirmm.fr
Date limite de publication : 2019-03-01

Contexte :
Le stage se déroulera au laboratoire d’informatique de Montpellier (LIRMM) en étroite collaboration avec les chercheurs et ingénieurs de la plateforme Pl@ntNet, et en partenariat avec l’association “les écologistes de l’Euzère” dédiée à l’éducation et au conseil en environnement, en particulier la protection des espaces naturels. Le stage sera co-encadré par Alexis Joly (chargé de recherche à l’Inria, responsable de la plateforme Pl@ntNet), Maximilien Sevajean (maître de conférence au LIRMM, spécialiste en machine learning et data science) et Christophe Botella (doctorant en écologie computationelle). Le stagiaire aura accès à des ressources informatiques très performantes et des bases de données uniques (flux des occurrences Pl@ntNet en particulier). Une poursuite en thèse pourra être étudiée si le candidat souhaite poursuivre dans la voie de la recherche.

Sujet :
La prédiction des espèces végétales les plus susceptibles d’être observées dans un lieu géographique et un temps donnés est utile pour de nombreux scénarios dans le domaine de l’écologie et de l’informatique de la biodiversité. Très récemment, les réseaux de neurones profonds sont apparus comme une solution prometteuse pour répondre à ce problème mais les fondements scientifiques et les mécanismes de cette approche restent encore mal compris.  Dans ce projet nous nous proposons d’étudier de manière approfondie ce nouveau type de modèles environnementaux et de leur application à l’écologie et la biodiversité computationnelles. Nous nous intéresserons en particulier à l’apprentissage et à l’interprétabilité de réseaux de neurones convolutionnels sur des tenseurs environnementaux et à leur extension à d’autres types de données d’entrée (co-occurrences, images satellites, etc.) et d’autres types de tâches telles que la prédiction des milieux.

Profil du candidat :
Profil ouvert

Formation et compétences requises :
– Bases en math/stats solides.
– Connaissances générales en machines learning/statistiques.
– Apte à développer (langage python).

– Des connaissances connexes à la problématique de modélisation de distributions d’espèces seront un plus.

Adresse d’emploi :
Bâtiment 5 – LIRMM, 860 Rue de St Priest
34095 Montpellier
France

Document attaché : Proposition-de-stage.pdf

Stage : Utilisation intelligente des données pour améliorer l’expérience voyage
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : MyOverview / LAMSADE
Durée : 5/6 mois
Contact : elsa.negre@dauphine.fr
Date limite de publication : 2019-03-01

Contexte :
Stage avec possibilité de poursuite en thèse CIFRE

Sujet :
Utilisation intelligente des données pour améliorer l’expérience voyage

Profil du candidat :
– Bac + 5 informatique
– Volonté de thèse de recherche
– Capacités en algorithmique
– Compétences : Machine learning et Data mining, Modélisation/Patterns, Système d’information
– Appétences particulières : Text mining, Systèmes de recommandation, Ontologies

Formation et compétences requises :
– Bac + 5 informatique
– Volonté de thèse de recherche
– Capacités en algorithmique
– Compétences : Machine learning et Data mining, Modélisation/Patterns, Système d’information
– Appétences particulières : Text mining, Systèmes de recommandation, Ontologies

Adresse d’emploi :
Paris

Document attaché : OffreStage-MyOverview-vdef-1.pdf

Stagiaire R&D
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ERIC/EDF
Durée : 5 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2019-03-01

Contexte :
Cf. fichier joint

Sujet :
Deep clustering using variational autoencoder

Profil du candidat :
Cf. fichier joint

Formation et compétences requises :
Cf. fichier joint

Adresse d’emploi :
Laboratoire ERIC
Université Lumière Lyon 2
Campus Porte des Alpes

Document attaché : Stage-2019-LaboratoireERIC.pdf

Stagiaire R&D
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ERIC/Wizacha
Durée : 5 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2019-03-01

Contexte :
Cf. fichier joint

Sujet :
Fouille de logs pour la prédiction d’anomalies

Profil du candidat :
Cf. fichier joint

Formation et compétences requises :
Cf. fichier joint

Adresse d’emploi :
Cf. fichier joint

Document attaché : stageRDWizaplace.pdf

Stagiaire recherche
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : ADOC

Laboratoire/Entreprise : ERIC/MSH-LSE
Durée : 5 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2019-03-01

Contexte :
Cf. fichier joint

Sujet :
Conception d’un lac de données multimédia

Profil du candidat :
Cf. fichier joint

Formation et compétences requises :
Cf. fichier joint

Adresse d’emploi :
Laboratoire ERIC
Université Lumière Lyon 2
Campus Porte des Alpes

Document attaché : Sujet-Master-Recherche-2018_Darmont_Loudcher_Pardoen.pdf

Sujet de Master : Utilisation des Ontologies pour étude plus performante des news
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LAMSADE Université Paris Dauphine/Crédit Agricole
Durée : 6 mois
Contact : gautier.sartorius@ca-cib.com
Date limite de publication : 2019-03-01

Contexte :
Les équipes Global Market Division, Risque, Coverage, Recherche et d’autres départements de la banque disposent d’un nouvel outil innovant pour partager leurs analyses sur les news. Dans le cadre de la démarche d’innovation de la banque, cette application collecte les actualités clients de la banque. Les utilisateurs peuvent, au travers de l’application, récupérer une donnée pertinente rapidement et efficacement. Ce système est enrichi par les retours et les comportements utilisateurs. Un process de machine learning analyse toutes ces données sur une base régulière pour ajouter les sentiments, les noms d’entreprise identifiés, les localisations et les sujets abordés. Tirant profit d’un outil de restitution graphique, l’utilisateur peut ainsi aisément parcourir l’information.

Sujet :
Lors du stage, sera mise à disposition un accès à la base de données présentant toute l’analyse des flux de presse et les comportements utilisateurs. Le stagiaire devra se documenter et réaliser un état de l’art sur les ontologies et les technologies sous-jacentes. Le stagiaire devra ensuite aider dans la mise en place d’ontologie dans le cadre de PanOptes. Identifier les sujets les plus appréciés des collaborateurs, aider dans la mise en place et la structuration des données et enfin mettre en évidence comment l’utilisation d’ontologies permettra d’améliorer les analyses existantes.

Le stage pourra amener à une publication scientifique.

Profil du candidat :
Qualités recherchées

– Grande rigueur, capacité d’analyse, réactivité, sens critique et autonomie
– Excellentes compétences informatiques avec des notions en Big Data, complétées par une capacité à appliquer des concepts techniques à un contexte opérationnel

Langue(s)
Anglais courant

Outils informatiques
Neo4J, Python, (Node.js est un plus)

Formation et compétences requises :
Master 2/Ecolé ingénieur

Adresse d’emploi :
Crédit Agricole, Direction des Marchés de Capitaux, Paris

Encadrant entreprise: Gautier SARTORIUS

Encadrants à l’Université: Dario Colazzo et Khalid Belhajjame.

Document attaché : Offre_de_stage_CA-CIB_Ontologie_2019.pdf

Un modele de coût pour bases de donnéees NoSQL dénormalisées
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : ADOCFormation

Laboratoire/Entreprise : DVRC / ESILV
Durée : 6 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2019-03-01

Contexte :
Les systèmes d’information doivent faire face à une quantité toujours plus grande de données, et cherche à prendre en compte toutes les dimensions de leur éco-système afin de répondre aux exigences du métier. Ce volume toujours plus grand, complexe et dynamique (connu comme les 3V) a mis à mal les techniques traditionnelles de bases de données relationnelles et les entrepôts de données. Ainsi, pour des problèmes de passage à l’échelle, les bases de données NoSQL (HBase , Cassandra , MongoDB , Néo4J , etc.) ont vu le jour depuis une dizaine d’années et tentent de répondre à ces besoins. De nouvelles solutions sont proposées chaque année en vue de cibler une optimisation particulière, toutefois, ces fonctionnalités restent ad-hoc.
En conséquence, le choix de la bonne solution NoSQL en fonction des besoins métiers est fondamental pour le système d’information. Il peut avoir d’énormes impacts sur le passage à l’échelle et la pérennité de la solution. Ce choix implique une connaissance précise du besoin, en matière de volumes et dynamicité des données, de diversité d’interrogations et de contraintes sur le système. De plus, être capable de faire la corrélation entre les besoins et les solutions demande une réelle expertise sur le marché de la Data, ce qui très souvent s’avère donner une orientation commerciale plutôt que qualitative.

Sujet :
L’objectif de nos travaux de recherche est donc de proposer un modèle de coût générique pour différentes solutions NoSQL, en vue de définir pour chaque requête effectuée son coût d’évaluation. Du fait du choix de dénormalisation de schéma relationnel (fusions et éclatement), ce modèle de coût doit prendre en compte la diversité de schémas et les différentes techniques d’optimisation possible dans ce contexte.
Ainsi, dans le cadre d’un stage financé par le CEDRIC en 2018 et effectué par Asma Mokrani, étudiante en M2R Système d’information et Business intelligence en partenariat avec le laboratoire Cédric/CNAM, nous avons réussi à (i) étudier l’état de l’art sur la dénormalisation, (ii) formaliser notre approche globale, (iii) proposer un protocole d’expérimentation et des tests en utilisant TPC-C. Ces premiers résultats ont été présentés lors d’un workshop franco-russe autour des big data qui a eu lieu le 25 & le 26 octobre 2018 à Paris [4]. D’autre part, avec Asma Mokrani, nous sommes également en train de finaliser un article à soumettre à la revue Ingénierie des systèmes d’information (ISI). Dans la continuité de cette thématique, nous cherchons à élargir le domaine en vue de déposer un projet de recherche permettant à terme, de financer une thèse.

Profil du candidat :
Etudiant(e) de Master 2 ou de dernière année d’école d’ingénieur sur un cursus d’informatique
Bon niveau en informatique et plus précisément en optimisation de bases de données, systèmes NoSQL.
Bon niveau de communication scientifique à l’écrit et oral, notamment en anglais

Formation et compétences requises :
L’étudiant retenu devra présenter de bonnes compétences dans le domaine des systèmes de gestion de données massives, l’analyse des données. Elle ou il devra avoir un très bon cursus universitaire et une forte motivation pour la recherche afin de permettre une éventuelle poursuite en thèse à l’issue du stage.

Adresse d’emploi :
ESILV, avenue léonard de Vinci, Courbevoie

Document attaché : Sujet-Stage-NoSQL-cost-model-ESILV-2019.pdf

Mar
15
Fri
2019
Assemblage des connaissances et des données – domaine de la vigne et du vin
Mar 15 – Mar 16 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : INRA-I2M
Durée : 6 mois
Contact : cedric.baudrit@inra.fr
Date limite de publication : 2019-03-15

Contexte :
Face aux changements climatiques, les pratiques dans les filières vitivinicoles doivent s’adapter et évoluer. Cette démarche est rendue difficile par le fait que les systèmes impliqués dans le domaine de la vigne et du vin sont composés d’entités hétérogènes dont les interactions locales peuvent mener à des organisations collectives qui elles-mêmes ont des répercussions sur les entités (rétro-action & auto-organisation). Face à un manque (1) de connaissance physicochimique approfondie des phénomènes et (2) des savoir-faire, une exploitation intelligente des données ouvre de nouvelles perspectives et permettrait de faire émerger de la connaissance utile et exploitable pour anticiper et identifier les nouvelles pratiques. Le stagiaire exercera ses activités dans le cadre du plan de travail et du consortium du projet LACCAVE (Vers des systèmes viti-vinicoles intégrés et résilients pour faire face au changement climatique) financé le métaprogramme INRA-ACCAF (Adaptation de l’agriculture et de la forêt au changement climatique). Il intégrera l’équipe Assemblage des Connaissances (AsCo) du laboratoire I2M de l’université de Bordeaux (http://i2m.u-bordeaux.fr/).

Sujet :
Le stagiaire devra répertorier et proposer une cartographie interactive, via un portail web, à l’échelle internationale de l’ensemble des plateformes numériques liées à la filière vitivinicole allant du viticulteur au consommateur. Parallèlement, le stagiaire élaborera un questionnaire visant à identifier les besoins et les attentes métiers pour s’adapter aux changements climatiques et les atténuer.

Profil du candidat :
1. Le stagiaire devra recueillir et cartographier à l’échelle internationale l’ensemble des plateformes numériques liées à la filière vitivinicole allant du viticulteur au consommateur.
2. Le stagiaire devra établir un questionnaire dans le but d’élaborer une cartographie des besoins et des attentes métier face aux changements climatiques.

Formation et compétences requises :
– Recueil des savoir-faire, élicitation d’expert
– Représentation et ingénierie des connaissances
– Intérêts pour la science des données
– Intérêts pour les domaines de la vigne et du vin
– Intérêt pour la transdisciplinarité (biologie, mathématiques, physique, chimie, informatique)

Adresse d’emploi :
I2M, Université de Bordeaux, Talence

Document attaché : Stage_Ingé-Master_LACCAVE.pdf

Mar
18
Mon
2019
Object recognition in 2D and 3D inside building images
Mar 18 – Mar 19 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LSITIC
Durée : 1 year
Contact : patrick.lambert@univ-savoie.fr
Date limite de publication : 2019-03-18

Contexte :
The aim of this project is helping in the creation of a startup. This project will associate three partners:
– The startup (located in Paris) whose founders have a strong experience in 3D modelling;
– LISTIC, research lab of University Savoie Mont Blanc (Annecy), which has a strong expertise in deep learning approaches;
– Linksium, a Technology Transfer Accelerator Office (or SATT) which is a public organism created to develop and commercialize research results to be transformed into innovative products. Linksium will provide project funds.
Hiring in the startup after the post-doc year is very conceivable.

Sujet :
Actually, there are many solutions to get 3D accurate models of objects whatever may be their sizes. In the building domain, these systems are particularly interesting for maintenance and exploitation of existing construction where 3D models are often lacking. However, these systems only provide a 3D description but generally fail to perform object recognition.
In a first step, the aim of the project is to add some 2D object recognition functionalities to an actual scanning system. The available data to process are high definition images of inside buildings. These object recognition tools will be based on deep learning approaches which will require the construction of a ground truth dataset. In a second step, the project will consist in introducing 3D information (point cloud provided by a LIDAR are also available) to help recognition and to get 3D information concerning the objects. Objects which are to be recognized belongs to a building equipment catalog for which 2D or 3D images or models are sometimes available (equipment = windows, doors, boiler, electrical cabinet, fire extinguisher…).

Profil du candidat :
Motivated candidate with a PhD degree in Deep Learning dedicated to Image Processing or Computer Vision and with strong programming skills. A background in 3D modelling will be appreciated.

Formation et compétences requises :
PhD degree in Deep Learning dedicated to Image Processing or Computer Vision

Adresse d’emploi :
Practical information
– Duration: 12 months starting in June 2019
– Net Salary/month: 1800€
– Location: Lab. LISTIC in Annecy (with meetings in Paris).
– Supervisors: Prof. Patrick LAMBERT (LISTIC), Dr. Alexandre BENOIT (LISTIC), Thai-Binh PHAN (SmarterPlans).

Document attaché : Post-doc-position-V2.pdf

Apr
1
Mon
2019
Conception et intégration d’une plateforme de visualisation de données textuelles hétérogènes
Apr 1 – Apr 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : UMR TETIS
Durée : 5-6 mois
Contact : jacques.fize@cirad.fr, maguelonne.teisseire@irstea.fr, mathieu.roche@cirad.fr
Date limite de publication : 2019-04-01

Contexte :
Le stage se déroule dans le cadre du projet SONGES sur la mise en correspondance de données textuelles massives et hétérogènes. Dans ces travaux, nous élaborons des modèles de représentation de données ainsi que des mesures de similarité à partir d’indicateurs trouvés dans les textes (thématiques, spatiaux et temporels). L’objectif est d’organiser et valoriser des ensembles de données dans leurs dimensions hétérogènes et massives. Parmi les données exploitées, nous travaillons sur un ensemble de données produites dans le cadre du projet BVLAC, un projet mené par le Cirad qui promeut des techniques agricoles issues de l’agroécologie à Madagascar.

Sujet :
L’objectif de ce stage est de développer une interface de visualisation des liens (thématiques et spatiaux) entre documents d’un corpus. Cette interface devra permettre aux producteurs des données d’explorer et de valoriser ces corpus . Plus particulièrement, vous développerez une plateforme Web utilisant des librairies dédiées telles que : D3.js, Sigma.Js, Topogram.io, etc.

De façon plus précise, le stage sera décomposé en plusieurs étapes :
1. Appropriation du sujet (état de l’art, exploration des données)
2. Proposition de premières visualisations statiques des données à l’aide des librairies disponibles sur Python ou R comme : ggplot2, matplotlib, basemap, geopandas
3. Conception de l’interface de visualisation
4. Stockage des données dans un SGBD. La sélection du SGBD dépendra des besoins identifiés pour construire les différentes visualisations
5. Choix du framework (Flask, Rshiny,…) et des librairies Javascript (Sigma.js, Topogram.io, leaflet, …) nécessaires à l’implémentation de l’interface
6. Développement de l’interface
7. Analyse et évaluation des visualisations produites

Profil du candidat :
Stage Master 2 ou école ingénieur

Formation et compétences requises :
– Langage de programmation : Python ou R
– Maitrise de SGBD tels que MariaDB, MongoDB, ElasticSearch ou PostGreSQL (avec POSTGIS)
– Développement Web : HTML/CSS mais surtout Javascript (Connaissances en design d’IHM souhaitées)

Adresse d’emploi :
Localisation : TETIS – Maison de la Télédétection – Montpellier

Encadrement :
Jacques Fize (UMR TETIS, Cirad & Irstea), Mathieu Roche (UMR TETIS, Cirad), Maguelonne Teisseire (UMR TETIS, Irstea)

Divers
– Durée : 6 mois
– Gratification : Taux légal en vigueur

Envoyer un CV ainsi que vos relevés de notes des deux dernières années à
jacques.fize@cirad.fr, maguelonne.teisseire@irstea.fr, mathieu.roche@cirad.fr

Document attaché :