MaDICS

Appel à Ateliers 2027

Le GDR MaDICS anime des activités de recherche interdisciplinaires en Sciences des Données à travers des Actions et Ateliers.

Il s’agit à travers ses outils de promouvoir et/ou amplifier des échanges autour de problématiques de recherche partagées par une communauté de chercheurs et de partenaires de diverses disciplines sur des masses de données scientifiques bien identifiées.

Comme tous les ans, le GDR fait appel à ses membres pour qu’ils soumettent des propositions de création de nouveaux Ateliers.

Soumissions avant le 16 novembre 2026 pour un démarrage le 1er janvier 2027.

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…

Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.

Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus…
Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus…
Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus…
Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…

Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS

Mar

Fri

2019

Stage : Utilisation intelligente des données pour améliorer l’expérience voyage

Tickets

Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : MyOverview / LAMSADE
Durée : 5/6 mois
Contact : elsa.negre@dauphine.fr
Date limite de publication : 2019-03-01

Contexte :
Stage avec possibilité de poursuite en thèse CIFRE

Sujet :
Utilisation intelligente des données pour améliorer l’expérience voyage

Profil du candidat :
– Bac + 5 informatique
– Volonté de thèse de recherche
– Capacités en algorithmique
– Compétences : Machine learning et Data mining, Modélisation/Patterns, Système d’information
– Appétences particulières : Text mining, Systèmes de recommandation, Ontologies

Formation et compétences requises :
– Bac + 5 informatique
– Volonté de thèse de recherche
– Capacités en algorithmique
– Compétences : Machine learning et Data mining, Modélisation/Patterns, Système d’information
– Appétences particulières : Text mining, Systèmes de recommandation, Ontologies

Adresse d’emploi :
Paris

Document attaché : OffreStage-MyOverview-vdef-1.pdf

Categories: Stages

Stagiaire R&D

Tickets

Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ERIC/EDF
Durée : 5 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2019-03-01

Contexte :
Cf. fichier joint

Sujet :
Deep clustering using variational autoencoder

Profil du candidat :
Cf. fichier joint

Formation et compétences requises :
Cf. fichier joint

Adresse d’emploi :
Laboratoire ERIC
Université Lumière Lyon 2
Campus Porte des Alpes

Document attaché : Stage-2019-LaboratoireERIC.pdf

Categories: Stages

Stagiaire R&D

Tickets

Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ERIC/Wizacha
Durée : 5 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2019-03-01

Contexte :
Cf. fichier joint

Sujet :
Fouille de logs pour la prédiction d’anomalies

Profil du candidat :
Cf. fichier joint

Formation et compétences requises :
Cf. fichier joint

Adresse d’emploi :
Cf. fichier joint

Document attaché : stageRDWizaplace.pdf

Categories: Stages

Stagiaire recherche

Tickets

Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : ADOC

Laboratoire/Entreprise : ERIC/MSH-LSE
Durée : 5 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2019-03-01

Contexte :
Cf. fichier joint

Sujet :
Conception d’un lac de données multimédia

Profil du candidat :
Cf. fichier joint

Formation et compétences requises :
Cf. fichier joint

Adresse d’emploi :
Laboratoire ERIC
Université Lumière Lyon 2
Campus Porte des Alpes

Document attaché : Sujet-Master-Recherche-2018_Darmont_Loudcher_Pardoen.pdf

Categories: Stages

Sujet de Master : Utilisation des Ontologies pour étude plus performante des news

Tickets

Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LAMSADE Université Paris Dauphine/Crédit Agricole
Durée : 6 mois
Contact : gautier.sartorius@ca-cib.com
Date limite de publication : 2019-03-01

Contexte :
Les équipes Global Market Division, Risque, Coverage, Recherche et d’autres départements de la banque disposent d’un nouvel outil innovant pour partager leurs analyses sur les news. Dans le cadre de la démarche d’innovation de la banque, cette application collecte les actualités clients de la banque. Les utilisateurs peuvent, au travers de l’application, récupérer une donnée pertinente rapidement et efficacement. Ce système est enrichi par les retours et les comportements utilisateurs. Un process de machine learning analyse toutes ces données sur une base régulière pour ajouter les sentiments, les noms d’entreprise identifiés, les localisations et les sujets abordés. Tirant profit d’un outil de restitution graphique, l’utilisateur peut ainsi aisément parcourir l’information.

Sujet :
Lors du stage, sera mise à disposition un accès à la base de données présentant toute l’analyse des flux de presse et les comportements utilisateurs. Le stagiaire devra se documenter et réaliser un état de l’art sur les ontologies et les technologies sous-jacentes. Le stagiaire devra ensuite aider dans la mise en place d’ontologie dans le cadre de PanOptes. Identifier les sujets les plus appréciés des collaborateurs, aider dans la mise en place et la structuration des données et enfin mettre en évidence comment l’utilisation d’ontologies permettra d’améliorer les analyses existantes.

Le stage pourra amener à une publication scientifique.

Profil du candidat :
Qualités recherchées

– Grande rigueur, capacité d’analyse, réactivité, sens critique et autonomie
– Excellentes compétences informatiques avec des notions en Big Data, complétées par une capacité à appliquer des concepts techniques à un contexte opérationnel

Langue(s)
Anglais courant

Outils informatiques
Neo4J, Python, (Node.js est un plus)

Formation et compétences requises :
Master 2/Ecolé ingénieur

Adresse d’emploi :
Crédit Agricole, Direction des Marchés de Capitaux, Paris

Encadrant entreprise: Gautier SARTORIUS

Encadrants à l’Université: Dario Colazzo et Khalid Belhajjame.

Document attaché : Offre_de_stage_CA-CIB_Ontologie_2019.pdf

Categories: Stages

Un modele de coût pour bases de donnéees NoSQL dénormalisées

Tickets

Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : ADOCFormation

Laboratoire/Entreprise : DVRC / ESILV
Durée : 6 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2019-03-01

Contexte :
Les systèmes d’information doivent faire face à une quantité toujours plus grande de données, et cherche à prendre en compte toutes les dimensions de leur éco-système afin de répondre aux exigences du métier. Ce volume toujours plus grand, complexe et dynamique (connu comme les 3V) a mis à mal les techniques traditionnelles de bases de données relationnelles et les entrepôts de données. Ainsi, pour des problèmes de passage à l’échelle, les bases de données NoSQL (HBase , Cassandra , MongoDB , Néo4J , etc.) ont vu le jour depuis une dizaine d’années et tentent de répondre à ces besoins. De nouvelles solutions sont proposées chaque année en vue de cibler une optimisation particulière, toutefois, ces fonctionnalités restent ad-hoc.
En conséquence, le choix de la bonne solution NoSQL en fonction des besoins métiers est fondamental pour le système d’information. Il peut avoir d’énormes impacts sur le passage à l’échelle et la pérennité de la solution. Ce choix implique une connaissance précise du besoin, en matière de volumes et dynamicité des données, de diversité d’interrogations et de contraintes sur le système. De plus, être capable de faire la corrélation entre les besoins et les solutions demande une réelle expertise sur le marché de la Data, ce qui très souvent s’avère donner une orientation commerciale plutôt que qualitative.

Sujet :
L’objectif de nos travaux de recherche est donc de proposer un modèle de coût générique pour différentes solutions NoSQL, en vue de définir pour chaque requête effectuée son coût d’évaluation. Du fait du choix de dénormalisation de schéma relationnel (fusions et éclatement), ce modèle de coût doit prendre en compte la diversité de schémas et les différentes techniques d’optimisation possible dans ce contexte.
Ainsi, dans le cadre d’un stage financé par le CEDRIC en 2018 et effectué par Asma Mokrani, étudiante en M2R Système d’information et Business intelligence en partenariat avec le laboratoire Cédric/CNAM, nous avons réussi à (i) étudier l’état de l’art sur la dénormalisation, (ii) formaliser notre approche globale, (iii) proposer un protocole d’expérimentation et des tests en utilisant TPC-C. Ces premiers résultats ont été présentés lors d’un workshop franco-russe autour des big data qui a eu lieu le 25 & le 26 octobre 2018 à Paris [4]. D’autre part, avec Asma Mokrani, nous sommes également en train de finaliser un article à soumettre à la revue Ingénierie des systèmes d’information (ISI). Dans la continuité de cette thématique, nous cherchons à élargir le domaine en vue de déposer un projet de recherche permettant à terme, de financer une thèse.

Profil du candidat :
Etudiant(e) de Master 2 ou de dernière année d’école d’ingénieur sur un cursus d’informatique
Bon niveau en informatique et plus précisément en optimisation de bases de données, systèmes NoSQL.
Bon niveau de communication scientifique à l’écrit et oral, notamment en anglais

Formation et compétences requises :
L’étudiant retenu devra présenter de bonnes compétences dans le domaine des systèmes de gestion de données massives, l’analyse des données. Elle ou il devra avoir un très bon cursus universitaire et une forte motivation pour la recherche afin de permettre une éventuelle poursuite en thèse à l’issue du stage.

Adresse d’emploi :
ESILV, avenue léonard de Vinci, Courbevoie

Document attaché : Sujet-Stage-NoSQL-cost-model-ESILV-2019.pdf

Categories: Stages

Mar

Fri

2019

Assemblage des connaissances et des données – domaine de la vigne et du vin

Tickets

Mar 15 – Mar 16 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : INRA-I2M
Durée : 6 mois
Contact : cedric.baudrit@inra.fr
Date limite de publication : 2019-03-15

Contexte :
Face aux changements climatiques, les pratiques dans les filières vitivinicoles doivent s’adapter et évoluer. Cette démarche est rendue difficile par le fait que les systèmes impliqués dans le domaine de la vigne et du vin sont composés d’entités hétérogènes dont les interactions locales peuvent mener à des organisations collectives qui elles-mêmes ont des répercussions sur les entités (rétro-action & auto-organisation). Face à un manque (1) de connaissance physicochimique approfondie des phénomènes et (2) des savoir-faire, une exploitation intelligente des données ouvre de nouvelles perspectives et permettrait de faire émerger de la connaissance utile et exploitable pour anticiper et identifier les nouvelles pratiques. Le stagiaire exercera ses activités dans le cadre du plan de travail et du consortium du projet LACCAVE (Vers des systèmes viti-vinicoles intégrés et résilients pour faire face au changement climatique) financé le métaprogramme INRA-ACCAF (Adaptation de l’agriculture et de la forêt au changement climatique). Il intégrera l’équipe Assemblage des Connaissances (AsCo) du laboratoire I2M de l’université de Bordeaux (http://i2m.u-bordeaux.fr/).

Sujet :
Le stagiaire devra répertorier et proposer une cartographie interactive, via un portail web, à l’échelle internationale de l’ensemble des plateformes numériques liées à la filière vitivinicole allant du viticulteur au consommateur. Parallèlement, le stagiaire élaborera un questionnaire visant à identifier les besoins et les attentes métiers pour s’adapter aux changements climatiques et les atténuer.

Profil du candidat :
1. Le stagiaire devra recueillir et cartographier à l’échelle internationale l’ensemble des plateformes numériques liées à la filière vitivinicole allant du viticulteur au consommateur.
2. Le stagiaire devra établir un questionnaire dans le but d’élaborer une cartographie des besoins et des attentes métier face aux changements climatiques.

Formation et compétences requises :
– Recueil des savoir-faire, élicitation d’expert
– Représentation et ingénierie des connaissances
– Intérêts pour la science des données
– Intérêts pour les domaines de la vigne et du vin
– Intérêt pour la transdisciplinarité (biologie, mathématiques, physique, chimie, informatique)

Adresse d’emploi :
I2M, Université de Bordeaux, Talence

Document attaché : Stage_Ingé-Master_LACCAVE.pdf

Categories: Stages

Mar

Mon

2019

Object recognition in 2D and 3D inside building images

Tickets

Mar 18 – Mar 19 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LSITIC
Durée : 1 year
Contact : patrick.lambert@univ-savoie.fr
Date limite de publication : 2019-03-18

Contexte :
The aim of this project is helping in the creation of a startup. This project will associate three partners:
– The startup (located in Paris) whose founders have a strong experience in 3D modelling;
– LISTIC, research lab of University Savoie Mont Blanc (Annecy), which has a strong expertise in deep learning approaches;
– Linksium, a Technology Transfer Accelerator Office (or SATT) which is a public organism created to develop and commercialize research results to be transformed into innovative products. Linksium will provide project funds.
Hiring in the startup after the post-doc year is very conceivable.

Sujet :
Actually, there are many solutions to get 3D accurate models of objects whatever may be their sizes. In the building domain, these systems are particularly interesting for maintenance and exploitation of existing construction where 3D models are often lacking. However, these systems only provide a 3D description but generally fail to perform object recognition.
In a first step, the aim of the project is to add some 2D object recognition functionalities to an actual scanning system. The available data to process are high definition images of inside buildings. These object recognition tools will be based on deep learning approaches which will require the construction of a ground truth dataset. In a second step, the project will consist in introducing 3D information (point cloud provided by a LIDAR are also available) to help recognition and to get 3D information concerning the objects. Objects which are to be recognized belongs to a building equipment catalog for which 2D or 3D images or models are sometimes available (equipment = windows, doors, boiler, electrical cabinet, fire extinguisher…).

Profil du candidat :
Motivated candidate with a PhD degree in Deep Learning dedicated to Image Processing or Computer Vision and with strong programming skills. A background in 3D modelling will be appreciated.

Formation et compétences requises :
PhD degree in Deep Learning dedicated to Image Processing or Computer Vision

Adresse d’emploi :
Practical information
– Duration: 12 months starting in June 2019
– Net Salary/month: 1800€
– Location: Lab. LISTIC in Annecy (with meetings in Paris).
– Supervisors: Prof. Patrick LAMBERT (LISTIC), Dr. Alexandre BENOIT (LISTIC), Thai-Binh PHAN (SmarterPlans).

Document attaché : Post-doc-position-V2.pdf

Categories: Stages

Apr

Mon

2019

Conception et intégration d’une plateforme de visualisation de données textuelles hétérogènes

Tickets

Apr 1 – Apr 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : UMR TETIS
Durée : 5-6 mois
Contact : jacques.fize@cirad.fr, maguelonne.teisseire@irstea.fr, mathieu.roche@cirad.fr
Date limite de publication : 2019-04-01

Contexte :
Le stage se déroule dans le cadre du projet SONGES sur la mise en correspondance de données textuelles massives et hétérogènes. Dans ces travaux, nous élaborons des modèles de représentation de données ainsi que des mesures de similarité à partir d’indicateurs trouvés dans les textes (thématiques, spatiaux et temporels). L’objectif est d’organiser et valoriser des ensembles de données dans leurs dimensions hétérogènes et massives. Parmi les données exploitées, nous travaillons sur un ensemble de données produites dans le cadre du projet BVLAC, un projet mené par le Cirad qui promeut des techniques agricoles issues de l’agroécologie à Madagascar.

Sujet :
L’objectif de ce stage est de développer une interface de visualisation des liens (thématiques et spatiaux) entre documents d’un corpus. Cette interface devra permettre aux producteurs des données d’explorer et de valoriser ces corpus . Plus particulièrement, vous développerez une plateforme Web utilisant des librairies dédiées telles que : D3.js, Sigma.Js, Topogram.io, etc.

De façon plus précise, le stage sera décomposé en plusieurs étapes :
1. Appropriation du sujet (état de l’art, exploration des données)
2. Proposition de premières visualisations statiques des données à l’aide des librairies disponibles sur Python ou R comme : ggplot2, matplotlib, basemap, geopandas
3. Conception de l’interface de visualisation
4. Stockage des données dans un SGBD. La sélection du SGBD dépendra des besoins identifiés pour construire les différentes visualisations
5. Choix du framework (Flask, Rshiny,…) et des librairies Javascript (Sigma.js, Topogram.io, leaflet, …) nécessaires à l’implémentation de l’interface
6. Développement de l’interface
7. Analyse et évaluation des visualisations produites

Profil du candidat :
Stage Master 2 ou école ingénieur

Formation et compétences requises :
– Langage de programmation : Python ou R
– Maitrise de SGBD tels que MariaDB, MongoDB, ElasticSearch ou PostGreSQL (avec POSTGIS)
– Développement Web : HTML/CSS mais surtout Javascript (Connaissances en design d’IHM souhaitées)

Adresse d’emploi :
Localisation : TETIS – Maison de la Télédétection – Montpellier

Encadrement :
Jacques Fize (UMR TETIS, Cirad & Irstea), Mathieu Roche (UMR TETIS, Cirad), Maguelonne Teisseire (UMR TETIS, Irstea)

Divers
– Durée : 6 mois
– Gratification : Taux légal en vigueur

Envoyer un CV ainsi que vos relevés de notes des deux dernières années à
jacques.fize@cirad.fr, maguelonne.teisseire@irstea.fr, mathieu.roche@cirad.fr

Document attaché :

Categories: Stages

Data stories for interactive intentional analytics

Tickets

Apr 1 – Apr 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire d’Informatique Fondamentale et Appliquée de Tours
Durée : 5 à 6 mois
Contact : Patrick.Marcel@univ-tours.fr
Date limite de publication : 2019-04-01

Contexte :
Can data analysis be fully automated and eventually an Artificial Intelligence (AI) makes the decision? The debate around AI, especially Machine Learning (ML), and their supposed capacity at automating decision making, is very in- tense these days. In the database (DB) community, and more particularly in the data warehousing (DW) community, there is long tradition of having the decision maker at the center of the data analysis process. At the inverse of auto- mated application of algorithms [4], DW has been, since its inception, all about facilitating the task of interactive exploration of a dataspace, and not let e.g., an algorithm automatically mine this space for patterns. One could even say that DW is the ancestor of the Human-In-the-Loop Data Analysis phenomenon [2].
This internship topic follows up from the reinvention of OLAP described in [9, 10], and ambitions to automatize further interactive data analysis, while letting the end user in command. This reinvention of OLAP introduces an analytics model redefining what a query is, with respect to both what users ask the system, what the answer entails, and how this answer is computed. An implementation is currently being done.
The work introduced in [10] opens several major research questions. A first question is How to facilitate the understanding of data? This demands to precisely define what are the answers to complex sequences of high level intentions, and package them into coherent data stories accessible to even non expert users.
As an answer to this question, authors propose that answers to intentional operators are no longer traditional sets of tuples, but dashboards including data, charts, informative summaries of KPI performance, as well as concise representations of knowledge hidden in the data.
The long term ambition is to automatically generate such dashboards based on past and current user interactions, and using data mining techniques.

Sujet :
The main challenge of this internship is to define how to structure dashboards in a context where the interactive data analysis is a sequence of possibly complex queries, each being a composition of intentions, in a personalized way [8].
The detailed objectives are:
1. Study of the intentional operators proposed in [10].
2. Literature review about dashboard representation.
3. Propose a dashboard model adapted to complex intentional queries.
4. As a proof of concept, generate dashboards for a set of user explorations.

Profil du candidat :
Applicants are expected to be 2nd year master students in Computer Science.

Formation et compétences requises :
Applicants are expected to be skilled in databases, machine learning, programming and be fluent in English. A first experience in research is a plus.

Adresse d’emploi :
The recruited student will be supervised by Veronika Peralta and Patrick Marcel at the University of Tours, in the campus of Blois (3 place Jean-Jaurès, 41000 Blois).

Document attaché : Intership_data_stories.pdf

Categories: Stages

Deep Interaction — Apprentissage par renforcement pour l’analyse et la comparaison de dessin de graphes

Tickets

Apr 1 – Apr 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire Bordelais de Recherche en Informatique
Durée : Jusqu’à 6 mois
Contact : romain.giot@u-bordeaux.fr
Date limite de publication : 2019-04-01

Contexte :
Les graphes sont couramment utilisés dans différentes applications (analyse de réseaux sociaux, enchaînement de calculs, …) pour représenter des relations entre plusieurs entités. Il est nécessaire de les dessiner de façon non ambiguë pour les visualiser et comprendre les relations entre les différentes entités. En raison de leur complexité, il n’existe pas de méthode parfaite pour représenter un réseau.
Les algorithmes de dessin sont couramment évalués en demandant à plusieurs personnes d’effectuer différentes tâches de bas niveaux à partir d’une représentation, souvent interactive, du graphe ; plus elles sont efficaces pour les réaliser, meilleur est l’algorithme de dessin. Les méthodes modernes de dessin de graphes utilisent différentes heuristiques pour augmenter la qualité du dessin (et donc la performance des humains lors de la réalisation des tâches ciblées par ces heuristiques). Comme leur calcul peut être très coûteux, des méthodes d’apprentissage automatique commencent à être utilisées pour les approximer [HWP∗18]. De manière générale, des méthodes d’apprentissage automatique peuvent être utilisées pour réaliser certaines tâches de perception visuelles contraintes [HTP18]. Il est prévisible que les réseaux de neurones profonds soient de plus en plus utilisés pour évaluer les dessins produits par des machines (par exemple, pour produire plusieurs représentations différentes de la même donnée et sélectionner la plus pertinente) ou extraire de l’information depuis ces représentations (afin de vérifier que l’information que nous voulons coder dans le dessin soit bien présente).
L’apprentissage par renforcement permet à un agent d’interagir avec un environnement de façon à optimiser une récompense pouvant potentiellement être obtenue après un certain délai. Depuis quelques années, il est possible de calculer la fonction de calcul de récompense par un réseau de neurones profond afin de produire des systèmes suffisamment performants pour jouer à des jeux vidéos [MKS*13]. Notre hypothèse de travail est qu’une approche similaire peut être utilisée pour naviguer dans la représentation interactive du graphe afin d’y extraire de l’information pertinente.

Sujet :
Le but de ce stage est de mettre au point un système d’apprentissage profond par renforcement qui cherche à réaliser une tâche sur le dessin d’un graphe de façon à obtenir de meilleure performance que l’apprentissage standard prenant en entrée une image fixe. En effet, en étant capable d’interagir avec la représentation de l’image, l’agent va pouvoir collecter plus d’informations qu’avec une image fixe et se servir de cet ensemble d’informations pour effectuer sa prédiction finale.
Diverses interactions de l’agent sur la représentation interactive sont envisageables : zoom pour obtenir plus de détails sur une zone précise, pan pour se déplacer sur une zone précise, sélection d’un nœud pour mettre en évidence le voisinage.Des actions liées à sa représentation des données qu’il analyse seront nécessaires : ajout d’un nœud, positionnement d’un nœud, ajout d’un lien entre deux nœuds, etc… Nous espérons que l’agent agisse de façon similaire à un humain (zoom&pan pour naviguer dans un gros graphe, sélection d’un nœud pour mettre en évidence les voisins par exemple pour la recherche d’un chemin, …) pour réaliser des tâches de haut niveau [KPS2014] et qu’il éprouve des difficultés similaires aux humains en fonction de la représentation fournie en entrée. L’utilisation conjointe de réseaux de neurones récurrents [GSK*2017] peut être nécessaire pour réaliser le projet afin de garder en mémoire les différentes informations collectées lors de l’interaction.

Profil du candidat :
Le candidat doit être à l’aise avec les langages de programmation Python et C++. Il doit posséder la curiosité et motivation nécessaires pour prendre en main les différentes bibliothèques de manipulation de réseaux de neurones profonds, de création d’agents et de visualisation d’information. Une expérience en apprentissage automatique est un véritable plus.

Formation et compétences requises :
Nous cherchons un étudiant en Master 2, ou dernière année d’école d’ingénieur, dans des domaines que l’informatique, l’ingénierie ou les sciences des données.

Adresse d’emploi :
Laboratoire Bordelais de Recherche en Informatique

Unité Mixte de Recherche CNRS (UMR 5800)
351, cours de la Libération F-33405 Talence cedex

Document attaché : StageDeepInteraction.pdf

Categories: Stages

Détection de fausses nouvelles (fake news) fondée sur les informations textuelles et structurées

Tickets

Apr 1 – Apr 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIRMM et TETIS
Durée : 5-6 mois
Contact : mathieu.roche@cirad.fr, todorov@lirmm.fr
Date limite de publication : 2019-04-01

Contexte :
Les fausses nouvelles (fake news) sont devenues un problème de plus en plus important, tant du point de vue de la société que de celui de la recherche. De nombreuses approches récentes [1,2] dans diverses communautés scientifiques portent sur des problèmes tels que la vérification des faits, la détection de la pertinence ou de point de vue dans des documents par rapport à des assertions particulières.

Dans ce contexte, 3 laboratoires français et allemands (dont le LIRMM et TETIS à Montpellier) ont uni leur efforts pour collecter et publier sous la forme de graphe de connaissances les données et méta-données contenues dans un grand nombre de site de fact-checking (tels que Politifact ou Snopes). En résulte la base ClaimsKG, un graphe de connaissances contenant plus de 24K assertions annotées et liées qui facilite la création de requêtes structurées sur les assertions, leurs valeurs de vérité (True, False, etc.), leurs auteurs, dates de publication, etc.

Sujet :
Ce stage aura pour but d’exploiter cette ressource et de proposer des contributions méthodologiques fondées sur des analyses statistiques approfondies :

(i) Intégration de nouveaux descripteurs (descripteurs dits exogènes, word embeddings, etc.) pour améliorer l’identification de “fake news” dans un processus d’apprentissage automatique.

(ii) Mise en place d’un processus de clustering d’assertions dans le but d’identifier les descripteurs clés utiles pour discriminer les fake news. Notons que le clustering visera à regrouper les assertions qui portent sur le même événement ou bien sur des événements similaires/liés.

Plan de travail :
1) Etat de l’art du domaine de vérification automatique d’assertions à la base de méthodes d’apprentissage automatique.
2) Etudes de l’état de l’existant, en particulier la ressource ClaimsKG.
Proposition de méthodes d’identification des descripteurs les plus pertinents pour la détection de fake news.
3) Rédaction d’un papier scientifique à soumettre à une conférence internationale

Profil du candidat :
– Bon niveau de programmation (java / python)
– Des bases en science de données, machine learning et web sémantique
– Bon niveau en anglais

Formation et compétences requises :
Master 2 en informatique

Adresse d’emploi :
Le travail s’effectuera à TETIS et au LIRMM à Montpellier dans le cadre d’une collaboration avec l’Institut de sciences sociologiques GESIS à Cologne (Allemagne).

Le stage aura une durée de 5 à 6 mois à partir du mois de février 2019
Gratification : taux légal en vigueur

Document attaché :

Categories: Stages

Élaboration d’un outil web de visualisation de données en sciences de l’environnement

Tickets

Apr 1 – Apr 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Centre d’Écologie Fonctionnelle et Evolutive
Durée : 6 mois
Contact : olivier.dangles@ird.fr
Date limite de publication : 2019-04-01

Contexte :
Les outils et technologies de visualisation de données sont devenus indispensables dans de nombreuses disciplines scientifiques. À l’aide de représentations graphiques et visuelles, comme des graphiques et des cartes, une visualisation des données permet de voir et de comprendre, de manière accessible, des tendances dans un jeu de données et de renforcer la diffusion des résultats scientifiques au plus grand nombre. Ces technologies permettent également d’intégrer rapidement une information multicritère, mêlant ainsi un souci de communication scientifique et de traitement de la donnée. Une application récente des outils de visualisation des données est la conception de tableaux de bords (dashboards) sur le web. Ces dashboards présentent une série d’indicateurs clés, liés à des bases de données (par ex. des publications scientifiques), permettant de réaliser un suivi en temps réel de la progression d’un projet scientifique. Un dashboard analytique fournit à l’utilisateur un aperçu des connaissances acquises, un état des lieux de l’atteinte des objectifs fixés et une aide à la prise de décision pour réaliser au mieux ces objectifs.

Sujet :
L’objectif de ce stage est d’élaborer un outil web de visualisation de données permettant le suivi en temps réel de la collaboration entre chercheurs membres d’un Laboratoire Mixte International (France, Colombie, Equateur) en sciences de l’environnement (LMI BIO_INCA). À partir de données concernant le profil disciplinaire d’une cinquantaine de chercheurs, de leurs publications et activités scientifiques, l’outil devra permettre de visualiser la structuration du laboratoire et en particulier les interactions entre les disciplines scientifiques et celles entre les trois pays (un exemple d’outil peut être consulté sur le site web du NCEAS). Le stage sera encadré par une équipe de chercheurs et ingénieurs de l’Institut de Recherche pour le Développement (IRD), ayant des expertises diverses, depuis les concepts scientifiques jusqu’aux aspects pratiques de programmation.

Profil du candidat :
Le candidat sera en charge des activités suivantes: État de l’art des techniques de visualisation interactive sur le web et choix d’une solution, appropriation des données et de l’objectif de data visualisation, conception et réalisation de l’outil de recueil des données, mise en place d’un serveur web de test et du site web du LMI, développement du dashboard, réalisation de la documentation technique

Formation et compétences requises :
Programmation Javascript, PHP, HTML/CSS, gestion de base de données (MySQL, PostgreSQL,…) et connaissance du CMS WordPress. Des connaissances d’une bibliothèque de visualisation web (par exemple D3.js) et d’une langue étrangère (anglais et si possible espagnol) représentent un atout. Une bonne capacité à travailler en équipe est souhaitée.

Adresse d’emploi :
UMR CEFE, Campus CNRS, 1919 route de Mende, Montpellier
Contact: olivier.dangles@ird.fr

Document attaché :

Categories: Stages

Master 2 internship

Tickets

Apr 1 – Apr 2 all-day

Annonce en lien avec l’Action/le Réseau : MAESTROFormation

Laboratoire/Entreprise : Laboratoire d’Astrophysique de Marseille
Durée : 6 months
Contact : jean.gabriel.cuby@lam.fr
Date limite de publication : 2019-04-01

Contexte :
Les galaxies et quasars à très grand décalage spectral (redshift, z > 7) nous éclairent sur les processus de formation et d’évolution des galaxies dans l’Univers primordial. L’observation de l’Univers à très grand décalage spectral est au centre de beaucoup des grands projets de l’astrophysique des décennies à venir (Euclid, JWST, WFIRST, SKA, ATHENA, LISA)

Sujet :
Modélisation de galaxies et de quasars très distants et outils de sélection par analyse Bayesienne et apprentissage machine pour la mission Euclid de l’agence spatiale européenne.

Méthodologie et Programme de travail. La sélection des objets à très grand décalage spectral se fait sur la base de leurs couleurs très (infra-)rouges. Une des difficultés provient de la similitude de ces couleurs avec celles d’étoiles très froides de l’environnement local. Des outils statistiques doivent alors être développés afin d’affiner la sélection grâce à une modélisation précise des populations d’objets très lointains et des contaminants (voir par exemple Pipien et al. (2018) pour une description d’un modèle Bayesien). La précision et la limite de validité de ces modèles risquent toutefois challengées par la grande sensibilité d’Euclid. Les méthodes de machine learning et/ou de deep learning voient leur apparition en astrophysique (voir par exemple arXiv:1806.06607) et permettent d’accéder à des domaines de l’espace des paramètres où les modèles sont peu contraints.
Le travail consistera à poser les bases d’un développement d’outils de sélection des objets à grand décalage spectral pour la mission Euclid :
i. Développement d’outils de modélisation d’objets à grand décalage spectral et de contaminants. Il s’agira ici de développer quelques outils simples permettant de générer des populations d’objets (catalogues) à partir de leurs spectres (connus) et de leurs fonctions de distribution spatiale, morphologique, et en luminosité.
ii. Développement d’un modèle Bayesien adapté aux données d’Euclid. Il s’agira ici d’adapter un modèle Bayesien existant et de le tester à partir des populations d’objets qui auront été générées auparavant (point i.).
iii. Test de méthodes d’apprentissage machine: à partir des catalogues simulés au point i. et de la modélisation effectuée au point ii., il s’agira ici d’effectuer des tests préliminaires avec des outils d’apprentissage machine. Idéalement, ces tests permettront une première comparaison avec les résultats de l’analyse Bayesienne.
Ce travail sera effectué sous une double responsabilité ‘astrophysique’ et ‘logicielle’ au sein du Laboratoire d’Astrophysique de Marseille. Ce travail pourra se poursuivre en thèse (un co-financement du CNES est d’ores et déjà acquis).

Profil du candidat :
Etudiant en Master physique, astrophysique, machine learning

– autonome
– curieux
– connaissances en astro serait un plus

Formation et compétences requises :
Master en cours en astrophysique, physique ou machine learning

Adresse d’emploi :

Laboratoire d’Astrophysique de Marseille. CNRS, CNES & Université Aix-Marseille (AMU)
38 rue Joliot Curie,
13388 Marseille cedex 13

Document attaché : Sujet-M2.pdf

Categories: Stages

Mise en place d’un système d’acquisition semi-automatique d’un corpus de données hétérogènes (Images et Textes) – Application à la problématique de la sécurité alimentaire en Afrique de l’Ouest

Tickets

Apr 1 – Apr 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : UMR TETIS
Durée : 5-6 mois
Contact : roberto.interdonato@cirad.fr, agnes.begue@cirad.fr
Date limite de publication : 2019-04-01

Contexte :
Le stage s’inscrit dans le cadre d’un projet interdisciplinaire concernant la gestion des risques liés à la sécurité alimentaire. Le projet est centré sur le cas de l’Afrique de l’Ouest, où les risques agricoles sont d’autant plus aigus que les services nationaux de surveillance et de suivi peuvent être défaillants faute de moyens techniques et financiers. Actuellement les images de télédétection satellitaire sont utilisées en routine pour produire des cartes d’anomalies de croissance de la végétation en temps quasi-réel, aux échelles nationale et régionale. Cependant détecter une anomalie de croissance ne suffit pas à établir un diagnostic sur la production agricole d’une région, car de nombreux facteurs rentrent en ligne de compte. D’un autre côté, les journaux locaux et les nouveaux médias font état de certains événements (sécheresse, inondation, état sanitaire, etc.) qui ont un impact direct sur la production agricole. Ces événements ne sont pas tous répertoriés, ils ne décrivent pas de façon exhaustive la situation régionale ou nationale, mais ils apportent une information thématique complémentaire de celle des images satellite. Ainsi, nous proposons un stage de recherche ayant comme objectif d’établir un lien entre textes et images afin de faire un diagnostic sur la production agricole en cours de saison en vue d’améliorer les systèmes d’alerte précoce. Pour atteindre cet objectif, deux activités seront menées : (i) utiliser des techniques à la pointe de fouille de textes sur le thème du climat et de la production agricole et avec un ancrage géographique en Afrique de l’Ouest ; (ii) lier les informations géo-localisées ainsi extraites aux observations faites par satellite pour poser un diagnostic en temps quasi-réel. La zone géographique d’étude concerne l’Afrique de l’ouest. Les données textuelles à acquérir correspondent à des journaux, des bulletins officiels de veille sur le déroulé de la campagne agricoles émis par les systèmes d’alertes précoces internationaux, régionaux ou nationaux et des données provenant de plateformes de médias sociaux (p. ex., Blogs, Twitter, Flickr, Instagram). Ces données seront récoltées en adaptant (si nécessaire) un système de web scraping mis à disposition. Les données image sont essentiellement des cartes d’indicateurs NDVI (Normalized Difference Vegetation Index) décadaires produites à partir d’images acquises à basse et moyenne résolutions spatiales (entre 250 m et 1 km).

Sujet :
Les objectifs de ce stage comprennent la production d’un corpus mis à disposition et d’un rapport détaillant le contenu et les liens sémantiques entre les différentes données. Le livrable consistera dans la rédaction d’un data paper permettant la valorisation du corpus constitué.

Le planning prévisionnel est structuré comme suit :
1. étude du cahier des charges du corpus à constituer et choix de la zone d’étude,
2. adaptation et mise en oeuvre du processus de récolte des données (via le système existant mis à disposition)
3. constitution du corpus (textes, images) sur la zone d’étude,
4. Mise en relation et évaluation du corpus avec les experts,
5. Rédaction du Data paper.

Profil du candidat :
Stage Master 2 Pro ou école ingénieur

Formation et compétences requises :
– Langages Python et Java, outils NLP (souhaité)
– Capacité de travail en équipe pluridisciplinaire.

Divers :
Durée : 5 à 6 mois
Gratification : taux légal en vigueur

Adresse d’emploi :
TETIS (Maison de la Télédétection) à Montpellier

Document attaché :

Categories: Stages

Apr

Tue

2019

Systèmes de recommandation et Graphes dynamiques

Tickets

Apr 30 – May 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : CNAM (labo CÉDRIC)
Durée : 6 mois
Contact : fournier@cnam.fr
Date limite de publication : 2019-04-30

Contexte :
Systèmes de recommandation et graphes dynamiques

Sujet :
Le but de ce stage est d’explorer l’apport des graphes et des flots de liens pour les systèmes de recommandation sociaux, après que de premiers travaux aient validé cette approche. Dans un
premier temps, il faut définir un ensemble de descripteurs de graphes et de flots de liens adaptés ; par exemple, des métriques de similarités telles que l’indice de Jaccard , ou encore des métriques de
centralité. Ensuite, nous proposons d’intégrer ces métriques à des algorithmes à l’état de l’art de l’apprentissage automatique : des méthodes classiques, par exemple de gradient boosting ou des factorization machines, ainsi que des méthodes plus récentes d’apprentissage profond autour des réseaux de
neurones de graphes.

Profil du candidat :
Niveau M2 info, école d’ingénieur, à l’aise en programmation et en théorie des graphes, si possible.

Formation et compétences requises :
Niveau M2 info, école d’ingénieur

Adresse d’emploi :
CNAM Paris et Institut Riken (Tokyo, Japon)

Document attaché : Graph_for_recommender_systems.pdf

Categories: Stages

May

Wed

2019

Détection par « deep learning » de l’orientation d’un copépode à partir d’une seule prise de vue et d’un modèle tridimensionnel

Tickets

May 1 – May 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Equipe Morpheme, laboratoire I3S, Sophia Antipolis
Durée : 5 à 6 mois
Contact : eric.debreuve@i3s.unice.fr
Date limite de publication : 2019-05-01

Contexte :
Contexte environnemental et biologique (voir document attaché)

Dans le cadre du projet Sentinelle Nord de l’Université Laval, Québec (Canada), l’équipe Morpheme et l’équipe PEPS1 participent au développement de méthodes de classification automatique du zooplancton des mers polaires par traits fonctionnels (par opposition à la classification selon une taxonomie génétique par exemple). Ces méthodes sont destinées à servir d’outil aux chercheurs en biologie et écologie marines dans l’étude de l’impact des activités humaines sur les régions polaires. Le plancton, dans son ensemble, est à la base de la chaîne alimentaire de la faune marine, et le phytoplancton participe de manière déterminante à la régulation de la quantité de CO2 dans l’atmosphère. On comprend pourquoi l’étude de l’évolution des populations de ces organismes est fondamentale, notamment dans les régions polaires fragilisées par le changement climatique.

Sujet :
Description du projet (voir document attaché)

La reconnaissance automatique d’objets tridimensionnels à partir d’une image (bidimensionnelle donc) pose le problème de la variabilité de l’apparence selon le point de vue de la prise d’image. Autrement dit, dans le contexte de la classification automatique d’images, deux images d’un même objet prises sous des angles différents peuvent aisément être classées dans des classes différents, sauf évidemment si l’ensemble d’apprentissage contenait suffisamment de points de vue différents pour chaque objets. Cette contrainte sur l’ensemble d’apprentissage n’étant en principe pas satisfaite dans des applications réelles, on recourt à la « data augmentation ». Toutefois, les déformations introduites ne sont pas vraiment réalistes1 et leur ampleur est trop limitée pour couvrir l’ensemble des points de vue si l’échantillonnage des points de vue parmi les images dont on dispose est réduit. Une solution naturelle est de prendre en compte le point de vue pour la classification. En quelque sorte, si on connaît la direction de prise de vue, on peut déduire d’où sont issues sur l’objet les caractéristiques extraites de l’image (par le biais d’un modèle 3-D de l’objet) et comment elle ont été « déformées » par cette direction par rapport à une vue dans une direction choisie comme standard. La tâche de classification devient ainsi indépendante du point de vue. Or pour connaître le point de vue d’une image, il faut savoir ce qui y est représenté, autrement dit il faut connaître la classe. Les problèmes de classification et d’estimation de point de vue ne sont donc pas solubles indépendamment l’un de l’autre. Des recherches ont déjà été menées pour les résoudre conjointement grâce à des réseaux de neurones convolutionnels. Toutefois, à notre connaissance, pas dans le cas d’objets déformables et translucides comme c’est le cas du zooplancton. Pour aborder ce contexte plus délicat, nous souhaitons d’abord étudier la faisabilité de la détermination du point de vue sachant la classe. Pour cela, nous utiliserons une base de données de copépodes, une sous-classe des crustacés pour laquelle il existe des modèles 3-D (voir Figure 1).
Il s’agira donc de créer une base de données synthétique d’images de copépodes par projection réaliste1 d’un modèle 3-D et de proposer un réseau de neurones convolutionnel (en choisissant parmi les réseaux existants, voire en s’en inspirant pour proposer une variante) permettant d’estimer automatiquement le point de vue. Le réseau sera alors validé sur des images réelles sous le contrôle d’experts en biologie marine. L’extension à la classification et estimation du point de vue conjointes se fera dans un contexte « one-class classification », c’est-à-dire pour classer/estimer le point de vue en copépode+point de vue versus non-copépode+point de vue (pour cette seconde classe, le point de vue ne sera bien sûr pas fiable et n’aura en fait pas d’intérêt). Le passage à classes multiples+point de vue pourra être envisagé selon l’avancement du projet.

Profil du candidat :
Compétences souhaitées (voir document attaché)

• Des connaissances en classification/régression par réseaux de neurones convolutionnels sont souhaitables
• Des connaissances en manipulation de maillages surfaciques sont souhaitables
• Un minimum d’autonomie en Python et Numpy
• Un manque d’expérience dans les domaines ci-dessus pourra être compensé par une bonne motivation

Formation et compétences requises :
Master 2 (voir document attaché)

Adresse d’emploi :
Equipe Morpheme, laboratoire I3S, Sophia Antipolis (voir document attaché)

Document attaché : artifactz-m2.pdf

Categories: Stages

Détection, caractérisation et clustering de cellules gliales dans le cadre d’une étude des lipides nutritionnels

Tickets

May 1 – May 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Equipe Morpheme, laboratoire I3S, Sophia Antipolis
Durée : 5 à 6 mois
Contact : eric.debreuve@i3s.unice.fr.fr
Date limite de publication : 2019-05-01

Contexte :
Contexte médical et biologique (voir document attaché)

L’obésité est un problème majeur de santé publique affectant près de 15% de la population mondiale. Les études menées sur les modèles animaux et l’homme montrent que les organes périphériques, affectés par l’excès de graisses du régime alimentaire occidental, communiquent avec les centres nerveux de l’hypothalamus impliqués dans le contrôle du comportement alimentaire pour en modifier le fonctionnement. L’obésité et les syndromes métaboliques correspondent à un état d’inflammation chronique qui entraînerait des dérégulations du comportement alimentaire. Dans cette étude, nous cherchons à comprendre les mécanismes de cette réponse inflammatoire. Ils pourraient impliquer en première intention les cellules gliales (astrocytes et/ou microglie) qui forment la barrière hémato-encéphalique. L’objectif est de découvrir si l’inhibition de cette activation précoce pourrait prévenir l’obésité, offrant ainsi une perspective de prise en charge thérapeutique novatrice pour le traitement de l’obésité.

Sujet :
Description du projet (voir document attaché)

Cette étude est menée sur des souris soumises à des régimes plus ou moins riches en graisses. L’acquisition en microscopie par fluorescence de la région du cerveau concernée produit des images telles que celle de la Figure 1.
Au cours d’un premier stage court, une procédure « preuve de concept » de traitement et analyse automatiques d’images a été mise au point pour extraire les somas (ou noyaux) des astrocytes et les prolongements des astrocytes et des microglies (voir Figure 2). Des caractéristiques morphologiques et topologiques ont été calculées sur ces objets : expression de l’intensité de fluorescence totale, surface et circularité du soma, nombre et longueur des prolongements, nombre de ramifications.
Il reste encore un travail conséquent et essentiel à la poursuite de l’objectif biologique. Tout d’abord, cette procédure « preuve de concept » doit être rendue plus efficace et robuste. Cela passe par le développement (i) d’une meilleure chaîne de traitement d’image et (ii) de construction du graphe astrocytaire ou microglial. Il faudra également réfléchir à d’autres caractéristiques à mesurer sur ces objets d’intérêt pour affiner leur description. Le travail crucial qui devra ensuite être développé est l’exploitation de ces caractéristiques en entrée d’une méthode de classification non supervisée (clustering) afin d’identifier automatiquement des sous-populations de cellules gliales qui partagent des relations particulières entre les valeurs de leurs caractéristiques. Le nombre d’échantillons (nombre d’astrocytes ou de microglies extraits des images), quoique trop élevé pour une exploitation manuelle, ne sera probablement pas suffisant pour des méthodes de clustering « fondées modèle » (typiquement Gaussian Mixture Model) ou s’appuyant sur la densité. Nous envisagerons plutôt des méthodes hiérarchiques (produisant un dendrogramme), qui ne nécessitent pas de connaître à l’avance le nombre de clusters, ou des méthodes par partitionnement tel que le k-Means. A noter que le nombre de clusters dans les échantillons (les sous-populations) n’est pas forcément égal au nombre de conditions expérimentales (2 ici). Suite au clustering, nous analyserons les conditions SD (régime standard) et HFD (régime hyperlipidique) pour déterminer objectivement ce qui les distingue : soit qu’elles sont composées de sous-populations distinctes, soit que certaines sous-populations sont présentes dans les deux conditions mais dans des proportions différentes (signature des conditions sous forme d’histogramme). Cette analyse SD vs HFD sera menée selon deux modes, à savoir sans ou (plus finement) avec prise en compte de la répartition spatiale des sous-populations entre le noyau arqué et l’éminence médiane (deux régions distinctes de la zone d’intérêt imagée).

Profil du candidat :
Compétences souhaitées (voir document attaché)

• Des connaissances en classification non supervisée sont souhaitables
• Des connaissances en traitement et analyse d’images sont souhaitables
• Un minimum d’autonomie en Python et Numpy
• Un manque d’expérience dans les domaines ci-dessus pourra être compensé par une bonne motivation

Formation et compétences requises :
Master 2 (voir document attaché)

Adresse d’emploi :
Equipe Morpheme, laboratoire I3S, Sophia Antipolis (voir document attaché)

Document attaché : nutrimorph-m2.pdf

Categories: Stages

Evaluation et apprentissage d’hyperparamètres pour la visualisation de grandes masses de données

Tickets

May 1 – May 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LRI, Laboratoire de Recherche en Informatique, équipe TAU
Durée : 4 à 6 mois
Contact : caillou@lri.fr et acl@lri.fr
Date limite de publication : 2019-05-01

Contexte :
TAU (TAckling the Underspecified) est une équipe projet Inria commune avec le LRI. Le Laboratoire de Recherche en Informatique est une unité mixte de recherche rattachée à l’INS2I du CNRS et au département STIC de l’Université Paris-Saclay ayant des liens de partenariat avec Inria et CentraleSupelec. Le laboratoire accueille près de 300 personnes dont 133 permanents et 90 doctorants.
Le projet Cartolabe est un projet à fort potentiel porté par une équipe d’ingénieurs et de scientifiques du LRI et d’INRIA. Le moteur de l’application et le module de visualisation sont conçus de façon très ouverte pour être applicable à de nombreux domaines. La mise au point des hyperparamètres qui fait l’objet de la deuxième partie du stage est essentielle car c’est elle qui permet la validation d’une instance de Cartolabe dans une domaine donné, comme les publications scientifiques par exemple.

Sujet :
Les missions du stagiaire consistent à mettre en place un protocole de test pour évaluer les résultats de Cartographie scientifique obtenus par Cartolabe (cartolabe.fr). Dans un premier temps, des indicateurs de qualité et un protocole de validation seront mis en place. L’utilisation d’autres jeux de données tel que wikipedia et la comparaison à d’autres moteurs de recherche scientifique permettra de valider les indicateurs et protocoles de test. Dans un second temps, l’optimisation des hyperparamètres de la cartographie permettra d’améliorer la qualité obtenue.

Cartolabe est un projet développé en commun par le LRI, le CNRS et l’INRIA afin de visualiser un grand nombre de publications, d’auteurs, laboratoires et équipes sur une même carte.
L’application Cartolabe calcule une distance entre ces entités liées à des publications à partir du texte des articles. Un pipe-line de traitement de données extrait les données depuis HAL (https://hal.archives-ouvertes.fr/: aujourd’hui 750 000 articles et auteurs) puis les traite en utilisant des techniques de machine learning. Un unique fichier json est produit en sortie du pipe-line. Ensuite, une deuxième partie du logiciel (application web) se charge de visualiser cet ensemble de points en une carte de chaleur annotée et zoomable. Il est possible à partir du client web de naviguer et d’explorer la carte.

Un exemple d’indicateur de qualité intrinsèque assez naturel est de compter parmi les articles voisins d’un auteur, le pourcentage de ceux dont il est lui-même auteur.
Des indicateurs de qualité extrinsèques peuvent être établis en soumettant des requêtes identiques à des applications indépendantes de Cartolabe comme google scholar ou LookInLabs (https://lookinlabs4halinria.cominlabs.u-bretagneloire.fr/).
Des indicateurs de qualité manuels sont également envisageables en interrogeant des scientifiques au cours de sessions enregistrées et en confrontant leur appréciation personnelle des distances entre entités avec les résultats proposés par Cartolabe.
Certains indicateurs de qualités peuvent par ailleurs être validés sur des jeux de données disposant d’autres indicateurs de proximité, tels que les liens entre articles de wikipedia ou les citations croisées entre articles scientifique.

Une fois les indicateurs de qualité mis en place sur la base Cartolabe, une deuxième partie du stage consistera à réaliser une optimisation des hyperparamètres de Cartolabe afin d’étudier leur impact sur les différents indicateurs et d’améliorer le résultat obtenu. Les hyperparamètres à considérer peuvent aussi bien être des choix d’algorithmes (LDA/LSA, choix du type de voisinage, projection UMAP ou TSNE) que leurs paramètres (en particulier le nombre de dimensions latentes utilisées pour calculer la similarité sous jacente).

Profil du candidat :
Langage et des outils de programmation Python (Anaconda, scikit-learn, pandas);
Pratique des environnements de développement logiciels (forges, git) ;
Notions appréciées dans l’un des domaines suivants : visualisation de grandes masses de données, machine learning, traitement automatique des langues ; information retrieval : recall versus precision.
Maîtrise de l’anglais scientifique ;
Méthode, curiosité et aptitude au travail en équipe sont requis pour ce stage.

Formation et compétences requises :
Stage de master M1 ou M2 ou stage ingénieur en informatique.

Adresse d’emploi :
Equipe-projet INRIA TAU.
LRI, Laboratoire de Recherche en Informatique
Université Paris Sud – Bâtiment 660 – Shannon
Rue Noetzlin
91190 Gif-sur-Yvette

Document attaché : 2019_Offre_Stage_DataQualityCartolabe.pdf

Categories: Stages

Geovisualisation et Data Warehouse pour l’analyse des données (spatiales) d’agri-biodiversité

Tickets

May 1 – May 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : irstea
Durée : 5-6 mois
Contact : sandro.bimonte@irstea.fr
Date limite de publication : 2019-05-01

Contexte :
Dans le cadre du dispositif Chèque Recherche Innovation de I-Site CAP 20-25, un stage Master 2 pour travailler en stricte collaboration avec l’association Symbiose Allier est financé.

L’importance de la protection de la biodiversité et sa relation aux pratiques agricoles est bien connue. Pour construire les indices de biodiversité, des données d’observation sont nécessaires à grande échelle spatiale et temporelle. Un grand nombre d’observateurs doit être mobilisé, à un coût qui serait prohibitif à moins qu’ils ne soient volontaires dans des programmes de science citoyenne. Dans ce cadre intervient l’Observatoire Agricole de la Biodiversité (OAB) qui se propose de faire remonter des données de biodiversité dans le milieu agricole (en particulier pour les systèmes en arboriculture, cultures pérennes, grandes cultures, maraichage, prairie et viticulture et sur 4 types de taxon). Dans ce contexte, le projet ANR en cours VGI4Bio (vgi4bio.fr), démarré en 2018, vise à proposer une méthodologie pour permettre aux volontaires de concevoir les indicateurs de biodiversité agricole dans une démarche participative et les implémenter dans les systèmes d’entrepôts de données spatiales (EDS) et OLAP spatial (SOLAP). Les systèmes SOLAP permettent l’analyse de grandes quantités de données via des interfaces web avec des tableaux de bords composés de tableaux croisés dynamiques et cartes interactives. Le succès d’un projet SOLAP repose essentiellement sur deux facteurs : (i) une conception d’un modèles de données EDS et (ii) une représentation cartographique conforment aux attentes et aux besoins de décideurs.

Sujet :
Les objectifs principaux du stage sont : (1) la définition des nouvelles méthodologies de geovisualisation pour l’OLAP ; (2) leur implémentation dans l’outil de geovisualisation en cours de développement avec Geosystems France.

Pour attendre l’objectif une analyse des besoins d’analyse doit être finalisée. Ces besoins d’analyse concernent les méthodes de geovisualization à utiliser.

Le projet de stage nécessite donc de :

1. Travailler sur les méthodologies de Geovisualisation

2. Travailler avec des vrais décideurs et problèmes d’analyse

3. Travailler en équipe

4. Travailler dans une vraie architecture OLAP Spatial

Planning

1. Etude de besoins d’analyse

2. Etude de méthodes existantes de geovisualisation pour l OLAP

3. Définition de méthodes de geovisualisation pour l’OLAP

4. Implémentation dans l’outil SOLAP de vgi4bio

Profil du candidat :
1. Systèmes d’information géographiques

2. Web mapping

3. Javascript/JAva

Des connaissances en Entrepôts de données et OLAP est un plus important

Formation et compétences requises :
Master

Adresse d’emploi :
9 avenue Blaise Pascal, Aubiere Clermont Ferrand

Encadrant : Sandro Bimonte, Irstea Clermont Ferrand

Envoyer le CV et lettre de motivation à sandro.bimonte@irstea.fr

Document attaché :

Categories: Stages

March – May 2019 Mar – May 2019

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Présentation Générale

Manifestations à venir

Actions, Ateliers et Groupes de Travail :