
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : INRA-I2M
Durée : 6 mois
Contact : cedric.baudrit@inra.fr
Date limite de publication : 2019-03-15
Contexte :
Face aux changements climatiques, les pratiques dans les filières vitivinicoles doivent s’adapter et évoluer. Cette démarche est rendue difficile par le fait que les systèmes impliqués dans le domaine de la vigne et du vin sont composés d’entités hétérogènes dont les interactions locales peuvent mener à des organisations collectives qui elles-mêmes ont des répercussions sur les entités (rétro-action & auto-organisation). Face à un manque (1) de connaissance physicochimique approfondie des phénomènes et (2) des savoir-faire, une exploitation intelligente des données ouvre de nouvelles perspectives et permettrait de faire émerger de la connaissance utile et exploitable pour anticiper et identifier les nouvelles pratiques. Le stagiaire exercera ses activités dans le cadre du plan de travail et du consortium du projet LACCAVE (Vers des systèmes viti-vinicoles intégrés et résilients pour faire face au changement climatique) financé le métaprogramme INRA-ACCAF (Adaptation de l’agriculture et de la forêt au changement climatique). Il intégrera l’équipe Assemblage des Connaissances (AsCo) du laboratoire I2M de l’université de Bordeaux (http://i2m.u-bordeaux.fr/).
Sujet :
Le stagiaire devra répertorier et proposer une cartographie interactive, via un portail web, à l’échelle internationale de l’ensemble des plateformes numériques liées à la filière vitivinicole allant du viticulteur au consommateur. Parallèlement, le stagiaire élaborera un questionnaire visant à identifier les besoins et les attentes métiers pour s’adapter aux changements climatiques et les atténuer.
Profil du candidat :
1. Le stagiaire devra recueillir et cartographier à l’échelle internationale l’ensemble des plateformes numériques liées à la filière vitivinicole allant du viticulteur au consommateur.
2. Le stagiaire devra établir un questionnaire dans le but d’élaborer une cartographie des besoins et des attentes métier face aux changements climatiques.
Formation et compétences requises :
– Recueil des savoir-faire, élicitation d’expert
– Représentation et ingénierie des connaissances
– Intérêts pour la science des données
– Intérêts pour les domaines de la vigne et du vin
– Intérêt pour la transdisciplinarité (biologie, mathématiques, physique, chimie, informatique)
Adresse d’emploi :
I2M, Université de Bordeaux, Talence
Document attaché : Stage_Ingé-Master_LACCAVE.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LSITIC
Durée : 1 year
Contact : patrick.lambert@univ-savoie.fr
Date limite de publication : 2019-03-18
Contexte :
The aim of this project is helping in the creation of a startup. This project will associate three partners:
– The startup (located in Paris) whose founders have a strong experience in 3D modelling;
– LISTIC, research lab of University Savoie Mont Blanc (Annecy), which has a strong expertise in deep learning approaches;
– Linksium, a Technology Transfer Accelerator Office (or SATT) which is a public organism created to develop and commercialize research results to be transformed into innovative products. Linksium will provide project funds.
Hiring in the startup after the post-doc year is very conceivable.
Sujet :
Actually, there are many solutions to get 3D accurate models of objects whatever may be their sizes. In the building domain, these systems are particularly interesting for maintenance and exploitation of existing construction where 3D models are often lacking. However, these systems only provide a 3D description but generally fail to perform object recognition.
In a first step, the aim of the project is to add some 2D object recognition functionalities to an actual scanning system. The available data to process are high definition images of inside buildings. These object recognition tools will be based on deep learning approaches which will require the construction of a ground truth dataset. In a second step, the project will consist in introducing 3D information (point cloud provided by a LIDAR are also available) to help recognition and to get 3D information concerning the objects. Objects which are to be recognized belongs to a building equipment catalog for which 2D or 3D images or models are sometimes available (equipment = windows, doors, boiler, electrical cabinet, fire extinguisher…).
Profil du candidat :
Motivated candidate with a PhD degree in Deep Learning dedicated to Image Processing or Computer Vision and with strong programming skills. A background in 3D modelling will be appreciated.
Formation et compétences requises :
PhD degree in Deep Learning dedicated to Image Processing or Computer Vision
Adresse d’emploi :
Practical information
– Duration: 12 months starting in June 2019
– Net Salary/month: 1800€
– Location: Lab. LISTIC in Annecy (with meetings in Paris).
– Supervisors: Prof. Patrick LAMBERT (LISTIC), Dr. Alexandre BENOIT (LISTIC), Thai-Binh PHAN (SmarterPlans).
Document attaché : Post-doc-position-V2.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : UMR TETIS
Durée : 5-6 mois
Contact : jacques.fize@cirad.fr, maguelonne.teisseire@irstea.fr, mathieu.roche@cirad.fr
Date limite de publication : 2019-04-01
Contexte :
Le stage se déroule dans le cadre du projet SONGES sur la mise en correspondance de données textuelles massives et hétérogènes. Dans ces travaux, nous élaborons des modèles de représentation de données ainsi que des mesures de similarité à partir d’indicateurs trouvés dans les textes (thématiques, spatiaux et temporels). L’objectif est d’organiser et valoriser des ensembles de données dans leurs dimensions hétérogènes et massives. Parmi les données exploitées, nous travaillons sur un ensemble de données produites dans le cadre du projet BVLAC, un projet mené par le Cirad qui promeut des techniques agricoles issues de l’agroécologie à Madagascar.
Sujet :
L’objectif de ce stage est de développer une interface de visualisation des liens (thématiques et spatiaux) entre documents d’un corpus. Cette interface devra permettre aux producteurs des données d’explorer et de valoriser ces corpus . Plus particulièrement, vous développerez une plateforme Web utilisant des librairies dédiées telles que : D3.js, Sigma.Js, Topogram.io, etc.
De façon plus précise, le stage sera décomposé en plusieurs étapes :
1. Appropriation du sujet (état de l’art, exploration des données)
2. Proposition de premières visualisations statiques des données à l’aide des librairies disponibles sur Python ou R comme : ggplot2, matplotlib, basemap, geopandas
3. Conception de l’interface de visualisation
4. Stockage des données dans un SGBD. La sélection du SGBD dépendra des besoins identifiés pour construire les différentes visualisations
5. Choix du framework (Flask, Rshiny,…) et des librairies Javascript (Sigma.js, Topogram.io, leaflet, …) nécessaires à l’implémentation de l’interface
6. Développement de l’interface
7. Analyse et évaluation des visualisations produites
Profil du candidat :
Stage Master 2 ou école ingénieur
Formation et compétences requises :
– Langage de programmation : Python ou R
– Maitrise de SGBD tels que MariaDB, MongoDB, ElasticSearch ou PostGreSQL (avec POSTGIS)
– Développement Web : HTML/CSS mais surtout Javascript (Connaissances en design d’IHM souhaitées)
Adresse d’emploi :
Localisation : TETIS – Maison de la Télédétection – Montpellier
Encadrement :
Jacques Fize (UMR TETIS, Cirad & Irstea), Mathieu Roche (UMR TETIS, Cirad), Maguelonne Teisseire (UMR TETIS, Irstea)
Divers
– Durée : 6 mois
– Gratification : Taux légal en vigueur
Envoyer un CV ainsi que vos relevés de notes des deux dernières années à
jacques.fize@cirad.fr, maguelonne.teisseire@irstea.fr, mathieu.roche@cirad.fr
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Laboratoire d’Informatique Fondamentale et Appliquée de Tours
Durée : 5 à 6 mois
Contact : Patrick.Marcel@univ-tours.fr
Date limite de publication : 2019-04-01
Contexte :
Can data analysis be fully automated and eventually an Artificial Intelligence (AI) makes the decision? The debate around AI, especially Machine Learning (ML), and their supposed capacity at automating decision making, is very in- tense these days. In the database (DB) community, and more particularly in the data warehousing (DW) community, there is long tradition of having the decision maker at the center of the data analysis process. At the inverse of auto- mated application of algorithms [4], DW has been, since its inception, all about facilitating the task of interactive exploration of a dataspace, and not let e.g., an algorithm automatically mine this space for patterns. One could even say that DW is the ancestor of the Human-In-the-Loop Data Analysis phenomenon [2].
This internship topic follows up from the reinvention of OLAP described in [9, 10], and ambitions to automatize further interactive data analysis, while letting the end user in command. This reinvention of OLAP introduces an analytics model redefining what a query is, with respect to both what users ask the system, what the answer entails, and how this answer is computed. An implementation is currently being done.
The work introduced in [10] opens several major research questions. A first question is How to facilitate the understanding of data? This demands to precisely define what are the answers to complex sequences of high level intentions, and package them into coherent data stories accessible to even non expert users.
As an answer to this question, authors propose that answers to intentional operators are no longer traditional sets of tuples, but dashboards including data, charts, informative summaries of KPI performance, as well as concise representations of knowledge hidden in the data.
The long term ambition is to automatically generate such dashboards based on past and current user interactions, and using data mining techniques.
Sujet :
The main challenge of this internship is to define how to structure dashboards in a context where the interactive data analysis is a sequence of possibly complex queries, each being a composition of intentions, in a personalized way [8].
The detailed objectives are:
1. Study of the intentional operators proposed in [10].
2. Literature review about dashboard representation.
3. Propose a dashboard model adapted to complex intentional queries.
4. As a proof of concept, generate dashboards for a set of user explorations.
Profil du candidat :
Applicants are expected to be 2nd year master students in Computer Science.
Formation et compétences requises :
Applicants are expected to be skilled in databases, machine learning, programming and be fluent in English. A first experience in research is a plus.
Adresse d’emploi :
The recruited student will be supervised by Veronika Peralta and Patrick Marcel at the University of Tours, in the campus of Blois (3 place Jean-Jaurès, 41000 Blois).
Document attaché : Intership_data_stories.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Laboratoire Bordelais de Recherche en Informatique
Durée : Jusqu’à 6 mois
Contact : romain.giot@u-bordeaux.fr
Date limite de publication : 2019-04-01
Contexte :
Les graphes sont couramment utilisés dans différentes applications (analyse de réseaux sociaux, enchaînement de calculs, …) pour représenter des relations entre plusieurs entités. Il est nécessaire de les dessiner de façon non ambiguë pour les visualiser et comprendre les relations entre les différentes entités. En raison de leur complexité, il n’existe pas de méthode parfaite pour représenter un réseau.
Les algorithmes de dessin sont couramment évalués en demandant à plusieurs personnes d’effectuer différentes tâches de bas niveaux à partir d’une représentation, souvent interactive, du graphe ; plus elles sont efficaces pour les réaliser, meilleur est l’algorithme de dessin. Les méthodes modernes de dessin de graphes utilisent différentes heuristiques pour augmenter la qualité du dessin (et donc la performance des humains lors de la réalisation des tâches ciblées par ces heuristiques). Comme leur calcul peut être très coûteux, des méthodes d’apprentissage automatique commencent à être utilisées pour les approximer [HWP∗18]. De manière générale, des méthodes d’apprentissage automatique peuvent être utilisées pour réaliser certaines tâches de perception visuelles contraintes [HTP18]. Il est prévisible que les réseaux de neurones profonds soient de plus en plus utilisés pour évaluer les dessins produits par des machines (par exemple, pour produire plusieurs représentations différentes de la même donnée et sélectionner la plus pertinente) ou extraire de l’information depuis ces représentations (afin de vérifier que l’information que nous voulons coder dans le dessin soit bien présente).
L’apprentissage par renforcement permet à un agent d’interagir avec un environnement de façon à optimiser une récompense pouvant potentiellement être obtenue après un certain délai. Depuis quelques années, il est possible de calculer la fonction de calcul de récompense par un réseau de neurones profond afin de produire des systèmes suffisamment performants pour jouer à des jeux vidéos [MKS*13]. Notre hypothèse de travail est qu’une approche similaire peut être utilisée pour naviguer dans la représentation interactive du graphe afin d’y extraire de l’information pertinente.
Sujet :
Le but de ce stage est de mettre au point un système d’apprentissage profond par renforcement qui cherche à réaliser une tâche sur le dessin d’un graphe de façon à obtenir de meilleure performance que l’apprentissage standard prenant en entrée une image fixe. En effet, en étant capable d’interagir avec la représentation de l’image, l’agent va pouvoir collecter plus d’informations qu’avec une image fixe et se servir de cet ensemble d’informations pour effectuer sa prédiction finale.
Diverses interactions de l’agent sur la représentation interactive sont envisageables : zoom pour obtenir plus de détails sur une zone précise, pan pour se déplacer sur une zone précise, sélection d’un nœud pour mettre en évidence le voisinage.Des actions liées à sa représentation des données qu’il analyse seront nécessaires : ajout d’un nœud, positionnement d’un nœud, ajout d’un lien entre deux nœuds, etc… Nous espérons que l’agent agisse de façon similaire à un humain (zoom&pan pour naviguer dans un gros graphe, sélection d’un nœud pour mettre en évidence les voisins par exemple pour la recherche d’un chemin, …) pour réaliser des tâches de haut niveau [KPS2014] et qu’il éprouve des difficultés similaires aux humains en fonction de la représentation fournie en entrée. L’utilisation conjointe de réseaux de neurones récurrents [GSK*2017] peut être nécessaire pour réaliser le projet afin de garder en mémoire les différentes informations collectées lors de l’interaction.
Profil du candidat :
Le candidat doit être à l’aise avec les langages de programmation Python et C++. Il doit posséder la curiosité et motivation nécessaires pour prendre en main les différentes bibliothèques de manipulation de réseaux de neurones profonds, de création d’agents et de visualisation d’information. Une expérience en apprentissage automatique est un véritable plus.
Formation et compétences requises :
Nous cherchons un étudiant en Master 2, ou dernière année d’école d’ingénieur, dans des domaines que l’informatique, l’ingénierie ou les sciences des données.
Adresse d’emploi :
Laboratoire Bordelais de Recherche en Informatique
Unité Mixte de Recherche CNRS (UMR 5800)
351, cours de la Libération F-33405 Talence cedex
Document attaché : StageDeepInteraction.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LIRMM et TETIS
Durée : 5-6 mois
Contact : mathieu.roche@cirad.fr, todorov@lirmm.fr
Date limite de publication : 2019-04-01
Contexte :
Les fausses nouvelles (fake news) sont devenues un problème de plus en plus important, tant du point de vue de la société que de celui de la recherche. De nombreuses approches récentes [1,2] dans diverses communautés scientifiques portent sur des problèmes tels que la vérification des faits, la détection de la pertinence ou de point de vue dans des documents par rapport à des assertions particulières.
Dans ce contexte, 3 laboratoires français et allemands (dont le LIRMM et TETIS à Montpellier) ont uni leur efforts pour collecter et publier sous la forme de graphe de connaissances les données et méta-données contenues dans un grand nombre de site de fact-checking (tels que Politifact ou Snopes). En résulte la base ClaimsKG, un graphe de connaissances contenant plus de 24K assertions annotées et liées qui facilite la création de requêtes structurées sur les assertions, leurs valeurs de vérité (True, False, etc.), leurs auteurs, dates de publication, etc.
Sujet :
Ce stage aura pour but d’exploiter cette ressource et de proposer des contributions méthodologiques fondées sur des analyses statistiques approfondies :
(i) Intégration de nouveaux descripteurs (descripteurs dits exogènes, word embeddings, etc.) pour améliorer l’identification de “fake news” dans un processus d’apprentissage automatique.
(ii) Mise en place d’un processus de clustering d’assertions dans le but d’identifier les descripteurs clés utiles pour discriminer les fake news. Notons que le clustering visera à regrouper les assertions qui portent sur le même événement ou bien sur des événements similaires/liés.
Plan de travail :
1) Etat de l’art du domaine de vérification automatique d’assertions à la base de méthodes d’apprentissage automatique.
2) Etudes de l’état de l’existant, en particulier la ressource ClaimsKG.
Proposition de méthodes d’identification des descripteurs les plus pertinents pour la détection de fake news.
3) Rédaction d’un papier scientifique à soumettre à une conférence internationale
Profil du candidat :
– Bon niveau de programmation (java / python)
– Des bases en science de données, machine learning et web sémantique
– Bon niveau en anglais
Formation et compétences requises :
Master 2 en informatique
Adresse d’emploi :
Le travail s’effectuera à TETIS et au LIRMM à Montpellier dans le cadre d’une collaboration avec l’Institut de sciences sociologiques GESIS à Cologne (Allemagne).
Le stage aura une durée de 5 à 6 mois à partir du mois de février 2019
Gratification : taux légal en vigueur
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Centre d’Écologie Fonctionnelle et Evolutive
Durée : 6 mois
Contact : olivier.dangles@ird.fr
Date limite de publication : 2019-04-01
Contexte :
Les outils et technologies de visualisation de données sont devenus indispensables dans de nombreuses disciplines scientifiques. À l’aide de représentations graphiques et visuelles, comme des graphiques et des cartes, une visualisation des données permet de voir et de comprendre, de manière accessible, des tendances dans un jeu de données et de renforcer la diffusion des résultats scientifiques au plus grand nombre. Ces technologies permettent également d’intégrer rapidement une information multicritère, mêlant ainsi un souci de communication scientifique et de traitement de la donnée. Une application récente des outils de visualisation des données est la conception de tableaux de bords (dashboards) sur le web. Ces dashboards présentent une série d’indicateurs clés, liés à des bases de données (par ex. des publications scientifiques), permettant de réaliser un suivi en temps réel de la progression d’un projet scientifique. Un dashboard analytique fournit à l’utilisateur un aperçu des connaissances acquises, un état des lieux de l’atteinte des objectifs fixés et une aide à la prise de décision pour réaliser au mieux ces objectifs.
Sujet :
L’objectif de ce stage est d’élaborer un outil web de visualisation de données permettant le suivi en temps réel de la collaboration entre chercheurs membres d’un Laboratoire Mixte International (France, Colombie, Equateur) en sciences de l’environnement (LMI BIO_INCA). À partir de données concernant le profil disciplinaire d’une cinquantaine de chercheurs, de leurs publications et activités scientifiques, l’outil devra permettre de visualiser la structuration du laboratoire et en particulier les interactions entre les disciplines scientifiques et celles entre les trois pays (un exemple d’outil peut être consulté sur le site web du NCEAS). Le stage sera encadré par une équipe de chercheurs et ingénieurs de l’Institut de Recherche pour le Développement (IRD), ayant des expertises diverses, depuis les concepts scientifiques jusqu’aux aspects pratiques de programmation.
Profil du candidat :
Le candidat sera en charge des activités suivantes: État de l’art des techniques de visualisation interactive sur le web et choix d’une solution, appropriation des données et de l’objectif de data visualisation, conception et réalisation de l’outil de recueil des données, mise en place d’un serveur web de test et du site web du LMI, développement du dashboard, réalisation de la documentation technique
Formation et compétences requises :
Programmation Javascript, PHP, HTML/CSS, gestion de base de données (MySQL, PostgreSQL,…) et connaissance du CMS WordPress. Des connaissances d’une bibliothèque de visualisation web (par exemple D3.js) et d’une langue étrangère (anglais et si possible espagnol) représentent un atout. Une bonne capacité à travailler en équipe est souhaitée.
Adresse d’emploi :
UMR CEFE, Campus CNRS, 1919 route de Mende, Montpellier
Contact: olivier.dangles@ird.fr
Annonce en lien avec l’Action/le Réseau : MAESTROFormation
Laboratoire/Entreprise : Laboratoire d’Astrophysique de Marseille
Durée : 6 months
Contact : jean.gabriel.cuby@lam.fr
Date limite de publication : 2019-04-01
Contexte :
Les galaxies et quasars à très grand décalage spectral (redshift, z > 7) nous éclairent sur les processus de formation et d’évolution des galaxies dans l’Univers primordial. L’observation de l’Univers à très grand décalage spectral est au centre de beaucoup des grands projets de l’astrophysique des décennies à venir (Euclid, JWST, WFIRST, SKA, ATHENA, LISA)
Sujet :
Modélisation de galaxies et de quasars très distants et outils de sélection par analyse Bayesienne et apprentissage machine pour la mission Euclid de l’agence spatiale européenne.
Méthodologie et Programme de travail. La sélection des objets à très grand décalage spectral se fait sur la base de leurs couleurs très (infra-)rouges. Une des difficultés provient de la similitude de ces couleurs avec celles d’étoiles très froides de l’environnement local. Des outils statistiques doivent alors être développés afin d’affiner la sélection grâce à une modélisation précise des populations d’objets très lointains et des contaminants (voir par exemple Pipien et al. (2018) pour une description d’un modèle Bayesien). La précision et la limite de validité de ces modèles risquent toutefois challengées par la grande sensibilité d’Euclid. Les méthodes de machine learning et/ou de deep learning voient leur apparition en astrophysique (voir par exemple arXiv:1806.06607) et permettent d’accéder à des domaines de l’espace des paramètres où les modèles sont peu contraints.
Le travail consistera à poser les bases d’un développement d’outils de sélection des objets à grand décalage spectral pour la mission Euclid :
i. Développement d’outils de modélisation d’objets à grand décalage spectral et de contaminants. Il s’agira ici de développer quelques outils simples permettant de générer des populations d’objets (catalogues) à partir de leurs spectres (connus) et de leurs fonctions de distribution spatiale, morphologique, et en luminosité.
ii. Développement d’un modèle Bayesien adapté aux données d’Euclid. Il s’agira ici d’adapter un modèle Bayesien existant et de le tester à partir des populations d’objets qui auront été générées auparavant (point i.).
iii. Test de méthodes d’apprentissage machine: à partir des catalogues simulés au point i. et de la modélisation effectuée au point ii., il s’agira ici d’effectuer des tests préliminaires avec des outils d’apprentissage machine. Idéalement, ces tests permettront une première comparaison avec les résultats de l’analyse Bayesienne.
Ce travail sera effectué sous une double responsabilité ‘astrophysique’ et ‘logicielle’ au sein du Laboratoire d’Astrophysique de Marseille. Ce travail pourra se poursuivre en thèse (un co-financement du CNES est d’ores et déjà acquis).
Profil du candidat :
Etudiant en Master physique, astrophysique, machine learning
– autonome
– curieux
– connaissances en astro serait un plus
Formation et compétences requises :
Master en cours en astrophysique, physique ou machine learning
Adresse d’emploi :
Laboratoire d’Astrophysique de Marseille. CNRS, CNES & Université Aix-Marseille (AMU)
38 rue Joliot Curie,
13388 Marseille cedex 13
Document attaché : Sujet-M2.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : UMR TETIS
Durée : 5-6 mois
Contact : roberto.interdonato@cirad.fr, agnes.begue@cirad.fr
Date limite de publication : 2019-04-01
Contexte :
Le stage s’inscrit dans le cadre d’un projet interdisciplinaire concernant la gestion des risques liés à la sécurité alimentaire. Le projet est centré sur le cas de l’Afrique de l’Ouest, où les risques agricoles sont d’autant plus aigus que les services nationaux de surveillance et de suivi peuvent être défaillants faute de moyens techniques et financiers. Actuellement les images de télédétection satellitaire sont utilisées en routine pour produire des cartes d’anomalies de croissance de la végétation en temps quasi-réel, aux échelles nationale et régionale. Cependant détecter une anomalie de croissance ne suffit pas à établir un diagnostic sur la production agricole d’une région, car de nombreux facteurs rentrent en ligne de compte. D’un autre côté, les journaux locaux et les nouveaux médias font état de certains événements (sécheresse, inondation, état sanitaire, etc.) qui ont un impact direct sur la production agricole. Ces événements ne sont pas tous répertoriés, ils ne décrivent pas de façon exhaustive la situation régionale ou nationale, mais ils apportent une information thématique complémentaire de celle des images satellite. Ainsi, nous proposons un stage de recherche ayant comme objectif d’établir un lien entre textes et images afin de faire un diagnostic sur la production agricole en cours de saison en vue d’améliorer les systèmes d’alerte précoce. Pour atteindre cet objectif, deux activités seront menées : (i) utiliser des techniques à la pointe de fouille de textes sur le thème du climat et de la production agricole et avec un ancrage géographique en Afrique de l’Ouest ; (ii) lier les informations géo-localisées ainsi extraites aux observations faites par satellite pour poser un diagnostic en temps quasi-réel. La zone géographique d’étude concerne l’Afrique de l’ouest. Les données textuelles à acquérir correspondent à des journaux, des bulletins officiels de veille sur le déroulé de la campagne agricoles émis par les systèmes d’alertes précoces internationaux, régionaux ou nationaux et des données provenant de plateformes de médias sociaux (p. ex., Blogs, Twitter, Flickr, Instagram). Ces données seront récoltées en adaptant (si nécessaire) un système de web scraping mis à disposition. Les données image sont essentiellement des cartes d’indicateurs NDVI (Normalized Difference Vegetation Index) décadaires produites à partir d’images acquises à basse et moyenne résolutions spatiales (entre 250 m et 1 km).
Sujet :
Les objectifs de ce stage comprennent la production d’un corpus mis à disposition et d’un rapport détaillant le contenu et les liens sémantiques entre les différentes données. Le livrable consistera dans la rédaction d’un data paper permettant la valorisation du corpus constitué.
Le planning prévisionnel est structuré comme suit :
1. étude du cahier des charges du corpus à constituer et choix de la zone d’étude,
2. adaptation et mise en oeuvre du processus de récolte des données (via le système existant mis à disposition)
3. constitution du corpus (textes, images) sur la zone d’étude,
4. Mise en relation et évaluation du corpus avec les experts,
5. Rédaction du Data paper.
Profil du candidat :
Stage Master 2 Pro ou école ingénieur
Formation et compétences requises :
– Langages Python et Java, outils NLP (souhaité)
– Capacité de travail en équipe pluridisciplinaire.
Divers :
Durée : 5 à 6 mois
Gratification : taux légal en vigueur
Adresse d’emploi :
TETIS (Maison de la Télédétection) à Montpellier
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : CNAM (labo CÉDRIC)
Durée : 6 mois
Contact : fournier@cnam.fr
Date limite de publication : 2019-04-30
Contexte :
Systèmes de recommandation et graphes dynamiques
Sujet :
Le but de ce stage est d’explorer l’apport des graphes et des flots de liens pour les systèmes de recommandation sociaux, après que de premiers travaux aient validé cette approche. Dans un
premier temps, il faut définir un ensemble de descripteurs de graphes et de flots de liens adaptés ; par exemple, des métriques de similarités telles que l’indice de Jaccard , ou encore des métriques de
centralité. Ensuite, nous proposons d’intégrer ces métriques à des algorithmes à l’état de l’art de l’apprentissage automatique : des méthodes classiques, par exemple de gradient boosting ou des factorization machines, ainsi que des méthodes plus récentes d’apprentissage profond autour des réseaux de
neurones de graphes.
Profil du candidat :
Niveau M2 info, école d’ingénieur, à l’aise en programmation et en théorie des graphes, si possible.
Formation et compétences requises :
Niveau M2 info, école d’ingénieur
Adresse d’emploi :
CNAM Paris et Institut Riken (Tokyo, Japon)
Document attaché : Graph_for_recommender_systems.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Equipe Morpheme, laboratoire I3S, Sophia Antipolis
Durée : 5 à 6 mois
Contact : eric.debreuve@i3s.unice.fr
Date limite de publication : 2019-05-01
Contexte :
Contexte environnemental et biologique (voir document attaché)
Dans le cadre du projet Sentinelle Nord de l’Université Laval, Québec (Canada), l’équipe Morpheme et l’équipe PEPS1 participent au développement de méthodes de classification automatique du zooplancton des mers polaires par traits fonctionnels (par opposition à la classification selon une taxonomie génétique par exemple). Ces méthodes sont destinées à servir d’outil aux chercheurs en biologie et écologie marines dans l’étude de l’impact des activités humaines sur les régions polaires. Le plancton, dans son ensemble, est à la base de la chaîne alimentaire de la faune marine, et le phytoplancton participe de manière déterminante à la régulation de la quantité de CO2 dans l’atmosphère. On comprend pourquoi l’étude de l’évolution des populations de ces organismes est fondamentale, notamment dans les régions polaires fragilisées par le changement climatique.
Sujet :
Description du projet (voir document attaché)
La reconnaissance automatique d’objets tridimensionnels à partir d’une image (bidimensionnelle donc) pose le problème de la variabilité de l’apparence selon le point de vue de la prise d’image. Autrement dit, dans le contexte de la classification automatique d’images, deux images d’un même objet prises sous des angles différents peuvent aisément être classées dans des classes différents, sauf évidemment si l’ensemble d’apprentissage contenait suffisamment de points de vue différents pour chaque objets. Cette contrainte sur l’ensemble d’apprentissage n’étant en principe pas satisfaite dans des applications réelles, on recourt à la « data augmentation ». Toutefois, les déformations introduites ne sont pas vraiment réalistes1 et leur ampleur est trop limitée pour couvrir l’ensemble des points de vue si l’échantillonnage des points de vue parmi les images dont on dispose est réduit. Une solution naturelle est de prendre en compte le point de vue pour la classification. En quelque sorte, si on connaît la direction de prise de vue, on peut déduire d’où sont issues sur l’objet les caractéristiques extraites de l’image (par le biais d’un modèle 3-D de l’objet) et comment elle ont été « déformées » par cette direction par rapport à une vue dans une direction choisie comme standard. La tâche de classification devient ainsi indépendante du point de vue. Or pour connaître le point de vue d’une image, il faut savoir ce qui y est représenté, autrement dit il faut connaître la classe. Les problèmes de classification et d’estimation de point de vue ne sont donc pas solubles indépendamment l’un de l’autre. Des recherches ont déjà été menées pour les résoudre conjointement grâce à des réseaux de neurones convolutionnels. Toutefois, à notre connaissance, pas dans le cas d’objets déformables et translucides comme c’est le cas du zooplancton. Pour aborder ce contexte plus délicat, nous souhaitons d’abord étudier la faisabilité de la détermination du point de vue sachant la classe. Pour cela, nous utiliserons une base de données de copépodes, une sous-classe des crustacés pour laquelle il existe des modèles 3-D (voir Figure 1).
Il s’agira donc de créer une base de données synthétique d’images de copépodes par projection réaliste1 d’un modèle 3-D et de proposer un réseau de neurones convolutionnel (en choisissant parmi les réseaux existants, voire en s’en inspirant pour proposer une variante) permettant d’estimer automatiquement le point de vue. Le réseau sera alors validé sur des images réelles sous le contrôle d’experts en biologie marine. L’extension à la classification et estimation du point de vue conjointes se fera dans un contexte « one-class classification », c’est-à-dire pour classer/estimer le point de vue en copépode+point de vue versus non-copépode+point de vue (pour cette seconde classe, le point de vue ne sera bien sûr pas fiable et n’aura en fait pas d’intérêt). Le passage à classes multiples+point de vue pourra être envisagé selon l’avancement du projet.
Profil du candidat :
Compétences souhaitées (voir document attaché)
• Des connaissances en classification/régression par réseaux de neurones convolutionnels sont souhaitables
• Des connaissances en manipulation de maillages surfaciques sont souhaitables
• Un minimum d’autonomie en Python et Numpy
• Un manque d’expérience dans les domaines ci-dessus pourra être compensé par une bonne motivation
Formation et compétences requises :
Master 2 (voir document attaché)
Adresse d’emploi :
Equipe Morpheme, laboratoire I3S, Sophia Antipolis (voir document attaché)
Document attaché : artifactz-m2.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Equipe Morpheme, laboratoire I3S, Sophia Antipolis
Durée : 5 à 6 mois
Contact : eric.debreuve@i3s.unice.fr.fr
Date limite de publication : 2019-05-01
Contexte :
Contexte médical et biologique (voir document attaché)
L’obésité est un problème majeur de santé publique affectant près de 15% de la population mondiale. Les études menées sur les modèles animaux et l’homme montrent que les organes périphériques, affectés par l’excès de graisses du régime alimentaire occidental, communiquent avec les centres nerveux de l’hypothalamus impliqués dans le contrôle du comportement alimentaire pour en modifier le fonctionnement. L’obésité et les syndromes métaboliques correspondent à un état d’inflammation chronique qui entraînerait des dérégulations du comportement alimentaire. Dans cette étude, nous cherchons à comprendre les mécanismes de cette réponse inflammatoire. Ils pourraient impliquer en première intention les cellules gliales (astrocytes et/ou microglie) qui forment la barrière hémato-encéphalique. L’objectif est de découvrir si l’inhibition de cette activation précoce pourrait prévenir l’obésité, offrant ainsi une perspective de prise en charge thérapeutique novatrice pour le traitement de l’obésité.
Sujet :
Description du projet (voir document attaché)
Cette étude est menée sur des souris soumises à des régimes plus ou moins riches en graisses. L’acquisition en microscopie par fluorescence de la région du cerveau concernée produit des images telles que celle de la Figure 1.
Au cours d’un premier stage court, une procédure « preuve de concept » de traitement et analyse automatiques d’images a été mise au point pour extraire les somas (ou noyaux) des astrocytes et les prolongements des astrocytes et des microglies (voir Figure 2). Des caractéristiques morphologiques et topologiques ont été calculées sur ces objets : expression de l’intensité de fluorescence totale, surface et circularité du soma, nombre et longueur des prolongements, nombre de ramifications.
Il reste encore un travail conséquent et essentiel à la poursuite de l’objectif biologique. Tout d’abord, cette procédure « preuve de concept » doit être rendue plus efficace et robuste. Cela passe par le développement (i) d’une meilleure chaîne de traitement d’image et (ii) de construction du graphe astrocytaire ou microglial. Il faudra également réfléchir à d’autres caractéristiques à mesurer sur ces objets d’intérêt pour affiner leur description. Le travail crucial qui devra ensuite être développé est l’exploitation de ces caractéristiques en entrée d’une méthode de classification non supervisée (clustering) afin d’identifier automatiquement des sous-populations de cellules gliales qui partagent des relations particulières entre les valeurs de leurs caractéristiques. Le nombre d’échantillons (nombre d’astrocytes ou de microglies extraits des images), quoique trop élevé pour une exploitation manuelle, ne sera probablement pas suffisant pour des méthodes de clustering « fondées modèle » (typiquement Gaussian Mixture Model) ou s’appuyant sur la densité. Nous envisagerons plutôt des méthodes hiérarchiques (produisant un dendrogramme), qui ne nécessitent pas de connaître à l’avance le nombre de clusters, ou des méthodes par partitionnement tel que le k-Means. A noter que le nombre de clusters dans les échantillons (les sous-populations) n’est pas forcément égal au nombre de conditions expérimentales (2 ici). Suite au clustering, nous analyserons les conditions SD (régime standard) et HFD (régime hyperlipidique) pour déterminer objectivement ce qui les distingue : soit qu’elles sont composées de sous-populations distinctes, soit que certaines sous-populations sont présentes dans les deux conditions mais dans des proportions différentes (signature des conditions sous forme d’histogramme). Cette analyse SD vs HFD sera menée selon deux modes, à savoir sans ou (plus finement) avec prise en compte de la répartition spatiale des sous-populations entre le noyau arqué et l’éminence médiane (deux régions distinctes de la zone d’intérêt imagée).
Profil du candidat :
Compétences souhaitées (voir document attaché)
• Des connaissances en classification non supervisée sont souhaitables
• Des connaissances en traitement et analyse d’images sont souhaitables
• Un minimum d’autonomie en Python et Numpy
• Un manque d’expérience dans les domaines ci-dessus pourra être compensé par une bonne motivation
Formation et compétences requises :
Master 2 (voir document attaché)
Adresse d’emploi :
Equipe Morpheme, laboratoire I3S, Sophia Antipolis (voir document attaché)
Document attaché : nutrimorph-m2.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LRI, Laboratoire de Recherche en Informatique, équipe TAU
Durée : 4 à 6 mois
Contact : caillou@lri.fr et acl@lri.fr
Date limite de publication : 2019-05-01
Contexte :
TAU (TAckling the Underspecified) est une équipe projet Inria commune avec le LRI. Le Laboratoire de Recherche en Informatique est une unité mixte de recherche rattachée à l’INS2I du CNRS et au département STIC de l’Université Paris-Saclay ayant des liens de partenariat avec Inria et CentraleSupelec. Le laboratoire accueille près de 300 personnes dont 133 permanents et 90 doctorants.
Le projet Cartolabe est un projet à fort potentiel porté par une équipe d’ingénieurs et de scientifiques du LRI et d’INRIA. Le moteur de l’application et le module de visualisation sont conçus de façon très ouverte pour être applicable à de nombreux domaines. La mise au point des hyperparamètres qui fait l’objet de la deuxième partie du stage est essentielle car c’est elle qui permet la validation d’une instance de Cartolabe dans une domaine donné, comme les publications scientifiques par exemple.
Sujet :
Les missions du stagiaire consistent à mettre en place un protocole de test pour évaluer les résultats de Cartographie scientifique obtenus par Cartolabe (cartolabe.fr). Dans un premier temps, des indicateurs de qualité et un protocole de validation seront mis en place. L’utilisation d’autres jeux de données tel que wikipedia et la comparaison à d’autres moteurs de recherche scientifique permettra de valider les indicateurs et protocoles de test. Dans un second temps, l’optimisation des hyperparamètres de la cartographie permettra d’améliorer la qualité obtenue.
Cartolabe est un projet développé en commun par le LRI, le CNRS et l’INRIA afin de visualiser un grand nombre de publications, d’auteurs, laboratoires et équipes sur une même carte.
L’application Cartolabe calcule une distance entre ces entités liées à des publications à partir du texte des articles. Un pipe-line de traitement de données extrait les données depuis HAL (https://hal.archives-ouvertes.fr/: aujourd’hui 750 000 articles et auteurs) puis les traite en utilisant des techniques de machine learning. Un unique fichier json est produit en sortie du pipe-line. Ensuite, une deuxième partie du logiciel (application web) se charge de visualiser cet ensemble de points en une carte de chaleur annotée et zoomable. Il est possible à partir du client web de naviguer et d’explorer la carte.
Un exemple d’indicateur de qualité intrinsèque assez naturel est de compter parmi les articles voisins d’un auteur, le pourcentage de ceux dont il est lui-même auteur.
Des indicateurs de qualité extrinsèques peuvent être établis en soumettant des requêtes identiques à des applications indépendantes de Cartolabe comme google scholar ou LookInLabs (https://lookinlabs4halinria.cominlabs.u-bretagneloire.fr/).
Des indicateurs de qualité manuels sont également envisageables en interrogeant des scientifiques au cours de sessions enregistrées et en confrontant leur appréciation personnelle des distances entre entités avec les résultats proposés par Cartolabe.
Certains indicateurs de qualités peuvent par ailleurs être validés sur des jeux de données disposant d’autres indicateurs de proximité, tels que les liens entre articles de wikipedia ou les citations croisées entre articles scientifique.
Une fois les indicateurs de qualité mis en place sur la base Cartolabe, une deuxième partie du stage consistera à réaliser une optimisation des hyperparamètres de Cartolabe afin d’étudier leur impact sur les différents indicateurs et d’améliorer le résultat obtenu. Les hyperparamètres à considérer peuvent aussi bien être des choix d’algorithmes (LDA/LSA, choix du type de voisinage, projection UMAP ou TSNE) que leurs paramètres (en particulier le nombre de dimensions latentes utilisées pour calculer la similarité sous jacente).
Profil du candidat :
Langage et des outils de programmation Python (Anaconda, scikit-learn, pandas);
Pratique des environnements de développement logiciels (forges, git) ;
Notions appréciées dans l’un des domaines suivants : visualisation de grandes masses de données, machine learning, traitement automatique des langues ; information retrieval : recall versus precision.
Maîtrise de l’anglais scientifique ;
Méthode, curiosité et aptitude au travail en équipe sont requis pour ce stage.
Formation et compétences requises :
Stage de master M1 ou M2 ou stage ingénieur en informatique.
Adresse d’emploi :
Equipe-projet INRIA TAU.
LRI, Laboratoire de Recherche en Informatique
Université Paris Sud – Bâtiment 660 – Shannon
Rue Noetzlin
91190 Gif-sur-Yvette
Document attaché : 2019_Offre_Stage_DataQualityCartolabe.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : irstea
Durée : 5-6 mois
Contact : sandro.bimonte@irstea.fr
Date limite de publication : 2019-05-01
Contexte :
Dans le cadre du dispositif Chèque Recherche Innovation de I-Site CAP 20-25, un stage Master 2 pour travailler en stricte collaboration avec l’association Symbiose Allier est financé.
L’importance de la protection de la biodiversité et sa relation aux pratiques agricoles est bien connue. Pour construire les indices de biodiversité, des données d’observation sont nécessaires à grande échelle spatiale et temporelle. Un grand nombre d’observateurs doit être mobilisé, à un coût qui serait prohibitif à moins qu’ils ne soient volontaires dans des programmes de science citoyenne. Dans ce cadre intervient l’Observatoire Agricole de la Biodiversité (OAB) qui se propose de faire remonter des données de biodiversité dans le milieu agricole (en particulier pour les systèmes en arboriculture, cultures pérennes, grandes cultures, maraichage, prairie et viticulture et sur 4 types de taxon). Dans ce contexte, le projet ANR en cours VGI4Bio (vgi4bio.fr), démarré en 2018, vise à proposer une méthodologie pour permettre aux volontaires de concevoir les indicateurs de biodiversité agricole dans une démarche participative et les implémenter dans les systèmes d’entrepôts de données spatiales (EDS) et OLAP spatial (SOLAP). Les systèmes SOLAP permettent l’analyse de grandes quantités de données via des interfaces web avec des tableaux de bords composés de tableaux croisés dynamiques et cartes interactives. Le succès d’un projet SOLAP repose essentiellement sur deux facteurs : (i) une conception d’un modèles de données EDS et (ii) une représentation cartographique conforment aux attentes et aux besoins de décideurs.
Sujet :
Les objectifs principaux du stage sont : (1) la définition des nouvelles méthodologies de geovisualisation pour l’OLAP ; (2) leur implémentation dans l’outil de geovisualisation en cours de développement avec Geosystems France.
Pour attendre l’objectif une analyse des besoins d’analyse doit être finalisée. Ces besoins d’analyse concernent les méthodes de geovisualization à utiliser.
Le projet de stage nécessite donc de :
1. Travailler sur les méthodologies de Geovisualisation
2. Travailler avec des vrais décideurs et problèmes d’analyse
3. Travailler en équipe
4. Travailler dans une vraie architecture OLAP Spatial
Planning
1. Etude de besoins d’analyse
2. Etude de méthodes existantes de geovisualisation pour l OLAP
3. Définition de méthodes de geovisualisation pour l’OLAP
4. Implémentation dans l’outil SOLAP de vgi4bio
Profil du candidat :
1. Systèmes d’information géographiques
2. Web mapping
3. Javascript/JAva
Des connaissances en Entrepôts de données et OLAP est un plus important
Formation et compétences requises :
Master
Adresse d’emploi :
9 avenue Blaise Pascal, Aubiere Clermont Ferrand
Encadrant : Sandro Bimonte, Irstea Clermont Ferrand
Envoyer le CV et lettre de motivation à sandro.bimonte@irstea.fr
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : ERIC
Durée : 3 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2019-05-01
Contexte :
Cf. fichier joint
Sujet :
Mise en œuvre du nouveau site web du laboratoire ERIC
Profil du candidat :
DUT-L3
Formation et compétences requises :
Cf. fichier joint
Adresse d’emploi :
Laboratoire ERIC
Université Lumière Lyon 2
Campus Porte des Alpes
Document attaché : stageDevWebERIC2019.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Equipe Morpheme, laboratoire I3S, Sophia Antipolis
Durée : 5 à 6 mois
Contact : eric.debreuve@i3s.unice.fr
Date limite de publication : 2019-05-01
Contexte :
Contexte biologique (voir document attaché)
Les premières étapes du développement d’un médicament anti-cancer consistent à mettre en évidence de nouveaux mécanismes du fonctionnement des cellules tumorales ou à mieux comprendre les mécanismes connus, et à étudier le potentiel de molécules à perturber un ou des mécanismes de sorte à conduire à la mort cellulaire au bout d’un certain temps d’exposition.1 Il existe plusieurs types de morts cellulaires, et l’efficacité d’une molécule se mesure à la fois en fonction du temps nécessaire pour détruire les cellules tumorales et du type de mort induit.
Sujet :
Description du projet (voir document attaché)
Les données dont nous disposons sont des vidéos multi-canal acquises en microscopie (voir Figure 1). Il s’agira d’abord de faire un suivi de cellules sur le canal dans lequel leur géométrie est la plus marquée. Par suivi, on entend la construction des trajectoires cellulaires tout au long de la vidéo. Autrement dit, pour une cellule donnée dans une image donnée de la vidéo, il faut être capable de dire où elle était dans l’image précédente et où elle sera dans l’image suivante, et ce même si elle a changé de forme (cas général). A noter qu’une cellule peut apparaître dans le champ de vue, ou en disparaître, au cours de la vidéo. En reportant ce suivi cellulaire sur le canal dans lequel l’apparence des cellules est riche en informations, il est possible d’extraire des caractéristiques par cellule, et d’étudier leur évolution pour en déduire l’instant de mort cellulaire. Il s’agit là de la première partie du projet. Un développement de ces étapes a déjà été réalisé pour des vidéos aux caractéristiques légèrement différentes. Il sera judicieux de s’en inspirer.
La deuxième partie du projet concerne le classement des morts cellulaires précédemment détectées parmi des types pré-définis. Il faudra, à partir de l’instant de mort cellulaire, suivre les cellules ou leurs débris sur quelques images afin d’extraire des caractéristiques et de s’en servir pour apprendre un classifieur de types de mort cellulaire dans un cadre supervisé (les types pour chaque cellule seront annotés par notre collègue biologiste). A noter que les caractéristiques extraites un peu avant et jusqu’à l’instant de mort cellulaire seront probablement à prendre également en compte pour cet apprentissage.
Profil du candidat :
Compétences souhaitées (voir document attaché)
• Des connaissances en traitement et analyse d’images sont souhaitables
• Des connaissances en classification supervisée seront appréciées
• Un minimum d’autonomie en Python et Numpy
• Un manque d’expérience dans les domaines ci-dessus pourra être compensé par une bonne motivation
Formation et compétences requises :
Master 2 (voir document attaché)
Adresse d’emploi :
Equipe Morpheme, laboratoire I3S, Sophia Antipolis (voir document attaché)
Document attaché : cell-death-m2.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : IRIT, Toulouse
Durée : > 4 mois
Contact : pierson@irit.fr
Date limite de publication : 2019-05-01
Contexte :
Dans le cadre du projet ANR i-Nondations, nous proposons le sujet de Master suivant, sur du machine learning. Le projet i-Nondations s’intéresse à la gestion de crises, en particulier celle des crues rapides.
Sujet :
Dans le cadre du projet ANR i-Nondations, une tâche consiste à capitaliser les expériences des crises précédentes pour éviter les suivantes. Les données manipulées sont des données quantitatives (capteurs de hauteur d’eau, topographie du lieu, images satellites, ressources mobilisées pour gérer la crise) et des données qualitatives (issues d’enquêtes de terrain auprès des collectivités et des personnes touchées). Les inondations, selon leur gestion, ont abouti in fine à des dégâts plus ou moins importants qui sont mesurables. L’utilisation du machine learning permettrait de dégager des pratiques qui limiterait le coût humain et/ou financier (l’objectif étant à définir). La particularité spécifique au contexte proposé est l’incertitude des données et leur non complétude sur l’ensemble des cas d’étude. Par exemple, dans certains cas, les ressources mobilisées n’ont pas été clairement identifiées lors de la crise (combien de pompiers, combien de véhicules), ou certains territoires n’ont pas beaucoup d’images satellites car la couverture nuageuse était trop importante au moment de la crise, certains capteurs étaient absents…
Dans un premier temps, le stagiaire fera un état de l’art des techniques d’apprentissage utilisées dans le cadre de la gestion de crise, en particulier d’inondation. Beaucoup de projets de recherche à l’échelle internationale s’intéressent à cette problématique, permettant d’avoir des premières pistes de réflexion et d’en comprendre les limites dans le cas précis des inondations.
Dans un second temps, le stagiaire devra proposer l’utilisation des techniques d’apprentissage les plus adaptées, puis de tester avec un sous ensemble de données du projet i-Nondations ses propositions.
Encadrement : Jean-Marc Pierson (pierson@irit.fr)
Profil du candidat :
– Motivé par l’apprentissage et le machine learning
– Intéressé par le sujet de la gestion de crises
– Master 2 Informatique ou Ecole d’Ingénieur Informatique
Pour candidater :
– CV
– Lettre de motivation vis à vis du sujet
– Résultats académiques en Licence 3 et Master 1 ou équivalent.
Les dossiers ne contenant pas ces documents ne seront pas étudiés.
Formation et compétences requises :
– Informatique en général
– Une formation en machine learning est un plus (la mettre en évidence sur la lettre de motivation)
Adresse d’emploi :
Laboratoire IRIT
Université Toulouse 3 Paul Sabatier
Toulouse
Annonce en lien avec l’Action/le Réseau : Formation
Laboratoire/Entreprise : DVRC / EMLV
Durée : 6 mois
Contact : marie.haikel_elsabeh@devinci.fr
Date limite de publication : 2019-06-15
Contexte :
Le De Vinci Research Lab (DVRC) recrute un stagiaire pour une durée de 6 mois sur le projet PCU (Plateforme de connaissance unifiée). Ce projet est développé en partenariat avec le leader européen des sites de e-commerce en open-source, Smile. Les partenaires sur le projet Qwazr,
Proxem, OW2, et Armadillo, et le Laboratoire d’Informatique de Paris Nord (LIPN) contribuent au développement d’un moteur de recherche enrichi, et d’une plateforme DMP.
Le projet PCU a pour but de simplifier et faciliter de bout en bout la valorisation des données existantes de l’entreprise, quel que soit son contexte d’origine (comportement client, gestion de connaissances) et d’exploitation (e-commerce mais aussi in-store, dans l’entreprise mais aussi mobile). Il s’appuie pour cela sur des innovations comme un traitement en flux de la donnée sur l’ensemble de son cycle (collecte, enrichissement, exploitation), de nouveaux algorithmes analysant le comportement utilisateur, une « usine » à moteurs de recherche multicanaux, et une architecture modulaire et extensible basée sur l’intégration des meilleures briques disponibles en open source.
Sujet :
Au sein du DVRC, vous rejoindrez une équipe composée d’une professeure, et d’une post-doctorante spécialisées respectivement en analyse des données et Big data, une équipe motivée et professionnelle qui saura vous accompagner tout au long de votre stage.
Au sein de cette équipe, vous aurez à développer un système de recommandation et à l’adapter à des données d’entreprise, et des données issues de sites de e-commerce. Il s’agira d’améliorer un système existant en lui apportant des nouvelles fonctionnalités du point de vue de la présentation des résultats de la recommandation, le système combine l’ACP par noyau et le filtrage-collaboratif.
Intérêt du stage
– développer votre carrière dans un domaine d’activité en pleine croissance
-parfaire et développer votre connaissance en travaillant sur un cas d’application spécifique aux moteur de recherche en entreprise
– avoir toutes les cartes en main à l’issue du stage pour devenir spécialiste Big Data
-collaborer sur la dimension recherche, votre travail sera valorisé et vous serez crédité en tant qu’auteur dans des articles de recherche qui seront soumis dans des revues soit en informatique, système d’information, marketing digital, ou innovation.
Profil du candidat :
Pour mener à bien cette mission, il est souhaitable que vous ayez un niveau Bac+5 et plus en informatique.
Formation et compétences requises :
Expérience de Pandas, Numpy et de Python
Adresse d’emploi :
Pole Universitaire Léonard de vinci, Paris La Défense
Document attaché : Offre-de-stage-Stagiaire-Big-data.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Unité de Recherche Technologies et Systèmes d’information pour les agrosystèmes – Clermont-Ferrand
Durée : 6 mois en 2019 (durée et dates adaptables en fonction de l’établissement et de la formation)
Contact : francois.pinet@irstea.fr
Date limite de publication : 2019-08-31
Contexte :
Ce stage s’inscrit dans le cadre du projet « CASDAR Recherche Technologique MULTIPASS : Faire émerger de nouveaux services dans une chaine de confiance ». Ce projet a comme partenaire ARVALIS, ACTA, FIEA, IDELE, IRSTEA, ORANGE et SMAG.
L’objectif du stage sera d’analyser et d’implémenter différents algorithmes pour anonymiser ou pseudo-anonymiser des données portant sur l’agriculture.
Le stagiaire bénéficiera d’indemnités de stages.
Sujet :
Au sein de l’équipe Système d’Information de l’unité de recherche TSCF (Technologies et Systèmes d’information pour les agrosystèmes) d’Irstea, centre de Clermont Ferrand, ce stage sera réalisé sur le campus des Cézeaux à Aubière, dans le cadre du projet de recherche MULTIPASS.
Lorsqu’elles sont exploitées, les données doivent parfois être rendues anonymes afin de préserver la confidentialité et les individus associées aux données. Il s’agit d’une problématique que l’on retrouve dans de nombreux domaines. Les données géo-localisées posent une difficulté particulière sachant que même anonymisées, il est parfois possible de retrouver des informations personnelles en recouper plusieurs sources d’informations géo-référencées.
L’objectif du stage sera d’implémenter et plusieurs algorithmes d’anomysation de données géo-référencées et de les tester sur des données en agriculture, ainsi qu’analyser leur efficacité et fiabilité.
Profil du candidat :
Niveau : De Bac +2 à +5
Formation et compétences requises :
Formation : IUT, Licence, Master, école d’ingénieur en informatique ou orientée en géomatique
Adresse d’emploi :
Irstea, centre de Clermont-Ferrand, laboratoire TSCF, campus des Cézeaux, Aubière
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : IRISA Vannes
Durée : 6 mois
Contact : minh-tan.pham@irisa.fr; chloe.friguet@irisa.fr; luc.courtrai@irisa.fr
Date limite de publication : 2019-11-30
Contexte :
Ce stage s’intègre dans le cadre d’un projet de recherche de l’équipe d’accueil qui a pour objectif de développer des méthodes de détection d’objets de petite taille dans des images de télédétection (aériennes et satellite) à l’aide de réseaux de neurones profonds (par approche de Deep Learning). Ce projet évolue dans un contexte applicatif varié, par ex. la détection de mammifères marins ou bien de véhicules terrestres, à partir d’images satellites/aériennes. Un algorithme a été proposé dans une première partie du projet pour réaliser cette tâche de détection. L’objectif du stage est d’étudier les performances de cet algorithme, en considérant différents scénarios pour les données d’entraînement et de test, en particulier variabilité des données d’entraînement, apparition de nouveaux fonds dans les données de test, ressemblance des données tests, méta-données disponibles, etc.
Le-a futur-e stagiaire rejoindra l’équipe OBELIX (OBsErvation de L’environnement par Imagerie compleXe) de l’IRISA (Institut de recherche en informatique et systèmes aléatoires) à Vannes (Université de Bretagne-Sud, Campus de Tohannic).
Sujet :
Missions/Programme de travail:
• Etude bibliographique de l’évaluation d’algorithme d’apprentissage, en particulier d’apprentissage profond
• Prise en main de la solution développée pour la détection de petits objets (code en C++ et Python/pytorch) pour la détection de mammifères marins/de véhicules terrestres dans des images satellitaires/aériennes
• Éventuellement, annotation de données manuelle, non-supervisée ou par transfert
• Étude extensive des performances de l’algorithme par simulations numériques
Profil du candidat :
• Traitement d’image, Machine Learning (expérience en Deep Learning appréciée)
• Programmation Python et/ou C++ (expérience avec Tensorflow et/ou Pytorch appréciée)
Formation et compétences requises :
• Formation Master 2 ou Ecole d’Ingénieur
Adresse d’emploi :
Université Bretagne Sud – IRISA (équipe OBELIX), Vannes 56000, France
Document attaché : stageM2_evaluation_detection.pdf
