
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LRI, Laboratoire de Recherche en Informatique, équipe TAU
Durée : 4 à 6 mois
Contact : caillou@lri.fr et acl@lri.fr
Date limite de publication : 2019-05-01
Contexte :
TAU (TAckling the Underspecified) est une équipe projet Inria commune avec le LRI. Le Laboratoire de Recherche en Informatique est une unité mixte de recherche rattachée à l’INS2I du CNRS et au département STIC de l’Université Paris-Saclay ayant des liens de partenariat avec Inria et CentraleSupelec. Le laboratoire accueille près de 300 personnes dont 133 permanents et 90 doctorants.
Le projet Cartolabe est un projet à fort potentiel porté par une équipe d’ingénieurs et de scientifiques du LRI et d’INRIA. Le moteur de l’application et le module de visualisation sont conçus de façon très ouverte pour être applicable à de nombreux domaines. La mise au point des hyperparamètres qui fait l’objet de la deuxième partie du stage est essentielle car c’est elle qui permet la validation d’une instance de Cartolabe dans une domaine donné, comme les publications scientifiques par exemple.
Sujet :
Les missions du stagiaire consistent à mettre en place un protocole de test pour évaluer les résultats de Cartographie scientifique obtenus par Cartolabe (cartolabe.fr). Dans un premier temps, des indicateurs de qualité et un protocole de validation seront mis en place. L’utilisation d’autres jeux de données tel que wikipedia et la comparaison à d’autres moteurs de recherche scientifique permettra de valider les indicateurs et protocoles de test. Dans un second temps, l’optimisation des hyperparamètres de la cartographie permettra d’améliorer la qualité obtenue.
Cartolabe est un projet développé en commun par le LRI, le CNRS et l’INRIA afin de visualiser un grand nombre de publications, d’auteurs, laboratoires et équipes sur une même carte.
L’application Cartolabe calcule une distance entre ces entités liées à des publications à partir du texte des articles. Un pipe-line de traitement de données extrait les données depuis HAL (https://hal.archives-ouvertes.fr/: aujourd’hui 750 000 articles et auteurs) puis les traite en utilisant des techniques de machine learning. Un unique fichier json est produit en sortie du pipe-line. Ensuite, une deuxième partie du logiciel (application web) se charge de visualiser cet ensemble de points en une carte de chaleur annotée et zoomable. Il est possible à partir du client web de naviguer et d’explorer la carte.
Un exemple d’indicateur de qualité intrinsèque assez naturel est de compter parmi les articles voisins d’un auteur, le pourcentage de ceux dont il est lui-même auteur.
Des indicateurs de qualité extrinsèques peuvent être établis en soumettant des requêtes identiques à des applications indépendantes de Cartolabe comme google scholar ou LookInLabs (https://lookinlabs4halinria.cominlabs.u-bretagneloire.fr/).
Des indicateurs de qualité manuels sont également envisageables en interrogeant des scientifiques au cours de sessions enregistrées et en confrontant leur appréciation personnelle des distances entre entités avec les résultats proposés par Cartolabe.
Certains indicateurs de qualités peuvent par ailleurs être validés sur des jeux de données disposant d’autres indicateurs de proximité, tels que les liens entre articles de wikipedia ou les citations croisées entre articles scientifique.
Une fois les indicateurs de qualité mis en place sur la base Cartolabe, une deuxième partie du stage consistera à réaliser une optimisation des hyperparamètres de Cartolabe afin d’étudier leur impact sur les différents indicateurs et d’améliorer le résultat obtenu. Les hyperparamètres à considérer peuvent aussi bien être des choix d’algorithmes (LDA/LSA, choix du type de voisinage, projection UMAP ou TSNE) que leurs paramètres (en particulier le nombre de dimensions latentes utilisées pour calculer la similarité sous jacente).
Profil du candidat :
Langage et des outils de programmation Python (Anaconda, scikit-learn, pandas);
Pratique des environnements de développement logiciels (forges, git) ;
Notions appréciées dans l’un des domaines suivants : visualisation de grandes masses de données, machine learning, traitement automatique des langues ; information retrieval : recall versus precision.
Maîtrise de l’anglais scientifique ;
Méthode, curiosité et aptitude au travail en équipe sont requis pour ce stage.
Formation et compétences requises :
Stage de master M1 ou M2 ou stage ingénieur en informatique.
Adresse d’emploi :
Equipe-projet INRIA TAU.
LRI, Laboratoire de Recherche en Informatique
Université Paris Sud – Bâtiment 660 – Shannon
Rue Noetzlin
91190 Gif-sur-Yvette
Document attaché : 2019_Offre_Stage_DataQualityCartolabe.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : irstea
Durée : 5-6 mois
Contact : sandro.bimonte@irstea.fr
Date limite de publication : 2019-05-01
Contexte :
Dans le cadre du dispositif Chèque Recherche Innovation de I-Site CAP 20-25, un stage Master 2 pour travailler en stricte collaboration avec l’association Symbiose Allier est financé.
L’importance de la protection de la biodiversité et sa relation aux pratiques agricoles est bien connue. Pour construire les indices de biodiversité, des données d’observation sont nécessaires à grande échelle spatiale et temporelle. Un grand nombre d’observateurs doit être mobilisé, à un coût qui serait prohibitif à moins qu’ils ne soient volontaires dans des programmes de science citoyenne. Dans ce cadre intervient l’Observatoire Agricole de la Biodiversité (OAB) qui se propose de faire remonter des données de biodiversité dans le milieu agricole (en particulier pour les systèmes en arboriculture, cultures pérennes, grandes cultures, maraichage, prairie et viticulture et sur 4 types de taxon). Dans ce contexte, le projet ANR en cours VGI4Bio (vgi4bio.fr), démarré en 2018, vise à proposer une méthodologie pour permettre aux volontaires de concevoir les indicateurs de biodiversité agricole dans une démarche participative et les implémenter dans les systèmes d’entrepôts de données spatiales (EDS) et OLAP spatial (SOLAP). Les systèmes SOLAP permettent l’analyse de grandes quantités de données via des interfaces web avec des tableaux de bords composés de tableaux croisés dynamiques et cartes interactives. Le succès d’un projet SOLAP repose essentiellement sur deux facteurs : (i) une conception d’un modèles de données EDS et (ii) une représentation cartographique conforment aux attentes et aux besoins de décideurs.
Sujet :
Les objectifs principaux du stage sont : (1) la définition des nouvelles méthodologies de geovisualisation pour l’OLAP ; (2) leur implémentation dans l’outil de geovisualisation en cours de développement avec Geosystems France.
Pour attendre l’objectif une analyse des besoins d’analyse doit être finalisée. Ces besoins d’analyse concernent les méthodes de geovisualization à utiliser.
Le projet de stage nécessite donc de :
1. Travailler sur les méthodologies de Geovisualisation
2. Travailler avec des vrais décideurs et problèmes d’analyse
3. Travailler en équipe
4. Travailler dans une vraie architecture OLAP Spatial
Planning
1. Etude de besoins d’analyse
2. Etude de méthodes existantes de geovisualisation pour l OLAP
3. Définition de méthodes de geovisualisation pour l’OLAP
4. Implémentation dans l’outil SOLAP de vgi4bio
Profil du candidat :
1. Systèmes d’information géographiques
2. Web mapping
3. Javascript/JAva
Des connaissances en Entrepôts de données et OLAP est un plus important
Formation et compétences requises :
Master
Adresse d’emploi :
9 avenue Blaise Pascal, Aubiere Clermont Ferrand
Encadrant : Sandro Bimonte, Irstea Clermont Ferrand
Envoyer le CV et lettre de motivation à sandro.bimonte@irstea.fr
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : ERIC
Durée : 3 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2019-05-01
Contexte :
Cf. fichier joint
Sujet :
Mise en œuvre du nouveau site web du laboratoire ERIC
Profil du candidat :
DUT-L3
Formation et compétences requises :
Cf. fichier joint
Adresse d’emploi :
Laboratoire ERIC
Université Lumière Lyon 2
Campus Porte des Alpes
Document attaché : stageDevWebERIC2019.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Equipe Morpheme, laboratoire I3S, Sophia Antipolis
Durée : 5 à 6 mois
Contact : eric.debreuve@i3s.unice.fr
Date limite de publication : 2019-05-01
Contexte :
Contexte biologique (voir document attaché)
Les premières étapes du développement d’un médicament anti-cancer consistent à mettre en évidence de nouveaux mécanismes du fonctionnement des cellules tumorales ou à mieux comprendre les mécanismes connus, et à étudier le potentiel de molécules à perturber un ou des mécanismes de sorte à conduire à la mort cellulaire au bout d’un certain temps d’exposition.1 Il existe plusieurs types de morts cellulaires, et l’efficacité d’une molécule se mesure à la fois en fonction du temps nécessaire pour détruire les cellules tumorales et du type de mort induit.
Sujet :
Description du projet (voir document attaché)
Les données dont nous disposons sont des vidéos multi-canal acquises en microscopie (voir Figure 1). Il s’agira d’abord de faire un suivi de cellules sur le canal dans lequel leur géométrie est la plus marquée. Par suivi, on entend la construction des trajectoires cellulaires tout au long de la vidéo. Autrement dit, pour une cellule donnée dans une image donnée de la vidéo, il faut être capable de dire où elle était dans l’image précédente et où elle sera dans l’image suivante, et ce même si elle a changé de forme (cas général). A noter qu’une cellule peut apparaître dans le champ de vue, ou en disparaître, au cours de la vidéo. En reportant ce suivi cellulaire sur le canal dans lequel l’apparence des cellules est riche en informations, il est possible d’extraire des caractéristiques par cellule, et d’étudier leur évolution pour en déduire l’instant de mort cellulaire. Il s’agit là de la première partie du projet. Un développement de ces étapes a déjà été réalisé pour des vidéos aux caractéristiques légèrement différentes. Il sera judicieux de s’en inspirer.
La deuxième partie du projet concerne le classement des morts cellulaires précédemment détectées parmi des types pré-définis. Il faudra, à partir de l’instant de mort cellulaire, suivre les cellules ou leurs débris sur quelques images afin d’extraire des caractéristiques et de s’en servir pour apprendre un classifieur de types de mort cellulaire dans un cadre supervisé (les types pour chaque cellule seront annotés par notre collègue biologiste). A noter que les caractéristiques extraites un peu avant et jusqu’à l’instant de mort cellulaire seront probablement à prendre également en compte pour cet apprentissage.
Profil du candidat :
Compétences souhaitées (voir document attaché)
• Des connaissances en traitement et analyse d’images sont souhaitables
• Des connaissances en classification supervisée seront appréciées
• Un minimum d’autonomie en Python et Numpy
• Un manque d’expérience dans les domaines ci-dessus pourra être compensé par une bonne motivation
Formation et compétences requises :
Master 2 (voir document attaché)
Adresse d’emploi :
Equipe Morpheme, laboratoire I3S, Sophia Antipolis (voir document attaché)
Document attaché : cell-death-m2.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : IRIT, Toulouse
Durée : > 4 mois
Contact : pierson@irit.fr
Date limite de publication : 2019-05-01
Contexte :
Dans le cadre du projet ANR i-Nondations, nous proposons le sujet de Master suivant, sur du machine learning. Le projet i-Nondations s’intéresse à la gestion de crises, en particulier celle des crues rapides.
Sujet :
Dans le cadre du projet ANR i-Nondations, une tâche consiste à capitaliser les expériences des crises précédentes pour éviter les suivantes. Les données manipulées sont des données quantitatives (capteurs de hauteur d’eau, topographie du lieu, images satellites, ressources mobilisées pour gérer la crise) et des données qualitatives (issues d’enquêtes de terrain auprès des collectivités et des personnes touchées). Les inondations, selon leur gestion, ont abouti in fine à des dégâts plus ou moins importants qui sont mesurables. L’utilisation du machine learning permettrait de dégager des pratiques qui limiterait le coût humain et/ou financier (l’objectif étant à définir). La particularité spécifique au contexte proposé est l’incertitude des données et leur non complétude sur l’ensemble des cas d’étude. Par exemple, dans certains cas, les ressources mobilisées n’ont pas été clairement identifiées lors de la crise (combien de pompiers, combien de véhicules), ou certains territoires n’ont pas beaucoup d’images satellites car la couverture nuageuse était trop importante au moment de la crise, certains capteurs étaient absents…
Dans un premier temps, le stagiaire fera un état de l’art des techniques d’apprentissage utilisées dans le cadre de la gestion de crise, en particulier d’inondation. Beaucoup de projets de recherche à l’échelle internationale s’intéressent à cette problématique, permettant d’avoir des premières pistes de réflexion et d’en comprendre les limites dans le cas précis des inondations.
Dans un second temps, le stagiaire devra proposer l’utilisation des techniques d’apprentissage les plus adaptées, puis de tester avec un sous ensemble de données du projet i-Nondations ses propositions.
Encadrement : Jean-Marc Pierson (pierson@irit.fr)
Profil du candidat :
– Motivé par l’apprentissage et le machine learning
– Intéressé par le sujet de la gestion de crises
– Master 2 Informatique ou Ecole d’Ingénieur Informatique
Pour candidater :
– CV
– Lettre de motivation vis à vis du sujet
– Résultats académiques en Licence 3 et Master 1 ou équivalent.
Les dossiers ne contenant pas ces documents ne seront pas étudiés.
Formation et compétences requises :
– Informatique en général
– Une formation en machine learning est un plus (la mettre en évidence sur la lettre de motivation)
Adresse d’emploi :
Laboratoire IRIT
Université Toulouse 3 Paul Sabatier
Toulouse
Annonce en lien avec l’Action/le Réseau : Formation
Laboratoire/Entreprise : DVRC / EMLV
Durée : 6 mois
Contact : marie.haikel_elsabeh@devinci.fr
Date limite de publication : 2019-06-15
Contexte :
Le De Vinci Research Lab (DVRC) recrute un stagiaire pour une durée de 6 mois sur le projet PCU (Plateforme de connaissance unifiée). Ce projet est développé en partenariat avec le leader européen des sites de e-commerce en open-source, Smile. Les partenaires sur le projet Qwazr,
Proxem, OW2, et Armadillo, et le Laboratoire d’Informatique de Paris Nord (LIPN) contribuent au développement d’un moteur de recherche enrichi, et d’une plateforme DMP.
Le projet PCU a pour but de simplifier et faciliter de bout en bout la valorisation des données existantes de l’entreprise, quel que soit son contexte d’origine (comportement client, gestion de connaissances) et d’exploitation (e-commerce mais aussi in-store, dans l’entreprise mais aussi mobile). Il s’appuie pour cela sur des innovations comme un traitement en flux de la donnée sur l’ensemble de son cycle (collecte, enrichissement, exploitation), de nouveaux algorithmes analysant le comportement utilisateur, une « usine » à moteurs de recherche multicanaux, et une architecture modulaire et extensible basée sur l’intégration des meilleures briques disponibles en open source.
Sujet :
Au sein du DVRC, vous rejoindrez une équipe composée d’une professeure, et d’une post-doctorante spécialisées respectivement en analyse des données et Big data, une équipe motivée et professionnelle qui saura vous accompagner tout au long de votre stage.
Au sein de cette équipe, vous aurez à développer un système de recommandation et à l’adapter à des données d’entreprise, et des données issues de sites de e-commerce. Il s’agira d’améliorer un système existant en lui apportant des nouvelles fonctionnalités du point de vue de la présentation des résultats de la recommandation, le système combine l’ACP par noyau et le filtrage-collaboratif.
Intérêt du stage
– développer votre carrière dans un domaine d’activité en pleine croissance
-parfaire et développer votre connaissance en travaillant sur un cas d’application spécifique aux moteur de recherche en entreprise
– avoir toutes les cartes en main à l’issue du stage pour devenir spécialiste Big Data
-collaborer sur la dimension recherche, votre travail sera valorisé et vous serez crédité en tant qu’auteur dans des articles de recherche qui seront soumis dans des revues soit en informatique, système d’information, marketing digital, ou innovation.
Profil du candidat :
Pour mener à bien cette mission, il est souhaitable que vous ayez un niveau Bac+5 et plus en informatique.
Formation et compétences requises :
Expérience de Pandas, Numpy et de Python
Adresse d’emploi :
Pole Universitaire Léonard de vinci, Paris La Défense
Document attaché : Offre-de-stage-Stagiaire-Big-data.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Unité de Recherche Technologies et Systèmes d’information pour les agrosystèmes – Clermont-Ferrand
Durée : 6 mois en 2019 (durée et dates adaptables en fonction de l’établissement et de la formation)
Contact : francois.pinet@irstea.fr
Date limite de publication : 2019-08-31
Contexte :
Ce stage s’inscrit dans le cadre du projet « CASDAR Recherche Technologique MULTIPASS : Faire émerger de nouveaux services dans une chaine de confiance ». Ce projet a comme partenaire ARVALIS, ACTA, FIEA, IDELE, IRSTEA, ORANGE et SMAG.
L’objectif du stage sera d’analyser et d’implémenter différents algorithmes pour anonymiser ou pseudo-anonymiser des données portant sur l’agriculture.
Le stagiaire bénéficiera d’indemnités de stages.
Sujet :
Au sein de l’équipe Système d’Information de l’unité de recherche TSCF (Technologies et Systèmes d’information pour les agrosystèmes) d’Irstea, centre de Clermont Ferrand, ce stage sera réalisé sur le campus des Cézeaux à Aubière, dans le cadre du projet de recherche MULTIPASS.
Lorsqu’elles sont exploitées, les données doivent parfois être rendues anonymes afin de préserver la confidentialité et les individus associées aux données. Il s’agit d’une problématique que l’on retrouve dans de nombreux domaines. Les données géo-localisées posent une difficulté particulière sachant que même anonymisées, il est parfois possible de retrouver des informations personnelles en recouper plusieurs sources d’informations géo-référencées.
L’objectif du stage sera d’implémenter et plusieurs algorithmes d’anomysation de données géo-référencées et de les tester sur des données en agriculture, ainsi qu’analyser leur efficacité et fiabilité.
Profil du candidat :
Niveau : De Bac +2 à +5
Formation et compétences requises :
Formation : IUT, Licence, Master, école d’ingénieur en informatique ou orientée en géomatique
Adresse d’emploi :
Irstea, centre de Clermont-Ferrand, laboratoire TSCF, campus des Cézeaux, Aubière
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : IRISA Vannes
Durée : 6 mois
Contact : minh-tan.pham@irisa.fr; chloe.friguet@irisa.fr; luc.courtrai@irisa.fr
Date limite de publication : 2019-11-30
Contexte :
Ce stage s’intègre dans le cadre d’un projet de recherche de l’équipe d’accueil qui a pour objectif de développer des méthodes de détection d’objets de petite taille dans des images de télédétection (aériennes et satellite) à l’aide de réseaux de neurones profonds (par approche de Deep Learning). Ce projet évolue dans un contexte applicatif varié, par ex. la détection de mammifères marins ou bien de véhicules terrestres, à partir d’images satellites/aériennes. Un algorithme a été proposé dans une première partie du projet pour réaliser cette tâche de détection. L’objectif du stage est d’étudier les performances de cet algorithme, en considérant différents scénarios pour les données d’entraînement et de test, en particulier variabilité des données d’entraînement, apparition de nouveaux fonds dans les données de test, ressemblance des données tests, méta-données disponibles, etc.
Le-a futur-e stagiaire rejoindra l’équipe OBELIX (OBsErvation de L’environnement par Imagerie compleXe) de l’IRISA (Institut de recherche en informatique et systèmes aléatoires) à Vannes (Université de Bretagne-Sud, Campus de Tohannic).
Sujet :
Missions/Programme de travail:
• Etude bibliographique de l’évaluation d’algorithme d’apprentissage, en particulier d’apprentissage profond
• Prise en main de la solution développée pour la détection de petits objets (code en C++ et Python/pytorch) pour la détection de mammifères marins/de véhicules terrestres dans des images satellitaires/aériennes
• Éventuellement, annotation de données manuelle, non-supervisée ou par transfert
• Étude extensive des performances de l’algorithme par simulations numériques
Profil du candidat :
• Traitement d’image, Machine Learning (expérience en Deep Learning appréciée)
• Programmation Python et/ou C++ (expérience avec Tensorflow et/ou Pytorch appréciée)
Formation et compétences requises :
• Formation Master 2 ou Ecole d’Ingénieur
Adresse d’emploi :
Université Bretagne Sud – IRISA (équipe OBELIX), Vannes 56000, France
Document attaché : stageM2_evaluation_detection.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Lab-STICC/IMT Atlantique
Durée : 6 mois
Contact : ronan.fablet@imt-atlantique.fr
Date limite de publication : 31-12-2019
Contexte :
The understanding and evaluation of the impacts of fine-scale random processes onto larger-scale processes is in a key challenge in in physical oceanography. Ito-Wentzell formula provides the basic background to investigate these issues from a theoretical and computational point of view.
This internship is proposed in the framework of ANR Melody (Bridging geophysics and MachinE Learning for the modeling, simulation and reconstruction of Ocean DYnamics, PI: R. Fablet) and ERC STUOD (Stochastic Transport in Upper Ocean Dynamics, PI: B. Chapron).
Sujet :
The goal of this internship will be to investigate how neural ODE schemes could help revealing and understanding from data large-scale drift and diffusion processes caused by fine-scale processes in the upper ocean. For different case-studies, experiments will be performed on numerical simulations (e.g., toy models, reduced ocean models, HR ocean simulations). Experiments on real observation datasets would also be of interest in a second step.
Profil du candidat :
Msc./Eng. degree in Applied Math., Data Science and/or Physical Oceanography with a good background in applied statistics.
Formation et compétences requises :
Good scientific programming skills (eg, Python)
First experience and/or knowledge on deep learning models and frameworks would be a plus.
Adresse d’emploi :
Lab-STICC, IMT Atlantique, Technopôle Brest-Iroise
29238 Brest cedex
Document attaché : internship_proposal_ItoOcean2019.pdf
Annonce en lien avec l’Action/le Réseau : Formation
Laboratoire/Entreprise : Cirad / Centre de Suivi Ecologique
Durée : 6 mois
Contact : louise.leroux@cirad.fr
Date limite de publication : 2019-12-31
Contexte :
L’arbre fait partie intégrante des systèmes de production en petite agriculture familiale africaine et est considérée comme l’un des leviers d’amélioration de la sécurité alimentaire et des moyens de subsistance des populations tout en améliorant leur résilience face aux changements à venir (Garrity et al., 2010; Mbow et al., 2014). Ces parcs agroforestiers sont par conséquent une des voies de l’intensification durable de l’agriculture africaine. Des méthodes de suivi des performances agronomiques des parcs africains est donc nécessaire optimiser les pratiques des agriculteurs. Avec la démocratisation de l’imagerie satellitaire à haute résolution spatio-temporelle (Sentinel-2, Venus ou PlanetScope), l’estimation des rendements des cultures céréalières en paysage agricole complexe est aujourd’hui possible. Récemment, Leroux et al. (2019) ont montré que l’intégration d’information sur la structuration du parc arboré dans un modèle statistique d’estimation des rendements du mil par télédétection permettait d’améliorer l’évaluation des performances agronomiques du parc à Faidherbia albida au Sénégal. Ce type d’approche basée sur des rendements observés agrégés à la parcelle, ne permet cependant pas de prendre en compte la variabilité intra-parcellaire des rendements dues aux micro-variabilités environnementales, aux pratiques des agriculteurs ou encore à la présence des arbres. Les drones se présentent eux comme une alternative tangible pour le suivi des cultures et de leur variabilité intra-parcellaire en petite agriculture familiale (Blaes et al., 2016 ; Roupsard et al., 2019). Ils peuvent également être utilisés pour étendre les données observées sur un nombre limité de parcelles à une région plus vaste.
Sujet :
L’objectif de ce stage est d’étudier les complémentarités entre des images de télédétection à haute résolution spatio-temporelle et des images de drones pour estimer la variabilité spatiale des rendements dans le parc à Faidherbia albida du bassin arachidier sénégalais. Porté par l’UR AÏDA (L.Leroux), l’UMR Eco&Sol (O.Roupsard) et l’UR AGAP (A.Audebert) du Cirad, il s’inscrit dans le cadre du projet UE-RAMSES2 (https://josianeseghieri.wixsite.com/ramsesii).
Le/la stagiaire travaillera à partir d’un jeu d’images de télédétection/proxydétection acquises en 2018- 2019. Les principales étapes du stage sont (1) pré-traitements des images satellites et drones (extraction d’indices spectraux, texturaux …) ; (2) tester différentes indices spectraux et/ou texturaux pour estimer les rendements du mil pour un ensemble de parcelles à partir de l’imagerie drone et d’une modélisation statistique, (3) à partir d’une carte d’occupation du sol précédemment produite sur la zone (Ndao et al., 2019), étendre ces estimations en établissant une relation drone/satellite permettant d’intégrer la variabilité intra-parcellaire dans les estimations à l’échelle du paysage. Pour ce faire, des méthodes de fouilles de données et de géostatistiques seront mobilisées pour exploiter les complémentarités entre les différentes sources d’informations. Les résultats de ce stage permettront de contribuer au volet d’évaluation spatialisée des services écosystémiques rendus par les arbres du projet RAMSES2 et l’approche proposée sera validée sur d’autres types de parcs agroforestiers.
Profil du candidat :
Le profil de l’étudiant correspond préférentiellement aux masters 2 de la Graduate School de #DigitAg, mais toute autre formation similaire reste possible.
Formation et compétences requises :
Master en informatique, sciences géographiques, agronomiques, avec des notions en télédétection optique et des bases solides en programmation informatique et en statistiques. Une maîtrise outils libres en traitement d’images et statistiques (QGIS, R, Python) serait un plus.
Adresse d’emploi :
Centre de Suivi Ecologique de Dakar (Sénégal)
Document attaché : Stage_Drone_Teledetection_DigitAg_2020_2.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : IMT atlantique, Lab-STICC
Durée : 6 mois
Contact : ronan.fablet@imt-atlantique.fr
Date limite de publication : 2019-12-31
Contexte :
Invertible neural networks (INN) have recently involved a significant research interest. Such representations jointly embed the prediction of the outputs given the inputs as well as the inputs given the outputs. This property is particularly apealing when dealing with inverse problems, i.e. aiming to reconstruct some hidden processes from some observed variables.
In the context of the space-based remote sensing of the oceans, a variety of satellite missions provide observations of sea surface parameters (e.g., temperature, salinity, current). We may now benefit from such large-scale observation datasets to explore, characterize and model upper ocean dynamics. In this respect, theoretical evidence has been provided that sea surface tracers may exhibit relationships, which relate to specific dynamical regimes.
This internship is proposed in the framework of ANR Melody (Bridging geophysics and MachinE Learning for the modeling, simulation and reconstruction of Ocean DYnamics, PI: R. Fablet) and ERC STUOD (Stochastic Transport in Upper Ocean Dynamics, PI: B. Chapron).
Sujet :
In the spirit of our previous work, the goal of this internship will be to explore ocean remote sensing datasets using deep learning strategies to reveal new data-driven representations of upper ocean dynamics. The focus will be given to INN representations.
Profil du candidat :
Msc./Eng. degree in Applied Math., Data Science and/or Physical Oceanography.
Formation et compétences requises :
Good background in data science an applied statistics. Knowledge on deep learning models and experience in deep learning frameowrks (eg, tensorflow, keras, pytorch) would be a plus.
Adresse d’emploi :
IMT Atlantique, technopôle Brest-Iroise, Brest
Document attaché : internship_proposal_MultimodalRepresentation.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LIEC
Durée : 6 mois
Contact : martin.laviale@univ-lorraine.fr
Date limite de publication : 20191231
Contexte :
Les diatomées sont des microalgues omniprésentes dans tous les milieux aquatiques. En particulier, elles jouent un rôle essentiel dans les écosystèmes d’eau douce, notamment sous forme de biofilms. Leur grande diversité et leur ubiquité font de ces organismes des bioindicateurs reconnus dans le cadre du suivi de l’état écologique des cours d’eau. Les diatomées sont des organismes unicellulaires qui présentent un exosquelette en silice dont la forme et l’ornementation constituent les bases de l’identification taxonomique traditionnelle. Néanmoins l’identification de ces traits morphologiques est chronophage, souvent sujette à de multiples biais (expérience de l’opérateur, qualité de l’image) et nécessite un niveau élevé d’expertise. Le développement récent des approches d’apprentissage profond par réseaux de neurones pour identifier et quantifier les traits des organismes à partir d’images semble prometteur pour résoudre les problèmes rencontrés jusqu’à présent.
Dans ce contexte, l’objectif du stage proposé vise à développer un outil d’identification des diatomées basé sur des algorithmes de reconnaissance automatique de formes à partir d’images individuelles. Dans un premier temps, cet outil devrait permettre d’améliorer les outils disponibles pour le diagnostic écologique des milieux aquatiques basés sur les diatomées. In fine, l’objectif est de pouvoir utiliser cet outil comme indicateur précoce pour détecter l’apparition de formes rares (espèces exotiques potentiellement invasives, déformations des cellules sous l’effet de polluants).
Sujet :
Objectifs du stage :
1- Constituer une première banque d’images individuelles de diatomées, représentative de la variabilité morphologique observée chez différentes espèces bioindicatrices. Séjour prévu au CEREGE pour acquérir de manière automatique un grand nombre d’images en pseudo-3D (z-stalks) (plateforme d’imagerie “Micropaléontologie automatisée”).
2- Développer un algorithme de segmentations puis un algorithme de reconnaissance des images. Les images individuelles générées en étape 1 seront utilisées pour entrainer un réseau de neurones et lui apprendre à reconnaitre les différentes espèces de diatomées présentes dans un échantillon (lames permanentes). Le traitement d’image sera réalisé par une approche standard (réseaux de neurones de types Yolo v3 pour la détection d’instances ou de type SegNet, U-Net, DeepLab… pour la segmentation des individus). L’utilisation d’images 3D créera des structures de données plus riches, permettant de travailler sur l’extension des réseaux ci-dessus à des données 3D, ce qui a été peu traité dans la littérature.
3- Appliquer le réseau de neurones à des échantillons complexes (i.e. échantillons naturels).
Le travail pourra être poursuivi en thèse, sur une sujet co-construit avec l’étudiant(e).
Le stage de M2 se déroulera au LIEC à Metz. Il sera co-encadré par Martin Laviale et Philippe Usseglio-Polaterra (écologie des diatomées, bioindication). Il sera réalisé en étroite collaboration avec Cédric Pradalier (Georgia Tech Lorraine, apprentissage profond), Thibault de Garidel-Thoron (CEREGE, imagerie) et Sakina-Dorothée Ayata (Sorbonne Université, approche par traits, écologie). Il bénéficiera également du réseau international ARTIFACTZ (https://sites.google.com/view/artifacz/).
Profil du candidat :
Etudiant(e) Ecole d’ingénieur ou M2 en maths appliquées, idéalement à l’interface entre vision, apprentissage, et biologie et/ou écologie.
Formation et compétences requises :
– Solides bases en mathématiques appliqués et statistiques.
– Connaissances générales en statistiques et/ou imagerie et/ou machines learning.
– Idéalement : compétences pour l’acquisition, la gestion et l’analyses de données et d’images biologiques.
– Des connaissances pour la classification/régression par réseaux de neurones convolutionnels seraient un plus.
– Formation de base ou intérêt pour la biologie et/ou écologie.
– Un manque d’expérience dans un des domaines ci-dessus pourra être compensé par une forte motivation.
Adresse d’emploi :
Laboratoire Interdisciplinaire des Environnements Continentaux (LIEC), Université de Lorraine, Campus Bridoux, Metz.
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : UHA/IRIMAS EA 7499, Mulhouse, France
Durée : 6 mois (février-aout 2020)
Contact : maxime.devanne@uha.fr
Date limite de publication : 2020-01-01
Contexte :
Le stage proposé s’inscrit dans le contexte actuel des véhicules autonomes. De nos jours, la perception de l’environnement autour du véhicule représente encore un verrou scientifique. Cette information est primordiale pour la planification de la trajectoire à suivre, et une erreur peut très vite coûter des vies. La perception de l’environnement peut se décomposer en deux tâches hiérarchiques : la détection des zones d’intérêt et l’analyse de la scène perçue. Ce stage se focalise sur l’analyse et l’interprétation de la scène. Une fois les zones d’intérêt détectées, il s’agira de définir les potentiels obstacles ainsi que la nature de ces derniers (notamment leur caractère mobile ou non) et leurs caractéristiques (taille, vitesse…).
Dans la littérature, ce problème a été adressé par des approches basées modèle comme la fusion de données grâce, notamment, à la théorie évidentielle (Dempster-Shafer et extensions). Les fonctions de croyance permettent ainsi d’obtenir un algorithme d’analyse de la scène précis. Cependant, cette méthode repose en grande partie sur les connaissances a priori des modèles. D’autre part, avec l’augmentation des puissances de calcul, les approches basées données comme les réseaux de neurones et l’apprentissage profond permettent avec des données d’apprentissage, de concevoir un algorithme robuste et réactif à une grande variété de situations, mais dont la fiabilité dépend de statistiques.
L’objectif de ce stage est de développer un formalisme théorique permettant de combiner les deux approches (fusion de données évidentielle et apprentissage profond). Il s’agira de concevoir un système d’analyse de la scène perçue s’appuyant sur des réseaux de neurones enrichis de fonctions de croyance.
Sujet :
Le/la stagiaire aura pour objectifs, dans un premier temps, de faire un état de l’art sur les différentes solutions existantes dans les deux disciplines : concernant les techniques de fusion de données, il/elle se focalisera sur la théorie évidentielle. Concernant le côté Intelligence artificielle, le/la stagiaire explorera les différents algorithmes existants des réseaux de neurones convolutifs (par exemple R- CNN). Ensuite, grâce à cette connaissance des deux domaines, le/la stagiaire pourra proposer une méthode originale pour les combiner comme initié dans les travaux de Denoeux.
Cette partie théorique s’accompagnera de simulations sur la base de données KITTI (http://www.cvlibs.net/datasets/kitti/) pour valider le nouvel algorithme d’analyse de la scène combinant fusion de données et apprentissage profond. Si les résultats le permettent, la solution proposée pourra être implémentée dans le calculateur du prototype de véhicule autonome de l’IRIMAS (travail réalisé par un autre stagiaire). L’ensemble des travaux de recherche réalisé par le/la stagiaire donnera lieu à des publications scientifiques pour des conférences internationales et/ou des journaux à facteur d’impact.
Profil du candidat :
Le/la candidat(e) aura le profil suivant : inscrit en Master 2/diplôme d’ingénieur en automatique, traitement du signal ou informatique.
Formation et compétences requises :
Notions de fusion de données appréciées. Des compétences en développement sous Matlab et C++ seront déterminantes. Des connaissances en Deep Learning (NN, CNN…) et les outils associés (TensorFlow…) seraient un plus.
Adresse d’emploi :
L’intégralité du stage se déroulera à IRIMAS, au sein du Département ASI (Automatique Signal Image) et plus précisément dans l’équipe MIAM (Modélisation Identification Automatique et Mécanique) de l’Université de Haute Alsace, à Mulhouse (France).
Document attaché : Master_internship_theorie_2020.pdf
Annonce en lien avec l’Action/le Réseau : Formation
Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : dino.ienco@irstea.fr
Date limite de publication : 2020-01-02
Contexte :
Numalis est une la première entreprise au monde à commercialiser des solutions de preuve de la fiabilité de systèmes d’IA. Nos clients sont les plus grands industriels français du transport (terrestre, aérien, maritime et spatial) et de la Défense. Ensemble nous concevons les processus de validation des IA de demain.
En partenariat avec l’équipe de Numalis composée d’ingénieurs et de chercheurs nous vous proposons de travailler depuis l’IRSTEA sur la conception de modèles réalistes de bruitages de d’images satellites. Ces modèles de bruits pourront être ensuite utilisés par les outils de preuve de fiabilité de réseaux de neurones que conçoit Numalis.
Vous participerez au développement et l’évaluation de nouveaux types de bruits qui serviront de base aux futures techniques de validation de réseaux de neurones pour le domaine spatial.
Sujet :
Intégré à l’UMR TETIS et en lien avec notre équipe technique et notre équipe R&D, vous enrichirez la palette de techniques de tests de réseaux neurones. Plus particulièrement vous modéliserez des méthodes de bruitage d’images satellites qui devront être représentatives de perturbations réelles. Ces méthodes de bruitage seront ensuite implémentées par nos équipes au sein d’un analyseur statique capable de les généraliser afin de servir dans notre outil de preuve formelle. Vous serez amené in fine à utiliser l’outillage ainsi enrichi de Numalis pour faire des tests. Une grande partie du stage sera dédiée à la réalisation de prototypes de modèles de bruits ainsi qu’à leur documentation.
Les missions
• Prise en main des modèles de bruits existants
• Définition et spécification fonctionnelle de nouveaux modèles de bruits
• Si possible, fournitures d’images (sous forme de calques) des modèles bruits conçus
• Évaluation des modèles de bruits sur des cas d’étude à l’aide de l’outillage Numalis
Profil du candidat :
Étudiant(e) en Master à l’IRSTEA, vous êtes autonome, ouvert d’esprit et vous aimez travailler sur des sujets innovants. Vous aimez les environnements de travail dynamiques où vous êtes amenés à travailler en équipe. Curieux, vous avez un fort intérêt pour le domaine de l’IA.
Vous savez réaliser des prototypes et vous êtes sensible aux problématiques de test logiciel.
Vous possédez des compétences solides en imagerie numérique et des notions de programmation dans un ou plusieurs des langages suivants : C/C++/Python, vous maîtrisez le système d’exploitation Linux et vous êtes à l’aise à l’écrit et l’oral en anglais et en français.
Formation et compétences requises :
Étudiant(e) en Master à l’IRSTEA, vous êtes autonome, ouvert d’esprit et vous aimez travailler sur des sujets innovants. Vous aimez les environnements de travail dynamiques où vous êtes amenés à travailler en équipe. Curieux, vous avez un fort intérêt pour le domaine de l’IA.
Vous savez réaliser des prototypes et vous êtes sensible aux problématiques de test logiciel.
Vous possédez des compétences solides en imagerie numérique et des notions de programmation dans un ou plusieurs des langages suivants : C/C++/Python, vous maîtrisez le système d’exploitation Linux et vous êtes à l’aise à l’écrit et l’oral en anglais et en français.
Adresse d’emploi :
500, rue Jean François Breton
34090 Montpellier, FRANCE
Document attaché : Stage-2020-IA_irstea.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LIRMM
Durée : 6 mois
Contact : dino.ienco@irstea.fr
Date limite de publication : 2020-01-02
Contexte :
Bien souvent en télédétection, on souhaite produire une cartographie géographique, c’est-à-dire produire une carte découpée en zones, où chaque zone est labellisée par une valeur. Cette valeur peut par exemple être le niveau de consommation annuel des ménages, la santé des actifs, etc.
L’approche standard pour produire une cartographie consiste à extraire descaractéristiques / traits / informations pour chaque zone étudiée. Ces caractéristiques / traits / informations sont représentés par un ensemble de valeurs entières, réelles ou binaires. Ces caractéristiques peuvent être le matériau des bâtiments, le matériau des toits, le nombre de pièces d’une maison, le type de maison, les distances entre divers points d’infrastructure, la classification urbaine ou rurale, la température annuelle, les précipitations annuelles, etc. [Xie et al 2016 – Transfer]. Il est bien évident qu’il n’est pas aisé d’avoir accès à de telles informations qui nécessitent de faire des relevés ou des enquêtes sur le terrain.
Une solution moins coûteuse pour faire la cartographie consiste à utiliser des images satellites de haute résolution (le principe de la télédétection consiste à faire de la mesure à distance), et d’extraire des caractéristiques qui pourront alors servir à prédire la valeur de chaque zone de la carte. Par exemple, en 2016, Xie et al. [Xie et al 2016 – Transfer] ont proposé de prédire le niveau de pauvreté (= niveau de consommation annuel des ménages) pour des zones de 1 km x 1 km (voir la figure ci-dessus). Toute la problématique de la cartographie par image satellite est qu’il est nécessaire d’avoir suffisamment d’images labellisées (images + valeurs pour chaque zone) pour pouvoir utiliser des algorithmes d’apprentissage automatique. La publication de Xie et al. a cela d’intéressant qu’elle ne nécessite que très peu d’images labellisées puisqu’elle repose sur une approche en deux étapes :
1. un apprentissage préalable d’un CNN (Convolutional Neural Network) pour prédire l’intensité lumineuse dans des images satellite prises de nuit, et cela, à partir d’images satellite prises de jour,
2. puis une réutilisation de ce réseau CNN (notion de “Transfer Learning”) pour cette fois-ci lui apprendre à prédire la pauvreté (utilisation d’une régression) à partir d’image satellite de jour. En effet, on va supposer que le niveau de pauvreté est inversement corrélé à l’illumination nocturne (plus il y a d’électricité, moins la zone est pauvre).
Sujet :
L’approche de Xie et al. est particulièrement élégante puisqu’elle ne nécessite plus d’interventions sur le terrain pour obtenir des caractéristiques. Elle permet également de faire une prédiction sur des pays entiers comme par exemple l’Afrique (voir les résultats dans [Jean et al. 2016 – PredictPoverty]). Sur leur ensemble de tests, l’approche de Xi et al. obtient 71% de précision, ce qui est meilleur de 3% par rapport aux approches sans transfert, utilisant également du Deep-Learning et elle est seulement 4% inférieure à l’approche reposant sur une utilisation d’un relevé sur le terrain. Dans une publication plus récente,
un vecteur caractéristique discriminant la zone proche de la zone distante. Cet apprentissage est ainsi totalement non supervisé. Dans un deuxième temps, une régression est effectuée pour prédire le niveau de pauvreté à partir du vecteur des caractéristiques de l’imagette en entrée. Les résultats de cette nouvelle proposition donnent une régression dont la corrélation est meilleure que celle obtenue par l’approche par transfert [Xie et al 2016 – Transfer]. Il reste cependant encore une marge de progression puisque la
corrélation après régression n’est que de 70%.
La méthodologie est intéressante, mais comme indiqué par les auteurs [Jean et al. 2019 – Tile2Vec], elle ne prend pas assez en compte l’aspect temporel. Par ailleurs, les données sur lesquelles les expériences ont été effectuées ont été volontairement bruitées par les agences gouvernementales.
L’étudiant devra donc étudier et proposer une solution dans le cas où l’on dispose d’un ensemble d’images satellites prises sur une dizaine d’années, avec une fréquence variable, un échantillonnage à “trous”, une échelle en résolution variable et un faible nombre de données annotées.
Dans un premier temps, l’étudiant devra faire un état de l’art des approches de segmentation (labellisation) d’images satellites, en veillant à étudier plus particulièrement les approches de prédiction utilisant des séquences d’images satellite. En parallèle, l’étudiant reprendra les expériences menées par l’équipe de Jean et al. pour avoir une base de comparaison, mais également pour prendre en main les données dont nous disposons. En fin de stage, l’étudiant pourra comparer l’approche de Jean et al. et son approche basée sur la prédiction par séquence d’images.
http://www.lirmm.fr/~chaumont/download/sujet_M2R_2020_PredictPoverty.pdf
Profil du candidat :
Etudiant en master Informatique, traitement du signal ou équivalent
Formation et compétences requises :
programmation C/C++, Python, Classification, Fouille de données, connaissances en traitement d’images, connaissances de base en Deep Learning, anglais écrit scientifique. Aucune connaissance en télédétection n’est requise.
Adresse d’emploi :
161, Rue Ada, Montpellier (France)
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : AUF, direction du numérique, CY Cergy Paris Université, site de Gennevilliers, ZAC des Barbanniers, Avenue Marcel Paul, 92230 GENNEVILLIERS, et Laboratoire ETIS, équipe MIDI team, CY Cergy Paris Université, 2 avenue Adolphe-Chauvin BP 222, 95302 Cergy-Pontoise cedex
Durée : 6 mois
Contact : claudia.marinica@ensea.fr
Date limite de publication : 01/05/2020
Contexte :
La bibliothèque numérique de l’espace académique francophone (B-NEUF) développé par l’AUF (1) souhaite identifier, catégoriser et indexer les ressources numériques éducationnelles, scientifiques, culturelles, documentaires publiés dans l’espace francophone (10 000 000 en 2019), (2) propose un atlas international des experts francophones (20 000 en 2019), (3) propose un réseau social pour le travail collaboratif, et (4) fournit une visualisation dynamique des relations inter-entités. Etant donné le grand volume de données disponible (ressources numériques ou experts), il est nécessaire de fournir à l’utilisateur un moyen efficace pour trouver rapidement une ressource qui pourrait l’intéresser.
Les systèmes de recommandation (RS) ont reçu beaucoup d’intérêt dans la littérature, mais les approches proposées traitent à la fois des types de données et de ressources limités. Par exemple, Amazon recommande des produits à un acheteur via les produits commandés en même temps que certains produits qui intéressent l’acheteur. La différence entre ce projet et les approches existantes est la complexité et la diversité des données disponibles dans la B-NEUF de l’AUF, et, de plus, la diversité d’utilisateurs. Ces conclusions nous ont amené des questionnements, parmi lequel comment les différentes données et la diversité des utilisateurs infèrent dans le RS ? En répondant à ces questions, dans ce projet, le principal objectif est de construire un module additionnel au sein du B-NUF comme un système de recommandation afin de suggérer des ressources à l’utilisateur.
Sujet :
Objectifs scientifiques :
Le service B-NEUF regroupe des ressources comme des données complexes : (1) un ensemble de documents distribués sur le réseau dans des formats différents et avec des utilisations diverses : des cours, des tutoriels, des auto-évaluations, des rapports techniques, des publications scientifiques ; (2) un atlas international des experts francophones décrits à travers leur expertise, etc. ; (3) un ensemble de données à partir du réseau social des utilisateurs. De plus, les utilisateurs B-NEUF sont différents avec des intérêts variés : des professeurs/chercheurs qui publient/cherchent des productions pédagogiques/scientifiques, des étudiants qui ont accès à des différentes et nombreuses ressources, les directeurs/présidents d’institut qui peut publier du matériel de promotion et des productions relatifs à son institut, mais aussi qui évaluent l’utilisation de leurs ressources, les institutions gouvernementales qui analysent les échanges.
Dans ce contexte, et étant donné les données complexes disponibles, les objectifs scientifiques sont :
(1) Construire une ontologie représentant les connaissances de l’utilisateur du système. A cette fin, on propose d’extraire les plus signifiants termes à partir de documents l’utilisateur a consulté, de déterminer la catégorie de chaque personne que l’utilisateur a interagit avec, and d’extraire les intérêts de l’utilisateur à partir du réseau social. On peut imaginer d’utiliser des techniques de fouilles d’itemets fréquents afin de construire le profil de l’utilisateur. On peut noter que l’ontologie est différente en fonction de l’utilisateur et différents types d’utilisateur existent dans le système comme vu ci-dessus.
(2) Construire un système de recommandation intégrant une ontologie et utilisant des méthodes d’apprentissage profond. A cette fin, nous devons comprendre comment nous pouvons modéliser le processus d’apprentissage profond afin d’intégrer l’ontologie. A cette fin, nous devons évaluer si un nouveau système de recommandation hybride pourrait être une combinaison d’outils de recommandation basés sur les ontologies et du filtrage collaboratif. De plus, nous devons modéliser le classement des résultats pendant la mise ensemble des deux éléments précédents.
Objectifs du stage :
Le stage s’intéresse aux points suivants :
Tâche 1 : Etat de l’art. Dans cette tâche l’étudiant devrait investiguer les domaines de recherche des systèmes de recommandation, des RS basés sur les ontologies, ou les RS basés sur les techniques d’apprentissage profond.
Tâche 2 : Construire une ontologie. Dans cette tâche, l’étudiant devrait proposer un premier modèle d’une ontologie d’un utilisateur.
Tâche 3 : Construire un Système de Recommandation. Dans cette tâche, l’étudiant devrait proposer un premier modèle de système de recommandation.
Profil du candidat :
Etudiant Master 2 en Sciences de Données avec des connaissances d’apprentissage automatique, systèmes de recommandation, web sémantique.
Formation et compétences requises :
Etudiant Master 2 en Sciences de Données avec des connaissances d’apprentissage automatique, systèmes de recommandation, web sémantique.
Adresse d’emploi :
AUF, direction du numérique, CY Cergy Paris Université, site de Gennevilliers, ZAC des Barbanniers, Avenue Marcel Paul, 92230 GENNEVILLIERS
Document attaché : sujet_stage_eng-fr.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ENS
Durée : 8 semaines
Contact : aurelien.garivier@ens-lyon.fr
Date limite de publication : 2020-01-15
Contexte :
Les départements d’informatique des Écoles normales supérieures de Lyon
et de Paris sont à la recherche de propositions de stages issues de
laboratoires de recherche (universitaires ou industriels) pour leurs
étudiantes et étudiants de première année (L3).
Sujet :
Les stages ont lieu entre juin et août 2021, et doivent constituer une
initiation à la recherche. Les stages durent 6 semaines pour l’ENS de
Lyon et 8 semaines pour l’ENS Paris. Une contrainte supplémentaire pour
l’ENS Paris, non applicable aux stages de l’ENS de Lyon, est que les
stages doivent se dérouler en dehors de l’Île-de-France.
Les élèves des Écoles normales supérieures ont suivi des cours de base en
algorithmique et programmation, en langages de programmation, en langages
formels, calculabilité et complexité, en systèmes et réseaux, en
architecture, etc. Ils ont pu également suivre certains cours plus
avancés, ainsi que des cours de mathématiques.
Profil du candidat :
Si vous souhaitez soumettre une proposition de stage, veuillez préparer
un descriptif au format PDF de votre stage et le déposer sur les deux
sites suivants :
http://www.ens-lyon.fr/DI/stageL3/submit.php (pour l’ENS de Lyon)
https://stages.di.ens.fr/internships/submit (pour l’ENS Paris)
avec les autres informations demandées *d’ici le 7 février 2021*. Les
propositions seront validées manuellement avant d’être transmises aux
étudiantes et étudiants.
Formation et compétences requises :
N’hésitez pas à faire circuler cet appel à propositions parmi vos équipes
ou collègues.
Nous restons à votre disposition si vous avez besoin d’informations
complémentaires.
Adresse d’emploi :
Cordialement,
—
Pierre Aboulker, pour l’ENS Paris
Eric Thierry, pour l’ENS de Lyon
Annonce en lien avec l’Action/le Réseau : ADOC
Laboratoire/Entreprise : ERIC (Lyon), en lien avec l’IRIT (Toulouse)
Durée : 5 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2020-01-15
Contexte :
Le concept de lac de données (data lake) a été introduit comme une alternative aux entrepôts et magasins de données pour le stockage et l’analyse des mégadonnées (big data). Le lac de données est un vaste dépôt de données brutes de structures hétérogènes, alimenté par des sources de données externes et à partir duquel des analyses diverses peuvent être réalisées. Un lac de données propose un stockage intégré des données sans schéma prédéfini. En l’absence de schéma de données, un système de métadonnées efficace est essentiel pour rendre les données interrogeables et empêcher ainsi le lac de se transformer en « marécage » (data swamp) inexploitable.
Les premiers travaux sur les lacs de données ont rapidement associé ce nouveau concept à la technologie Hadoop en le considérant comme une méthodologie consistant à utiliser des technologies libres ou peu coûteuses, typiquement Hadoop, pour assurer le stockage, le traitement et l’exploration des données brutes au sein d’une entreprise. Cependant, cette vision est de plus en plus minoritaire dans la littérature, le concept de lac de données est désormais également associé à des solutions propriétaires comme Azure ou IBM ou encore les multistores.
Par ailleurs, les lacs de données sont le plus souvent considérés comme des bacs à sable au sein desquels les data scientists mènent des travaux exploratoires. En revanche, les laboratoires ERIC (Université de Lyon) et IRIT (Université de Toulouse) travaillent de concert à rendre les lacs de données accessibles à un plus large panel d’acteurs, par exemple des business users au fait des outils décisionnels ou des chercheur∙es. Il s’agit ainsi d’industrialiser les processus de science des données pour étayer le nouveau concept de business intelligence and analytics (BI&A).
Sujet :
Dans ce contexte, les objectifs du stage sont :
• sur la base de l’état de l’art :
o de définir une architecture fonctionnelle de référence pour les lacs de données,
o de recenser les grands scénarios d’utilisation des lacs de données ;
• de proposer et de tester des architectures techniques (piles technologiques) alternatives relatives à ces scénarios ;
• de développer un outil de génération automatique d’architectures physiques répondant aux différents scénarios.
Profil du candidat :
Le sujet de stage s’adresse à des étudiant∙es en 1ère ou 2e année de master (ou équivalent) en informatique décisionnelle ou en sciences des données. Des compétences en bases de données, en entrepôts de données, en traitement des données massives ou en technologies liées aux big data seront particulièrement appréciées.
Formation et compétences requises :
Le sujet de stage s’adresse à des étudiant∙es en 1ère ou 2e année de master (ou équivalent) en informatique décisionnelle ou en sciences des données. Des compétences en bases de données, en entrepôts de données, en traitement des données massives ou en technologies liées aux big data seront particulièrement appréciées.
Adresse d’emploi :
Merci d’adresser, avant le 15 janvier 2020, votre candidature avec un CV, une lettre de motivation ainsi que vos notes de l’année universitaire en cours et de l’année dernière à jerome.darmont@univ-lyon2.fr, sabine.loudcher@univ-lyon2.fr et Franck.Ravat@irit.fr
Les candidat∙es retenus seront convoqué∙es pour un entretien fin janvier.
Document attaché : Offre-stage-Master-Recherche-Data-Lakes.pdf
Offre en lien avec l’Action/le Réseau : MACLEAN/– — –
Laboratoire/Entreprise : Lab-STICC/IMT Atlantique
Durée : 6 mois
Contact : ronan.fablet@imt-atlantique.fr
Date limite de publication : 2020-01-15
Contexte :
This internship offer is open in the framework of AI chair OceaniX (https://cia-oceanix.github.io/), which develops Physics-Informed AI for Ocean Monitoring and Surveillance. PhD opportunities are likely to be offered for the successful candidate.
Sujet :
Data-driven and learning-based strategies for the analysis, modeling and reconstruction of dynamical systems are currently emerging as promising research directions as an alternative to classic model-driven approaches for a wide variety of application fields, including atmosphere and ocean science, remote sensing, computer vision…. [2,3,4]. Especially, deep learning schemes [1] are currently investigated to address inverse problems, i.e. reconstruction of signals or images from observations. Especially, recent works [e.g., 3,4] have shown that one can learn variational models and solvers for the reconstruction.
This internship will specifically investigate the development of deep learning inverse models for SAR imaging to retrieve sea surface geophysical parameters (e.g., wave fields, sea surface winds,..). Based on a review of the state-of-the-art [eg, 3,4,5], the goal will to propose, implement and evaluate different deep learning schemes. Case-studies with groundtruthed real SAR imaging datasets will be considered and implemented.
Keywords: deep learning, inverse problems, variational models, SAR imaging; ocean remote sensing.
Profil du candidat :
MSc. and/or engineer degree in Applied Math., Data Science and/or Computer Science with a strong theoretical background, proven programming skills (Python).
Formation et compétences requises :
Advanced knowledge of deep learning models and a first experience with Pytorch would be a plus.
Adresse d’emploi :
IMT atlantique, Brest
Document attaché : 202012171704_sujet_stage_DLSARImaging_2021.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : dino.ienco@irstea.fr
Date limite de publication : 2020-01-15
Contexte :
Le projet Protest (PROspective TErritoriale SpaTialisée) (https://protest.irstea.fr/) est un projet de recherche appliquée financé par l’ADEME qui vise à construire une méthodologie d’analyse territoriale de la biomasse forestière en s’appuyant sur 1/ une cartographie haute résolution de la ressource et de ses conditions de mobilisation, 2/ des scénarios de gestion intégrant le contexte socio-économique local et global, 3/ des modèles d’évolution forestière à moyen/long terme, et 4/ des modules d’évaluation des services écosystémiques. Le territoire d’étude est le Parc Naturel Régional du Massif des Bauges.
La cartographie des ressources forestières a été réalisée en s’appuyant sur des relevés d’inventaire terrain (323 placettes mesurées en forêt au niveau du Parc) et sur des données Lidar aéroportées (https://protest.irstea.fr/). Le lidar est une technologie particulièrement intéressante pour mesurer la structure de la végétation (Durrieu et al. 2015; Lim et al. 2003; Van Leeuwen and Nieuwenhuis 2010). Utilisées avec des données de référence terrain elles permettent de développer des modèles pour prédire des paramètres forestiers à partir de variables de structure qui sont issues des nuages de points 3D Lidar. Une fois établis, les modèles peuvent ensuite être extrapolés à la totalité de la zone d’étude, conduisant à la cartographie de certains paramètres forestiers utiles aux gestionnaires (Bouvier et al. 2015; Monnet et al. 2015; Véga et al. 2016). Dans le cadre du projet PROTEST, l’ONF a ainsi produit des cartes de la surface terrière, du % de gros bois en surface terrière, du diamètre dominant et des grands types de peuplements (résineux purs, dominantes, feuillus, purs, dominants et mélanges).
Certaines études ont montré l’intérêt de combiner les données Lidar avec l’information spectrale d’images provenant de capteurs spatiaux multispectraux à haute résolution spatiale (e.g., Monnet et al., 2015) ou de capteurs hyperspectraux aéroportés (e.g., Zhao et al. 2018). Actuellement, l’offre en données de télédétection spatiale adaptées au suivi des écosystèmes forestiers évolue rapidement. La mission Sentinel-2 apporte par exemple une richesse spectrale à haute résolution spatiale précieuse pour identifier la composition et l’état des peuplements (Grabska et al., 2019; Sheeren et al., 2016), et ce avec une couverture systématique et une fréquence de revisite inédite à ces résolutions. De par leurs caractéristiques les données Sentinel-2 apportent une information complémentaire à celle des données lidar. Leur potentiel pour caractériser les forêts du Parc Naturel Régional du Massif des Bauges n’a cependant pas encore été évalué. Or ces données sont distribuées gratuitement (programme Copernicus de l’ESA) et peuvent donc être facilement mobilisées pour la gestion des territoires.
Sujet :
Les principales étapes envisagées pour la réalisation du stage sont :
– Analyse bibliographique sur l’utilisation des systèmes lidar et des images Sentinel-2 pour le suivi des écosystèmes forestiers ; lecture des documents relatifs au projets.
– Mise en place du jeu de données :
o Prise en main des données existantes (bdd terrain, données ALS, métriques ALS utilisées dans les modèles ONF)
o Téléchargement d’une série temporelle d’images Sentinel-2 (images géoréférencées et en réflectance)
– Identification (par analyse de la littérature) et calcul d’indices spectraux d’intérêt pour la classification des types de végétation à partir des images Sentinel-2.
– Évaluation de l’apport des données Sentinel-2 pour la détermination et la cartographie de la composition spécifique des forêts du PNR du Massif des Bauges ;
–
o o
o
o
o
La composition spécifique sera définie au niveau des placettes inventoriées selon différentes typologies (en particulier, en tenant compte ou non du statut dominant des arbres).
Pour chaque typologie, la combinaison de dates et de bandes spectrales ou d’indices spectraux la plus adaptée pour discriminer les différents types sera identifiée puis utilisée pour classer les images. La qualité des différentes classifications sera analysée.
Evaluation de la fusion des données Sentinel-2 et ALS pour la caractérisation des forêts
Les variables issues des images Sentinel-2 seront combinées avec les métriques lidar utilisées pour la caractérisation des grands types de peuplements (résineux purs, dominantes, feuillus, purs, dominants et mélanges) afin d’améliorer la qualité des classification (taux d’erreur actuel de classification des placettes = 11%)
Les variables Sentinel-2 seront aussi utilisées pour l’estimation de certains paramètres forestiers de structure (e.g., surface terrière, %de gros bois) en complément des métriques Lidar. Les modèles d’estimation lidar étant en théorie dépendant du type de peuplement, les données Sentinel-2 pourront intervenir au niveau d’une stratification préalable ou être intégrée directement dans les modèles de régression.
Les résultats avec et sans données Sentinel-2 seront comparés Rédaction du rapport et préparation de la soutenance.
Profil du candidat :
– Master II ou dernière année d’école ingénieur
– Compétences : programmation et géomatique (bases solides en télédétection)
– Bonne connaissance d’au moins un langage informatique (le langage R sera utilisé)
– Des connaissances en foresterie sont un plus
– Goût pour la recherche scientifique et l’interdisciplinarité
– Maîtrise de l’anglais et bonne capacité rédactionnelle
Formation et compétences requises :
– Master II ou dernière année d’école ingénieur
– Compétences : programmation et géomatique (bases solides en télédétection)
– Bonne connaissance d’au moins un langage informatique (le langage R sera utilisé)
– Des connaissances en foresterie sont un plus
– Goût pour la recherche scientifique et l’interdisciplinarité
– Maîtrise de l’anglais et bonne capacité rédactionnelle
Adresse d’emploi :
500, Rue Jean François Breton,
34090 Montpellier, France
Document attaché : stage_sylvie.pdf
