Présentation Générale

 



           
Huitième édition du Symposium MaDICS

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Une Session Poster sera spécialement consacrée aux jeunes chercheuses et jeunes chercheurs souhaitant présenter leurs travaux en analyse et gestion de données et dans les domaines interdisciplinaires autour de la Science des Données. Cette session sera également l’occasion d’échanger avec des collègues académiques et des acteurs industriels sur les thématiques de recherche présentées.

Dates importantes :

  • Soumission de posters : au plus tard le 23 mars 2026
  • Retour : 9 avril 2026
  • Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Dec
31
Thu
2020
Approches non supervisées pour le monitoring des espaces passagers
Dec 31 2020 – Jan 1 2021 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : SNCF
Durée : 6 mois
Contact : tony.marteau@sncf.fr
Date limite de publication : 2020-12-31

Contexte :
Au coeur du quartier d’affaires Novaxud, à deux pas de la gare du Mans, le centre d’ingénierie du matériel (CIM) regroupe toute l’expertise pour la conception du matériel roulant. Intégré aux pôles ingénierie du CIM, le pôle intelligence artificielle réalise la recherche appliquée sur les systèmes IA d’aujourd’hui et demain, afin de porter sur les matériels roulants, les innovations technologiques en computer vision et machine listening. La veille technologique active des équipes permet ainsi de réaliser des communications en conférence internationale, de proposer des brevets et de développer des systèmes embarqués intelligents permettant de répondre aux contraintes de l’exploitation ferroviaire

Sujet :
Le pôle intelligence artificielle vous propose d’embarquer avec elle pour un projet de recherche visant à monitorer l’ambiance des espaces passagers au sein des matériels roulants afin de reconnaître toute situation sortant de l’ordinaire.

Les approches supervisées, consistant à utiliser des jeux de données annotées pour détecter des situations bien particulières, se heurtent quelques fois à la disponibilité des données et aux complexités des situations à détecter. Depuis l’avènement des divers réseaux génératifs et auto encodeurs, les approches non supervisées se positionnent comme des approches complémentaires ayant des performances intéressantes.

Ainsi, votre stage consistera en 2 phases à développer d’abord à partir de données audio puis à partir de données vidéo, des algorithmes de détection d’anomalies dans les espaces voyageurs. Chacune des 2 phases de votre stage passera par 3 étapes principales
o Réaliser une veille technologique efficace afin de déterminer l’état de l’art des algorithmes de détection d’anomalies sur les données audio et vidéo.
o Développer et entraîner une architecture de machine learning permettant de détecter avec précision une situation anormale à partir de l’apprentissage de données
o Tester l’algorithme développé en environnement réel sur un train.

Enfin, à partir de la conception des deux architectures proposées pour l’audio et la vidéo, vous proposerez les mutualisations possibles entre les deux modèles.

Pour valoriser votre travail et pour votre rayonnement, la rédaction d’un article de conférence vous sera proposée.

Profil du candidat :
Vous êtes étudiant en dernière année d’école d’ingénieur ou Master 2 informatique, Data science, Computer Vision, ou machine learning. Vous êtes intéressés par les technologies nouvelles d’intelligence artificielle, et vous êtes curieux des récentes avancées. Vous parlez anglais et savez exploiter de la documentation anglaise.

Formation et compétences requises :
Vous avez une des compétences techniques suivantes ?
– Langages : Python, OpenCV, Scikit-image, Pillow, Flask
– Framework deep learning : Keras, TensorFlow, Pytorch
– Système d’exploitation : LINUX (Ubuntu / Fedora) & Windows

Adresse d’emploi :
4 Allée des Gémeaux – 72100 LE MANS

Document attaché : 202010231155_2021-ApprochesNonSupervisées.pdf

Deep Learning pour la détection, délimitation et discrimination d’arbres et de vergers de manguiers
Dec 31 2020 – Jan 1 2021 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2020-12-31

Contexte :
Le CIRAD est engagé dans le développement agricole des Pays du Sud, où la réduction de la pauvreté et la sécurité alimentaire sont des préoccupations sensibles. Ce développement passe notamment par le déploiement de solutions numériques innovantes, incluant l’acquisition d’information sur les filières agricoles et les systèmes de cultures. En Afrique de l’Ouest, notamment, la compréhension et la modélisation des filières fruitières sont freinées par un manque de méthodes et d’outils adaptés pour caractériser les systèmes à base d’arbres fruitiers, souvent complexes (ex. systèmes agroforestiers). Dans ce contexte, le projet PixFruit (UPR HortSys) vise à acquérir des données sur la production de mangues aux échelles de l’arbre et du verger pour informer des modèles de production régionaux afin de fournir aux acteurs de la filière des informations précises et fiables répondant à leur besoin. Afin d’extrapoler les productions de mangues à l’échelle d’une région à partir des données relevées sur le terrain par l’application smartphone PixFruitApp en cours de développement, il est nécessaire de délimiter et de classifier les arbres et les vergers pour fournir des données d’entrées complémentaires (surface cultivée, type de système de culture, densité de plantation, composition variétale…) aux modèles régionaux.

Les produits de télédétection, par le biais de l’analyse des images satellites multispectrales à très haute résolution spatiale, sont désormais reconnus comme des outils numériques innovants pour l’aide à la décision en agriculture. Leur capacité à cartographier et caractériser les surfaces agricoles a été démontrée depuis plusieurs années dans le contexte des grandes cultures. Toutefois, en pratique ces outils sont encore loin d’être adaptés à l’arboriculture, et encore plus fortement aux systèmes agroforestiers. La variabilité et l’hétérogénéité spatiales et spectrales de l’arbre lui-même comme de la plantation d’arbres restent des défis méthodologiques en télédétection. Les résultats obtenus en délimitation comme en classification par les approches classiques pixels ou orientés objets (random forest, SVM, etc…) sont en effet très limités et peu précis, la plupart du temps dès les premiers niveaux de segmentation. Ils sont aussi contraints par un grand déploiement sur le terrain et difficilement généralisables d’un type de système arboricole à un autre. Il est donc aujourd’hui nécessaire de rechercher des méthodes d’analyse de données plus adaptées aux données volumineuses et aux indicateurs complexes et inhomogènes issus de la télédétection, pour assurer l’extraction d’informations pertinentes de manière plus automatique et générique.

Sujet :
Nous proposons donc mettre en place des méthodes de classification et de segmentation neuronales par apprentissage profond (deep learning) pour la production d’informations cartographiques à partir des données du capteur Pléiades.
– Le premier objectif est d’identifier et détourer les manguiers eux-mêmes, en tant qu’arbres individuels, qu’ils soient isolés ou en verger
– Le second objectif est de développer des outils permettant de détecter, délimiter et classifier les vergers dans un bassin de production.
Dans tous les cas, il s’agira d’obtenir de meilleurs résultats en segmentation (délimitation des vergers, détourage des arbres) et en classification (reconnaissance des vergers selon leur espèce majoritaire, classification typologique des vergers selon la structure et la composition variétale, identification de l’espèce fruitière…) qu’avec les outils utilisés auparavant dans l’équipe du projet.

Au cours de ce stage, l’étudiant(e) évaluera le potentiel des deux types de réseaux de neurones les plus utilisés, sur plusieurs architectures de données, pour délimiter et classifier les vergers: les réseaux convolutifs (CNN) sur deux images Pléiades acquises en mars et juillet 2017, puis des architectures basées sur une combinaison de CNNS et de réseaux récurrents (RNN) sur l’association de ces images Pléiades et d’une série temporelle Sentinel-2.
Enfin, il/elle analysera les performances du réseau Mask-RCNN (Regional Convolutional Neural Network) pour identifier et segmenter correctement les arbres.

La zone des Niayes au Sénégal (503 km2) fera office de zone d’étude, pertinente par sa diversité de systèmes de culture comprenant différents niveaux de complexité et de densité (monocultures, systèmes extensifs et systèmes agroforestiers) et de nombreuses espèces d’arbres cultivés (manguiers, agrumes, anacardiers, neems…). En outre, cette zone bénéficie d’une importante base de données de terrain (11 300 manguiers et 12 211 vergers détectés, détourés et classifiés) et d’une expertise agronomique obtenues dans le cadre du projet PixFruit, qui seront mis à disposition du stagiaire pour permettre la réalisation technique de cette étude.

Mots clefs :
Télédétection, images satellites, très haute résolution spatiale, deep learning, réseaux de neurones, délimitation, discrimination, classification, vergers, arbres.

Durée du stage: 6 mois, en 2021.

Accueil:
L’étudiant(e) sera hébergé(e) pour la durée de son stage à la Maison de la Télédétection, 500 Rue JF Breton, 34000 Montpellier. Il/elle aura à sa disposition une machine de calcul et un accès aux outils informatiques de la MTD.
Il/elle sera potentiellement soumis à des périodes de télétravail selon les circonstances sanitaires.

Encadrement:
Le/la stagiaire sera encadré par deux chercheurs de l’UMR TETIS du CIRAD: C. Lelong, spécialiste en télédétection expérimentée dans les milieux agroforestiers, et R. Interdonato, informaticien spécialisé dans l’intelligence artificielle. Il/elle bénéficiera aussi du réseau de collaborateurs du projet Pixfruit, dont E. Faye (UPR HortSys) chef de projet et spécialiste de la filière mangue en Afrique de l’Ouest, J. Sarron (UPR HortSys) agronome mangue et spécialiste du traitement d’images drone, et F. Borne (UMR AMAP), spécialiste en traitement d’images et réseaux de neurones.

Financement:
Ce stage est soutenu par l’institut Convergences en Agriculture Numérique #DigitAg et bénéficie à ce titre d’un budget de fonctionnement, permettant notamment d’enrichir la base de données.
La rémunération du stagiaire sera de l’ordre de 600 euros par mois, calculée sur la base d’un pointage journalier et de 35h de travail par semaine.

Profil du candidat :
L’étudiant(e) sera spécialisé(e) dans le traitement des données numériques multidimensionnelles au format image. Il/elle sera en particulier sensibilisé(e) aux nouvelles approches de fouilles et d’analyses de données et les réseaux de neurones lui seront familiers. Il/elle devra être à l’aise en programmation, préférablement avec le langage Python et les bibliothèques pour le développement des réseaux des neurones (TensorFlow, PyTorch). Il/elle devra apprécier la découverte et l’exploration méthodologique, la démarche scientifique, et fera preuve d’un bon esprit d’analyse critique.
Un bon sens du travail en équipe est fortement souhaité, ainsi que le goût pour les collaborations interdisciplinaires. Une bonne culture dans les domaines thématiques de l’agroforesterie et de l’agriculture en Afrique de l’Ouest sera appréciée.

Formation et compétences requises :
Python (TensorFlow ou Pytorch)
GIS

Adresse d’emploi :
500, rue Jean François Breton, 34090 Montpellier

Document attaché : 202011171351_stageM2digitagTETIS_deepmango.pdf

Détection d’animaux marins sur des images aériennes par des méthodes non-supervisées et faiblement s
Dec 31 2020 – Jan 1 2021 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : IRISA/équipe OBELIX
Durée : 6 mois
Contact : minh-tan.pham@irisa.fr
Date limite de publication : 2020-12-31

Contexte :
Ce stage s’intègre dans le cadre du projet SEMMACAPE (https://semmacape.irisa.fr/), qui vise le développement d’un système automatique de suivi de la mégafaune marine. Ce projet est un partenariat entre le laboratoire de recherche IRISA (Institut de recherche en informatique et systèmes aléatoires) à Vannes, l’entreprise d’analyse d’image pour l’écologie Wipsea, l’institut pour la transition énergétique dédié aux énergies marines renouvelables (France Energie Marines – FEM), l’Office Français de la Biodiversité (OFB), et l’Institut Français de Recherche pour l’Exploitation de la Mer (Ifremer).

Sujet :
Afin d’analyser l’impact causé par l’installation des parcs éoliens sur la mégafaune marine, ce projet vise à automatiser les suivis environnementaux des parcs éoliens en utilisant des méthodes d’apprentissage profond supervisées et non-supervisées. Les tâches de ce projet, partagées entre les différents partenaires académiques et industriels, comprennent l’acquisition des images aériennes des animaux marins, l’annotation de ces images par des spécialistes du domaine, l’évaluation des méthodes de détection existantes et le développement des nouvelles méthodes de détection d’animaux marins.
Le-a futur-e stagiaire sera impliqué-e dans la détection d’animaux marins par des méthodes non-supervisées [1,2,3] et faiblement supervisées [4,5], i.e., des méthodes dont la détection se fait sans avoir des annotations ou avec peu d’information sur les images. Cela comprendra l’utilisation et l’évaluation des méthodes pré-existantes sur les données du projet, et, possiblement, l’adaptation de ces méthodes afin d’améliorer les résultats sur les objets ciblés.
Le-a futur-e stagiaire rejoindra l’équipe OBELIX (OBsErvation de L’environnement par Imagerie compleXe, http://www.irisa.fr/obelix) de l’IRISA à Vannes (Université Bretagne Sud, Campus de Tohannic).

Profil du candidat :
Formation Master 2 ou Ecole d’Ingénieur

Formation et compétences requises :
Traitement d’image, Machine Learning (expérience en Deep Learning appréciée)
Programmation Python (expérience avec Tensorflow et/ou Pytorch appréciée)

Adresse d’emploi :
Université Bretagne Sud – IRISA (équipe OBELIX), Vannes 56000, France

Document attaché : 202009241551_Proposition de stage.pdf

Modèles d’exploration et de synthèse
Dec 31 2020 – Jan 1 2021 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ERIC
Durée : 6 mois
Contact : jairo.cugliari@univ-lyon2.fr
Date limite de publication : 2020-12-31

Contexte :
En France, l’étude menée en 2016 par Santé Publique France a estimé à 48 000 le nombre de décès prématurés attribuables à la pollution de l’air (Pascal, 2016). Le Centre International de Recherche sur le Cancer (CIRC) a classé la pollution de l’air extérieur dans son ensemble et les particules fines en particulier, comme cancérogènes pour l’homme, avec des indications suffisantes pour un lien avec le cancer du poumon et des associations positives avec le cancer de la vessie (IARC Working Group on the Evaluation of Carcinogenic Risks to Humans, 2012).
C’est dans ce contexte que travaille depuis des années le Département Prévention Cancer Environnement du Centre Léon Bérard avec différents partenaires (e.g. Laboratoire de Mécanique des Fluides et d’Acoustique (UMR CNRS 5509 LMFA – École Centrale), Laboratoire Environnement Ville Société (UMR CNRS 5600 EVS – Lyon2/Lyon3) ou encore le Laboratoire d’Informatique (UMR CNRS 5205 LIRIS – Lyon2), l’INERIS ou encore Santé
Publique France) sur des études épidémiologiques sur les facteurs de risques environnementaux liés à différents cancers hormonaux (e.g. sein, testicule, etc.).
À titre d’illustration, pour le cancer du sein, le plus fréquent chez la femme, les causes environnementales et notamment l’exposition chronique à la pollution de l’air sont suspectées d’avoir un impact sur son incidence. En effet le dépistage, le vieillissement de la population et les facteurs de risque liés au mode de vie (alcool, alimentation, etc.) ne permettent pas d’expliquer à eux seuls les variations géographiques des taux d’incidence, et incitent, dès lors, à investiguer ces causes environnementales.
Dans le cadre d’une étude sur le risque de cancer du sien associée à l’exposition à la pollution de l’air, une simulation des concentrations de 8 polluants atmosphérique sur le territoire français a été réalisée via le modèle CHIMERE (modèle chimie-transport développé par l’INERIS). Nous disposons donc des concentrations horaires pour 8 polluants pour une
résolution fine (0,0625° x 0,125° soit environ 8 x 8 km) sur 21 ans 1990-2010.
Ce jeu de données permet d’analyser les expositions individuelles tout au long de la période pour les sujets d’études. La précision temporelle et la couverture spatiale permettent l’étude individuelle sur la période d’étude en suivant les parcours de vie : succession des lieux de résidence et des lieux de travail mais aussi les mobilités quotidiennes et prochainement
l’ensemble des autres activités quotidiennes (loisirs, visites, etc.) ainsi que des mobilités induites.
Néanmoins, ces données demeurent pour l’instant sous-exploitées notamment quant aux modèles spatio-temporels intrinsèques particulièrement aux niveaux les plus fins.
Dans ce contexte, le stage a pour objectif de contribuer, au sein d’un partenariat inédit entre le Centre Léon Bérard et le laboratoire ERIC, spécialisé en exploration de données temporelles, d’appréhender les modèles temporels et spatiaux sous-jacents permettant la synthèse et dès
lors l’exploitation routinière de ces données massives dans le cadre des présents et futurs projets épidémiologiques.

Sujet :
Vous serez chargé de la mise en place d’une méthodologie pour explorer des données spatio-temporelles complexes dans le but de proposer une/des synthèse·s de ces données singulières ou plurielles. Les données présentent plusieurs caractéristiques d’intérêt, ce sont de données multivariées avec une structure spatio-temporelle et la présence de phénomènes extrêmes. Il est envisagé que la personne recrutée exploite le plus grand nombre de ces caractéristiques dans les analyses. Une liste non exhaustive de missions du stage suit :
• Exploration statique des données horaires infra- et inter-polluant pour la détermination de profils types de pollution
• Analyse spatiale des polluants afin de déterminer les profils d’interactions
• Modélisation de la structure spatio-temporelle (par exemple en utilisant modèles additifs ou de données fonctionnelles)
• Caractériser les épisodes de concentration liés aux interactions de plusieurs polluants

Profil du candidat :
* Rigueur scientifique, capacité d’innovation et de synthèse.
* Capacité à lire et comprendre la littérature internationale (maîtrise de l’anglais scientifique)
* Maîtrise d’au moins un logiciel d’analyse de données (R, Python)
* Autonomie, bonnes qualités relationnelles et capacité à travailler en équipe
pluridisciplinaire

Formation et compétences requises :
Étudiant·e de M2 à orientation data science

Adresse d’emploi :
Laboratoire ERIC | Université Lumière Lyon 2 (5 avenue Pierre Mendès France, 69676 Bron, https://eric.msh-lse.fr/)

Merci d’adresser, votre candidature avec un CV, une lettre de motivation ainsi que vos notes de l’année universitaire en cours et de l’année dernière à Leny.Grassot@lyon.unicancer.fr, Thomas.Coudon@lyon.unicancer.fr et Jairo.Cugliari@univ-lyon2.fr.

Document attaché : 202011261447_OffreStageM2_CLB-ERIC_2021.pdf

Jan
1
Fri
2021
Reconnaissance de texte de règles métiers
Jan 1 – Jan 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Rman Sync
Durée : 6 mois
Contact : francois.rioult@unicaen.fr
Date limite de publication : 2021-01-01

Contexte :
Rman Sync est une startup spécialisée dans la transformation numérique des PME. Pour cela nous développons des solutions autour du Saas et de l’intelligence artificielle. Notre ambition et d’utiliser l’intelligence artificielle au quotidien en laissant l’humain prendre les bonnes décisions.

Sujet :
Pour simplifier ses interfaces graphiques, Rman Sync souhaite réaliser de la reconnaissance de texte de règles métiers en langue française.
Cette reconnaissance devra permettre la construction de règles de gestion « compréhensible » par un système expert defini.
Par exemple une règle du type « 3% de remise sur le rayon Lego sur la période de Noel » devra aboutir à la définition de la règle suivante :

regle.type(VENTE)
.trigger(Ligne.class)
.trigger(Produit.class).plv(“Lego”)
.until(new Event(« Periode de Noel »))
.mark(Remise.class).coef(new BigDecimal(“0.03”));

Dans ce cadre, le stage consistera à concevoir et à déployer un réseau “Named Entity Recognition” afin de permettre de créer un pipeline de transformation du texte en déclenchement de règles expertes.

Profil du candidat :
M2 / ingénieur en science des données – TAL

Formation et compétences requises :
Science des données
Traitement automatique de la langue
Reconnaissance d’entités nommées

Adresse d’emploi :
Caen

Jan
3
Sun
2021
Applications Web d’Apprentissage de Modèles de Connaissances
Jan 3 – Jan 4 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N Université de Nantes / Capacités
Durée : 5-6 mois
Contact : pierre-hugues.joalland@univ-nantes.fr
Date limite de publication : 1/3/2021

Contexte :
Capacités – filiale privée de l’Université de Nantes – valorise les travaux des laboratoires universitaires et accompagne les entreprises dans leurs projets innovants. L’entité KnowEdge collabore en lien étroit avec l’équipe DUKe du laboratoire LS2N dans le domaine de l’IA :
– construction et manipulation de modèles de connaissances
– réseaux bayésiens et modèles graphiques d’événements
PILGRIM est une librairie utilisée par de multiples projets : systèmes de recommandation, modèles de vieillissement, assistants médicaux personnalisés (https://www.lesechos.fr/pme-regions/innovateurs/capacites-cree-une-application-contre-la-recidive-du-suicide-1265447)

Sujet :
Nous recherchons un(e) stagiaire pour participer au développement d’applications Web en vue d’illustrer deux cas d’utilisation de PILGRIM :
– l’aide à la décision pour un réseau de capteurs connectés
– la simulation du vieillissement d’un champ d’éoliennes

Profil du candidat :
-> Savoir-faire technique en architecture client / serveur et développement d’applications Web
-> Autonomie dans l’organisation du travail
-> Intérêt pour l’IA, le machine learning

-> rémunération 1500 € net mensuel

Formation et compétences requises :
-> Bac + 5 Informatique
-> Développement d’applications Web
-> Compétences en C++, Python, binding SIP, API, Swagger, Flask, RQ, Redis, Git
-> Maîtrise de l’anglais

Adresse d’emploi :
Polytech’ Nantes
Campus de La Chantrerie
NANTES

Construction d’un vocabulaire de l’Agroécologie via le traitement automatique d’un corpus document
Jan 3 – Jan 4 all-day

Offre en lien avec l’Action/le Réseau : RoD/– — –

Laboratoire/Entreprise : Cirad
Durée : 6 mois
Contact : pierre.martin@cirad.fr
Date limite de publication : 01/03/2021

Contexte :
Le projet ASSET (Agroecology and Safe food System Transitions in Southeast Asia), coordonné par le Cirad et le Gret, a pour objectif d’accompagner et de promouvoir les approches territoriales de l’innovation, en partenariat avec l’ensemble des acteurs et en tirer des enseignements par une évaluation de leurs performances et impacts (2020-2025). Parmi ses activités, ASSET souhaite transformer une librairie existante en ligne ALiSEA (https://ali-sea.org) conçue pour des acteurs de la sous-région (Myanmar, Cambodge, Vietnam et Laos) en une plateforme de partage et de diffusion plus large des connaissances sur l’agroécologie, enrichie notamment par des travaux de recherche et d’experts, des traductions, des documents pratiques ou de vulgarisation, etc. Le corpus d’ALiSEA comporte actuellement 900 documents en anglais classés selon 6 approches de l’agroécologie, le pays et le type de document. Pour permettre la navigation au sein de ce corpus et accéder aux connaissances, la plateforme souhaite se doter d’un thésaurus documentaire. L’enjeu du stage est d’élaborer une première version de ce thésaurus.

La plateforme logicielle KEOPS (Knowledge ExtractOr Pipeline System) a, entre autres, été retenue pour instrumenter le développement de ce thésaurus. Cette plateforme logicielle propose différentes méthodes d’indexation de documents (en utilisant des mots clés libres ou un thésaurus, fouille de données basée sur un traitement lexical, etc.) et de classification.

Sujet :
L’objectif du stage est de produire une première version du vocabulaire contrôlé d’ALiSEA via l’analyse du corpus avec KEOPS, ce vocabulaire contrôlé étant le socle du thésaurus documentaire. Le stage sera co-tutoré par le Cirad et le Gret, avec d’une part une Convention de stage établie entre le Gret et l’organisme de formation, et d’autre part, un accueil par le Cirad.

En préalable à la construction du vocabulaire contrôle, l’étudiant conduira une revue de la littérature sur les méthodes de construction de thésaurus et les thésaurus de l’agroécologie développés et comparera les résultats d’indexation et de classification de KEOPS sur le corpus d’Alisea avec les thématiques considérées par ASSET. Cette évaluation inclut l’adéquation du thésaurus Agrovoc pour des classifications terminologiques diverses (e.g. expertes vs profanes).

Profil du candidat :
Etudiant de Master 2 (informatique) ayant des compétences solides en gestion des connaissances et text mining sensibilisé à l’agroécologie.

Formation et compétences requises :
Master 2 (informatique) ayant des compétences solides en gestion des connaissances et text mining

Adresse d’emploi :
Cirad -UR AIDA
Avenue Agropolis
34032 Montpellier cedex 5
France

Jan
4
Mon
2021
Analyse collaborative dans le décisionnel pour tou.tes
Jan 4 – Jan 5 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ERIC (Université Lyon 2, Campus Porte
Durée : 5 mois à partir de m
Contact : cecile.favre@univ-lyon2.fr
Date limite de publication : 2021-01-04

Contexte :
L’accès à l’informatique décisionnelle a été facilité par l’infonuagique. Toutefois, le décisionnel à la de-mande est soit limité, soit reste réservé aux spécialistes et hors d’atteinte des petites structures, indépen-dant.es et citoyen.nes, alors qu’il existe une forte demande sociétale d’analyse de données (self/open) simple et collaborative.
L’objectif du projet BI4people, financé par l’Agence Nationale de la Recherche (ANR), est de rendre le décisionnel disponible en ligne à des utilisateur/trices disposant de peu de ressources financières et de connaissances techniques, en automatisant des processus actuellement au mieux semi-automatiques. Dans le cadre du projet BI4people (http://eric.univ-lyon2.fr/bi4people/), le laboratoire ERIC (Lyon 1/Lyon 2) recrute un∙e stagiaire pour une durée de 5 à 6 mois, afin de participer à la mise en œuvre des recherches prises en charge par ERIC sur la dimension d’analyse décisionnelle collaborative.

Sujet :
L’analyse collaborative dans le contexte de la Business Intelligence (BI) a été étudiée selon différents points de vues, mais reste rare et se concentre principalement sur des aspects techniques. Il n’existe pas de solution globale à ce jour.

Le stage comportera 2 volets :
– Définition d’une typologie des moyens collaboratifs pertinents pour l’analyse BI
– Conception / spécifications / implémentation d’un framework pour l’analyse collaborative qui s’inscrira dans le développement global du projet ANR

– Définition d’une typologie des moyens collaboratifs pertinents pour l’analyse BI
Cette tâche est importante pour obtenir à la fois une vue d’ensemble globale des méthodes de collabora-tion pertinentes pouvant être utilisées dans la BI et une idée précise de la manière dont les utilisa-teur/trices pourraient bénéficier de la collaboration. L’analyse collaborative comprend le partage d’analyse, le mashup, l’annotation, la comparaison, la publication…
– Conception / spécifications / implémentation d’un framework pour l’analyse collaborative qui s’inscrira dans le développement global du projet ANR
Le framework développé inclura la gamme de propositions déterminées dans la typologie précédente. Un schéma sera dessiné pour représenter le processus collaboratif envisagé. Des spécifications devront être proposées avant la mise en œuvre.

Profil du candidat :
Business Intelligence, programmation/programmation web, gestion de données, rigueur.

Formation et compétences requises :
Le sujet de stage s’adresse à des étudiant·es en 1re ou 2e année de master (ou équivalent) en informatique décisionnelle

Adresse d’emploi :
Candidature à adresser à cecile.favre@univ-lyon2.fr et sabine.loudcher@univ-lyon2.fr ayant pour objet « Candidature Stage collaboratif BI4people » d’ici le 22 décembre 2020, accompagnée d’un CV et d’une lettre de motivation, ainsi que vos notes de l’année universitaire précédente.
Les candidat∙es retenu∙es après examen des dossiers seront convoqué∙es pour un entretien en visioconférence en janvier

Document attaché : 202012041321_sujet-stage_BI4PEOPLE_collaboratif.pdf

Synthèse et apprentissage de réseaux booléens prédictifs pour la différenciation cellulaire
Jan 4 – Jan 5 all-day

Offre en lien avec l’Action/le Réseau : RoD/– — –

Laboratoire/Entreprise : LaBRI, Univ Bordeaux
Durée : 4-6 mois
Contact : loic.pauleve@lri.fr
Date limite de publication : 2021-01-04

Contexte :
L’apprentissage de modèles informatiques permettant de reproduire et prédire les processus de différenciation cellulaire est un défi majeur avec de nombreuses applications en biologie et en médecine. D’un côté, les modèles logiques, en particulier avec les réseaux booléens, sont de plus en plus employés par les équipes en biologie théorique et expérimentale car ils correspondent bien avec le niveau de granularité des connaissances actuelles. D’un autre côté, l’essor des technologies de mesures en cellule unique, en particulier avec le single-cell RNA-seq, offre des données précises sur l’évolution des expressions des gènes au cours de processus de différenciation cellulaire.
Actuellement, à l’aide de méthodes logiques, nous savons énumérer des réseaux booléens qui satisfont les pré-requis demandés sur leur comportement, mais nous ne savons pas encore comment sélectionner ceux qui ont de bonnes capacités prédictives.

Sujet :
L’objectif de ce stage est d’ouvrir la voie à l’apprentissage de réseaux booléens prédictifs, en mettant au point différents scores de prédiction et en appliquant des méthodes d’apprentissage pour mettre en avant des caractéristiques des réseaux à optimiser. Par exemple: vaut-il mieux privilégier les réseaux simples, ou au contraire les plus complexes?

Le travail consistera dans un premier temps à mettre au point différents scores de prédictions d’un réseau booléen vis-à-vis de données de tests, et de les appliquer à différents jeux de données relatifs à la différenciation cellulaire. Puis, il faudra explorer différentes méthodes de type “Random Forests” ou encore “Principal Feature Analysis” pour apprendre les caractéristiques des réseaux booléens qui influent leur score de prédiction.
Le résultat du stage sera intégré dans la bibliothèque Python BoNesis (github.com/bioasp/bonesis).

Profil du candidat :
Étudiant de master informatique ou bio-informatique, avec une spécialisation IA/machine learning

Formation et compétences requises :
Une bonne connaissance des méthodes de type “Random Forests” et “Principal Component Analysis” est requise.
Des connaissances générales en logique propositionnelle et SAT, et des compétences en programmation (Python préférable, mais pas nécessaire) sont recommandées.
Aucune connaissance particulière en biologie n’est nécessaire.

Adresse d’emploi :
LaBRI UMR CNRS 5800
351, cours de la Libération 33400 Talence
France

Jan
8
Fri
2021
Détection d’objets et localisation dans les images sur smartphone
Jan 8 – Jan 9 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFAT, Université de Tours
Durée : 6 mois
Contact : cyril.derunz@univ-tours.fr
Date limite de publication : 2021-01-08

Contexte :
Financement pour 5 à 6 mois de stage à partir du 1er février pouvant être ajusté en fonction des contraintes du master.
Ce stage de Master 2, orienté Recherche, qui peut ouvrir sur une thèse, s’inscrit dans un projet de proposition d’un outil a destination des aveugles. Ce projet a pour but de développer des outils innovants basés sur des approches d’apprentissage profond pour l’aide aux déplacements des personnes malvoyantes.

Sujet :
Depuis quelques années, avec notamment l’avènement de l’apprentissage profond, l’IA fait des avancées importantes et son utilisation s’étend à de nombreux secteurs de l’activité humaine. Les jeunes handicapés sont soumis à un paradoxe : d’une part l’accès aux ressources numériques est une véritable révolution pour eux, mais d’autre part, ils sont souvent les laissés pour compte de ces progrès. Ce stage a pour mission de poser les jalons pour la production d’un assistant intelligent destiné à aider les handicapés visuels lors de leur déplacement.

Notre point de départ va concerner l’aide aux déplacements, avec trois volets liés entre eux. Une assistance intelligente doit permettre la reconnaissance d’objets dans l’environnement (objets du quotidien, objets personnels, objets mobiles, obstacles fixes, etc.), la cartographie de cet environnement pour adapter le déplacement à l’environnement direct, la définition d’interfaces homme-machine adéquates. Les objectifs de la thèse sur laquelle peut ouvrir ce stage portent sur trois thématiques de recherche en Informatique qui vont être liées entre elles par l’objectif que nous nous fixons : l’apprentissage machine à partir d’images, la géomatique, et l’interface homme/machine. Ce stage a pour objectif principal la question de l’apprentissage et de la reconnaissance des objets.

La détection d’objets à partir d’images/vidéos pour la reconnaissance de l’environnement proche a fortement bénéficié de l’avènement du Deep Learning allié aux évolutions récentes des capacités calculatoires [1,2]. Cependant, il reste de nombreux challenges pour l’instant non parfaitement couverts tels que la reconnaissance d’objets du quotidien, d’objets personnels, la détection d’obstacles fixes/mobiles, etc. Un aspect supplémentaire à la reconnaissance d’objets génériques concerne l’apprentissage en ligne et incrémental de la reconnaissance d’objet spécifiques choisis par la personne handicapée (comme ses objets personnels, l’entrée de son lycée, etc).

Une fois les objets détectés et reconnus, il faut pouvoir potentiellement les géolocalisés à l’aide des informations présentes dans les images et des données GPS du capteur exploité. Nous pourrions pour cela nous inspirer des travaux de [3,4] sur la localisation et l’identification des profondeurs.

L’objectif de ce stage est de proposer un premier outil permettant la reconnaissance d’objets à partir de photos en apprentissage profond et de leur localisation sur smartphone ANDROID. Après avoir fait un état de l’art sur les approches et outils existants, il s’agira donc de proposer un premier prototype.

Profil du candidat :
Etudiant en dernière année d’école d’ingénieur ou de master 2

Formation et compétences requises :
Etudiant en informatique.
Compétences attendues : Programmation Android, apprentissage (profond), notion de traitement d’images.

Adresse d’emploi :
LIFAT, Université de Tours, Site de Blois, 3 Place Jean-Jaurès 41000 BLOIS

Jan
10
Sun
2021
Stage PFE: Moteur d’exploration Big Data des données de campagne de mensuration
Jan 10 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : Université de Technologie de Troyes
Durée : 6 mois
Contact : babiga.birregah@utt.fr
Date limite de publication : 2021-01-10

Contexte :
DiTeX est une un laboratoire commun de R&D en Data-Innovation pour l’industrie du Textile et de l’habillement (DiTeX) qui regroupe l’Université de Technologie de Troyes (UTT) et l’Institut Français Textile et Habillement (IFTH). Il a pour ambition d’explorer les nouvelles voies dans le domaine de la modélisation statistique et des Big Data pour l’analyse et la valorisation des données appliquées aux problèmes et aux données de l’habillement. L’un des axes de développement de nouveau services concerne la segmentation des données métier (matériaux, mensurations, morphologie, etc.) pour permettre une exploration exhaustive des panels.

Sujet :
Pour avoir une bonne connaissance des données et de leur « richesse intrinsèque », il est important de mettre en place un moteur d’exploration. Ce moteur devra intégrer des algorithmes de classification et de segmentation de profils de campagnes de mensuration. L’objectif à terme est de pouvoir mesurer la fiabilité en identifiant (voir prédire) les critères impactant pour préconiser des techniques d’enrichissement de données.
Vos missions:
– Création d’une data pipeline
– Dimensionnement et création de la plateforme d’exploration
– Mise en place d’algorithmes de de segmentation
– Mise en place d’un outil de prédiction de la qualité des données.

Profil du candidat :
Le profil recherché doit avoir de bonnes connaissances en :
– Statistiques,
– Data science ou Big Data
– Ingénierie de la donnée (plus globalement),
De plus le candidat doit être en fin de cursus ingénieur ou master ou mastère spécialisé en Mathématiques ou Informatiques. Elle/il doit être capable de mener à bien une mission de « data exploration », présenter et défendre ses résultats.

Formation et compétences requises :
Sur le plan technique :
– Très bonne maîtrise de Python pour le data science,
– Rigueur dans la création et la gestion de bases de données,
– Connaissance en DataLake.

Adresse d’emploi :
Equipe Modélisation et Sûreté des Systèmes (M2S)
Département Recherche Opérationnelle, Statistiques Appliquées, Simulation (ROSAS)
Université de Technologie de Troyes
12, rue Marie Curie
CS 42060 – 10004 Troyes Cedex

Jan
15
Fri
2021
Automatic generation of session for fitness training
Jan 15 – Jan 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : PLEYO SAS / CNRS UMR6072 GREYC
Durée : Six months, e.g. Mar
Contact : riad.makdessi@pleyo.fr
Date limite de publication : 2021-01-15

Contexte :
The startup Pleyo, in development within Normandie incubation, works in the field of connected fitness. Its goal is to offer the user a complete experience by interacting in a playful way on a fitness device with a computer or game console.

Sujet :
The work required of the trainee is to design a training program generator. Depending on certain data, parameters and constraints, this generator will have to propose a training sequence made up of layers supporting multiple interacting training data and media formats, within the defined constraints.

A proposed approach for the work consists in the realization of a plan with techniques such as Markov decision process, and possibly machine learning techniques.

Profil du candidat :
Master 2 student in computer science or 3rd year of engineering school

Formation et compétences requises :
• Specialization in multi-agent systems, planning, reinforcement learning, MDP, constrained systems.
• Good level of English (read, written, spoken)
• Taste for sport, fitness, video games

Adresse d’emploi :
Caen (France)

Document attaché : 202101040906_PleyoInternshipProposal.pdf

Sécurisation des analyses en ligne d’entrepôts de données partagés
Jan 15 – Jan 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ERIC
Durée : 6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2021-01-15

Contexte :
Ce stage se fera dans le cadre du projet ANR BI4people (http://eric.univ-lyon2.fr/bi4people/). L’utilisation des technologies de la Business Intelligence (BI) telles que les entrepôts de données et les techniques d’analyses en ligne (OLAP) restent complexes et restent réservées à des spécialistes. L’objet de ce projet est de simplifier ces outils afin de les rendre accessible au plus grand nombre, par exemple des petites entreprises, des associations, etc.
Dans ce contexte, il est important de permettre aux utilisateurs de pouvoir partager leurs données et leurs analyses. Ces aspects collaboratifs induisent des problèmes de confidentialité de données. Plus généralement, on peut considérer des scenarios où la confidentialité des données et/ou des requêtes doivent être garanties. On pourrait également imaginer que des utilisateurs agissent de manière malveillante afin d’altérer les calculs afin de compromettre le résultat des requêtes.

Sujet :
Quelques solutions sont proposées dans la littérature [1, 2]. Les plus abouties en termes de sécurité sont basées sur des primitives cryptographiques récentes, appelées FHE (Fully Homomorphic Encryption). Ces solutions n’ont à ce jour qu’un intérêt théorique puisque les FHE existants ne sont pas encore suffisamment performants [3]. Pour obtenir des solutions utilisables en pratique, il est donc nécessaire de rogner sur la sécurité et/ou sur le type de requêtes pris en charge. Des hypothèses sur les utilisateurs peuvent aussi être introduites, comme par exemple la proportion d’utilisateurs malveillants, le fait qu’ils soient coalisés ou non, etc.
L’objectif de ce stage est d’explorer, d’évaluer et de comparer les solutions existantes. Suite à cette analyse de l’état de l’art, il s’agira de proposer des solutions dédiées à la problématique et aux contraintes spécifiques du projet BI4people.

[1] Raluca A. Popa, Catherine M. S. Redfield, Nickolai Zeldovich, Hari Balakrishnan: CryptDB: protecting confidentiality with encrypted query processing. SOSP 2011: 85-100
[2] Dan Boneh, Craig Gentry, Shai Halevi, Frank Wang, David J. Wu: Private Database Queries Using Somewhat Homomorphic Encryption. ACNS 2013: 102-118
[3] Ilaria Chillotti, Nicolas Gama, Mariya Georgieva, Malika Izabachène:TFHE: Fast Fully Homomorphic Encryption Over the Torus. J. Cryptol. 33(1): 34-91 (2020)

Profil du candidat :
Compétences avancées (niveau M2) en informatique. Notions de cryptographie et/ou de sécurité informatique fortement souhaitées.

Formation et compétences requises :
Compétences avancées (niveau M2) en informatique. Notions de cryptographie et/ou de sécurité informatique fortement souhaitées.

Adresse d’emploi :
Merci d’adresser, avant le 15 décembre 2020, votre candidature avec un CV, une lettre de motivation ainsi que vos notes de l’année universitaire en cours et de l’année dernière à gerald.gavin@univ-lyon1.fr  et jerome.darmont@univ-lyon2.fr

Document attaché : 202011241344_StageBI4people4.pdf

Jan
29
Fri
2021
Apprentissage collaboratif multi-paradigme pour l’analyse de séquences d’images de télédétection
Jan 29 – Jan 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : MIA (AgroParisTech) et ICube (Université de Strasb
Durée : 5 à 6 mois
Contact : gancarski@unistra.fr
Date limite de publication : 2021-01-29

Contexte :
Ce stage de Master 2, très fortement orienté Recherche, s’inscrit dans le cadre d’un projet co-porté par les laboratoires MIA (AgroParisTech) et ICube (Université de Strasbourg) en collaboration étroite avec le CNES (Centre National d’Études Spatiales). Ce projet a pour but de développer des méthodes innovantes en apprentissage automatique pour l’étude et l’interprétation de séries d’images de télédétection en vue d’extraire et mettre en évidence les phénomènes sous-jacents affectant les zones étudiées (urbanisation, occupation des sols, pratiques agricoles, érosion…). Il s’agit d’un problème difficile pour lequel des algorithmes peuvent s’appuyer sur des données variées, dont certaines, assez peu nombreuses, ont été étiquetées par des experts, et d’autres, beaucoup plus nombreuses, ne l’ont pas été.

Sujet :
L’objectif de ce stage est d’étudier les concepts entrant dans la définition de méthodes d’apprentissage collaboratif multi-paradigme pour des données temporelles dans lesquelles des agents d’apprentissage supervisé et des agents d’apprentissage non supervisé collaborent afin d’améliorer mutuellement leur résultat et, in fine, de parvenir à une interprétation consensuelle de ces données.}

Il s’agira en particulier de répondre des questionnements scientifiques tels que :
– Quelles informations (données, hypothèses, contraintes…) les méthodes doivent elles échanger pour mettre en place cette collaboration ?
– Comment évaluer globalement ou deux à deux des résultats par nature différent (modèle vs regroupement par exemple) ?
– Comment en déduire globalement ou au niveau des agents, les actions à entreprendre pour améliorer les résultats et/ou consensus courants?
– Comment combiner les avis des différents agents en un consensus ?
– Dans un scénario d’échanges itératifs, comment assurer une convergence ?

La littérature propose déjà un certain nombre des réponses plus ou moins partielles pour des apprentissages particuliers sur lesquelles le travail de stage pourra s’appuyer. En apprentissage supervisé, on citera les méthodes d’ensemble (e.g. boosting,co-learning…) ou les approches semi-supervisées . Par contre, hormis la méthodeSamarah proposée par ICube, très peu de résultats sont établis dans le cadre de méthodes essentiellement non supervisées, en particulier dans le cas du clustering collaboratif. Mais, ces cadres sont tous très contraints et ne s’étendent pas directement à l’étude de l’apprentissage collaboratif multi-paradigme avec des données hétérogènes mesurées dans le temps.

Profil du candidat :
Master 2 en Informatique ou équivalent en École d’ingénieur

Avoir une appétence forte pour le recherche en informatique et dans le domaine de la télédétection
Être curieux et autonome, tout en ayant le goût du travail en équipe

La volonté de poursuivre en thèse sera un plus indéniable. Une thèse est d’ores et déjà finançable. Ce stage sera donc un bon tremplin …

Formation et compétences requises :
Avoir de solides connaissances en apprentissage automatique.
Avoir de bonnes notions d’analyse de séries temporelles
Etre à l’aise dans l’écriture de programmes Python et/ou en JAVA

Une connaissance en analyse d’images de télédétection est un plus mais n’est pas obligatoire, une formation à l’analyse de ce type de données sera assurée.

Adresse d’emploi :
Le stagiaire pourra choisir le lieu de déroulement de stage entre :
– UMR MIA (Mathématiques et Informatique Appliquées) 16, rue Claude Bernard, 75005 Paris
et
– UMR ICUBE – Université de Strasbourg , 300 bld Sébastien Brant, 6412 Illkirch

Document attaché : 202012011403_Sujet-M2-CNES.pdf

APPRENTISSAGE DE MODELES GAN POUR LA SIMULATION DE TRAJECTOIRES D’OBJETS DERIVANTS
Jan 29 – Jan 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Mercator-Ocean et IMT-Atlantique
Durée : 6 mois
Contact : carlos.granero-belinchon@imt-atlantique.fr
Date limite de publication : 2021-01-29

Contexte :
Mercator Océan, centre européen de prévision océanique, décrit et prévoit l’évolution de l’océan en développant, et en maintenant en condition opérationnelle, plusieurs modèles numériques d’analyse et de prévision océanique.

Grâce aux champs de courants produits par ces modèles, il est possible de simuler les trajectoires de différents objets qui dérivent dans les océans, en surface ou en profondeur : icebergs, débris plastiques, nappes de pétrole, organismes marins dérivant passivement (plancton) ou plus activement (animaux marins se déplaçant avec les courants plus leur vitesse de nage).

On sait cependant que, même pour les objets les plus simples, à savoir les bouées dérivantes spécifiquement conçues pour suivre les courants, les trajectoires simulées et observées se comparent souvent assez mal (statistiquement) : les déplacements et leur variabilité sont souvent mal estimées.

Sujet :
L’objectif du stage proposé est de développer et mettre en oeuvre un outil de simulation de trajectoires basé sur des techniques de l’intelligence artificielle, et plus particulièrement d’apprentissage profond. Les variables explicatives utilisées seront choisies parmi l’ensemble des variables simulées par les modèles océaniques, à commencer par les courants. On exploitera, non seulement les valeurs de courants le long des trajectoires, mais également dans leur voisinage (spatial et temporel).

Dans un premier temps on s’attachera à développer un outil capable de simuler les trajectoires de bouées dérivantes simples. Le jeu de données d’apprentissage disponible pour ce faire est énorme : depuis 2003, entre 600 et 1600 bouées sont suivies quotidiennement sur l’ensemble des océans du globe ([1], et https://www.aoml.noaa.gov/global-drifter-program/ ). En fonction des progrès réalisés, on pourra dans un second temps, s’attaquer à la simulation de trajectoires plus complexes comme celles de tortues marines (aussi suivies par satellite). Les tortues, comme les
flotteurs, dérivent avec le courant et nagent pour se maintenir dans des eaux riches en nourriture et suffisamment chaudes. On devrait donc pouvoir simuler leurs trajectoires en utilisant, comme variables explicatives, la vitesse du courant, la température de l’eau et la production primaire ou la concentration en micro-necton (un proxy de la densité de proies). L’objectif ultime de ce type de recherche est de prévoir les zones où les tortues marines sont
les plus susceptibles de se concentrer afin de pouvoir prendre des mesures adéquates pour minimiser les risques de captures accidentelles par les flottes de pêches industrielles.

D’un point de vue méthodologique, on explorera des approches de type GAN (Generative Adversarial Network) pour la simulation conditionnelle de trajectoires [2]. Après une phase d’état de l’art, un part importante du travail envisagé consistera à explorer et évaluer différents types de représentation et modélisation des données trajectométriques intégrant pleinement leur caractère stochastique (e.g., représentation latente, équations différentielles stochastiques, formulations variationnelles,…) [3,4,5]. Un autre aspect important portera sur la mise en oeuvre d’un cadre expérimental d’évaluation quantitatif et qualitatif des modèles et algorithmes proposés pour les différents cas d’étude envisagés.

Profil du candidat :
Formation initiale de type Master 2/Ingénieur en Mathématiques Appliquées, Sciences des données, Intelligence Artificielle et/ou Traitement du Signal

Formation et compétences requises :
Bases en apprentissage statistique et réseaux de neurones

Intérêt pour les problèmes environnementaux.

Grande rigueur dans l’organisation du travail, la gestion des données et des résultats. Les données à manipuler sont diverses et représentent des volumes importants.

Bonne maîtrise de l’outil informatique : ce stage nécessite la connaissance de l’environnement LINUX, et du langage de programmation Python.

Connaissances appréciées des environnements Python pour l’apprentissage profond (keras, tensorflow et/ou pytorch)

Adresse d’emploi :
Le stage sera co-encadré par Carlos Granero-Belinchon (IMT Atlantique), Simon van Gennip et Philippe Gaspar (Mercator Océan). Les étudiants intéressés sont invités à envoyer leur CV
et une lettre de motivation à carlos.granero-belinchon@imt-atlantique.fr , pgaspar@mercator-ocean.fr et svangennip@mercator-ocean.fr

En fonction des conditions sanitaires du moment, le stage pourra se dérouler à Ramonville Saint-Agne (Toulouse) sur le site de Mercator-Océan, à l’IMT Atlantique ou en télétravail.

Document attaché : 202011090713_PropositionStage_IA et trajectoires_v2.pdf

Détection d’anomalies dans un flux de graphes
Jan 29 – Jan 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS CNRS UMR 5205 (Villeurbanne, France)
Durée : 5/6 mois
Contact : hamida.seba@univ-lyon1.fr
Date limite de publication : 2021-01-29

Contexte :
Ce stage sera encadré par Mohammed Haddad (LIRIS, Lyon 1) Hamida Seba (LIRIS, Lyon 1) en collaboration avec des collègues de l’université du Luxembourg. Il s’effectuera dans le cadre du projet ANR PRCI GLADIS et peut donner lieu à une continuation en thèse.

Sujet :
Le sujet détaillé est disponible sur ce lien: https://perso.liris.cnrs.fr/hamida.seba/Master/StageM2_Gladis.pdf

Profil du candidat :
M2 informatique

Formation et compétences requises :
La maitrise de C++ et python est appréciée

Adresse d’emploi :
LIRIS, université Lyon 1
43, bd du 11 novembre 1918
Villeurbanne

Fusion Spectro-Spatio-Temporelle d’Images Sentinel-2 et Sentinel-3
Jan 29 – Jan 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISIC
Durée : 6 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2021-01-29

Contexte :
Ce stage s’inscrit dans le cadre des activités conjointes des laboratoires LISIC (EA 4491, Calais) – plus particulièrement les activités de l’équipe SPeciFI dans l’antenne de Saint-Omer du LISIC — et LOG (UMR 8187, Wimereux) – plus particulièrement les activités de l’équipe TELHYD du LOG – autour de l’imagerie satellitaire pour l’observation marine côtière, dans le cadre de la Structure Fédérative de Recherche “Campus de la Mer” et du projet TOSCA OSYNICO financé par le CNES. En particulier, dans le cadre de ces projets initiés en 2020, le LISIC développe des méthodes à la frontière entre traitement du signal et des images et intelligence artificielle appliquées aux données satellitaires (images multi- ou hyper-spectrales). Le LOG s’intéresse à l’analyse théorique et l’observation de processus physiques afin de comprendre et prévoir leurs impacts sur l’environnement marin, d’un point de vue de la biologie ou de la biogéochimie.

Sujet :
L’observation satellitaire de notre planète connaît depuis plusieurs décennies d’importantes avancées instrumentales, avec des développements conséquents que ce soit en terme de résolution spatiale (par exemple en télédétection de la couleur de l’eau à haute résolution spatiale 10-60 m) et en terme de résolution spectrale (imagerie hyper-spectrale). Une image Multi-Spectrale (MS) ou Hyper-Spectrale (HS) consiste en un cube de données dont deux axes décrivent les variations spatiales et un axe décrit les variations spectrales. La principale différence entre une image HS et une image MS réside dans le nombre très réduit de bandes spectrales observées dans cette dernière.

Cependant, le Rapport Signal à Bruit (RSB) d’un imageur MS ou HS est proportionnel au rapport entre la surface du capteur et le nombre de bandes spectrales observées. En conséquence, pour maintenir un RSB constant, l’augmentation du nombre de bandes spectrales dans une image HS entraîne une diminution de la résolution spatiale. Ainsi, aujourd’hui, notre planète est observée à la fois par des imageurs MS ayant une très bonne résolution spatiale mais une faible résolution spectrale et par des imageurs HS ayant une très bonne résolution spectrale mais une faible résolution spatiale (et un ensemble d’imageurs aux propriétés intermédiaires).

La fusion d’images satellitaires MS et HS permet d’améliorer les résolutions spectrale, spatiale voire temporelle de ces images d’origine. De nouvelles techniques de fusion d’images émergent constamment, faisant passer de pan-sharpening (fusion d’images panchromatiques et multi-spectrales) à la fusion spectro-spatio-temporelle de données provenant de différents capteurs et plates-formes. Cependant, l’application de la fusion d’images satellitaires dans le domaine de l’observation des environnements marins et des zones côtières reste encore limitée. Le nombre et la complexité des différentes techniques disponibles aujourd’hui peuvent être accablants, empêchant ainsi les utilisateurs d’exploiter pleinement le potentiel des produits de fusion spectro-spatio-temporelle des images tels que la fusion des images provenant de Sentinel-3 et Sentinel-2. Ainsi, plusieurs techniques de fusion de données (aussi connues sous le nom de multi-sharpening) ont été proposées ces dernières années pour créer de nouvelles images combinant la bonne résolution spatiale des image MS avec la bonne résolution spectrale des images HS [1]. Les principales techniques modernes de fusion sont basées sur des décompositions matricielles [2] ou tensorielles [3], ou sur de l’apprentissage profond [4].

Dans le cadre de ce stage, nous nous intéressons à l’observation marine côtière via les données des satellites Sentinel-2 et Sentinel-3. Les images obtenues par ces deux satellites permettent d’étudier la couleur de l’océan, c’est-à-dire la répartition spatiale et temporelle de la concentration en phytoplancton, en matière en suspension et en matière organique. Les données Sentinel-2 consistent en des cubes avec 13 bandes spectrales pour une résolution spatiale variant de 10 à 60 m en fonction des bandes, acquises tous les 5 jours environ. Les données Sentinel-3 sont des cubes avec 21 bandes spectrales pour une résolution spatiale de 300 m, acquises tous les jours. En observation marine, pour comprendre les phénomènes complexes qui se passent en milieu côtier, il est nécessaire que les données à disposition combinent :
– une bonne résolution spectrale pour mieux analyser le milieu biogéochimique (chlorophylle, particules en suspension, etc) ;
– une bonne résolution spatiale pour mieux appréhender les phénomènes de répartition de ce milieu qui sont beaucoup plus complexes en milieu côtier qu’en pleine mer ;
– une courte période d’acquisition de ces images pour repérer des phénomènes très concentrés dans le temps (blooms de phytoplanctons par exemple).
Aucune donnée satellitaire ne permet aujourd’hui de respecter ces trois contraintes.

Dans le cadre de ce stage, nous proposons de traiter conjointement les séries temporelles de données Sentinel-2 et Sentinel-3, afin de générer une nouvelle série temporelle de cubes de données obtenues par multi-sharpening, permettant d’obtenir des images avec le nombre de bandes spectrales de Sentinel-3 et la résolution spatiale de Sentinel-2. Cela permettra de mieux caractériser la couleur des eaux côtières. Les méthodes envisagées feront soit appel à un formalisme régularisé de factorisation matricielle (démélange ou séparation de sources) soit à un formalise de type apprentissage profond.

Le stage pourra être poursuivi par la préparation d’une thèse dans le domaine de la factorisation matricielle et/ou de l’apprentissage profond (sous réserve d’obtention d’un financement : ce point sera défini durant le stage).

Reférences :
[1] Laetitia Loncan, Luis B De Almeida, Jos ́e M Bioucas-Dias, Xavier Briottet, Jocelyn Chanussot, NicolasDobigeon, Sophie Fabre, Wenzhi Liao, Giorgio A Licciardi, Miguel Simoes, et al. Hyperspectral pansharpening :A review.IEEE Geoscience and remote sensing magazine, 3(3) :27–46, 2015.
[2] Naoto Yokoya, Takehisa Yairi, and Akira Iwasaki. Coupled nonnegative matrix factorization unmixing for hy-perspectral and multispectral data fusion. IEEE Transactions on Geoscience and Remote Sensing, 50(2) :528–537, 2011.
[3] Charilaos I Kanatsoulis, Xiao Fu, Nicholas D Sidiropoulos, and Wing-Kin Ma. Hyperspectral super-resolution :A coupled tensor factorization approach. IEEE Transactions on Signal Processing, 66(24) :6503–6517, 2018.
[4] Renwei Dian, Shutao Li, Anjing Guo, and Leyuan Fang. Deep hyperspectral image sharpening. IEEE transactions on neural networks and learning systems, (99) :1–11, 2018.

Profil du candidat :
Vous préparez actuellement un Master 2 ou un diplôme d’ingénieurs en Sciences de Données : traitement du signal et des images, informatique avec une dominante en intelligence artificielle/apprentissage/machine learning, mathématiques appliquées, etc.

Formation et compétences requises :
Vous préparez actuellement un Master 2 ou un diplôme d’ingénieur en sciences de données (traitement du signal et des images, informatique avec une dominante en intelligence artificielle/apprentissage/machine learning, mathématiques appliquées). Vous êtes curieux(se) et très à l’aise en programmation (Matlab, Python). Vous lisez et parlez avec aisance l’anglais courant. Bien que non-obligatoire, une première expérience en factorisation de données (matrices ou tenseurs, séparation de sources, apprentissage de dictionnaire) ou en deep learning sera appréciée.

Pour candidater, merci d’envoyer un courriel à {ahed.alboody, matthieu.puigt, gilles.roussel} [at] univ-littoral.fr en y annexant les documents pouvant supporter votre candidature :
– votre CV,
– une lettre de motivation,
– vos relevés de notes de Licence 3, Master 1, Master 2 (si ces dernières sont disponibles) ou d’Ecole d’Ingénieurs (première à troisième année),
– deux lettres de recommandation ou les noms et moyens de contact de deux référents académiques.

Adresse d’emploi :
Le stage aura lieu dans la nouvelle antenne de Longuenesse du LISIC, dédiée actuellement à l’imagerie hyperspectrale. Cette antenne, créée récemment, compte à ce jour 5 chercheurs permanents, 1 chercheur post-doctorant et 4 doctorants. Les encadrants du LISIC apporteront apporteront leur expertise respective en traitement des images MS/HS et en machine learning (deep learning, factorisation matricielle, optimisation) pour l’imagerie satellitaire.

De nombreux échanges auront lieu avec le LOG, situé à Wimereux. Le LOG apportera ses compétences sur la couleur de l’océan, notamment sur l’analyse des images fusionnées et leur validation. Le LOG fournira les mesures in-situ de validation et des images dans des zones côtières d’intérêt (Manche orientale, Guyane, Cambodge, Vietnam).

Ces deux laboratoires sont situés au coeur du Parc naturel régional des caps et marais d’Opale, à proximité directe de Lille, de l’Angleterre, de la Belgique et de l’Europe du Nord (Amsterdam à 4h de route de Longuenesse).

Document attaché : 202011131738_Stage_LISIC_SFR_2021.pdf

Jan
30
Sat
2021
Cartographie de typologie de couvert forestier par imagerie satellitaire multi-source et multi-tempo
Jan 30 – Jan 31 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : raffaele.gaetano@cirad.fr
Date limite de publication : 2021-01-30

Contexte :
Le suivi de l’état des forêts tropicales est d’importance mondiale (Herold et al. 2019). Il appelle le suivi dans la durée et sur de grandes surfaces de variables « biophysiques » de structures forestières (couvert, hauteur de canopée, biomasse épigée, …) et d’indicateurs de diversité spécifique et fonctionnelle. Le suivi du couvert arboré, notion polysémique, a fait l’objet de travaux importants, principalement basés sur les séries d’images satellitaires longues à moyenne résolution ou haute résolution spatiale (MODIS, Landsat, respectivement), Ceci a débouché sur des produits cartographiques ambitieux à des échelles pantropicales et mondiales (e.g. Avitabile et al. 2012; Hansen et al. 2013 ; Kubayashi et al. 2016). Cependant, ces produits recèlent des faiblesses de plusieurs ordres. Si celles-ci n’opèrent pas leur intérêt, tant que l’ampleur des surfaces peut permettre la compensation des imprécisions locales, elles rendent leurs utilisations hasardeuses pour des applications demandant de se focaliser sur des surfaces plus restreintes (downscaling), ou requérant un niveau de précision supérieur à celui effectif (qui n’est pas toujours explicite, d’ailleurs).

Le projet Sé2coul, a pour objectif de traduire les opportunités, offertes par les données Sentinel-1 et Sentinel-2, pour le suivi et la caractérisation des forêts, en tirant partie : i) De la densification temporelle des séries temporelles d’images satellitaires et de leur accroissement en résolution spatiale. Ceci doit permettre d’aller bien au-delà de ce qui peut déjà être fait actuellement avec les séries HR de type « Landsat » (par exemple via le Google Earth Engine) pour corriger les effets instrumentaux dans l’optique de détection de changements francs de couvert (déforestation, feu, plantation, …), ou de détections de perturbations localisées (exploitation, chute d’arbres, …). ii) La facilitation de l’usage conjoint des données radar et optiques (Sentinel-1 et -2). En complément de l’optique, l’information radar en bande C (bien que probablement saturante à des niveaux assez bas de couvert et de biomasse) est sensible à la structure tridimensionnelle, et peut aider à lever des ambiguïtés dans les végétations complexes, ouvertes (par exemple pour le suivi de la dynamique des trouées, naturelles ou non), ou marquées par des variations saisonnières d’humidité (y compris du substrat). iii) Le développement de techniques d’intelligence artificielle (deep-learning) pour tirer parti des atouts des données Sentinel dans la perspective spécifique de la caractérisation biophysique des composantes ligneuses de la végétation dans des contextes tropicaux variés. Il est envisagé dans l’esprit de TWINNS (TWIn Neural Networks for Sentinel data ; Ienco et al. 2019).

Le projet aura pour objectif de traduire ces opportunités en avancées significatives concernant l’estimation de caractéristiques fondamentales de la végétation ligneuse : (i) structure : Hauteur de canopée, LAI, biomasse épigée, (ii) diversité, (iii) signature fonctionnelle saisonnière.

Sujet :
En s’appuyant sur des méthodes d’apprentissage profond, l’objectif de ce stage est d’évaluer le potentiel de tels méthodes pour la cartographie et la caractérisation des typologies de couvert forestier à l’aide d’imagerie multi-source Sentinel-1 et Sentinel-2 sur des terrains d’étude telles que la Guyane, le Cameroun et le Sénégal. Un ou deux terrains d’études, parmi ceux listés par avant, seront choisis en accord avec les chercheurs partenaires du projet (UMR AMAP).
Pour cela, nous allons nous appuyer sur des séries temporelles d’images satellitaires radar/optique pour mieux reconnaître les différentes typologies de couvert forestier. Afin de l’évaluation, la méthode d’apprentissage profond sera aussi comparée à des méthodes plus classiques et communément utilisées en télédétection (par exemple Random Forest ou SVM). Un deuxième objectifs, si le temps le permettra, sera dédié à l’utilisation de techniques déjà disponibles au sein de l’UMR TETIS pour évaluer le potentiel des données radar/optique (Sentinel-1 et Sentinel-2) pour l’estimation de variables biophysiques (i.e. LAI ou autre) toujours à travers des méthodes d’apprentissage profond.

Les principales étapes envisagées pour la réalisation du stage sont :
+ Analyse bibliographique sur les méthodes d’apprentissage profond pour le couplage radar/optique pour la cartographie automatique.
+ Mise en place du jeu de données :
+ Prise en main des données existantes
+ Téléchargement des série temporelle d’images Sentinel-1 et Sentinel-2
+ Prétraitement des données satellitaires
+ Préparation du jeu de données pour l’évaluation
+ Identification d’une méthode d’apprentissage profond déjà existante.
+ Mise en place de telle méthode dans le contexte de la cartographie de la typologie du couvert forestier
+ Évaluation de la méthode déployée à travers une analyse quantitative ainsi qu’ une analyse qualitative.
+ Rédaction du rapport et préparation de la soutenance.

Profil du candidat :
– Master II ou dernière année d’école ingénieur en Traitement du Signal, Informatique ou Télédétection,

– Compétences :
+ programmation informatique et géomatique
+ Bonne connaissance des méthodes de machine learning et deep
learning
+ Goût pour la recherche scientifique et l’interdisciplinarité
+ Maîtrise de l’anglais et bonne capacité rédactionnelle

Formation et compétences requises :
– Master II ou dernière année d’école ingénieur en Traitement du Signal, Informatique ou Télédétection,

– Compétences :
+ programmation informatique et géomatique
+ Bonne connaissance des méthodes de machine learning et deep
learning
+ Goût pour la recherche scientifique et l’interdisciplinarité
+ Maîtrise de l’anglais et bonne capacité rédactionnelle

Adresse d’emploi :
Maison de la Télédétection, 500, rue Jean François Breton – Montpellier (34)

Document attaché : 202012141346_Stage_Sen2Coul.pdf

Évaluation de l’impact environnemental des méthodes de traitement automatique de la langue
Jan 30 – Jan 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISN
Durée : 5 mois
Contact : anne-laure.ligozat@universite-paris-saclay.fr
Date limite de publication : 2021-01-30

Contexte :
De nombreux travaux en Traitement Automatique de la Langue (TAL) s’appuient sur des méthodes d’apprentissage. Ainsi, l’apprentissage profond offre des performances souvent intéressantes pour de nombreuses tâches d’analyse de textes. L’essor récent des méthodes neuronales donne lieu à une utilisation croissante de ressources numériques pour un large éventail de problèmes. Dans ce contexte, les méthodes symboliques ou méthodes d’apprentissage “classiques” sont délaissées alors qu’une comparaison systématique serait intéressante du point de vue scientifique, opérationnel et environnemental. En particulier, les méthodes neuronales ont un impact environnemental élevé qui ne cesse d’augmenter avec les années (Schwartz et al., 2019). Un exemple de travail pertinent en traitement automatique des langues est (Strubell et al., 2019), qui a étudié la consommation énergétique de l’apprentissage de plusieurs modèles. (Schwartz et al., 2019) prône donc l’émergence de travaux de Green AI, en parallèle de travaux standards, dans lesquels l’efficience des méthodes serait mise en valeur, c’est-à-dire la capacité à obtenir une performance avec un minimum de ressources.

Sujet :
Ce projet a pour objectif à long terme de proposer une comparaison détaillée de l’utilisation d’un large panel de méthodes de traitement automatique de la langue du point de vue de leur performance, de leur complexité algorithmique, du temps humain et machine requis pour les mettre en oeuvre.
Dans un premier temps, il s’agira de réaliser une revue systématique des outils de mesure de l’impact environnemental des expériences informatiques. Une veille de la littérature récente montre que divers outils existent afin d’estimer l’impact des expériences informatiques. On recense notamment des outils en ligne comme par exemple, Green Algorithms (http://www.green-algorithms.org/) et ML CO2 impact (https://mlco2.github.io/impact/) ou des outils à intégrer dans la mise en oeuvre des expériences, par exemple, “experiment impact tracker” (Henderson et al., 2020) et “carbon tracker” (Anthony et al., 2020). Nous souhaitons recenser systématiquement les outils existant et les étudier afin de déterminer les mesures d’impact calculées, la facilité de mise en oeuvre, la portée d’utilisation possible.

Profil du candidat :
M2 ou école d’ingénieur en fin d’études, avec spécialisation en informatique

Formation et compétences requises :
Le.a stagiaire devra avoir de bonnes compétences en informatique. Des connaissances en traitement automatique de la langue seront particulièrement appréciées. Le contenu et l’ambition du stage pourront être modulés en fonction du niveau d’étude et de la durée du stage du/de la candidat.e.

Adresse d’emploi :
rue du Belvédère, Orsay

Document attaché : 202012011258_StageM2_GreenNLP2020_FR.pdf

Méthodes de machine et deep learning pour caractériser l’architecture et la production d’une core-co
Jan 30 – Jan 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR AGAP, CIRAD
Durée : 6 mois
Contact : frederic.boudon@cirad.fr
Date limite de publication : 2021-01-30

Contexte :
Dans un contexte de changement climatique et de diminution des intrants (engrais, eau, pesticides, etc.), la sélection de variété d’arbres fruitiers performants en condition de culture sub-optimale devient incontournable. Des traits architecturaux (structure de la plante, distribution du feuillage) doivent être considérés pour prendre en compte le potentiel de production intrinsèque des variétés (génotypes), leurs interactions avec l’environnement (lumière, pluie, insectes, etc.) et leur facilité de conduite. Pour évaluer de tels traits de manière précise et à haut débit, nous développons une approche basée sur les LiDARs aéroportés qui permettent de scanner rapidement un verger en 3D. Ce choix fait suite à des premières expérimentations qui ont consisté à scanner en période de production (avec feuilles et fruits) les arbres d’une collection de variétés de pommiers, par LiDAR terrestres. Ces approches se sont révélées fastidieuses dans le processus d’acquisition. Elles nous ont toutefois permis une première caractérisation de l’architecture des arbres (Coupel et al., 2019) et une estimation de leur production (Artzet et al., 2020). Une partie de ces méthodes est basée sur des approches de machine et deep learning, avec notamment l’utilisation de réseaux pour le traitement de points, tel que RandLa-Net (Hu et al., 2019). Récemment, nous avons souhaité revisiter la méthode d’acquisition en procédant à des scans par Lidar aéroporté, plus rapides. Néanmoins les résolutions et les points de vue différents entre LiDAR terrestre et aéroporté nécessitent d’adapter les méthodes de caractérisation et d’identification des organes. Dans le cadre de scans de vergers entiers, l’identification des arbres individuels et des points leur correspondants est un challenge important pour l’automatisation de nos méthodes.

Sujet :
L’objectif de ce stage est donc de formaliser un pipeline de traitement de points basé sur des méthodes de machine et deep learning qui permettra d’identifier chaque instance d’arbre, de caractériser sa forme, sa densité foliaire et sa production en adaptant des indicateurs et les méthodes d’estimation associé à ces nouvelles données. L’enjeu méthodologique est d’adapter à des résolutions variées, possiblement très faibles, des méthodes de détection d’instances (instance segmentation) tel que RandLa-Net. Pour cela des bases de données synthétiques et réelles à différentes résolutions pourront être combinées pour l’apprentissage. Les sorties de ce pipeline seront des indicateurs quantitatifs et objectifs du développement des arbres pouvant entrer dans des analyses génétiques de type Genome Wide Association Studies (GWAS).

Étapes principales du stage :
• Etat de l’art, bibliographie (méthodes de deep et machine learning, applications open-source, librairies python, …)
• Prise en main de la chaine de traitement existante et test sur les nouveaux jeux de données
• Développement et paramétrisation d’algorithmes adaptés pour l’identification des arbres et des organes.
• Test de la nouvelle chaine de traitement pour la caractérisation de la variabilité génotypique de la population

Profil du candidat :
– Informaticien(ne) motivé(e) et curieux(se).
– Bonne connaissance du Python et/ou C++.
– Connaissance en deep learning.
– Goût pour la modélisation 3D des plantes.
– Aptitude à travailler en équipe.
– Autonome (possible situation de télétravail).

Formation et compétences requises :
Ce stage peut convenir à des étudiant(e)s d’école d’ingénieur ou en informatique, ayant reçu des enseignements sur les méthodes de machine et deep learning.
Une compétence en programmation sera nécessaire, ainsi qu’une capacité rédactionnelle et le goût pour le travail multidisciplinaire.
Une première expérience (stage, TP) en machine et deep learning serait un plus.

Adresse d’emploi :
Avenue d’Agropolis, TA 178/04, 34398 Montpellier.

Document attaché : 202012030951_stage_DigitAG_AGAP-AFEF-vf.pdf