Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Jan
15
Fri
2021
Sécurisation des analyses en ligne d’entrepôts de données partagés
Jan 15 – Jan 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ERIC
Durée : 6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2021-01-15

Contexte :
Ce stage se fera dans le cadre du projet ANR BI4people (http://eric.univ-lyon2.fr/bi4people/). L’utilisation des technologies de la Business Intelligence (BI) telles que les entrepôts de données et les techniques d’analyses en ligne (OLAP) restent complexes et restent réservées à des spécialistes. L’objet de ce projet est de simplifier ces outils afin de les rendre accessible au plus grand nombre, par exemple des petites entreprises, des associations, etc.
Dans ce contexte, il est important de permettre aux utilisateurs de pouvoir partager leurs données et leurs analyses. Ces aspects collaboratifs induisent des problèmes de confidentialité de données. Plus généralement, on peut considérer des scenarios où la confidentialité des données et/ou des requêtes doivent être garanties. On pourrait également imaginer que des utilisateurs agissent de manière malveillante afin d’altérer les calculs afin de compromettre le résultat des requêtes.

Sujet :
Quelques solutions sont proposées dans la littérature [1, 2]. Les plus abouties en termes de sécurité sont basées sur des primitives cryptographiques récentes, appelées FHE (Fully Homomorphic Encryption). Ces solutions n’ont à ce jour qu’un intérêt théorique puisque les FHE existants ne sont pas encore suffisamment performants [3]. Pour obtenir des solutions utilisables en pratique, il est donc nécessaire de rogner sur la sécurité et/ou sur le type de requêtes pris en charge. Des hypothèses sur les utilisateurs peuvent aussi être introduites, comme par exemple la proportion d’utilisateurs malveillants, le fait qu’ils soient coalisés ou non, etc.
L’objectif de ce stage est d’explorer, d’évaluer et de comparer les solutions existantes. Suite à cette analyse de l’état de l’art, il s’agira de proposer des solutions dédiées à la problématique et aux contraintes spécifiques du projet BI4people.

[1] Raluca A. Popa, Catherine M. S. Redfield, Nickolai Zeldovich, Hari Balakrishnan: CryptDB: protecting confidentiality with encrypted query processing. SOSP 2011: 85-100
[2] Dan Boneh, Craig Gentry, Shai Halevi, Frank Wang, David J. Wu: Private Database Queries Using Somewhat Homomorphic Encryption. ACNS 2013: 102-118
[3] Ilaria Chillotti, Nicolas Gama, Mariya Georgieva, Malika Izabachène:TFHE: Fast Fully Homomorphic Encryption Over the Torus. J. Cryptol. 33(1): 34-91 (2020)

Profil du candidat :
Compétences avancées (niveau M2) en informatique. Notions de cryptographie et/ou de sécurité informatique fortement souhaitées.

Formation et compétences requises :
Compétences avancées (niveau M2) en informatique. Notions de cryptographie et/ou de sécurité informatique fortement souhaitées.

Adresse d’emploi :
Merci d’adresser, avant le 15 décembre 2020, votre candidature avec un CV, une lettre de motivation ainsi que vos notes de l’année universitaire en cours et de l’année dernière à gerald.gavin@univ-lyon1.fr  et jerome.darmont@univ-lyon2.fr

Document attaché : 202011241344_StageBI4people4.pdf

Jan
29
Fri
2021
Apprentissage collaboratif multi-paradigme pour l’analyse de séquences d’images de télédétection
Jan 29 – Jan 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : MIA (AgroParisTech) et ICube (Université de Strasb
Durée : 5 à 6 mois
Contact : gancarski@unistra.fr
Date limite de publication : 2021-01-29

Contexte :
Ce stage de Master 2, très fortement orienté Recherche, s’inscrit dans le cadre d’un projet co-porté par les laboratoires MIA (AgroParisTech) et ICube (Université de Strasbourg) en collaboration étroite avec le CNES (Centre National d’Études Spatiales). Ce projet a pour but de développer des méthodes innovantes en apprentissage automatique pour l’étude et l’interprétation de séries d’images de télédétection en vue d’extraire et mettre en évidence les phénomènes sous-jacents affectant les zones étudiées (urbanisation, occupation des sols, pratiques agricoles, érosion…). Il s’agit d’un problème difficile pour lequel des algorithmes peuvent s’appuyer sur des données variées, dont certaines, assez peu nombreuses, ont été étiquetées par des experts, et d’autres, beaucoup plus nombreuses, ne l’ont pas été.

Sujet :
L’objectif de ce stage est d’étudier les concepts entrant dans la définition de méthodes d’apprentissage collaboratif multi-paradigme pour des données temporelles dans lesquelles des agents d’apprentissage supervisé et des agents d’apprentissage non supervisé collaborent afin d’améliorer mutuellement leur résultat et, in fine, de parvenir à une interprétation consensuelle de ces données.}

Il s’agira en particulier de répondre des questionnements scientifiques tels que :
– Quelles informations (données, hypothèses, contraintes…) les méthodes doivent elles échanger pour mettre en place cette collaboration ?
– Comment évaluer globalement ou deux à deux des résultats par nature différent (modèle vs regroupement par exemple) ?
– Comment en déduire globalement ou au niveau des agents, les actions à entreprendre pour améliorer les résultats et/ou consensus courants?
– Comment combiner les avis des différents agents en un consensus ?
– Dans un scénario d’échanges itératifs, comment assurer une convergence ?

La littérature propose déjà un certain nombre des réponses plus ou moins partielles pour des apprentissages particuliers sur lesquelles le travail de stage pourra s’appuyer. En apprentissage supervisé, on citera les méthodes d’ensemble (e.g. boosting,co-learning…) ou les approches semi-supervisées . Par contre, hormis la méthodeSamarah proposée par ICube, très peu de résultats sont établis dans le cadre de méthodes essentiellement non supervisées, en particulier dans le cas du clustering collaboratif. Mais, ces cadres sont tous très contraints et ne s’étendent pas directement à l’étude de l’apprentissage collaboratif multi-paradigme avec des données hétérogènes mesurées dans le temps.

Profil du candidat :
Master 2 en Informatique ou équivalent en École d’ingénieur

Avoir une appétence forte pour le recherche en informatique et dans le domaine de la télédétection
Être curieux et autonome, tout en ayant le goût du travail en équipe

La volonté de poursuivre en thèse sera un plus indéniable. Une thèse est d’ores et déjà finançable. Ce stage sera donc un bon tremplin …

Formation et compétences requises :
Avoir de solides connaissances en apprentissage automatique.
Avoir de bonnes notions d’analyse de séries temporelles
Etre à l’aise dans l’écriture de programmes Python et/ou en JAVA

Une connaissance en analyse d’images de télédétection est un plus mais n’est pas obligatoire, une formation à l’analyse de ce type de données sera assurée.

Adresse d’emploi :
Le stagiaire pourra choisir le lieu de déroulement de stage entre :
– UMR MIA (Mathématiques et Informatique Appliquées) 16, rue Claude Bernard, 75005 Paris
et
– UMR ICUBE – Université de Strasbourg , 300 bld Sébastien Brant, 6412 Illkirch

Document attaché : 202012011403_Sujet-M2-CNES.pdf

APPRENTISSAGE DE MODELES GAN POUR LA SIMULATION DE TRAJECTOIRES D’OBJETS DERIVANTS
Jan 29 – Jan 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Mercator-Ocean et IMT-Atlantique
Durée : 6 mois
Contact : carlos.granero-belinchon@imt-atlantique.fr
Date limite de publication : 2021-01-29

Contexte :
Mercator Océan, centre européen de prévision océanique, décrit et prévoit l’évolution de l’océan en développant, et en maintenant en condition opérationnelle, plusieurs modèles numériques d’analyse et de prévision océanique.

Grâce aux champs de courants produits par ces modèles, il est possible de simuler les trajectoires de différents objets qui dérivent dans les océans, en surface ou en profondeur : icebergs, débris plastiques, nappes de pétrole, organismes marins dérivant passivement (plancton) ou plus activement (animaux marins se déplaçant avec les courants plus leur vitesse de nage).

On sait cependant que, même pour les objets les plus simples, à savoir les bouées dérivantes spécifiquement conçues pour suivre les courants, les trajectoires simulées et observées se comparent souvent assez mal (statistiquement) : les déplacements et leur variabilité sont souvent mal estimées.

Sujet :
L’objectif du stage proposé est de développer et mettre en oeuvre un outil de simulation de trajectoires basé sur des techniques de l’intelligence artificielle, et plus particulièrement d’apprentissage profond. Les variables explicatives utilisées seront choisies parmi l’ensemble des variables simulées par les modèles océaniques, à commencer par les courants. On exploitera, non seulement les valeurs de courants le long des trajectoires, mais également dans leur voisinage (spatial et temporel).

Dans un premier temps on s’attachera à développer un outil capable de simuler les trajectoires de bouées dérivantes simples. Le jeu de données d’apprentissage disponible pour ce faire est énorme : depuis 2003, entre 600 et 1600 bouées sont suivies quotidiennement sur l’ensemble des océans du globe ([1], et https://www.aoml.noaa.gov/global-drifter-program/ ). En fonction des progrès réalisés, on pourra dans un second temps, s’attaquer à la simulation de trajectoires plus complexes comme celles de tortues marines (aussi suivies par satellite). Les tortues, comme les
flotteurs, dérivent avec le courant et nagent pour se maintenir dans des eaux riches en nourriture et suffisamment chaudes. On devrait donc pouvoir simuler leurs trajectoires en utilisant, comme variables explicatives, la vitesse du courant, la température de l’eau et la production primaire ou la concentration en micro-necton (un proxy de la densité de proies). L’objectif ultime de ce type de recherche est de prévoir les zones où les tortues marines sont
les plus susceptibles de se concentrer afin de pouvoir prendre des mesures adéquates pour minimiser les risques de captures accidentelles par les flottes de pêches industrielles.

D’un point de vue méthodologique, on explorera des approches de type GAN (Generative Adversarial Network) pour la simulation conditionnelle de trajectoires [2]. Après une phase d’état de l’art, un part importante du travail envisagé consistera à explorer et évaluer différents types de représentation et modélisation des données trajectométriques intégrant pleinement leur caractère stochastique (e.g., représentation latente, équations différentielles stochastiques, formulations variationnelles,…) [3,4,5]. Un autre aspect important portera sur la mise en oeuvre d’un cadre expérimental d’évaluation quantitatif et qualitatif des modèles et algorithmes proposés pour les différents cas d’étude envisagés.

Profil du candidat :
Formation initiale de type Master 2/Ingénieur en Mathématiques Appliquées, Sciences des données, Intelligence Artificielle et/ou Traitement du Signal

Formation et compétences requises :
Bases en apprentissage statistique et réseaux de neurones

Intérêt pour les problèmes environnementaux.

Grande rigueur dans l’organisation du travail, la gestion des données et des résultats. Les données à manipuler sont diverses et représentent des volumes importants.

Bonne maîtrise de l’outil informatique : ce stage nécessite la connaissance de l’environnement LINUX, et du langage de programmation Python.

Connaissances appréciées des environnements Python pour l’apprentissage profond (keras, tensorflow et/ou pytorch)

Adresse d’emploi :
Le stage sera co-encadré par Carlos Granero-Belinchon (IMT Atlantique), Simon van Gennip et Philippe Gaspar (Mercator Océan). Les étudiants intéressés sont invités à envoyer leur CV
et une lettre de motivation à carlos.granero-belinchon@imt-atlantique.fr , pgaspar@mercator-ocean.fr et svangennip@mercator-ocean.fr

En fonction des conditions sanitaires du moment, le stage pourra se dérouler à Ramonville Saint-Agne (Toulouse) sur le site de Mercator-Océan, à l’IMT Atlantique ou en télétravail.

Document attaché : 202011090713_PropositionStage_IA et trajectoires_v2.pdf

Détection d’anomalies dans un flux de graphes
Jan 29 – Jan 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS CNRS UMR 5205 (Villeurbanne, France)
Durée : 5/6 mois
Contact : hamida.seba@univ-lyon1.fr
Date limite de publication : 2021-01-29

Contexte :
Ce stage sera encadré par Mohammed Haddad (LIRIS, Lyon 1) Hamida Seba (LIRIS, Lyon 1) en collaboration avec des collègues de l’université du Luxembourg. Il s’effectuera dans le cadre du projet ANR PRCI GLADIS et peut donner lieu à une continuation en thèse.

Sujet :
Le sujet détaillé est disponible sur ce lien: https://perso.liris.cnrs.fr/hamida.seba/Master/StageM2_Gladis.pdf

Profil du candidat :
M2 informatique

Formation et compétences requises :
La maitrise de C++ et python est appréciée

Adresse d’emploi :
LIRIS, université Lyon 1
43, bd du 11 novembre 1918
Villeurbanne

Fusion Spectro-Spatio-Temporelle d’Images Sentinel-2 et Sentinel-3
Jan 29 – Jan 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISIC
Durée : 6 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2021-01-29

Contexte :
Ce stage s’inscrit dans le cadre des activités conjointes des laboratoires LISIC (EA 4491, Calais) – plus particulièrement les activités de l’équipe SPeciFI dans l’antenne de Saint-Omer du LISIC — et LOG (UMR 8187, Wimereux) – plus particulièrement les activités de l’équipe TELHYD du LOG – autour de l’imagerie satellitaire pour l’observation marine côtière, dans le cadre de la Structure Fédérative de Recherche “Campus de la Mer” et du projet TOSCA OSYNICO financé par le CNES. En particulier, dans le cadre de ces projets initiés en 2020, le LISIC développe des méthodes à la frontière entre traitement du signal et des images et intelligence artificielle appliquées aux données satellitaires (images multi- ou hyper-spectrales). Le LOG s’intéresse à l’analyse théorique et l’observation de processus physiques afin de comprendre et prévoir leurs impacts sur l’environnement marin, d’un point de vue de la biologie ou de la biogéochimie.

Sujet :
L’observation satellitaire de notre planète connaît depuis plusieurs décennies d’importantes avancées instrumentales, avec des développements conséquents que ce soit en terme de résolution spatiale (par exemple en télédétection de la couleur de l’eau à haute résolution spatiale 10-60 m) et en terme de résolution spectrale (imagerie hyper-spectrale). Une image Multi-Spectrale (MS) ou Hyper-Spectrale (HS) consiste en un cube de données dont deux axes décrivent les variations spatiales et un axe décrit les variations spectrales. La principale différence entre une image HS et une image MS réside dans le nombre très réduit de bandes spectrales observées dans cette dernière.

Cependant, le Rapport Signal à Bruit (RSB) d’un imageur MS ou HS est proportionnel au rapport entre la surface du capteur et le nombre de bandes spectrales observées. En conséquence, pour maintenir un RSB constant, l’augmentation du nombre de bandes spectrales dans une image HS entraîne une diminution de la résolution spatiale. Ainsi, aujourd’hui, notre planète est observée à la fois par des imageurs MS ayant une très bonne résolution spatiale mais une faible résolution spectrale et par des imageurs HS ayant une très bonne résolution spectrale mais une faible résolution spatiale (et un ensemble d’imageurs aux propriétés intermédiaires).

La fusion d’images satellitaires MS et HS permet d’améliorer les résolutions spectrale, spatiale voire temporelle de ces images d’origine. De nouvelles techniques de fusion d’images émergent constamment, faisant passer de pan-sharpening (fusion d’images panchromatiques et multi-spectrales) à la fusion spectro-spatio-temporelle de données provenant de différents capteurs et plates-formes. Cependant, l’application de la fusion d’images satellitaires dans le domaine de l’observation des environnements marins et des zones côtières reste encore limitée. Le nombre et la complexité des différentes techniques disponibles aujourd’hui peuvent être accablants, empêchant ainsi les utilisateurs d’exploiter pleinement le potentiel des produits de fusion spectro-spatio-temporelle des images tels que la fusion des images provenant de Sentinel-3 et Sentinel-2. Ainsi, plusieurs techniques de fusion de données (aussi connues sous le nom de multi-sharpening) ont été proposées ces dernières années pour créer de nouvelles images combinant la bonne résolution spatiale des image MS avec la bonne résolution spectrale des images HS [1]. Les principales techniques modernes de fusion sont basées sur des décompositions matricielles [2] ou tensorielles [3], ou sur de l’apprentissage profond [4].

Dans le cadre de ce stage, nous nous intéressons à l’observation marine côtière via les données des satellites Sentinel-2 et Sentinel-3. Les images obtenues par ces deux satellites permettent d’étudier la couleur de l’océan, c’est-à-dire la répartition spatiale et temporelle de la concentration en phytoplancton, en matière en suspension et en matière organique. Les données Sentinel-2 consistent en des cubes avec 13 bandes spectrales pour une résolution spatiale variant de 10 à 60 m en fonction des bandes, acquises tous les 5 jours environ. Les données Sentinel-3 sont des cubes avec 21 bandes spectrales pour une résolution spatiale de 300 m, acquises tous les jours. En observation marine, pour comprendre les phénomènes complexes qui se passent en milieu côtier, il est nécessaire que les données à disposition combinent :
– une bonne résolution spectrale pour mieux analyser le milieu biogéochimique (chlorophylle, particules en suspension, etc) ;
– une bonne résolution spatiale pour mieux appréhender les phénomènes de répartition de ce milieu qui sont beaucoup plus complexes en milieu côtier qu’en pleine mer ;
– une courte période d’acquisition de ces images pour repérer des phénomènes très concentrés dans le temps (blooms de phytoplanctons par exemple).
Aucune donnée satellitaire ne permet aujourd’hui de respecter ces trois contraintes.

Dans le cadre de ce stage, nous proposons de traiter conjointement les séries temporelles de données Sentinel-2 et Sentinel-3, afin de générer une nouvelle série temporelle de cubes de données obtenues par multi-sharpening, permettant d’obtenir des images avec le nombre de bandes spectrales de Sentinel-3 et la résolution spatiale de Sentinel-2. Cela permettra de mieux caractériser la couleur des eaux côtières. Les méthodes envisagées feront soit appel à un formalisme régularisé de factorisation matricielle (démélange ou séparation de sources) soit à un formalise de type apprentissage profond.

Le stage pourra être poursuivi par la préparation d’une thèse dans le domaine de la factorisation matricielle et/ou de l’apprentissage profond (sous réserve d’obtention d’un financement : ce point sera défini durant le stage).

Reférences :
[1] Laetitia Loncan, Luis B De Almeida, Jos ́e M Bioucas-Dias, Xavier Briottet, Jocelyn Chanussot, NicolasDobigeon, Sophie Fabre, Wenzhi Liao, Giorgio A Licciardi, Miguel Simoes, et al. Hyperspectral pansharpening :A review.IEEE Geoscience and remote sensing magazine, 3(3) :27–46, 2015.
[2] Naoto Yokoya, Takehisa Yairi, and Akira Iwasaki. Coupled nonnegative matrix factorization unmixing for hy-perspectral and multispectral data fusion. IEEE Transactions on Geoscience and Remote Sensing, 50(2) :528–537, 2011.
[3] Charilaos I Kanatsoulis, Xiao Fu, Nicholas D Sidiropoulos, and Wing-Kin Ma. Hyperspectral super-resolution :A coupled tensor factorization approach. IEEE Transactions on Signal Processing, 66(24) :6503–6517, 2018.
[4] Renwei Dian, Shutao Li, Anjing Guo, and Leyuan Fang. Deep hyperspectral image sharpening. IEEE transactions on neural networks and learning systems, (99) :1–11, 2018.

Profil du candidat :
Vous préparez actuellement un Master 2 ou un diplôme d’ingénieurs en Sciences de Données : traitement du signal et des images, informatique avec une dominante en intelligence artificielle/apprentissage/machine learning, mathématiques appliquées, etc.

Formation et compétences requises :
Vous préparez actuellement un Master 2 ou un diplôme d’ingénieur en sciences de données (traitement du signal et des images, informatique avec une dominante en intelligence artificielle/apprentissage/machine learning, mathématiques appliquées). Vous êtes curieux(se) et très à l’aise en programmation (Matlab, Python). Vous lisez et parlez avec aisance l’anglais courant. Bien que non-obligatoire, une première expérience en factorisation de données (matrices ou tenseurs, séparation de sources, apprentissage de dictionnaire) ou en deep learning sera appréciée.

Pour candidater, merci d’envoyer un courriel à {ahed.alboody, matthieu.puigt, gilles.roussel} [at] univ-littoral.fr en y annexant les documents pouvant supporter votre candidature :
– votre CV,
– une lettre de motivation,
– vos relevés de notes de Licence 3, Master 1, Master 2 (si ces dernières sont disponibles) ou d’Ecole d’Ingénieurs (première à troisième année),
– deux lettres de recommandation ou les noms et moyens de contact de deux référents académiques.

Adresse d’emploi :
Le stage aura lieu dans la nouvelle antenne de Longuenesse du LISIC, dédiée actuellement à l’imagerie hyperspectrale. Cette antenne, créée récemment, compte à ce jour 5 chercheurs permanents, 1 chercheur post-doctorant et 4 doctorants. Les encadrants du LISIC apporteront apporteront leur expertise respective en traitement des images MS/HS et en machine learning (deep learning, factorisation matricielle, optimisation) pour l’imagerie satellitaire.

De nombreux échanges auront lieu avec le LOG, situé à Wimereux. Le LOG apportera ses compétences sur la couleur de l’océan, notamment sur l’analyse des images fusionnées et leur validation. Le LOG fournira les mesures in-situ de validation et des images dans des zones côtières d’intérêt (Manche orientale, Guyane, Cambodge, Vietnam).

Ces deux laboratoires sont situés au coeur du Parc naturel régional des caps et marais d’Opale, à proximité directe de Lille, de l’Angleterre, de la Belgique et de l’Europe du Nord (Amsterdam à 4h de route de Longuenesse).

Document attaché : 202011131738_Stage_LISIC_SFR_2021.pdf

Jan
30
Sat
2021
Cartographie de typologie de couvert forestier par imagerie satellitaire multi-source et multi-tempo
Jan 30 – Jan 31 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : raffaele.gaetano@cirad.fr
Date limite de publication : 2021-01-30

Contexte :
Le suivi de l’état des forêts tropicales est d’importance mondiale (Herold et al. 2019). Il appelle le suivi dans la durée et sur de grandes surfaces de variables « biophysiques » de structures forestières (couvert, hauteur de canopée, biomasse épigée, …) et d’indicateurs de diversité spécifique et fonctionnelle. Le suivi du couvert arboré, notion polysémique, a fait l’objet de travaux importants, principalement basés sur les séries d’images satellitaires longues à moyenne résolution ou haute résolution spatiale (MODIS, Landsat, respectivement), Ceci a débouché sur des produits cartographiques ambitieux à des échelles pantropicales et mondiales (e.g. Avitabile et al. 2012; Hansen et al. 2013 ; Kubayashi et al. 2016). Cependant, ces produits recèlent des faiblesses de plusieurs ordres. Si celles-ci n’opèrent pas leur intérêt, tant que l’ampleur des surfaces peut permettre la compensation des imprécisions locales, elles rendent leurs utilisations hasardeuses pour des applications demandant de se focaliser sur des surfaces plus restreintes (downscaling), ou requérant un niveau de précision supérieur à celui effectif (qui n’est pas toujours explicite, d’ailleurs).

Le projet Sé2coul, a pour objectif de traduire les opportunités, offertes par les données Sentinel-1 et Sentinel-2, pour le suivi et la caractérisation des forêts, en tirant partie : i) De la densification temporelle des séries temporelles d’images satellitaires et de leur accroissement en résolution spatiale. Ceci doit permettre d’aller bien au-delà de ce qui peut déjà être fait actuellement avec les séries HR de type « Landsat » (par exemple via le Google Earth Engine) pour corriger les effets instrumentaux dans l’optique de détection de changements francs de couvert (déforestation, feu, plantation, …), ou de détections de perturbations localisées (exploitation, chute d’arbres, …). ii) La facilitation de l’usage conjoint des données radar et optiques (Sentinel-1 et -2). En complément de l’optique, l’information radar en bande C (bien que probablement saturante à des niveaux assez bas de couvert et de biomasse) est sensible à la structure tridimensionnelle, et peut aider à lever des ambiguïtés dans les végétations complexes, ouvertes (par exemple pour le suivi de la dynamique des trouées, naturelles ou non), ou marquées par des variations saisonnières d’humidité (y compris du substrat). iii) Le développement de techniques d’intelligence artificielle (deep-learning) pour tirer parti des atouts des données Sentinel dans la perspective spécifique de la caractérisation biophysique des composantes ligneuses de la végétation dans des contextes tropicaux variés. Il est envisagé dans l’esprit de TWINNS (TWIn Neural Networks for Sentinel data ; Ienco et al. 2019).

Le projet aura pour objectif de traduire ces opportunités en avancées significatives concernant l’estimation de caractéristiques fondamentales de la végétation ligneuse : (i) structure : Hauteur de canopée, LAI, biomasse épigée, (ii) diversité, (iii) signature fonctionnelle saisonnière.

Sujet :
En s’appuyant sur des méthodes d’apprentissage profond, l’objectif de ce stage est d’évaluer le potentiel de tels méthodes pour la cartographie et la caractérisation des typologies de couvert forestier à l’aide d’imagerie multi-source Sentinel-1 et Sentinel-2 sur des terrains d’étude telles que la Guyane, le Cameroun et le Sénégal. Un ou deux terrains d’études, parmi ceux listés par avant, seront choisis en accord avec les chercheurs partenaires du projet (UMR AMAP).
Pour cela, nous allons nous appuyer sur des séries temporelles d’images satellitaires radar/optique pour mieux reconnaître les différentes typologies de couvert forestier. Afin de l’évaluation, la méthode d’apprentissage profond sera aussi comparée à des méthodes plus classiques et communément utilisées en télédétection (par exemple Random Forest ou SVM). Un deuxième objectifs, si le temps le permettra, sera dédié à l’utilisation de techniques déjà disponibles au sein de l’UMR TETIS pour évaluer le potentiel des données radar/optique (Sentinel-1 et Sentinel-2) pour l’estimation de variables biophysiques (i.e. LAI ou autre) toujours à travers des méthodes d’apprentissage profond.

Les principales étapes envisagées pour la réalisation du stage sont :
+ Analyse bibliographique sur les méthodes d’apprentissage profond pour le couplage radar/optique pour la cartographie automatique.
+ Mise en place du jeu de données :
+ Prise en main des données existantes
+ Téléchargement des série temporelle d’images Sentinel-1 et Sentinel-2
+ Prétraitement des données satellitaires
+ Préparation du jeu de données pour l’évaluation
+ Identification d’une méthode d’apprentissage profond déjà existante.
+ Mise en place de telle méthode dans le contexte de la cartographie de la typologie du couvert forestier
+ Évaluation de la méthode déployée à travers une analyse quantitative ainsi qu’ une analyse qualitative.
+ Rédaction du rapport et préparation de la soutenance.

Profil du candidat :
– Master II ou dernière année d’école ingénieur en Traitement du Signal, Informatique ou Télédétection,

– Compétences :
+ programmation informatique et géomatique
+ Bonne connaissance des méthodes de machine learning et deep
learning
+ Goût pour la recherche scientifique et l’interdisciplinarité
+ Maîtrise de l’anglais et bonne capacité rédactionnelle

Formation et compétences requises :
– Master II ou dernière année d’école ingénieur en Traitement du Signal, Informatique ou Télédétection,

– Compétences :
+ programmation informatique et géomatique
+ Bonne connaissance des méthodes de machine learning et deep
learning
+ Goût pour la recherche scientifique et l’interdisciplinarité
+ Maîtrise de l’anglais et bonne capacité rédactionnelle

Adresse d’emploi :
Maison de la Télédétection, 500, rue Jean François Breton – Montpellier (34)

Document attaché : 202012141346_Stage_Sen2Coul.pdf

Évaluation de l’impact environnemental des méthodes de traitement automatique de la langue
Jan 30 – Jan 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISN
Durée : 5 mois
Contact : anne-laure.ligozat@universite-paris-saclay.fr
Date limite de publication : 2021-01-30

Contexte :
De nombreux travaux en Traitement Automatique de la Langue (TAL) s’appuient sur des méthodes d’apprentissage. Ainsi, l’apprentissage profond offre des performances souvent intéressantes pour de nombreuses tâches d’analyse de textes. L’essor récent des méthodes neuronales donne lieu à une utilisation croissante de ressources numériques pour un large éventail de problèmes. Dans ce contexte, les méthodes symboliques ou méthodes d’apprentissage “classiques” sont délaissées alors qu’une comparaison systématique serait intéressante du point de vue scientifique, opérationnel et environnemental. En particulier, les méthodes neuronales ont un impact environnemental élevé qui ne cesse d’augmenter avec les années (Schwartz et al., 2019). Un exemple de travail pertinent en traitement automatique des langues est (Strubell et al., 2019), qui a étudié la consommation énergétique de l’apprentissage de plusieurs modèles. (Schwartz et al., 2019) prône donc l’émergence de travaux de Green AI, en parallèle de travaux standards, dans lesquels l’efficience des méthodes serait mise en valeur, c’est-à-dire la capacité à obtenir une performance avec un minimum de ressources.

Sujet :
Ce projet a pour objectif à long terme de proposer une comparaison détaillée de l’utilisation d’un large panel de méthodes de traitement automatique de la langue du point de vue de leur performance, de leur complexité algorithmique, du temps humain et machine requis pour les mettre en oeuvre.
Dans un premier temps, il s’agira de réaliser une revue systématique des outils de mesure de l’impact environnemental des expériences informatiques. Une veille de la littérature récente montre que divers outils existent afin d’estimer l’impact des expériences informatiques. On recense notamment des outils en ligne comme par exemple, Green Algorithms (http://www.green-algorithms.org/) et ML CO2 impact (https://mlco2.github.io/impact/) ou des outils à intégrer dans la mise en oeuvre des expériences, par exemple, “experiment impact tracker” (Henderson et al., 2020) et “carbon tracker” (Anthony et al., 2020). Nous souhaitons recenser systématiquement les outils existant et les étudier afin de déterminer les mesures d’impact calculées, la facilité de mise en oeuvre, la portée d’utilisation possible.

Profil du candidat :
M2 ou école d’ingénieur en fin d’études, avec spécialisation en informatique

Formation et compétences requises :
Le.a stagiaire devra avoir de bonnes compétences en informatique. Des connaissances en traitement automatique de la langue seront particulièrement appréciées. Le contenu et l’ambition du stage pourront être modulés en fonction du niveau d’étude et de la durée du stage du/de la candidat.e.

Adresse d’emploi :
rue du Belvédère, Orsay

Document attaché : 202012011258_StageM2_GreenNLP2020_FR.pdf

Méthodes de machine et deep learning pour caractériser l’architecture et la production d’une core-co
Jan 30 – Jan 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR AGAP, CIRAD
Durée : 6 mois
Contact : frederic.boudon@cirad.fr
Date limite de publication : 2021-01-30

Contexte :
Dans un contexte de changement climatique et de diminution des intrants (engrais, eau, pesticides, etc.), la sélection de variété d’arbres fruitiers performants en condition de culture sub-optimale devient incontournable. Des traits architecturaux (structure de la plante, distribution du feuillage) doivent être considérés pour prendre en compte le potentiel de production intrinsèque des variétés (génotypes), leurs interactions avec l’environnement (lumière, pluie, insectes, etc.) et leur facilité de conduite. Pour évaluer de tels traits de manière précise et à haut débit, nous développons une approche basée sur les LiDARs aéroportés qui permettent de scanner rapidement un verger en 3D. Ce choix fait suite à des premières expérimentations qui ont consisté à scanner en période de production (avec feuilles et fruits) les arbres d’une collection de variétés de pommiers, par LiDAR terrestres. Ces approches se sont révélées fastidieuses dans le processus d’acquisition. Elles nous ont toutefois permis une première caractérisation de l’architecture des arbres (Coupel et al., 2019) et une estimation de leur production (Artzet et al., 2020). Une partie de ces méthodes est basée sur des approches de machine et deep learning, avec notamment l’utilisation de réseaux pour le traitement de points, tel que RandLa-Net (Hu et al., 2019). Récemment, nous avons souhaité revisiter la méthode d’acquisition en procédant à des scans par Lidar aéroporté, plus rapides. Néanmoins les résolutions et les points de vue différents entre LiDAR terrestre et aéroporté nécessitent d’adapter les méthodes de caractérisation et d’identification des organes. Dans le cadre de scans de vergers entiers, l’identification des arbres individuels et des points leur correspondants est un challenge important pour l’automatisation de nos méthodes.

Sujet :
L’objectif de ce stage est donc de formaliser un pipeline de traitement de points basé sur des méthodes de machine et deep learning qui permettra d’identifier chaque instance d’arbre, de caractériser sa forme, sa densité foliaire et sa production en adaptant des indicateurs et les méthodes d’estimation associé à ces nouvelles données. L’enjeu méthodologique est d’adapter à des résolutions variées, possiblement très faibles, des méthodes de détection d’instances (instance segmentation) tel que RandLa-Net. Pour cela des bases de données synthétiques et réelles à différentes résolutions pourront être combinées pour l’apprentissage. Les sorties de ce pipeline seront des indicateurs quantitatifs et objectifs du développement des arbres pouvant entrer dans des analyses génétiques de type Genome Wide Association Studies (GWAS).

Étapes principales du stage :
• Etat de l’art, bibliographie (méthodes de deep et machine learning, applications open-source, librairies python, …)
• Prise en main de la chaine de traitement existante et test sur les nouveaux jeux de données
• Développement et paramétrisation d’algorithmes adaptés pour l’identification des arbres et des organes.
• Test de la nouvelle chaine de traitement pour la caractérisation de la variabilité génotypique de la population

Profil du candidat :
– Informaticien(ne) motivé(e) et curieux(se).
– Bonne connaissance du Python et/ou C++.
– Connaissance en deep learning.
– Goût pour la modélisation 3D des plantes.
– Aptitude à travailler en équipe.
– Autonome (possible situation de télétravail).

Formation et compétences requises :
Ce stage peut convenir à des étudiant(e)s d’école d’ingénieur ou en informatique, ayant reçu des enseignements sur les méthodes de machine et deep learning.
Une compétence en programmation sera nécessaire, ainsi qu’une capacité rédactionnelle et le goût pour le travail multidisciplinaire.
Une première expérience (stage, TP) en machine et deep learning serait un plus.

Adresse d’emploi :
Avenue d’Agropolis, TA 178/04, 34398 Montpellier.

Document attaché : 202012030951_stage_DigitAG_AGAP-AFEF-vf.pdf

Simulation distribuée de plantes en 3D pour l’agroécologie
Jan 30 – Jan 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR AGAP, CIRAD
Durée : 6 mois
Contact : frederic.boudon@cirad.fr
Date limite de publication : 2021-01-30

Contexte :
Pour satisfaire les demandes sociétales pour une agriculture plus durable et écologique, des modèles de plantes simulant leurs croissances et leurs fonctionnements (FSPM) sont développés par la communauté scientifique. Dans le cadre de la plateforme de modélisation OpenAlea, nous développons depuis plusieurs années, différents formalismes de simulation (Pradal et al., 2008; Boudon et al., 2012). En particulier, des grammaires formelles, i.e. L-systems, permettant la réécriture efficace d’arborescences ou des méthodes de réécriture de graphes multi-échelles (MTG) sont disponibles et ont permis de modéliser une grande variété de plantes (pommier, manguier, palmier, maïs, sorgho, etc.).
Les modèles FSPM sont un outil pour l’étude et l’analyse des interactions plante-plante dans des couverts complexes en association (Gaudio et al., 2019, Braghiere et al., 2020). Ils permettent de simuler en 3D la compétition aérienne et racinaire pour l’acquisition des ressources (lumière, nutriments) de façon mécaniste. Il est cependant nécessaire de simuler, à l’échelle de l’organe et en 3D, le développement et le fonctionnement d’un grand nombre de plantes en interaction au sein d’un même couvert. Pour faire cela dans des temps raisonnables, il serait nécessaire de distribuer les calculs de simulation sur de grandes infrastructures de calcul (cluster, cloud). Or, actuellement, il n’existe pas ni de formalisme ni de technologie permettant de distribuer automatiquement la simulation 3D de plantes hétérogènes en interaction.

Sujet :
Le challenge auquel nous essayons de répondre est donc de simuler efficacement un ensemble de plantes en interaction spatiale (compétition pour l’acquisition des ressources) et temporelle (rétroaction entre la structure et la fonction). L’objectif de ce stage est d’analyser différentes stratégies de parallélisation pour simuler en 3D la croissance et le fonctionnement de plantes et peuplements sur des architectures à mémoire partagée et en environnement distribué (Pradal et al., 2017; Heidsieck et al., 2020). Un des enjeux est de définir des design patterns pour des calculs distribués à différentes granularités (simulation parallèle d’une plante isolée, calcul distribué d’un grand nombre de plantes en interaction) en utilisant les technologies actuelles (OpenMP, Spark, Dask). Un enjeu important est de prendre en compte les dépendances entre les calculs faits sur les structures lors de leurs réécritures en fonction des stratégies utilisées (en place ou par copie).
Une application de ce travail sera la simulation d’un système agroforestier mélangeant palmiers et riz pour lequel des modèles préexistants (projets VPalm et Cereals) seront réutilisés.
Le travail de l’étudiant(e) consistera en :
– Définition d’un protocole d’échange d’informations spatiales et de synchronisation entre simulateurs.
– Formalisation d’une stratégie de distribution des simulations sur plusieurs machines ou clusters.
– Application à la création d’un modèle de système agroforestiers Palmier-Riz avec caractérisation de la dynamique de la distribution de la lumière au cours d’un cycle de croissance.

Profil du candidat :
– Goût pour la simulation 3D des plantes.
– Aptitude à travailler en équipe.
– Autonome (possible situation de télétravail).

Formation et compétences requises :
– Informaticien(ne) motivé(e) et curieux(se).
– Bonne connaissance du Python et/ou C++.
– Connaissance en calculs parallèles et distribués (MPI, OpenMP, Sparks).

Adresse d’emploi :
Avenue d’Agropolis, TA 178/04, 34398 Montpellier

Document attaché : 202012030946_offre-stage-calcul-distribue-DIGITAG-2021-vf.pdf

Jan
31
Sun
2021
3D PRIAD : 3D Printer with Intelligent Anomaly Detection
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ICube, Strasbourg
Durée : 6 mois
Contact : cedric.bobenrieth@ecam-strasbourg.eu
Date limite de publication : 2021-01-31

Contexte :
À l’apogée de l’industrie 4.0, la conception de nouvelles méthodes et applications permettant un suivi et un
contrôle de la production est un réel enjeu. Le projet 3D-PRIAD se concentre spécifiquement sur les
problématiques liées à la production par impression 3D.
En effet, il est nécessaire qu’une imprimante 3D puisse fonctionner de manière autonome en permanence tout
en assurant une production de pièces de bonnes qualités, c’est-à-dire dépourvue de quelconques défauts
d’impressions.
L’équipe MLMS (Machine Learning, Modeling & Simulation) et l’équipe IGG proposent donc un projet
combinant le deep learning à l’analyse d’images et de modèles 3D afin de permettre un suivi en temps réel de
la qualité de l’impression et la détection automatique d’anomalies.
La mission aura lieu sur 6 mois, entre février et août 2021, et se déroulera au sein de l’équipe MLMS du
laboratoire ICube.

Sujet :
L’objectif du stage est de mettre au point une application permettant de déterminer la qualité d’une impression
à partir de capteurs vidéo ; c’est-à-dire être capable de déterminer automatiquement si l’impression est bonne
ou si elle contient des défauts et, le cas échéant, être capable d’indiquer de quel type de défaut il s’agit.
Pour ce faire vous disposerez des données suivantes :
• Ensemble des images obtenues par 5 caméras positionnées de manière à filmer l’ensemble du
processus d’impression 3D selon les 4 côtés (frontal, arrière, gauche et droite) ainsi qu’une vue
de haut. Ces images seront obtenues tout au long du processus, et pas uniquement lorsque
l’impression est terminée. Ceci est nécessaire car certains défauts ne sont plus détectables une
fois le processus fini.
• Le modèle 3D correspondant à la pièce en cours d’impression
Ces données seront issues à partir d’une imprimante 3D Prusa I3 MK3S, machine présente dans la Zone ICube
de l’Ecam et tournant en moyenne 360 heures/mois, nous assurant ainsi d’avoir un jeu de données suffisamment
conséquent pour être traité au cours du projet.
Les méthodes mises en place pour permettre cette analyse de qualité devront ainsi prendre en considération les
5 angles de vues de l’impression ainsi que le modèle 3D attendu. Parmi les approches possibles, deux pistes sont
envisagées :
• La mise en place d’un réseau de neurones multi-classification qui serait chargé de détecter directement
les défauts d’impression sur les images
• Une méthode de reconstruction de modèle 3D à partir des images des caméras pour permettre
d’effectuer un comparatif par rapport au modèle 3D attendu.
Les principales étapes du projet, en plus de l’étude bibliographique, sont :
• Analyse des différents défauts pouvant arriver au cours d’une impression, et détermination des
caractéristiques permettant de les identifier
• Analyse et pre-processing des données (nettoyage des données, labélisation, …)
• Mise en place d’un réseau de neurones permettant une identification des défauts d’impression et
s’assurant une correspondance avec le modèle 3D original
• Intégration de l’application d’analyse de qualité à une Application Web permettant à l’opérateur un
suivi de l’impression
• Optimisation de l’application pour permettre une analyse en temps réel
Le livrable comprend :
• L’application d’analyse de qualité de l’impression
• Une démonstration impliquant la mise en production de l’application sur l’imprimante pour test en
conditions réelles
• Un document de conception (en anglais)
• Rapport de Master/Fin d’étude
• Soutenance.
Il pourra être adapté selon l’évolution du projet.

Profil du candidat :
L’offre s’adresse à un étudiant en M2, ou dernière année d’école d’ingénieur avec de fortes compétences en
informatiques, et notamment en Python.
Des connaissances sur les réseaux de neurones, le traitement et l’analyse d’images et/ou la modélisation 3D
sont un plus.

Formation et compétences requises :
Master 2 informatique ou équivalent.

Adresse d’emploi :
Place de l’hôpital, Strasbourg (67), France

Document attaché : 202012091222_Sujet stage 3DPRIAD_Master2 Recherche.pdf

Analyse de données spatio-temporelles réelles
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube
Durée : 6 mois
Contact : aurelie.leborgne@unistra.fr
Date limite de publication : 2021-01-31

Contexte :
Valoriser les grandes masses de données spatio-temporelles disponibles dans différents domaines est crucial. Ceci nécessite de concevoir et de développer des approches innovantes aptes à traiter conjointement les aspects spatiaux et les aspects temporels, ce qui n’est que peu le cas avec les méthodes actuelles. Si les graphes, outils puissants à la fois théoriquement et méthodologiquement, sont utilisés pour modéliser des phénomènes temporels ou spatiaux, les méthodes actuelles de fouille, d’analyse et d’extraction de connaissances n’exploitent, en général, qu’une seule dimension de l’information, spatiale versus temporelle. Cela implique souvent une perte de précision et possibilité d’interprétation des résultats. C’est pourquoi nous nous proposons d’exploiter un modèle de graphe spécifique intégrant différents types de relations, les graphes spatio-temporels.

Sujet :
L’objectif général est d’étudier et développer des techniques pour trouver dans de grands graphes spatio-temporels, des motifs, ou répétitions, auxquels les experts du domaine concerné peuvent donner sens. Plus précisément, il s’agit de mettre en oeuvre des techniques de recherche de motifs (sous-graphes fréquents) sur des jeux de données réelles : images satellitaires, bd géographiques, IRM fonctionnelle (en relation avec des experts de ces domaines). La ou le stagiaire s’appuiera pour cela sur les outils disponibles au laboratoire (pour la construction des graphes et pour l’extraction des motifs) mais devra aussi adapter ou améliorer ces outils. Les tâches suivantes seront à réaliser :
– Bibliographie
– Sélection et prétraitement des données
– Transformation : génération de graphes spatio-temporels, incluant la modélisation des relations spatiales et spatio-temporelles adéquates
– Recherche des motifs fréquents ; extension de l’approche aux motifs inexacts (approximation des étiquettes, ou du nombre d’arêtes et de sommets) et trajectoires,
– Interprétation et comparaison des résultats sur (au moins) deux jeux de données

En fonction de l’avancée, on pourra aussi envisager de comparer les résultats obtenus en recherchant des motifs inexacts dans des données précises ou des motifs exacts dans des données imprécises (par exemple en utilisant des étiquettes floues ou plus générales). L’objectif final est de construire une chaîne de traitement incluant l’ensemble des opérations sur les données d’un domaine.

Profil du candidat :
Autonome en programmation (de préférence Python), connaissances sur les graphes et les réseaux de neurones, intérêt pour le développement expérimental.

Formation et compétences requises :
Master 2 informatique ou équivalent

Adresse d’emploi :
300 bd Sébastien Brant à Illkirch

Document attaché : 202010150920_stages2021-donneesReelles.pdf

Application du Deep Learning sur les images satellites pour la détection des hydrocarbures en mer.
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : PLATFORM/Doctorants

Laboratoire/Entreprise : Laboratoire d’Informatique, Systèmes, Traitement
Durée : 4 à 6 mois
Contact : emna.amri@univ-smb.fr
Date limite de publication : 2021-01-31

Contexte :
Multidisciplinaire: développement, recherche
Mots clés: Deep learning, intelligence artificielle, télédétection, imagerie, segmentation
sémantique.
Données: image satellite (SAR) Sentinel-1

Sujet :
De nos jours, l’observation de la terre 24h/24 à l’aide d’images SAR (Synthetic Aperture
Radar) est un outil permettant à répondre à de nombreuses problématiques d’observation
des sols et des mers. L’exploitation de ces données volumineuses s’appuie de plus en plus
sur des méthodologies big data et le deep learning.
Le cadre de ce sujet de stage s’intéresse à la surveillance de la surface de la mer pour la
détection d’hydrocarbures. Le but est d’aider les photo-interprètes à détecter plus aisément
ces éléments. Des méthodes basées sur l’apprentissage automatique et en particulier les
réseaux de neurones seront mis en œuvre.
Le sujet de stage se décompose en différentes étapes :
1) Prise en main des données et des outils mis à disposition.
2) Mise en œuvre et l’adaptation des réseaux neuronaux de manière supervisée en
utilisant les données SAR. Analyse des prédictions et recherche de justifications
avec des outils comme Gradcam*.
3) Enrichissement de la base de données par des images générés/simulées par l’usage
des réseaux Generative Adversarial Networks(GANs). Etude de l’impact sur les
performances du modèle.
A noter : une plateforme de calcul intensif sera mise à disposition
Références :
Emna, Amri, et al. “Offshore Oil Slicks Detection From SAR Images Through The Mask-
RCNN Deep Learning Model.” 2020 International Joint Conference on Neural Networks
(IJCNN). IEEE, 2020.
*Girard-Ardhuin, Fanny, Grégoire Mercier, and René Garello. “Oil slick detection by SAR imagery: potential and limitation.” Oceans 2003. Celebrating the Past… Teaming Toward the Future (IEEE Cat. No. 03CH37492). Vol. 1. IEEE, 2003.
Saxena, Divya, and Jiannong Cao. “Generative Adversarial Networks (GANs): Challenges,Solutions, and Future Directions.” arXiv preprint arXiv:2005.00065 (2020).
*Selvaraju, Ramprasaath R., et al. “Grad-cam: Visual explanations from deep networks via gradient-based localization.” Proceedings of the IEEE international conference on computer vision. 2017.

Profil du candidat :
Master 2, Ingénieur

Formation et compétences requises :
Connaissances en traitement d’images, intérêts pour les réseaux de neurones
Informatique: Python, Linux
Autonomie

Adresse d’emploi :
LISTIC, Polytech Annecy-Chambéry, 5 chemin de bellevue, Annecy-le-vieux, 74 940 Annecy

Document attaché : 202012122205_2021_stage_IA.pdf

Deep learning et plongement de graphe
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube
Durée : 6 mois
Contact : aurelie.leborgne@unistra.fr
Date limite de publication : 2021-01-31

Contexte :
Valoriser les grandes masses de données spatio-temporelles disponibles dans différents domaines est crucial. Ceci nécessite de concevoir et de développer des approches innovantes aptes à traiter conjointement les aspects spatiaux et les aspects temporels, ce qui n’est que peu le cas avec les méthodes actuelles. Si les graphes, outils puissants à la fois théoriquement et méthodologiquement, sont utilisés pour modéliser des phénomènes temporels ou spatiaux, les méthodes actuelles de fouille, d’analyse et d’extraction de connaissances n’exploitent, en général, qu’une seule dimension de l’information, spatiale versus temporelle. Cela implique souvent une perte de précision et possibilité d’interprétation des résultats. C’est pourquoi nous nous proposons d’exploiter un modèle de graphe spécifique intégrant différents types de relations, les graphes spatio-temporels.

Sujet :
Les données spatio-temporelles sont actuellement encore difficiles à visualiser, or les experts des différents domaines ont absolument besoin de cette visualisation. Dans ce stage, nous proposons d’explorer les méthodes qui permettent de visualiser un graphe spatio-temporel (structure de donnée dans laquelle sont skockées les données spatio-temporelles recueillies). Pour les grands graphes, il est intéressant de les plonger dans un espace de plus faible dimension dans lequel les informations structurelles et les propriétés des graphes sont conservées au mieux. Pour ce faire, il existe des techniques efficaces, qui sont notamment basées sur l’apprentissage profond ou Deep learning, que nous proposons d’étudier et d’adapter afin de les appliquer aux graphes spatio-temporels. Dans ce stage, les tâches suivantes seront à réaliser :
-Étude bibliographique afin de déterminer les avantages et inconvénients des différentes méthodes existantes
– Sélection et mise en oeuvre de certaines de ces méthodes sur des jeux de données tests (graphes quelconques) accessibles en ligne, dans un premier temps, puis sur des données spatio-temporelles.
– Choix et adaptation éventuelle d’une méthode permettant de réduire la dimension des graphes spatio-temporels
– Expérimentation de la méthode choisie sur jeux de données réelles agricoles ou médicales, évaluation avec des experts du domaine.

Profil du candidat :
Autonome en programmation (de préférence Python), connaissances sur les graphes et les réseaux de neurones, intérêt pour le développement expérimental.

Formation et compétences requises :
Master 2 informatique ou équivalent

Adresse d’emploi :
300 bd Sébastien Brand à Illkirch

Document attaché : 202010150922_stages2021_graph_embedding.pdf

Deep learning pour la recherche de motifs fréquents dans un graphe
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube ou Institut Pascal
Durée : 6 mois
Contact : aurelie.leborgne@unistra.fr
Date limite de publication : 2021-01-31

Contexte :
Le recueil de données spatio-temporelles est de plus en plus fréquent, que ça soit dans le domaine médical, environnemental, industriel, etc. Pour valoriser ces grandes masses de données spatio-temporelles nous voulons développer une approche innovante, basée sur le deep learning. Plus précisément, nos données étant modélisées par un graphe spatio-temporel, nous désirons travailler sur la recherche de sous-graphes fréquents au sein d’un même graphe. Ainsi, nous pourrions apporter, aux différents experts des domaines, une réponse sur les évenements qui se reproduisent fréquemment au cours du temps et à des endroits différents. Plusieurs applications potentielles des résultats de stage sont envisageables :
– le calcul d’une forme moyenne ou caractéristique à partir de géométries à des instants différents, comme à partir d’acquisitions d’imageries médicales dans un suivi patient ;
– dans le cadre de l’analyse des registres parcellaires graphiques dans le temps, pour extraire des parcelles qui sont cultivées de manière similaire, en prenant en compte les reconfigurations de leur périmètre ;
– rechercher les interactions récurrentes entre les réseaux neuronaux dans des imageries par résonance magnétique fonctionnelles cérébrales.

Sujet :
Les tâches suivantes seront à réaliser :
– Bibliographie sur le sujet ;
– Réflexion sur les réseaux de neurones profonds à utiliser afin d’obtenir, dans un premier temps, un motif qui se répète dans un graphe. Techniquement, en entrée du réseau de neurones, nous aurions un graphe spatio-temporel à analyser et en sortie un sous-graphe spatio-temporel fréquent. Pour ce faire, il sera probablement nécessaire de combiner différentes architectures existantes comme les Convolutional Graph Neural Networks (ConvGNNs) ou les Graph AutoEncoders (GAEs) et donc de travailler sur la structuration des réseaux ;
– Mise en oeuvre du réseau de neurones, par le biais de librairies appropriées comme PyTorch, Deep Graph Library ou encore Tensorflow ;
– Tests de la méthode réalisée, interprétation et comparaison des résultats ;

Profil du candidat :
Autonome en programmation (de préférence Python), connaissances sur les graphes et les réseaux de neurones, intérêt pour le développement expérimental.

Formation et compétences requises :
Master informatique ou équivalent

Adresse d’emploi :
300 bd Sébastien Brant à Illkirch
ou
8 Rue Jean Baptiste Fabre Le Puy-en-Velay

Document attaché : 202010150918_stage2021_DL-RechercheMotifsFrequents.pdf

Détection de communautés multicouches sur réseaux complexes issus des images satellites
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2021-01-31

Contexte :
Le CIRAD est engagé dans le développement des agricultures des Pays du Sud, où la réduction de la pauvreté et la sécurité alimentaire sont des préoccupations sensibles. Ce développement passe notamment par le déploiement de solutions numériques innovantes, incluant des méthodologies alternatives pour modéliser et analyser les informations contenues dans les séries temporelles d’images satellitaires.
Dans ce contexte, le projet AMORIS a pour objectif d’explorer les possibilités de caractérisation spatio-temporelle de paysages à grande échelle par une approche de modélisation fondée sur les objets géographiques à des échelles plus fines, en passant donc par une représentation du paysage sous forme de graphes multiples d’interaction à dimensions élevées. Un modèle qui d’appuie sur de tels réseaux complexes conduit à une représentation spatiale des données satellitaires qui va au-delà de la cartographie classique : en prenant notamment en compte les différents types de relations entre objets ou segments identifiés dans les images, correspondant aux éléments « primitifs » du paysage (parcelles agricoles, tâches de végétation naturelle, îlots et structures artificialisés, etc.), ces modèles structurent l’information permettant de remonter vers l’identification d’unités paysagères à plus grande échelle, ayant une connotation « fonctionnelle » homogène dans le paysage. De plus, cette modélisation sous forme de réseaux complexes permet d’appliquer des méthodes récentes d’analyse de réseaux afin de caractériser ces unités paysagères à partir d’information non seulement spectrale ou texturale, et ce de façon non supervisée. Ces connaissances obtenues permettent par exemple de mettre en relief l’organisation spatiale des entités qui constituent un paysage en complément de leur dynamique temporelle.

Sujet :
L’objectif de ce stage est d’étudier de façon exhaustive comment des méthodes de détection de communautés multicouches (Magnani et al. 2019)1 peuvent être utilisées pour obtenir une stratification automatique du paysage agricole. Une méthodologie proposée en 2019 dans le cadre du même projet (Interdonato et al., 2019)2 sera utilisée pour modéliser une série temporelle d’images satellitaires Sentinel-2 sous forme de réseaux multicouches. Différentes méthodes de détection de communautés multicouches seront ensuite testées pour l’identification des différentes unités paysagères.
Plusieurs zones d’étude seront prises en considération, localisées dans des pays de l’Afrique de l’Ouest, et notamment au Burkina Faso et au Sénégal. Ces zones agricoles représentent en effet un terrain particulièrement intéressant pour la méthodologie proposée en raison de la fragmentation et de l’évolution constante des paysages les englobant.

1 Matteo Magnani, Obaida Hanteer, Roberto Interdonato, Luca Rossi, Andrea Tagarelli : Community Detection in Multiplex Networks. CoRR abs/1910.07646 (2019) https://arxiv.org/abs/1910.07646
2 R. Interdonato, R. Gaetano, D. Lo Seen, M. Roche, G. Scarpa : Extracting Multi-Layer Networks from Sentinel-2 Satellite Image Time Series. Network Science, Cambridge University Press (2019)

Mots clefs :
Analyse des réseaux, détection de communautés, réseaux multicouches, réseaux complexes, télédétection, images satellites, stratification du paysage agricole

Profil du candidat :
L’étudiant(e) sera spécialisé(e) dans la fouille des donnés, et plus spécifiquement dans l’analyse des réseaux complexes et fouille de graphes.
Il/elle devra être à l’aise en programmation, préférablement avec le langage Python. Il/elle devra apprécier la découverte et l’exploration méthodologique, la démarche scientifique, et fera preuve d’un bon esprit d’analyse critique.
Un bon sens du travail en équipe est fortement souhaité, ainsi que le goût pour les collaborations interdisciplinaires. Une bonne culture dans le domaine thématique de l’agriculture en milieu tropicale sera appréciée.

Formation et compétences requises :
– analyse des réseaux complexes
– fouille des donnés
– fouille de graphes
– programmation (préférablement Python)

Adresse d’emploi :
L’étudiant(e) sera hébergé(e) pour la durée de son stage à la Maison de la Télédétection, 500 Rue JF Breton, 34000 Montpellier. Il/elle aura à sa disposition une machine de calcul et un accès aux outils informatiques de la MTD.
Il/elle sera potentiellement soumis à des périodes de télétravail selon les conditions sanitaires.

Document attaché : 202012021100_Amoris – Sujet de Stage M2 2021.pdf

Developements de nouveaux outils de l’apprentissage automatique pour classification, analyse et inter
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : ATLAS/Doctorants

Laboratoire/Entreprise : L2S
Durée : 4 to 6 month
Contact : djafari@lss.supelec.fr
Date limite de publication : 2021-01-31

Contexte :
Development of new Machine Learning methods for classification, analysis and interpretation of images for Orthodontics
The main idea is to continue to develop new methods of ML for classification, analysis and interpretation of different kind of orthodontics images such as:
• Lateral x-rays radiography for
— determining the degrees of maturation of the vertebra;
— automatic contouring the the vertebra;
— automatic cephalometric analysis, etc.
• Panoramic x-rays radiography — for automatic contouring the teeth; — classification of degree of inclination of incisives;

Sujet :
Development of new Machine Learning methods for classification, analysis and interpretation of images for Orthodontics
The main idea is to continue to develop new methods of ML for classification, analysis and interpretation of different kind of orthodontics images such as:
• Lateral x-rays radiography for
— determining the degrees of maturation of the vertebra;
— automatic contouring the the vertebra;
— automatic cephalometric analysis, etc.
• Panoramic x-rays radiography — for automatic contouring the teeth; — classification of degree of inclination of incisives;

• The main theoretical aspect is related to Interpretable Machine Learning
a large maxillofacial radiology database (15,000 X ray) has already been launched and ready to use for this study

https://scholar.google.fr/scholar?q=Interpretable+Machine+Learning&hl=fr&as_sdt=0&as_vis=1&oi=scholart
https://christophm.github.io/interpretable-ml-book/
• The work will be done in cooperation with other orthodontics physicans
• https://www.makaremi-orthodontie.fr
• https://www.makaremi-orthodontie.fr/media/articles/artificial-intelligence-applications-in-orthognathic-surgery.pdf

Profil du candidat :
stage de Master 2 pour une durée de 4 à 6 mois

Formation et compétences requises :
Machine Learning
Python programming
Image processing
Image classification

Adresse d’emploi :
Due to Covid, main part of the work will be done from home.
A Computer with GPU is available and it can be accessed to run the developed program on image data bases. with remote access by Teamviewer.
However, once a month, it may be necessary to b e on place at the orthodontics institute of Dr. Makaremi
Indeminization: 700 Euros / month

Document attaché : 202012162218_offre_de_stage_2021 .pdf

Fouille de motifs structurés interactive
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : GREYC, Université de Normandie Caen
Durée : 5-6 mois
Contact : albrecht_zimmermann@gmx.net
Date limite de publication : 2021-01-31

Contexte :
Fouille de motifs structurés interactive

Stage de recherche master de 5 ou 6 mois, GREYC, équipe CoDaG, Université de Caen Normandie, France

Contact : Albrecht Zimmermann (albrecht.zimmermann@unicaen.fr)

Encadrants scientifiques : Albrecht Zimmermann, Bertrand Cuissart, Abdelkader Ouali

Début: Février/Mars 2021

Gratification: selon les règles en vigueur (environ 560e par mois).

Ce stage de recherche sera réalisé dans le cadre du projet InvolvD, soutenu financièrement par l’Agence nationale de la recherche (ANR).
La fouille de motifs est une tâche consistant à trouver des régularités ou des motifs inattendus dans de grandes bases de données. La fouille de motifs structurés effectue cette tâche sur des données structurées comme des séquences, des arbres ou, ce qui est particulièrement important pour InvolvD, des graphes. Jusqu’à récemment, la fouille de motifs correspondait à une application répétée des étapes suivantes : l’utilisateur des données étudiées spécifie et paramètre des contraintes, puis il explore un large ensemble de modèles résultants et ajuste les contraintes et relance le processus.

Les candidats sont encouragés à nous contacter dès que possible. Le début du stage est prévu pour février ou mars 2021. Le dossier de candidature complet se compose des documents ci-dessous, qui doivent être envoyés sous forme de fichier PDF unique à Albrecht Zimmermann (albrecht.zimmermann@unicaen.fr), Bertrand Cuissart (bertrand.cuissart@unicaen) et Abdelkader Ouali (abdelkader.ouali@unicaen.fr).
– CV
– Une lettre de motivation d’une page (indiquant clairement la date d’entrée en fonction disponible ainsi que les qualifications, l’expérience et la motivation pertinentes)
– Certificats et relevés de notes universitaires (notes de licence et de master)
– Coordonnées de trois personnes de référence au maximum
– Eventuellement un certificat de langue anglaise et une liste de publications
– Attention : tous les documents doivent être rédigés en anglais ou en français.

Sujet :
Récemment, plusieurs chercheurs ont proposé d’intégrer le retour d’information de l’utilisateur pour modéliser de façon plus directe les contraintes de fouille. Ce retour d’information consiste généralement à rejeter ou à accepter des motifs individuels, ou à classer un petit ensemble de motifs. En plus du langage des modèles lui-même, les motifs ont une deuxième représentation dans ce cadre, qui les caractérise par rapport aux statistiques observées, aux instances couvertes, etc. Cette dernière représentation est utilisée avec le retour d’information de l’utilisateur pour apprendre une fonction de préférence, par exemple via un SVM ou un estimateur par régression. L’optimisation de cette fonction de préférence guide ensuite le processus d’extraction vers les zones de l’espace de recherche qui sont supposées contenir des motifs intéressants pour l’utilisateur, et loin de celles qui contiennent des motifs inintéressants.

Les travaux existants sur l’exploration interactive de motifs se limitent principalement à des motifs non-structurés, c’est-à-dire des ensembles d’éléments, qui peuvent être distingués plus facilement et pour lesquels des représentations ad hoc de motifs peuvent être construites sans grand effort. Par exemple, un itemet {i1, i2, i3, i4} diffère de {i1, i2, i3, i5} par la *présence* de i4/i5 et une représentation de modèle qui implique des indicateurs de présence peut être utilisée pour apprendre cela. Une séquence i1->i2->i3->i4 diffère de i2->i4->i3-

Profil du candidat :
Étudiant en master informatique ou mathématique appliquée, approfondissement apprentissage/fouille de données.

Formation et compétences requises :
Compétences requises :
– Une expérience dans l’apprentissage automatique, la fouille de données, la programmation ou les mathématiques appliquées est très appréciée.
– Le français et/ou l’anglais sont les langues de travail.

Adresse d’emploi :
Bd du Maréchal Juin. 14032 Caen Cedex, France

Stage Développeur Python/Scraping
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ANIL
Durée : 6 mois
Contact : wael.jradi@anil.org
Date limite de publication : 2021-01-31

Contexte :
Les données affichées par la plupart des sites Web ne peuvent être consultées qu’à l’aide d’un navigateur Web. Ils n’offrent pas la fonctionnalité pour enregistrer une copie de ces données pour un usage personnel. La seule option est alors de copier et coller manuellement les données – un travail très fastidieux qui peut prendre plusieurs heures, voire plusieurs jours. Le Web Scraping est la technique d’automatisation de ce processus, de sorte qu’au lieu de copier manuellement les données des sites Web, le logiciel Web Scraping effectuera la même tâche en une fraction du temps.

Sujet :
Au sein d’une équipe composée de chargés d’études, statisticiens et data scientist, nous cherchons un(e) stagiaire développeur Python (durée de 4 à 6 mois) pour travailler sur le développement d’un outil de scraping et de crawling. Les principales missions sont : dimensionnement de l’infrastructure nécessaire (serveur+stockage de données), extraction et exploitation de la data (utilisation des outils de scraping en Python), récupération de nouvelles sources de données et transformation de ces données

Profil du candidat :
Vous êtes force de propositions, force d’innovations et avez des capacités de
synthèse et d’analyse :
– Maîtrise en Python et traitement des données
– Bonnes connaissances en HTML, Javascript et CSS
– Expérience dans l’écriture d’outils de scraping (projets scolaires, professionnels ou personnels)
– Connaissances des BDD
– Intérêt pour la partie infrastructure informatique
– Maîtrise des outils BI
– Enthousiaste, autonome et polyvalent(e)

Formation et compétences requises :
De formation Bac+4 ou bac +5 dans le domaine de l’ingénierie informatique, data science et/ou école d’ingénieur.

Adresse d’emploi :
Paris, France

Document attaché : 202011190904_Offre_de_stage_M2_2021.pdf

Traitement de données d’acoustique passive sous-marine issues d’éléphant de mer biologgés pour évalu
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Département STIC de l’ENSTA Bretagne, rattaché au
Durée : 6 mois
Contact : dorian.cazau@ensta-bretagne.fr
Date limite de publication : 2021-01-31

Contexte :
Sur l’ensemble des océans du globe, la dynamique fine échelle de la couche de mélange à l’interface air/eau est très complexe, avec une contribution majeure de facteurs météorologiques de surface comme le vent. Une bonne caractérisation de ce forçage météorologique est cruciale pour la modélisation de différents processus océanographiques, tels que l’enrichissement de la couche euphotique en nutritif nécessaires à la production primaire. Cette production primaire peut générer l’agrégation des niveaux trophiques intermédiaires et supérieur. A travers ce sujet de stage nous souhaitons évaluer l’apport de données acoustiques in-situ collectées par des éléphants de mer au cours de leur plongée afin d’estimer les variations de bruits ambiant liées d’une part à la géophonie (vent et pluie) et d’autre part à la biophonie liées à la présence de poissons mésopélagiques.

De par sa couverture globale, la télédétection spatiale constitue l’outil le plus adapté à l’échelle globale pour estimer les conditions météorologiques de surface. Cependant, ses mesures possèdent de nombreux biais (absence de référence absolue) et incertitudes relatives dépendant des environnements océaniques, auxquels s’ajoutent des problèmes de manque de données, de cycle d’échantillonnage trop longs et de résolution spatiale de mesures trop larges, selon les applications. Ces limites se font particulièrement sentir dans des océans éloignés à la biogéographie complexe tels que l’Océan Austral et l’Antarctique. Ces erreurs de mesures peuvent conduire à une surestimation de l’influence des vents dans les ré-analyses de phénomènes de mélange.

Sujet :
Ce stage consistera à utiliser un jeu de donné unique collecté par des éléphants de mer équipés de multiples capteurs environnementaux. Il s’agit d’une part de mesure deprofils de température et salinité à haute fréquence (60 fois par jours avec une mesure de T/S/P toutes les 2 secondes) permettant d’évaluer précisément la profondeur de la couche de mélange et l’intensité de la stratification. D’un capteur de lumière/fluorescence permettant d’évaluer les concentrations en chlorophylle-a utilisée comme indicateur des concentrations en phytoplancton. La vitesse et la direction du vent seront estimées à partir des mesures acoustiques réalisées sur les éléphants de mer au cours de leurs plongées (Cazau et al. 2017a) tandis que la direction du vent, et l’état de la mer sont évalués à partir des mesures d’accélérations et du magnétomètre lorsque l’éléphant de mer respire en surface (Cazau et al. 2017b). Les mesures in-situ éléphants de mer seront comparées à celle fournies par des mesures d’état de la mer et de vitesse du vent par satellites (CFOSAT en particulier).
L’objectif de ce stage sera d’évaluer l’influence:
1) Des coups de vents sur les propriétés de la couche de mélange
2) De la modification des propriétés de la couche de mélange sur le démarrage de la production phytoplanctonique ainsi que la distribution du phytoplancton dans la couche euphotique.
3) Enfin d’évaluer les variations de bruits ambiant qui pourrait être liés à la biophonie et notamment la présence plus ou moins importante de proie. En effet les femelles éléphants de mer sont connues pour se nourrir essentiellement de poissons lanterne, connus pour produire des chœurs susceptibles de faire monter le bruit ambiant de 5 à 10 décibels selon un rythme nycthéméral. Nous chercherons à détecter la présence de tels chœur, et si l’intensité des chœurs co-varie avec le nombre de proies rencontrées par les éléphants de mer le long de leur trajet. Si le temps le permet nous chercherons à évaluer si ces animaux se déplacent le long de gradients acoustiques générés par biophonie des proies.

L’objectif scientifique de ce stage sera donc :
– D’une part d’obtenir une meilleure compréhension dans l’espace et le temps à la fois des conditions de météorologiques de surface, qui sont d’un intérêt fondamental pour développer des paramétrisations spécifiques à différents environnements marins reliant la distribution verticale des propriétés biogéochimiques aux forçages météorologiques de surface, ainsi que pour affiner les algorithmes satellitaires actuels aux spécificités régionales des océans. De telles améliorations des produits satellitaires des vitesses de vent à l’échelle régionale (dans l’océan austral notamment) auront des implications importantes pour la justesse des projections des modèles régionaux dans le système-terre en réponse au changement climatique ;
– D’autre part d’évaluer la contribution des mesures acoustiques sous-marine dans l’évaluation du paysage acoustique d’origine biologique dans lequel évolue les éléphants de mer et l’utilisation de ces informations dans la localisation des zones de fortes concentrations en proies.

La première partie du stage sera dédiée à:
– Une étude bibliographique sur l’utilisation de mesures acoustiques sous-marine pour l’évaluation du vent, de la pluie et des biophonies.
– L’apprentissage de la manipulation et traitement des données d’acoustiques et des données comportementales et environnementales éléphants de mer.
– L’apprentissage des produits satellite d’estimation de l’état de la mer, de la vitesse et direction du vent.
– Au traitement des jeux de données acoustiques et comportementales (plongées, tentatives de captures de proies) le long des trajectoires des animaux.

Profil du candidat :
Ecole d’ingénieur généraliste, spécialisation Data sciences

Formation et compétences requises :
Ecole d’ingénieur généraliste, spécialisation Data sciences

Compétence requises :
– Un attrait pour le traitement des sonnées satellite,
– Un attrait pour les approche IA.
– Bon bagage quantitatif et bonne maitrise d’outils tels que Python et/ou R
– Un intérêt pour la biologie et le travail interdisciplinaire.

Adresse d’emploi :
ENSTA Bretagne
2 rue François Verny
29806 Brest Cedex 9

Document attaché : 202011041447_sujet_stage_master2_Cazau_Guinet.pdf

Feb
1
Mon
2021
Intégration préférences utilisateurs pour la fouille données selon intérêt subjectif de l’utilisateu
Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRISA (Rennes)
Durée : 5 à 6 mois
Contact : bruno.cremilleux@unicaen.fr
Date limite de publication : 2021-02-01

Contexte :
Mots-clés : fouille de données interactive, mesures d’intérêt, préférences utilisateur

Contexte :
Les méthodes de fouille de données ont pour objectif d’assister l’utilisateur dans sa compréhension des données, en découvrant des modèles intuitifs, utiles, inattendus mais surtout intéressants pour ce dernier. L’importance de l’utilisateur dans ce processus d’exploration paraît donc évidente. Extraire des modèles présentant un intérêt pour l’utilisateur implique la prise en compte de ses attentes. Dans ce cadre, la notion de préférence a été définie : une préférence reflète une “opinion” d’un utilisateur sur un objet d’intérêt, ici un modèle (ex. une règle d’association, un itemset, un cluster, etc.).

Les préférences expriment des comparaisons sur un ensemble d’éléments, de choix ou dans notre cas des modèles. Les préférences peuvent être exprimées sous différentes formes : de manière quantitative, en indiquant des notes/scores grâce à des mesures d’intérêt (ex. mesures statistiques sur des règles [2], l’intérêt subjectif de l’utilisateur [3]), ou de manière qualitative [4], par des comparaisons par paires ou d’autres formalismes de préférences plus sophistiqués (par exemple, “Je préfère la règle d’association A à la règle d’association B”). L’approche qualitative est plus générale que l’approche quantitative. Les préférences apparaissent donc comme un moyen naturel pour classer les modèles. Pourtant la notion de préférence utilisateur est encore peu utilisée en fouille de données, alors qu’elle permet à l’analyste d’exprimer des requêtes de façon plus riche que les traditionnelles mesures d’intérêt [1]. Ce manque d’utilisation s’explique certainement par la difficulté pour l’utilisateur à expliciter la relation de préférence permettant de formaliser ses attentes. En effet, plus un modèle de préférence est expressif, plus il est difficile à représenter/acquérir et à intégrer dans le processus de fouille.

Sujet :
Travail à réaliser :
Dans ce stage, nous nous intéresserons plus particulièrement à l’intérêt subjectif de l’utilisateur [4,5]. La fouille de données selon l’intérêt subjectif de l’utilisateur consiste à rechercher des modèles surprenants par rapport à une connaissance du domaine telle qu’un a priori sur les données. Autrement dit, on maximise la préférence de l’aspect inattendu de l’information découverte par rapport à la connaissance du domaine.

Nous pensons intéressant et prometteur de combiner des préférences qualitatives (ex. relation d’ordre Pareto, préférences conditionnelles ou floues, etc.) à l’intérêt subjectif de l’utilisateur dans le processus d’explicitation de préférences. Les motifs obtenus auront ainsi un intérêt à la fois selon la connaissance du domaine (ici issue des données) et des préférences de l’utilisateur (i.e. extraction de modèles divers et représentatifs, en plus d’avoir un intérêt pour l’utilisateur).

Pour ce faire, un certain nombre de verrous sont à lever : (i) choix de la mesure d’intérêt subjectif ; (ii) choix du modèle de préférence qui va déterminer la représentation de l’utilisateur (compromis entre expressivité et complexité du modèle) ; (iii) intégration des préférences qualitatives dans le calcul de la mesure d’intérêt subjectif.

Le but ultime de ce stage est de construire un système capable d’expliciter les préférences de l’utilisateur à partir de motifs découverts dans les données selon un scénario de fouille interactive [6, 7] alternant phases de fouille de données et phases d’apprentissage. A partir d’une requête initiale de l’utilisateur, le système présente un premier ensemble de motifs : (1) l’utilisateur sélectionne certains de ces motifs, les désignant comme réellement intéressants pour lui ; (2) le système considère ces motifs comme des exemples de préférences de l’utilisateur et apprend alors ses préférences ; (3) une nouvelle collection de motifs est extraite en utilisant ces préférences mises à jour, celle-ci est présentée à l’utilisateur, et retour à l’étape (1).

Références :

[1] Liqiang Geng and Howard J Hamilton. Interestingness measures for data mining: A survey. ACM Computing Surveys (CSUR), 38(3):9, 2006.

[2] Wilhelmiina Hämäläinen and Matti Nykänen. Efficient discovery of statistically significant association rules. In Proceedings of the 8th IEEE Int. Conf. on Data Mining (ICDM 2008), December 15-19, 2008, Pisa, Italy, pages 203–212, 2008.

[3] Tijl De Bie. Maximum entropy models and subjective interestingness: an application to tiles in binary databases, DAMI, 2011.

[4] Öztürké, Meltem, Alexis Tsoukiàs, and Philippe Vincke. “Preference modelling.” Multiple criteria decision analysis: State of the art surveys. Springer, New York, NY, 2005. 27-59.

[5] Puolamäki, Kai, Oikarinen, Emilia, Kang, Bo, et al. Interactive visual data exploration with subjective feedback: an information-theoretic approach. Data Mining and Knowledge Discovery, 2020, vol. 34, no 1, p. 21-49.

[6] B. Crémilleux, M. Plantevit, and A. Soulet. Preference-based pattern mining. In 14th International Conference on Formal Concept Analysis, Rennes, France, 2017.
https://perso.liris.cnrs.fr/marc.plantevit/doku/doku.php?id=preferencebasedpatternminingtutorial#material

[7] M. Van Leeuwen. Interactive data exploration using pattern mining. In Interactive knowledge discovery and data mining in biomedical informatics, pages 169–182. Springer, 2014.

Profil du candidat :
Profil souhaité :
Etudiante ou étudiant en master informatique ou école d’ingénieur en informatique. De solides compétences en fouille de données et programmation ainsi qu’une ouverture sur les statistiques seront hautement appréciées.

Formation et compétences requises :
French and/or English are the working languages possible.

Les candidates et candidats sont encouragés à nous contacter dès que possible.

Adresse d’emploi :
Laboratoire d’accueil : IRISA (Rennes) – CNRS UMR 6074

Encadrement :
• Bouadi Tassadit, Cellier Peggy, et Termier Alexandre (prenom.nom@irisa.fr) IRISA-INRIA Rennes (LACODAM – SEMLIS)
• Crémilleux Bruno (bruno.cremilleux@unicaen.fr) GREYC – Université de Caen Normandie

Période :
Stage de 5 à 6 mois à effectuer entre le 1er février et le 31 août 2021.

Gratification :
Selon règles en vigueur (environ 560 euros par mois.

Pour candidater :
Pour candidater, envoyer les documents suivants (exclusivement au format pdf) à tassadit.bouadi@irisa.fr, alexandre.termier@irisa.fr, peggy.cellier@irisa.fr et bruno.cremilleux@unicaen.fr :
• curriculum vitae ;
• lettre de motivation expliquant vos qualifications, expériences et motivation pour ce sujet ;
• relevé de notes de licence 3, de 1ère année de master et les notes de 2ème année de master disponibles ou équivalent pour les écoles d’ingénieurs ;
• noms de personnes pouvant fournir des informations sur vos compétences et votre travail.

Document attaché : 202011220001_2020-2021_StagePreferencesMesuresInteret_sujet.pdf