Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Feb
28
Sun
2021
Clustering incrémental avec des approches déclaratives
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO (Laboratoire d’Informatique Fondamentale d’
Durée : 5 ou 6 mois
Contact : thi-bich-hanh.dao@univ-orleans.fr
Date limite de publication : 2021-02-28

Contexte :
Ce stage est lié à un projet national Herelles, financé par l’ANR (Agence National de la Recherche) débutant en Novembre 2020. Dans le cadre de ce projet, nous proposons un stage de recherche de master, qui se déroulera au laboratoire LIFOà Orléans, en partenariat avec le laboratoire GREYC à Caen.

Le projet Herelles comporte aussi un financement de thèse de doctorat dont l’appel à candidature sera publié ultérieurement.

Le stage est d’une durée de 5 ou 6 mois, avec le début à mi-janvier ou début février 2020. Il pourrait éventuellement déboucher sur une thèse.

Les candidats sont encouragés à nous contacter dès que possible. Le dossier de candidature complet se compose des documents ci-dessous, qui est sous forme d’un seul fichier pdf à envoyer à Thi-Bich-Hanh Dao (thi-bich-hanh.dao@univ-orleans.fr) :
• CV
• lettre de motivation
• diplômes et relevés des notes de Licence et Master
• coordonnées de trois personnes de référence au maximum
• éventuellement un certificat de langue anglaise et une liste de publications
• Attention : tous les documents doivent être en anglais ou en français.

Sujet :
Le clustering est une tâche importante en fouille de données, qui vise à partitionner les instances de données en groupes pour trouver la structure sous-jacente. Le clustering a été étendu au clustering sous contraints, qui permet d’intégrer les connaissances préalables, afin de rendre la tâche de clustering plus précise. Les connaissances préalables sont intégrées sous forme de contraintes. La plupart des méthodes de clustering sous contraintes demandent la spécification de toutes les contraintes avant l’exécution ultérieure des méthodes. Dans de nombreuses applications, il est plus raisonnable de permettre à l’utilisateur d’injecter de nouvelles informations sous forme de contraintes sur un résultat de clustering. Les contraintes peuvent être des contraintes sur deux instances qui doivent ou ne peuvent pas être dans un même cluster, ou peuvent être des contraintes sur les clusters, indiquant des limites sur leur taille ou leur diamètre, ou peuvent être des opérations sur clusters, comme scinder un cluster ou fusionner deux clusters, etc.. Le processus de clustering sous contraintes devient donc incrémental. Dans ce cadre incrémental, il est essentiel de profiter des informations fournies par l’utilisateur pour apporter des améliorations à la solution. En même temps, afin d’éviter de dérouter l’utilisateur, le nouveau clustering ne doit pas être trop différent du précédent.

Nous considérerons des approches déclaratives (programmation par contraintes, programmation linéaire en nombres entiers) qui offrent l’expressivité et la satisfaction des contraintes. Dans ce stage, nous visons à:
1. Développer un mécanisme qui facilite l’intégration du retour de l’utilisateur sur un clustering donné.
2. Identifier les contraintes importantes afin de profiter des informations données par l’utilisateur. Cela pourrait se faire en déterminant ou en améliorant une mesure sur l’utilité des contraintes.
3. En même temps, limiter la perturbation du nouveau clustering par rapport au précédent. Une mesure de la similarité de regroupement doit être définie, qui peut être statistique ou plus explicative.

Profil du candidat :
Etudiante ou étudiant en master informatique ou école d’ingénieur en informatique.

Formation et compétences requises :
– Compétences en machine learning/data mining. Bonnes capacités en programmation. Des connaissances en Programmation par Contraintes ou Programmation linéaire en nombres entiers seraient appréciées.
– Le français et/ou l’anglais sont les langues de travail.

Adresse d’emploi :
LIFO, Université d’Orléans

Document attaché : 202011251534_Master-Internship-H-2021.pdf

Outil d’aide à l’alignement de ressources onto-terminologiques
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR ESPACE-DEV (http://www.espace-dev.fr)
Durée : 4 à 6 mois
Contact : jean-christophe.desconnets@ird.fr
Date limite de publication : 2021-02-28

Contexte :
À l’échelle globale, les océans, l’atmosphère et la biosphère sont l’objet de changements majeurs d’une rapidité sans précédent. Les enjeux associés à ces changements appellent à un développement de connaissances sur le système Terre. Ces connaissances sont construites par l’utilisation conjointe des données issues des observations satellites, de terrain ou encore des sorties de modèle de simulation des phénomènes étudiés. Ces divers systèmes génèrent des volumes de données considérables dans divers formats, hébergés par de nombreux centres de données et de calcul. L’étape de découverte des données est un défi de premier ordre pour connaître leur disponibilité, assurer leur réutilisation et/ou leur combinaison pour de nouvelles analyses.

Sujet :
outil d’aide à l’alignement de ressources onto-terminologiques : application aux thésaurus des sciences de la Terre et du vivant

1 – Problématique
L’approche actuelle est de fédérer les bases de données existantes pour en fournir une vue complète et unifiée en vue de permettre leur interrogation. La volumétrie des données nous imposent de baser nos interrogations sur les métadonnées. La transversalité des enjeux scientifiques nous demande de pouvoir rendre découvrables les données au delà d’une discipline. Pour cela, nous avons choisi de décrire les données en utilisant une ontologie disciplinairement neutre, basée sur le paradigme d’observation [Beretta et al., 2020].
Actuellement, les données sont décrites dans les catalogues des systèmes d’observation. D’un point de vue sémantique, ces catalogues reposent sur une utilisation très disparate et hétérogène (listes contrôlées de valeurs, ressources onto-terminologiques) qui sont utilisées comme descripteurs des données (contenu, localisations temporelle et spatiale).

2 – Travaux
Notre objectif est d’être en mesure d’aligner les différentes ressources onto-terminologiques disciplinaires de sorte que la découverte et la navigation entre des données issues de différentes disciplines soient possibles. Appliqué à quelques thésaurus existants, notre démarche se veut extensible à d’autres ressources ontologiques.
Les travaux porteront sur :
La mise au point d’une méthodologie originale et adaptée à l’alignement des ressources onto-terminologiques. Suite à des travaux préliminaires, nous souhaitons orienter l’étude sur les techniques basées sur les chaînes de caractères, le langage et l’utilisation de ressources linguistiques externes [Jain et al., 2010; Bellahsene et al.,2017 ; Mazuel & Charlet, 2009 ; Jentzsch et al., 2010]. Elles apparaissent adaptées à nos ressources onto-terminologiques (terminologies, des vocabulaires contrôlés et des thésaurus).
L’implémentation d’un outil générique qui utilisera et/ou complétera les outils d’alignements existants. Il viendra compléter un service de registre assurant la gestion et l’accès standard (API REST, SPARQL) aux ressources terminologiques des centres de données.
Des recommandations seront également attendues pour assurer l’automatisation, la mise à jour des alignements à plus grande échelle.

3 – Résultats attendus
Etat de l’art et analyse des méthodes d’alignement adaptées aux ressources onto-terminologiques des sciences de la Terre,
Proposition d’une méthodologie d’alignements,
Prototype assurant les alignements, leur évaluation et leur exportation pour enrichir les ressources onto-terminologiques existantes,
Recommandations pour automatiser et gérer la production d’alignements sur de nouvelles ressources.
Les codes sources seront versés à un dépôt GIt et ouverts (open source) à la communauté scientifique sous une licence libre.

Profil du candidat :
Bonne maîtrise des concepts, méthodes et outils liés à la modélisation de données et de connaissances.
Connaissance des technologies du web sémantique (concepts, langages).
Maîtrise d’outils de construction, d’alignements ou d’agrégation d’ontologies.
Bonne maîtrise d’un langage de programmation Java, Python
Maîtrise des librairies du web sémantique (Java Jena,OWLReady Python, …) pour manipuler les ontologies RDF et OWL) et les techniques d’alignements.

Formation et compétences requises :
master informatique dans le domaine de l’ingénierie des connaissances ou de l’intelligence artificielle (apprentissage, fouille de texte)

Adresse d’emploi :
Maison de la télédétection
500 rue jean françois Breton
Montpellier

Document attaché : 202012082233_Outil d’aide à l’alignement de ressources onto-terminologiques .pdf

Outil d’annotation sémantique pour des données massives et hétérogènes
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR ESPACE-DEV (http://www.espace-dev.fr)
Durée : 4 à 6 mois
Contact : jean-christophe.desconnets@ird.fr
Date limite de publication : 2021-02-28

Contexte :
À l’échelle globale, les océans, l’atmosphère et la biosphère sont l’objet de changements majeurs d’une rapidité sans précédent. Les enjeux associés à ces changements appellent à un développement de connaissances sur le système Terre. Ces connaissances sont construites par l’utilisation conjointe des données issues des observations satellites, de terrain ou encore des sorties de modèle de simulation des phénomènes étudiés. Ces divers systèmes génèrent des volumes de données considérables dans divers formats, hébergés par de nombreux centres de données et de calcul. L’étape de découverte des données est un défi de premier ordre pour connaître leur disponibilité, assurer leur réutilisation et/ou leur combinaison pour de nouvelles analyses.

Sujet :
Outil d’annotation sémantique pour des données massives et hétérogènes : application aux données spatio-temporelles du système Terre

Problématique
L’approche actuelle est de fédérer les bases de données existantes pour en fournir une vue complète et unifiée en vue de permettre leur interrogation. La volumétrie des données nous imposent de baser nos interrogations sur les métadonnées. La transversalité des enjeux scientifiques nous demande de pouvoir rendre découvrables les données au delà d’une discipline. Pour cela, nous avons choisi de décrire les données en utilisant une ontologie disciplinairement neutre, basée sur le paradigme d’observation [Beretta et al., 2020].
Actuellement, les données sont décrites dans les catalogues des systèmes d’observation. Ils sont construits sur des annotations sémantiques faiblement standardisés, incomplètes, voire imprécises. A ce stade, elles ne permettent pas de mettre en oeuvre une indexation efficace sur ces grandes masses de données.

Objectifs
Pour cela, notre objectif est de transformer et enrichir les catalogues existants sur la base de l’ontologie d’observation et des ressources onto-terminologiques disciplinaires. Du fait de l’incomplétude, de l’imprécision et de l’hétérogénéité des métadonnées, il est proposé d’explorer l’apport des techniques de classification par apprentissage pour automatiser la standardisation des annotations existantes (sémantique et syntaxique) et la classification des métadonnées en s’appuyant sur notre ontologie métier. Plusieurs grands jeux de métadonnées venant des catalogues d’observatoires seront mis à disposition.
Il s’agit de proposer
une méthodologie originale faisant appel aux techniques d’apprentissage existantes pour standardiser et classifier les métadonnées,
l’implémentation d’un prototype qui permettra de mettre en oeuvre les opérations de transformation, standardisation et de classification des métadonnées.
proposer des métriques d’évaluation qui permettront de juger de l’adéquation de la méthode aux métadonnées traitées.

Références
V. Beretta, J-C Desconnets, I. Mougenot, M. Arslan, J. Barde & V. Chaffard (2020) : A user-centric metadata model to foster sharing and reuse of multidisciplinary datasets in environmental and life sciences. submitted Computers and Geoscience journal.
C. ROUSSEY,S. BERNARD, G. ANDRÉ, D. BOFFETY. Weather Data Publication on the LOD using SOSA/SSN Ontology. Semantic Web Journal, 2019. http://www.semantic-web-journal.net/content/weather-data-publication-lodusing-sosassn-ontology0
2 – Résultats attendus
Prototype permettant 1) d’assurer la transformation des données 2) l’annotation sémantique de données spatio-temporelles et 3) l’évaluation de la qualité des différentes approches d’apprentissage proposées
Etude comparative des méthodes d’apprentissage proposées pour leur sélection en fonction des caractéristiques des jeux de données à annoter.

Profil du candidat :
Bonne maîtrise des concepts, méthodes et outils liés à la modélisation de données et de connaissances.
Connaissance des technologies du web sémantique (concepts, langages).
Maîtrise d’outils de construction, d’alignements ou d’agrégation d’ontologies.
Bonne maîtrise d’un langage de programmation à l’exemple de Java ou Python, et des librairies associées pour manipuler les représentations de données sous forme de graphe (RDF) et les techniques d’apprentissage (machine learning, deep learning)

Formation et compétences requises :
master informatique spécialisation en intelligence artificielle si possible

Adresse d’emploi :
Maison de la télédétection
500 rue jean françois
34093 Montpellier

Document attaché : 202012082238_Outil d’annotation sémantique pour des données massives et hétérogènes.pdf

Mar
1
Mon
2021
Chaine de traitement de données en flux pour la supervision de bâtiments intelligents
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICUBE/Université de Strasbourg
Durée : 6 mois
Contact : pierre.parrend@unistra.fr
Date limite de publication : 2021-03-01

Contexte :
L’exploitation des outils d’analyse de données pour le suivi de la qualité de l’environnement, des bâtiments et des infrastructures nécessite de traiter les données en flux, avec un temps de latence très court des évènements d’intérêt. Ce suivi doit être continu et robuste, et en particulier ne pas dépendre de la qualité des données reçues.
Les algorithmes d’analyse mis en œuvre doivent donc être choisis spécifique pour assurer cette robustesse. Ils doivent également supporter la mise en œuvre de réponses automatiques, et donc être fiables, c’est-à-dire avoir une très bonne précision (taux de faux positifs très faible) et fournir des bases solides pour mener des investigations complémentaires, et donc être explicables.

Sujet :
L’objectif du projet est de développer un logiciel pleinement fonctionnel pour la détection de cas d’anomalies dans les environnements ‘smart buildings’. Vous assurerez l’évolution du logiciel SmartFlow v1, qui réalise le transfert de données entre les plates-formes INetLab et BICS du laboratoire ICube, en intégrant les éléments suivants :
• Création d’un datalake pour le stockage des données
• Conception et déploiement de capacité avancée d’analyse des données ‘smart building’, en accord avec les partenaires énergéticiens du projet.
Les principales étapes du projet sont :
• Analyse des besoins en informations pour l’analyse énergétique
• Mise en place d’un datalake
• Mise en place de fonctionnalités de navigations dans l’historique des données
• Enrichissement de la palette d’algorithmes d’analyse pour la détection d’anomalies (ex : LSTM)
• Extraction du jeu de données ‘SmartFlow-building’ répondant aux besoins pour l’analyse énergétique
Le projet doit préparer le déploiement d’une solution de reconfiguration automatique des capteurs énergétiques et l’évaluation de la performance de cette reconfiguration.
Le livrable comprend :
• Une démonstration impliquant les organisations partenaires du projet
• Un document de conception ‘Data flow analysis for smart building (en anglais)
• Le logiciel SmartFlow v2
• Rapport de Master/Fin d’étude
• Soutenance.
Il pourra être adapté selon l’évolution du projet.

Profil du candidat :
L’offre s’adresse à un étudiant en M2, ou dernière année d’école d’ingénieur.
Si le projet donne lieu à des résultats particulièrement solides, il pourra mener à une candidature à une thèse de doctorat en informatique.

Formation et compétences requises :
idem.

Adresse d’emploi :
Laboratoire ICube, CRSB, 1 Rue Eugène Boeckel, 67000 Strasbourg

Document attaché : 202012081447_202011_Sujet stage SmartFlow_Master2 Recherche.pdf

Détection des réseaux enterrés par imagerie radar
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Cerema – ENDSUM
Durée : 6 mois
Contact : david.guilbert@cerema.fr
Date limite de publication : 2021-03-01

Contexte :
Le contrôle non destructif (CND) a de nombreuses applications telles que par exemple la détection des mines anti-personnelles, l’évaluation de structure de génie civil (chaussée, bâtiments, ouvrages d’art).

Sujet :
Dans ce stage, l’étudiant travaillera sur la détection des réseaux enterrés par imagerie radar dans le cadre du partenariat Logiroad – Cerema. Le radar émet une onde qui va être en partie réfléchie à l’encontre d’une discontinuité, l’antenne réceptrice enregistrera les ondes réfléchies pour obtenir un signal 1D (A-scan). En déplaçant le radar, l’ensemble des A-scan collecté formera un B-scan.
L’observation d’une forme hyperbolique sur le B-scan traduit la présence d’un objet. Les réseaux enterrés dans le sens perpendiculaire sont représentés par une hyperbole. Il est difficile de savoir si l’hyperbole représente un réseau enterré ou un objet ponctuel. Plusieurs passages avec un radar permet d’acquérir un ensemble de B-scan formant un C-scan. L’utilisation de C-scan permettra d’améliorer la détection des réseaux enterrés.
Une approche de modélisation numérique (gprMax) permettra de constituer une base de données C-scan pour différentes configuration de matériaux et de réseaux enterrés. À partir de cette base de données, une procédure de détection par méthode d’apprentissage sera mise en place.

Les différentes étapes de ce stage sont :
1. Bibliographie
2. Modélisation numérique (gprMax), constitution de bases de données ;
3. Détection (apprentissage profond) ;
4. Rédaction du rapport.

Profil du candidat :
Étudiant en Master (M2) ou 3ème année Ingénieur en Mathématiques Appliquées, Sciences des données, Intelligence Artificielle et/ou Traitement du Signal

Formation et compétences requises :
1. Intelligence artificielle ;
2. Mathématique appliqué ;
3. Traitement du signal ;
4. Langage de programmation : Python.

Adresse d’emploi :
Cerema, Équipe de recherche ENDSUM – Angers, 23 avenue de l’amiral
Chauvin, 49136 Les Ponts-de-Cé

Estimation des paramètres physiques de réseaux enterrés par imagerie radar
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Cerema – ENDSUM
Durée : 6 mois
Contact : david.guilbert@cerema.fr
Date limite de publication : 2021-03-01

Contexte :
Le contrôle non destructif (CND) a de nombreuses applications telle que l’évaluation des structures de génie civil (chaussée, bâtiments, ouvrages d’art). Nous nous intéressons ici aux réseaux urbains enterrés (gaz, électricité…), dans un contexte de risques et de sécurité aux personnes.

Sujet :
Dans ce stage, il sera question d’estimer des paramètres physiques, comme le diamètre et la profondeur, des réseaux enterrés à partir de signaux radar. Le radar émet une onde qui va être en partie réfléchie à l’encontre d’une discontinuité, l’antenne réceptrice enregistre les ondes réfléchies pour obtenir un signal sur une ligne 1D (A-scan). En déplaçant le radar, l’ensemble des A-scan concaténés forme une image radar 2D, un B-scan. Plusieurs passages avec un radar permet d’acquérir un ensemble de B-scan et d’ajouter une dimension supplémentaire pour former un Cscan.
L’objectif du stage est de faire les estimations sur les C-scan de réseaux enterrés. Une modélisation numérique (gprMax) permet de constituer une base de données (simulée) pour différentes configuration de matériaux et de réseaux enterrés. À partir de cette base de données, une procédure d’estimation par apprentissage sera mise en place (deep-learning ou autre). Un travail similaire existant se consacre aux B-scans et a donné des résultats encourageants.
Les différentes étapes de ce stage sont :
1. Prise en main de l’existant et bibliographie ;
2. Mise en place d’une base d’apprentissage, avec labellisation optimale des données;
3. Tests d’architectures neuronales ou autres méthodes;
4. Documentation des développements et rédaction du rapport ;

Profil du candidat :
Étudiant en Master (M2) ou 3ème année Ingénieur en Mathématiques Appliquées, Sciences des données, Intelligence Artificielle et/ou Traitement du Signal

Formation et compétences requises :
1. Notions d’apprentissage (voire profond) et d’estimation (par régression) ;
2. Développement d’interface(s) de visualisation et de labellisation;
3. Langage Python et C++.

Adresse d’emploi :
Cerema, Équipe de recherche ENDSUM – Strasbourg, 11 rue Jean Mentelin
67035 Strasbourg

christophe.heinkele@cerema.fr

Evaluation automatique de la fonction cardiaque à partir d’IRM
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIS / Université de Toulon
Durée : 6 mois
Contact : adeline.paiement@univ-tln.fr
Date limite de publication : 2021-03-01

Contexte :
Le stage se situe dans un contexte de partenariat multidisciplinaire avec le Bristol Heart Institute (BHI, Royaume-Uni). Le but de ce partenariat est d’améliorer l’évaluation de la fonction cardiaque à l’aide d’une nouvelle mesure, plus directe, de la qualité des battements du cœur. Cette nouvelle mesure devra être totalement automatisée afin de libérer du temps pour les spécialistes. Elle devra aussi être précise et robuste.

Les mesures proxy utilisées actuellement pour évaluer la fonction cardiaque (volume des ventricules, fraction d’éjection, etc.) sont obtenues après reconstruction 3D dynamique du cœur, laquelle est ensuite utilisée pour calculer divers volumes et les mesures proxy qui en découlent. Cette reconstruction est une étape contraignante qui demande beaucoup de temps aux radiologues et cardiologues.

De plus les mesures proxy étant par définition indirectes, elles ne sont pas totalement satisfaisantes pour évaluer la mobilité du muscle cardiaque.

Le stage s’inscrit donc dans un projet de développement d’une nouvelle mesure de la fonction cardiaque, basée directement sur la modélisation de la déformation du cœur.

Sujet :
Des travaux préliminaires ont permis de :

1) développer une méthodologie de quantification de la qualité de certains mouvements :
http://www.bmva.org/bmvc/2014/files/paper058.pdf

2) faire un premier pas vers l’application de cette méthode au mouvement de battement du cœur, en démontrant qu’il est possible de produire un modèle de déformation du cœur adapté à cette méthodologie :
https://miua2018.soton.ac.uk/documents/papers/MIUA2018_026.pdf

Pendant le stage, nous continuerons ces travaux afin d’obtenir une méthode de quantification de la qualité de battement du cœur.

Le stage comprendra les étapes suivantes :

1) Reconstruction du cœur de patients du BHI en 3D et 4D à partir d’IRMs déjà segmentées au BHI. Un logiciel de reconstruction 3D a été adapté lors d’un précédent stage.

2) Construction d’une représentation simplifiée de la déformation du cœur (‘manifold learning’) selon la méthode présentée ici :
https://miua2018.soton.ac.uk/documents/papers/MIUA2018_026.pdf .
Les diagnostiques des patients du BHI étant connus, il sera possible de vérifier que cette représentation permet bien de distinguer les différentes pathologies.

puis au choix :

3a) Suppression de l’étape de reconstruction en apprenant un mapping direct entre l’image IRM et la représentation de l’étape 2 : entrainement d’un réseau de neurones profond comme dans : http://openaccess.thecvf.com/content_iccv_2015_workshops/w11/papers/Crabbe_Skeleton-Free_Body_Pose_ICCV_2015_paper.pdf .

ou

3b) Construction d’un modèle de mouvement normal du cœur selon la méthode de : http://www.bmva.org/bmvc/2014/files/paper058.pdf , et utilisation de ce modèle pour calculer un score de qualité du battement du cœur.

Profil du candidat :
Ce stage est principalement destiné à un étudiant de niveau Master 2, dans un cursus informatique, mathématiques appliquées, ou école d’ingénieur.

Formation et compétences requises :
Pendant ce stage, des méthodes de modélisation markovienne, d’apprentissage de manifold, et de deep learning seront utilisées. Il n’est pas attendu du stagiaire qu’il soit un utilisateur chevronné de ces techniques, mais il devra avoir envie d’apprendre. Des bases solides en mathématiques et statistique seront nécessaires pour cet apprentissage.

Il est fortement recommandé de lire les articles cités ci-dessus pour vous assurer que vous souhaitez bien travailler avec ces méthodes.

Une bonne maîtrise de la programmation python est absolument nécessaire.

Adresse d’emploi :
Laboratoire d’Informatique et Systèmes, équipe DYNamiques de l’Information (DYNI)

Université de Toulon, Campus de La Garde – La Valette, Avenue de l’Université, 83130 LA GARDE

Machine Learning for Femtolaser Parameter Inference
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Hubert Curien, UMR 5516, Saint-Etienne
Durée : Up to 6 months
Contact : amaury.habrard@univ-st-etienne.fr
Date limite de publication : 2021-03-01

Contexte :
This internship is part of the COHYLA 2020 project funded by the EUR Manutech Sleight that is interested in the possibility of injecting a machine learning component for surface functionalization. The latter consists of adding a new surface characteristic to a material to improve its properties or give it new functions. Among the surface functionalization technologies, this project is more particularly interested in texturing by femtosecond laser.
One of the difficulties of the laser surface treatment lies in determining the values of the parameters making it possible to obtain the desired property which may differ greatly depending on the type of substrate considered, a subject on which there is currently no consensus. For experts, the traditional approach is to linearly scan the values of the laser parameters while monitoring the output, until the desired property is achieved. This type of approach is obviously quite slow and can quickly become insoluble as the number of laser parameters involved is increasing.

Sujet :
The goal of this internship is threefold :

1. Provide a data analysis of the dataset built by Manutech USD engineers over the past year. This dataset gathered the results of several experiences on two type of materials, where the goal was to obtain the property of hydrophobia. In this context, an observation consists of a set of variable regarding the material, the set of values used for the different laser parameter. As for the outputs, we have images (see Figure 1) as well as a variable indicating whether the surface is hydrophob or not after the laser treatment.

2. Develop a ML model to predict the set of laser values that engineers should use when looking for a particular property. This model will have to deal in particular with the issues of materials heterogeneity and two type of data output.

3. Study the possibility of generating characterization images and experiences with deep neural networks to compensate for the complexity (in time and material) of data collection.

Profil du candidat :
-Master student M2 level

Formation et compétences requises :
Machine Learning, statistical inference, Data Science

Adresse d’emploi :
Laboratoire Hubert Curien, 18 rue du Pr Benoit Lauras, 42000 Saint-Etienne

Document attaché : 202012161758_Internship_EUR-ML_Femtolaser.pdf

Traitement de données par IA pour le risque gravitaire – projet RINA
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC et Géolithe
Durée : 5/6 mois minimum
Contact : sylvie.galichet@univ-smb.fr
Date limite de publication : 2021-03-01

Contexte :
En montagne, les infrastructures de transport sont exposées à des risques gravitaires (éboulements rocheux, laves torrentielles, avalanches de neige) qui peuvent entraîner leur fermeture ainsi que des dommages significatifs aux biens et aux personnes. Dans un contexte de changement climatique, on constate une recrudescence des événements gravitaires en lien avec la remontée de la limite pluie-neige et la recrudescence d’événements pluvieux violents.

Par ailleurs, les données météorologiques et d’observation de l’aléa rocheux disponibles sont de plus en plus massives avec les progrès technologiques des moyens de mesure. Les radars météorologiques fournissent des données à haute fréquence temporelle à l’échelle d’un massif. Concernant l’aléa rocheux, des technologies récentes (radars terrestres, scanners laser ou photogrammétrie) fournissent une information spatialisée des mouvements. Compte tenu du volume et de la variété des données, en complément des approches multi- physiques, des approches issues de l’IA et de la « data science » (en particulier l’apprentissage automatique et sa branche « deep learning ») semblent être un moyen prometteur pour induire des données elles-mêmes des modèles prédictifs du risque. La question en suspens est le potentiel réel des méthodes associant l’IA pour des applications pratiques en géosciences.

Sujet :
Le projet vise à établir une preuve de concept de l’utilisation de l’IA pour la gestion du risque rocheux en lien avec les conditions météorologiques. Il s’agit de permettre aux gestionnaires d’infrastructures d’anticiper une évolution défavorable de l’aléa afin de mettre en œuvre des dispositifs de mitigation des risques (limitation d’accès, surveillance, mobilisation de kits d’urgence, maintenance prédictive).

Profil du candidat :
M2 ou élève ingénieur en dernière année de formation.
Spécialité : informatique, IA, signal, vision et/ou génie civil.

Formation et compétences requises :
Analyse de données par intelligence artificielle.

Adresse d’emploi :
LISTIC, 5 chemin de Bellevue – Annecy-le-Vieux – 74 940 ANNECY
Missions à prévoir chez le partenaire du projet : Géolithe, 181, rue des Bécasses – CROLLES
Télétravail possible si les conditions sanitaires l’imposent.

Document attaché : 202101281735_M2_Geolithe_IA_LISTIC_pdf.pdf

Visual Analytics for pesticidal plants usage
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRMM, UMR 5506, CNRS et Université de Montpellier
Durée : 6 mois
Contact : marianne.huchard@lirmm.fr
Date limite de publication : 2021-03-01

Contexte :
Le contexte est une collaboration entre le LIRMM, le Cirad et l’IRD.

Il est financé par l’Institut Convergences #DigitAg (programme d’investissement d’avenir)
Le stagiaire est intégré dans la communauté des étudiants de la Graduate School #DigitAg :
– son rapport de stage est publié sur le site internet: https://www.hdigitag.fr/fr/
– il est convié à la rencontre annuelle DigitAgora qui se tiendra en 2021 du 31 mai au 2 juin.

Sujet :
(English version below)

Analyse visuelle pour l’usage de plantes à effet pesticide

(Visualisation et Navigation dans des données spatio-temporelles agro-environnementales classées par l’analyse de concepts relationnels-

Avec l’essor du numérique, la recherche agronomique a produit de nombreux jeux de données sur l’agriculture et l’environnement qu’il s’agit de mobiliser pour développer des outils d’aide à la décision à destination des populations du Nord et du Sud. Parmi ces jeux de données, on peut citer par exemple celui sur les cours d’eau de deux bassins versants français du projet Fresqueau (http://dataqual.engees.unistra.fr/fresqueau_presentation_gb) avec des données spatio-temporelles ou celui sur l’usage des plantes à effet pesticide et antibiotique du projet Knomana (https://agris.fao.org/agris-search/search.do?recordID=FR2019109314) pour la santé animale, végétale, humaine et publique dont le modèle de données comporte une structure ternaire.

Pour développer l’outil d’aide à la décision, la méthode de classification utilisée par ces projets pour modéliser la temporalité et la relation ternaire est l’Analyse de Concepts Relationnels (RCA). Par l’emploi de quantificateurs logiques, RCA groupe et classe des groupes d’entités partageant des propriétés et des relations communes, soutenant par exemple le raisonnement par exploration de propriétés et de similarités, le raisonnement par abduction pour la création d’hypothèses, et la recherche de solutions alternatives par voisinage avec des solutions connues. Pour éviter de calculer l’ensemble de la classification pour naviguer et explorer le jeu de données de proche en proche, une méthode de calcul à la volée a été développée (On-demand). Le problème auquel sont confrontées les équipes porteuses de ces projets, i.e. le LIRMM, l’UPR AIDA, l’UMR IPME et l’ENGEES, est de disposer d’un outil de visualisation et de navigation dans ces données classées par RCA.

Par ailleurs, le LIRMM conduit des recherches en visualisation analytique (Keim et al. 2008). Ce domaine porte sur l’étude des interfaces visuelles interactives permettant d’explorer des jeux de données complexes et hétérogènes afin de faciliter le raisonnement analytique sur les données et ainsi d’en tirer des connaissances (voir par exemple (Accorsi et al. 2014) développé dans le cadre du projet Fresqueau).

Dans le cadre de ce stage, l’objectif est de développer un prototype logiciel de visualisation de jeux de données, comportant des données spatiales et ou temporelles, classés par RCA. Plus précisément, le stagiaire réalisera une visualisation interactive permettant de piloter les calculs à la demande de RCA et d’en afficher, de façon incrémentale, les résultats. Plusieurs approches visuelles seront combinées afin de donner à l’utilisateur une vue d’ensemble de l’espace de connaissances extrait et, à la demande, une vue détaillée de sous-ensembles de la classification calculés à la volée. Différentes méthodes d’interaction (Munzner 2014, chapitres 11-14) et différentes techniques de visualisation de graphes (Tamassia 2013) seront utilisées. Le stagiaire suivra les étapes de conception décrites par Sedlmair et al. 2012 : étude de la littérature, définition du besoin en termes de problème visuel, proposition d’une maquette logicielle, conception du codage visuel et des caractéristiques interactives, développement, déploiement, validation.

Références

Pierre Accorsi, Mickaël Fabrègue, Arnaud Sallaberry, Flavie Cernesson, Nathalie Lalande, Agnès Braud, Sandra Bringay, Florence Le Ber, Pascal Poncelet, Maguelonne Teisseire. HydroQual: Visual Analysis of River Water Quality. Proceedings of the IEEE Symposium on Visual Analytics Science and Technology (VAST), pp. 123-132, 2014.

Alexandre Bazin, Jessie Carbonnel, Marianne Huchard, Giacomo Kahn, Priscilla Keip, Amirouche Ouzerdine: On-demand Relational Concept Analysis. Formal Concept Analysis – 15th International Conference, ICFCA 2019, Frankfurt, Germany, June 25-28, 2019, Proceedings. LNCS 11511, Springer 2019, ISBN 978-3-030-21461-6: 155-172

Daniel A. Keim, Gennady L. Andrienko, Jean-Daniel Fekete, Carsten Görg, Jörn Kohlhammer, Guy Melançon. Visual Analytics : Definition, Process, and Challenges. Information Visualization – Human-Centered Issues and Perspectives. LNCS 4950, Springer 2008, p. 154-175.

Priscilla Keip, Alain Gutierrez, Marianne Huchard, Florence Le Ber, Samira Sarter, Pierre Silvie, Pierre Martin: Effects of Input Data Formalisation in Relational Concept Analysis for a Data Model with a Ternary Relation. Formal Concept Analysis – 15th International Conference, ICFCA 2019, Frankfurt, Germany, June 25-28, 2019, Proceedings. Lecture Notes in Computer Science 11511, Springer 2019, ISBN 978-3-030-21461-6: 191-207

Pierre Martin, Priscilla Keip, Alain Gutierrez, Marianne Huchard, Zakara Ilboudo, et al.:
The Knomana knowledge base – A tool to promote exchange of knowledge and identify local plants for addressing sanitary problems in EOA. 5th West Africa Organic Conference (WAOC), Accra, Ghana, 12th -15th November 2019

Tamara Munzner. Visuallization Analysis & Design. CRC Press, A K Perters Books, 2014.
Michael Sedlmair, Miriah D. Meyer et Tamara Munzner. Design Study Methodology: Reflections from the Trenches and the Stacks. IEEE TVCG 18(12): 2431-2440, 2012.

Roberto Tamassia, Handbook on Graph Drawing and Visualization. Chapman et Hall / CRC, 2013.

————
(English version)
Visual Analytics for pesticidal plants usage

Visualisation and Navigation in agro-environmental spatio-temporal data
classified by relational concept analysis

With the rise of digital technology, agricultural research has produced numerous datasets on agriculture and on the environment to be mobilized to develop decision-making tools for populations from the North and the South. Among these datasets, there is one on the watercourses of two French watersheds developed by the Fresqueau project (http://dataqual.engees.unistra.fr/fresqueau_presentation_gb) which is spatio-temporal and another one on the uses of plants with pesticidal and antibiotic effect developed by the Knomana project (https://agris.fao.org/agris-search/search.do?recordID=FR2019109314) for animal, plant, human and public health whose data model has a ternary structure.

To develop the decision support tool, the classification method used by these projects, to model temporality and ternary relationship, is Relational Concepts Analysis (RCA). Using logical quantifiers, RCA groups and classifies sets of entities sharing common properties and relationships, supporting for example reasoning by exploring properties and similarities, reasoning by abduction to create hypotheses, and the search for alternative solutions by neighborhood with known solutions. To avoid calculating the complete classification to navigate and explore the dataset step by step, an on-demand calculation method has been developed. The problem faced by the team carrying out these projects, i.e. LIRMM, UPR AIDA, UMR IPME and ENGEES, is to have a tool for visualizing and navigating through the data classified by RCA.

Furthermore, the LIRMM conducts research in visual analytics (Keim et al. 2008). This field focuses on the study of interactive visual interfaces enabling the exploration of complex and heterogeneous datasets in order to facilitate analytical reasoning on the data and thus derive knowledge from them (see for example (Accorsi et al. 2014) developed within the Fresqueau project).
The objective of this internship is to develop a software prototype for the visualization of data sets, including spatial and/or temporal data, classified by RCA. More precisely, the trainee will carry out an interactive visualization allowing to pilot the calculations on request of RCA and to display the results in an incremental way. Several visual approaches will be combined in order to give the user an overview of the extracted knowledge space and, as requested by the user, a detailed view of subsets of the classification calculated on the fly. Different interaction methods (Munzner 2014, chapters 11-14) and different graph visualization techniques (Tamassia 2013) will be used. The trainee will follow the design steps described by Sedlmair et al. 2012: i.e. literature review, definition of the need expressed as visual problem, design of visual encodings and interactive features, development, deployment, validation.

Profil du candidat :
Etudiant de Master 2 (informatique) ayant des compétences solides en programmation et en science des données, ainsi qu’un intérêt pour l’ingénierie des connaissances, l’analyse visuelle (visual analytics), et à trouver des solutions alternatives aux pesticides et antibiotiques de synthèse pour l’agriculture biologique.

Formation et compétences requises :
Master 2 (informatique) ayant des compétences solides en programmation et en science des données

Adresse d’emploi :
Université de Montpellier
LIRMM UMR 5506
CC477
161 rue Ada
34095 Montpellier Cedex 5 – France

Document attaché : 202011161445_StageM2DigitagCiradIRDMaRELAdvanse.pdf

Deep-learning pour la prédiction de structures 3D des ARN
Mar 1 @ 11:15 – 12:15

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IBISC. Université d’Evry, Université de Paris-Sac
Durée : 6 mois
Contact : fariza.tahi@univ-evry.fr
Date limite de publication : 30 avril 202

Contexte :
Les ARN non codants sont des macro-molécules du vivant dont la fonction est liée à leur structure (résultat du repliement de la séquence de nucléotides dans l’espace). La prise de conscience lors de la dernière décennie de la grande variété de ces ARN et des rôles importants qu’ils jouent à différents niveaux de la vie de la cellule, ainsi que de leur implication dans un grand nombre de maladies telles que le cancer donne lieu à un regain d’intérêt pour leur étude structurale. Par exemple, ils sont maintenant envisagés comme de possibles cibles thérapeutiques, comme le sont déjà différentes classes de protéines. Ces ARN sont classés par famille, au sein desquelles les structures secondaires et tertiaires (structures 3D) sont assez similaires.

Sujet :
Notre équipe de recherche s’intéresse à la prédiction in-silico de la structure des ARN non codants. Ces dernières années, les méthodes d’apprentissage se sont développées en bioinformatique structurale, en particulier pour les structures protéiques [1], et nous tentons d’adapter certaines idées d’algorithmes à l’ARN.
Plutôt que de réaliser des prédictions de structure 3D à partir de la seule séquence, les méthodes les plus performantes capturent souvent le repliement global des molécules d’une même famille.
Nous avons pour ceci constitué un jeu de données de structures d’ARN en 3D, réalignées avec des alignements multiples de séquences homologues de la même famille. Il s’agit du dataset RNANet [2] disponible sur la plateforme EvryRNA (http://EvryRNA.ibisc.univ-evry.fr).
En 3D, on exprime la forme d’une chaine de nucléotides repliée dans l’espace par 3 mesures géométriques : la distance entre chaque nucléotide et le suivant, les angles plans que forment chaque triplet de nucléotides consécutifs, et les angles de torsion formés par chaque quadruplet de nucléotides consécutifs. On sait que les valeurs de ces angles forment des clusters bien identifiés.
L’objectif du stage est le développement d’un algorithme pour la prédiction des structures 3D des ARN basé sur :
– un réseau de neurones profond apprenant et prédisant les valeurs des angles de torsion à partir du contexte de séquence et de variabilité de séquence au sein de la famille d’ARN
– et un réseau de neurones profond apprenant la matrice des distances entre nucléotides au sein d’une famille d’ARN.
Bibliographie
[1] M. AlQuraishi. End-to-End Differentiable Learning of Protein Structure, Cell Systems, 2019 https://doi.org/10.1016/j.cels.2019.03.006
[2] L. Becquey, E. Angel et F. Tahi. RNANet: An automatically built dual-source dataset integrating homologous sequences and RNA structures, , Bioinformatics, 2020. https://doi.org/10.1093/bioinformatics/btaa944

Profil du candidat :
Etudiant en Master 2 d’informatique, de data sciences (ou de bioinformatique). Les étudiants de dernière année d’Ecole d’Ingénieur sont également encouragés à candidater.

Formation et compétences requises :
Le candidat doit maitriser les techniques de machine learning, notamment des réseaux de neurones, ainsi que la programmation.

Adresse d’emploi :
Bâtiment IBGBI. 23 bv. de France. 91000 Evry.

Document attaché : 202012101042_Sujet_Stage-Deep-Learning-3D-ARN.pdf

Mar
8
Mon
2021
Cartographie de typologie de couvert forestier par imagerie satellitaire multi-source et multi-tempo
Mar 8 – Mar 9 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : TETIS
Durée : 6 mois
Contact : dino.ienco@inrae.fr
Date limite de publication : 2021-03-08

Contexte :
Le suivi de l’état des forêts tropicales est d’importance mondiale (Herold et al. 2019). Il appelle le suivi dans la durée et sur de grandes surfaces de variables « biophysiques » de structures forestières (couvert, hauteur de canopée, biomasse épigée, …) et d’indicateurs de diversité spécifique et fonctionnelle. Le suivi du couvert arboré, notion polysémique, a fait l’objet de travaux importants, principalement basés sur les séries d’images satellitaires longues à moyenne résolution ou haute résolution spatiale (MODIS, Landsat, respectivement), Ceci a débouché sur des produits cartographiques ambitieux à des échelles pantropicales et mondiales (e.g. Avitabile et al. 2012; Hansen et al. 2013 ; Kubayashi et al. 2016). Cependant, ces produits recèlent des faiblesses de plusieurs ordres. Si celles-ci n’opèrent pas leur intérêt, tant que l’ampleur des surfaces peut permettre la compensation des imprécisions locales, elles rendent leurs utilisations hasardeuses pour des applications demandant de se focaliser sur des surfaces plus restreintes (downscaling), ou requérant un niveau de précision supérieur à celui effectif (qui n’est pas toujours explicite, d’ailleurs).

Le projet Sé2coul, a pour objectif de traduire les opportunités, offertes par les données Sentinel-1 et Sentinel-2, pour le suivi et la caractérisation des forêts, en tirant partie : i) De la densification temporelle des séries temporelles d’images satellitaires et de leur accroissement en résolution spatiale. Ceci doit permettre d’aller bien au-delà de ce qui peut déjà être fait actuellement avec les séries HR de type « Landsat » (par exemple via le Google Earth Engine) pour corriger les effets instrumentaux dans l’optique de détection de changements francs de couvert (déforestation, feu, plantation, …), ou de détections de perturbations localisées (exploitation, chute d’arbres, …). ii) La facilitation de l’usage conjoint des données radar et optiques (Sentinel-1 et -2). En complément de l’optique, l’information radar en bande C (bien que probablement saturante à des niveaux assez bas de couvert et de biomasse) est sensible à la structure tridimensionnelle, et peut aider à lever des ambiguïtés dans les végétations complexes, ouvertes (par exemple pour le suivi de la dynamique des trouées, naturelles ou non), ou marquées par des variations saisonnières d’humidité (y compris du substrat). iii) Le développement de techniques d’intelligence artificielle (deep-learning) pour tirer parti des atouts des données Sentinel dans la perspective spécifique de la caractérisation biophysique des composantes ligneuses de la végétation dans des contextes tropicaux variés. Il est envisagé dans l’esprit de TWINNS (TWIn Neural Networks for Sentinel data ; Ienco et al. 2019).

Le projet aura pour objectif de traduire ces opportunités en avancées significatives concernant l’estimation de caractéristiques fondamentales de la végétation ligneuse : (i) structure : Hauteur de canopée, LAI, biomasse épigée, (ii) diversité, (iii) signature fonctionnelle saisonnière.

Sujet :
En s’appuyant sur des méthodes d’apprentissage profond, l’objectif de ce stage est d’évaluer le potentiel de tels méthodes pour la cartographie et la caractérisation des typologies de couvert forestier à l’aide d’imagerie multi-source Sentinel-1 et Sentinel-2 sur des terrains d’étude telles que la Guyane, le Cameroun et le Sénégal. Un ou deux terrains d’études, parmi ceux listés par avant, seront choisis en accord avec les chercheurs partenaires du projet (UMR AMAP).
Pour cela, nous allons nous appuyer sur des séries temporelles d’images satellitaires radar/optique pour mieux reconnaître les différentes typologies de couvert forestier. Afin de l’évaluation, la méthode d’apprentissage profond sera aussi comparée à des méthodes plus classiques et communément utilisées en télédétection (par exemple Random Forest ou SVM). Un deuxième objectifs, si le temps le permettra, sera dédié à l’utilisation de techniques déjà disponibles au sein de l’UMR TETIS pour évaluer le potentiel des données radar/optique (Sentinel-1 et Sentinel-2) pour l’estimation de variables biophysiques (i.e. LAI ou autre) toujours à travers des méthodes d’apprentissage profond.

Les principales étapes envisagées pour la réalisation du stage sont :
Analyse bibliographique sur les méthodes d’apprentissage profond pour le couplage radar/optique pour la cartographie automatique.
Mise en place du jeu de données :
Prise en main des données existantes
Téléchargement des série temporelle d’images Sentinel-1 et Sentinel-2
Prétraitement des données satellitaires
Préparation du jeu de données pour l’évaluation
Identification d’une méthode d’apprentissage profond déjà existante.
Mise en place de telle méthode dans le contexte de la cartographie de la typologie du couvert forestier
Évaluation de la méthode déployée à travers une analyse quantitative ainsi qu’ une analyse qualitative.
Rédaction du rapport et préparation de la soutenance.

Profil du candidat :
Master II ou dernière année d’école ingénieur en Traitement du Signal, Informatique ou Télédétection,
Compétences : programmation informatique et géomatique
Bonne connaissance des méthodes de machine learning et deep learning
Goût pour la recherche scientifique et l’interdisciplinarité
Maîtrise de l’anglais et bonne capacité rédactionnelle

Formation et compétences requises :
Master II ou dernière année d’école ingénieur en Traitement du Signal, Informatique ou Télédétection,
Compétences : programmation informatique et géomatique
Bonne connaissance des méthodes de machine learning et deep learning
Goût pour la recherche scientifique et l’interdisciplinarité
Maîtrise de l’anglais et bonne capacité rédactionnelle

Adresse d’emploi :
500, rue Jean François Breton, 34090 Montpellier

Mar
10
Wed
2021
Automatic Machine Learning Methods For Unsupervised Learning
Mar 10 – Mar 11 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : LIPN UMR CNRS 7030
Durée : 6 mois
Contact : mustapha.lebbah@univ-paris13.fr
Date limite de publication : 2021-03-10

Contexte :
voir le pdf

Sujet :
voir le pdf

Profil du candidat :
Profile: Motivated student wishing to dig into data science / machine learning / AI state of the art problem and algorithms to obtain practical results and participate in the implementation of software, with interesting perspectives in industrial fields.

Formation et compétences requises :
Level: Master 2 or engineer level (with Computer Science, Statistics, or Applied Mathematics backgrounds).

Adresse d’emploi :
LIPN – UMR 7030 – CNRS, Université Sorbonne Paris Nord

Document attaché : 202101192105_Automatic Machine Learning Methods For Clustering Algorithms.pdf

Model-Based Multivariate Time Series Analysis
Mar 10 – Mar 11 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/Innovation

Laboratoire/Entreprise : LIPN UMR CNRS 7030
Durée : 6 mois
Contact : mustapha.lebbah@univ-paris13.fr
Date limite de publication : 2021-03-10

Contexte :
voir le pdf

Sujet :
voir le pdf

Profil du candidat :
Solid mathematical background (Bs/Ms), applied mathematics, statistics, signal processing…
CS background: algorithms, complexity theory. Good imperative and object-oriented programming
skills. Functional programming would be a plus.
Proficiency in at least one multi-purpose language, including (but not limited to): Scala (preferred),
Java, Python, C++, Go…
Knowledge of one or more of the following technologies: Apache Spark (preferred); SQL/NoSQL
databases; version control (git).
Scientific computing and ML libraries: Python (numpy, pandas, scikit-learn…), Scala (breeze, smile…).
In the current health context, the candidate is expected to be autonomous, organized and able to
adapt with remote work methodology.

Formation et compétences requises :
Solid mathematical background (Bs/Ms), applied mathematics, statistics, signal processing…CS background: algorithms, complexity theory

Adresse d’emploi :
LIPN – UMR 7030 – CNRS, Université Sorbonne Paris Nord.

Document attaché : 202101192107_Internship-lipn.pdf

Mar
15
Mon
2021
Learning surface state changes in the Alps from non-local covariance matrices of time series
Mar 15 – Mar 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ISTerre, Université Grenoble-Alpes, France et LIST
Durée : 4 à 6 mois
Contact : sophie.giffard@univ-grenoble-alpes.fr
Date limite de publication : 2021-03-15

Contexte :
Multi-temporal InSAR (interferometric synthetic aperture radar), a combination of radar acquisitions, can measure the ground surface deformation by looking at differential phase signals at an accuracy up to mm/yr (milliliters/year) for densely sampled time-series. It is extensively used in natural deforming areas such as volcanoes, landslides and faults. The general goal of the project is to improve the accuracy of the measures by studying the full covariance matrix, summarizing the amplitude and phase correlation of small spatial subregions between all pairs of images in the time series.

Sujet :
By taking the French Alps as region study (already studied at ISTerre and processed by the locally developed software NSBAS), we first aim at studying the full covariance matrix for different types of land cover. The idea is that the coherence patterns across time are of different nature in case of snow (rapid but reversible decorrelation between summer and winter), vegetation growth (slow decorrelation, maybe causing some bias), changes of crop yields, etc. We will be able to cluster and classify the type and the state change of the land cover by machine learning (ML, such as convolutional n. nets) from the full covariance matrix. In order to improve the surface deformation measure, the goal is then to 1) automatically remove the biais caused by the slow decorrelation of some types of land states 2) determine which elements of the covariance matrix can be avoided in the computation while assuring the same accuracy. Some other studies, like defining an order 3 matrix, wrt the current order 2 covariance matrix and that could lead to more information, can also be investigated according to the intern’s interests.

Profil du candidat :
M2 student (or possibly M1 if the profile matches closely), from either math, signal processing or computer science masters, or from an engineering school.

Formation et compétences requises :
Some strong computer science and mathematics background is expected, especially some image processing knowledge. Knowledge or interest in machine learning, as well as in remote sensing, would be a plus. A strong interest towards the applicative aspects of methodological developments in AI and a curiosity towards important processes in earth sciences will be appreciated. As the work environment is interdisciplinary, communication and facilitation skills will be required.

Adresse d’emploi :
Université Grenoble Alpes, ISTerre lab. Possibly partly in Annecy. This project is funded by MIAI, the Multidisciplinary Institute in Artificial intelligence of Grenoble Université, and is highly interdisciplinary. The intern will be based in ISTerre, the large Earth science laboratory of Grenoble, and will have strong connections with the LISTIC (Laboratoire d’Informatique, Systèmes, Traitement de l’Information et de la Connaissance) in Annecy: some travels between the laboratories will be funded. In ISTerre, he/she will be supervised by Sophie Giffard-Roisin (expert in AI using remote sensing for natrual hazards) and Marie-Pierre Doin (geoscientist expert in InSAR imaging and land deformation for natural phenomena). In LISTIC, the intern will benefit from the knowledge of Yajing Yang (expert in remote sensing and InSAR, temporal series teledetection and statistics) and Abdourrahmane Atto (expert in mathematics and machine learning for remote sensing).

Document attaché : 202010221144_sujet_stage_MIAI_final.pdf

Mar
29
Mon
2021
Approche sémantique pour reconstituer l’évolution de données territoriales historiques
Mar 29 – Mar 30 all-day

Offre en lien avec l’Action/le Réseau : RoCED/– — –

Laboratoire/Entreprise : IRIT – UMR5505
Durée : 5 ou 6 mois
Contact : aussenac@irit.fr
Date limite de publication : 2021-03-29

Contexte :
Dans le cadre des humanités numériques, les systèmes d’information permettent de représenter des données ayant des coordonnées spatiales et, le plus souvent, datées. Pour les informations géographiques, la technologie associée est généralement celle des bases de données couplées à des fonctionnalités spécifiques pour les manipuler, les comparer ou calculer. Ce type d’approches est utilisé par exemple pour représenter des découpages territoriaux liés à des activités humaines (administratifs, juridiques, fiscaux, …). L’intégration, la comparaison de plusieurs découpages de ce type sur un même territoire, et l’étude de leur évolution dans le temps, suppose de recouper des données aux formats et contenus hétérogènes. Dans ce contexte, une approche sémantique apporte une solution à l’hétérogénéité et facilite l’interopérabilité : elle consiste à définir un vocabulaire unique permettant de décrire les contenus des sources de données, et à produire des graphes de connaissances dont les nœuds sont les entités géographiques et les entités associées, et dont les arcs expriment la nature des relations entre entités ou valeurs. Cependant, la mise en relation de découpages historiques se heurte à plusieurs problèmes : l’évolution de chacune des unités de territoire ; la différence des dates d’évolution selon les types d’unités territoriales ; l’évolution des types d’unités, de la nature des activités humaines prises en compte ou de la connaissance associée. La mise en correspondance et l’étude de ces données supposent donc des raisonnements sur le temps et l’espace, mais aussi des connaissances historiques ou territoriales.
Le stage se déroulera dans le cadre du projet de recherche ANR ObARDI (janvier 2021–décembre 2024) de l’axe «Révolution numérique : rapports au savoir et à la culture», dont l’un des objectifs est de constituer un ensemble de bases de données structurées sur les dynamiques institutionnelles et sociales de la France de l’Ancien Régime (XVIIe–XVIIIe siècles).1 Ce projet est coordonné par Victor Gay, enseignant-chercheur en histoire économique à l’Université Toulouse 1 Capitole, en collaboration avec les laboratoires en histoire TEMPORA, ainsi que le laboratoire en informatique de l’IRIT pour ce qui concerne le contenu du stage proposé. Ce projet prévoit un financement de thèse sur la thématique abordée dans le cadre du stage.

Sujet :
Le stage a pour but de répondre à l’intégration de données territoriales historiques dans le cadre du projet OBARDI. Il s’agira d’abord d’étudier les différents schémas ou les structures des sources de données à considérer, et de reprendre l’état de l’art sur la représentation sémantique de données géographiques territoriales (ontologies existantes), pour définir un vocabulaire facilitant l’intégration de données de différentes sources. Une deuxième étape consistera à définir des patrons de génération de graphes RDF conformes à ce vocabulaire à partir des différentes sources. Enfin, une 3e étape visera la mise en relation spatiale et temporelle des éléments de territoire provenant des différentes sources à l’aide de raisonnement automatique et afin de tracer leur évolution.

Profil du candidat :
Le candidat recherché devra avoir un goût pour le travail en équipe avec une ouverture interdisciplinaire. Nous recherchons un candidat intéressé par une poursuite en thèse, dans la mesure où le stage pourra être prolongé par une thèse sur le même sujet .

à pourvoir à partir d’avril 2021

Formation et compétences requises :
NIveau M2 informatique, 5e année école d’ingénieur
Connaissances souhaitées : web sémantique, données et connaissances, humanités numériques, systèmes d’information géographiques,
Compétences en programmation Python

Adresse d’emploi :
IRIT – Université Paul Sabatier
118, route de Narbonne
31062 TOULOUSE CEDEX9
télétravail possible en raison des conditions sanitaires

Document attaché : 202103092058_2021 stageOntologiesKG_OBARDI-V2bis.pdf

Mar
30
Tue
2021
Enrichissement des fonctionnalités de l’outil CELLULOID pour la recherche en Arts de la scène
Mar 30 – Mar 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIAS
Durée : 6 mois
Contact : allel.hadjali@ensma.fr
Date limite de publication : 2021-03-30

Contexte :
L’outil CELLULOID (actuellement accessible sur https://celluloid.huma-num.fr/) permet de visionner et d’annoter des vidéos courtes. L’objectif du stage est d’enrichir cet outil de nouvelles fonctionnalités destinées à faciliter l’annotation et l’étude de vidéos d’œuvres performatives (pièces de théâtre par exemple). Un stage préparatoire réalisé en 2020 a déjà permis de construire, à partir du code informatique de CELLULOID (https://github.com/Souley313/celluloid), un prototype appelé e-spectateur.

Sujet :
Ce nouveau stage a pour but de poursuivre le travail initié et d’enrichir le prototype.
Tâche n°1: Comprendre les fonctionnalités du prototype « e-spect@teur » développé au printemps 2020 : repérages et corrections des bugs.
1. Comprendre le fonctionnement du prototype e-spect@teur, développé à partir du logiciel d’annotation vidéo Celluloïd, et ses différentes fonctionnalités ;
2. Repérer les différents bugs, les corriger ou proposer des solutions/améliorations.
Tâche n°2 : Améliorer l’outil en termes des besoins identifiés de la recherche en Arts de la scène
Côté « user »
1. Proposer une double-fonctionnalité à partir du code source, prévoir deux fonctionnalités : travailler sur une vidéo/travailler sur un spectacle
2. Créer un espace de chat
3. Implémenter l’ontologie d’annotation des vidéos ;
4. Améliorer le système de séquençage et de sous-séquençage ;
Côté « admin »
5. Intégrer le schéma de genèse d’un spectacle théâtral dans le système d’annotation
Tâche n°3 : Formalisation du développement de l’outil
1. Rédiger une description précise de l’outil
Décrire sa composition et ses fonctionnalités en utilisant un langage de modélisation ;
2. Construire le tutoriel de l’outil
Décrire la manipulation de l’outil dans la perspective de médiation disciplinaire ; opter pour une forme numérique du tutoriel (pas seulement du texte) ; Participer aux séances de tests sur l’outil avec et sans le tutoriel pour jauger son ergonomie tout comme sa dimension intuitive.
3. Livrer le code de l’outil (Open source) et le déposer le code sur GitLab Huma-Num
Tâche n°4 : Etudier les possibilités de déploiement de l’outil e-spect@teur sur les serveurs de l’infrastructure TGIR HumaNum.
1. Dès le début de stage, il sera possible d’accéder à la première version d’e-spect@teur actuellement disponible sur les serveurs de la TGIR HumaNum ;
2. Mettre à jour, si possible avant la fin du stage, la version d’e-spect@teur améliorée en fonction des missions proposées.

Profil du candidat :
M2 informatique ou dernière année d’école d’ingénieur en informatique.

Formation et compétences requises :
Compétences souhaitées :
– Programmation (Java, Python ou C), Déploiement d’outils
– Développement d’applications Web
– Analyses et visualisation de données ainsi que les technos associées

Adresse d’emploi :

LIAS/ENSMA
Téléport 2 – 1 Avenue Clément Ader – BP 40109
86961 FUTUROSCOPE CHASSENEUIL Cedex – FRANCE

Document attaché : 202101182104_Stage ESNA_SHS_LIAS.pdf

On Machine Learning Models Interpretability and Explainability
Mar 30 – Mar 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIAS/ENSMA, Poitiers
Durée : 6 mois
Contact : allel.hadjali@ensma.fr
Date limite de publication : 2021-03-30

Contexte :
A key component of an artificially intelligent system is the ability to explain the decisions, recommendations, predictions or actions made by it and the process through which they are made. Despite the high accuracy in their predictions/recommendations, Machine Learning (ML) models are not able to explain their results, they are considered as “black box” models. This nature of ML-models limit their adoption and practical applicability in many real world domains and affect the human trust in them. Starting from the rule “Better Interpretability Leads to Better Adoption”, the issue related to explanation and interpretation in ML is considered as one of the current hot topics in Data Science field.

Sujet :
Explainable AI (XAI) refers to the tools and techniques that can be used to make any black-box ML to be understood by human experts. There are many such tools available in the market such as LIME, SHAP, ELI5, Interpretml, etc. For instance, the SHapley Additive exPlanations (SHAP) methodology is recently introduced to explain and interpret any ML prediction. The idea is to show how much has each feature value contributed to the value predicted.
The objective of this work is twofold:
– First, provide a comprehensive and complete survey about approaches dedicated to ML models explanation. Then, propose a categorisation of such approaches w.r.t. to some criteria conveniently chosen.
– From this categorisation, identify the family of tools that are more appropriate to explain the prediction/recommendation in the Multisensor Data context.

Bibliographie

• Erik Štrumbelj and Igor Kononenko. “Explaining prediction models and individual predictions with feature contributions”. In: Knowledge and information systems 41.3 (2014), pp. 647–665.
• Lundberg, Scott et al. – “Consistent individualized feature attribution for tree ensembles”, 2019. (https://arxiv.org/pdf/1802.03888.pdf)
• Scott M. Lundberg, Su-In Lee, “A Unified Approach to Interpreting Model Predictions”, NIPS 2017: 4765-4774
• Rich Caruana, Scott Lundberg, Marco Túlio Ribeiro, Harsha Nori, Samuel Jenkins, “Intelligible and Explainable Machine Learning: Best Practices and Practical Challenges”, KDD 2020: 3511-3521
• Goodman, Bryce, and Seth Flaxman, “European Union regulations on algorithmic decision-making and a “right to explanation”, AI magazine 38.3 (2017): 50-57, aaai.org.

Profil du candidat :
La personne intéressée sera en M2 ou dernière année d’école d’ingénieur, spécialité Informatique et/ou statistiques.
Intérêt pour l’IA, le machine learning.

Formation et compétences requises :
M2 informatique de préférence recherche ou dernière année d’école d’ingénieur en informatique.

Compétences souhaitées :
– Compétences en analyse de données, Python
– Compétence en IA
– Des bases solides en mathématiques (statistiques, …)

Adresse d’emploi :
Laboratoire LIAS, École ENSMA
Téléport 2 – 1 Avenue Clément Ader – BP 40109
86961 FUTUROSCOPE CHASSENEUIL Cedex – FRANCE

Document attaché : 202101182033_Sujet_stage_M2_2021.pdf

Mar
31
Wed
2021
‘Optimisation pour la classification supervisée de données
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CRIStAL – Université de Lille
Durée : 6 mois
Contact : laetitia.jourdan@univ-lille1.fr
Date limite de publication : 2021-03-31

Contexte :
L’équipe ORKAD ( http://orkad.univ-lille.fr/ ) du laboratoire CRIStAL de l’université de Lille s’intéresse aux problèmes d’optimisation combinatoire et en particulier, intègre des mécanismes de connaissance dans la conception des algorithmes de résolution. L’intégration de connaissances nécessite de bien connaître les problèmes d’optimisation traités et de proposer des méthodes basées sur des analyses statistiques et issues de machine learning.
Dans ce stage, nous nous intéresserons à la classification supervisée (prédire une classe, par exemple : malade / sain) et plus particulièrement à l’algorithme MOCA-I, qui permet de proposer des règles de classification, notamment sur les données médicales [1]. Précédemment, nous avons proposé AC-MOCA-I [2,3], qui configure automatiquement MOCA-I pour trouver les hyper-paramètres les plus aptes à donner une bonne classification.
Le stage se fera en coopération avec le professeur Holger Hoos de l’université de Leiden (Pays-Bas).

Sujet :
La classification supervisée de données peut être modélisée comme un problème d’optimisation combinatoire où il faut maximiser le nombre de bonnes prédictions. MOCA-I est un algorithme d’optimisation paramétrable conçu pour résoudre les problèmes binaires de classification supervisée de données. Or l’efficacité de MOCA-I est fortement dépendante de ses hyper-paramètres pour chaque jeu de données à traiter. L’objectif du stage est de définir un protocole pour fixer les hyper-paramètres de MOCA-I. Pour cela, plusieurs solutions sont envisagées comme étudier l’impact des meta-features [4] des jeux de données, comparer différentes métriques utilisées par le classifieur… De plus, le choix des jeux de données d’entraînement joue un rôle important dans l’efficacité de la prédiction et cet aspect devra ếtre également considéré dans la mise en oeuvre du protocole.
Bibliographie
[1] The Detection of hospitalized patients at risk of testing positive to multi-drug resistant bacteria using MOCA-I, a rule-based “white-box” classification algorithm for medical data Julie Jacques, Helene Martin-Huyghe, Justine Lemtiri-Florek, Julien Taillard, Laetitia Jourdan, Clarisse Dhaenens, David Delerue, Arnaud Hansske, Valérie Leclercq. International Journal of Medical Informatics , Elsevier, In press, October 2020, 142
[2] Automatic Configuration of a Multi-objective Local Search for Imbalanced Classification Sara Tari, Holger Hoos, Julie Jacques, Marie-Eléonore Kessaci, Laetitia Jourdan PPSN 2020 , Sep 2020, Leiden, Netherlands. Pp.65-77,
[3] Sara Tari, Nicolas Szczepanski, Lucien Mousin, Julie Jacques, Marie-Eléonore Kessaci, Laetitia Jourdan: Multi-objective Automatic Algorithm Configuration for the Classification Problem of Imbalanced Data. CEC 2020: 1-8
[4] A. Balte, N. Pise, P. Kulkarni: Meta-Learning with Landmarking: A Survey. 2014. International Journal of Computer Applications

Profil du candidat :
Stage de fin d’étude (MAster/Ingénieur)

Pour candidater : CV + lettre de motivation à laetitia.jourdan@univ-lille.fr, marie-eleonore.kessaci@univ-lille.fr, julie.jacques@univ-lille.fr

Formation et compétences requises :
Goût pour l’optimisation combinatoire et la classification supervisée
Analyse de données
Savoir communiquer en anglais (oral/écrit)
Programmation R, Programmation orientée objet (C++)

Adresse d’emploi :
http://orkad.univ-lille.fr/
CRIStAL/Université de Lille/CNRS
Bat ESPRIT
Cité Scientifique
59655 Villeneuve d’Ascq Cedex
FRANCE

AccueilModélisation à base de graphes du processus de conception de produits
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : DISP (Décision et Information pour les Systèmes de
Durée : 6 mois
Contact : chantal.bonnercherifi@univ-lyon2.fr
Date limite de publication : 2021-03-31

Contexte :
La recherche de la meilleure maîtrise possible du processus de conception de systèmes complexes reste un enjeu important. En effet, ceci permettrait de capitaliser les bonnes pratiques et de les réutiliser efficacement pour le développement de nouveaux produits.
Durant le processus, un grand nombre de données sont générées et manipulées soit à partir de connaissances déjà existantes soit à partir de connaissances nouvellement créées. Pour atteindre donc des objectifs de capitalisation et de traçabilité tout au long du processus de conception, des travaux de recherche restent à mener, pour profiter encore plus de la digitalisation de ce processus (à travers les approches PLM et Jumeau numérique).

Sujet :
De fait, il est possible de représenter tous ces éléments d’information (données produits, processus et activités, objet de connaissance, etc.) et leurs interactions sous forme de graphes. La modélisation à base de graphe est une approche innovante dans le contexte du processus de conception de produits, pour identifier des bonnes pratiques à capitaliser, pour tracer des données ou des décisions, etc.
Une des difficultés pour cette modélisation dans notre contexte est que ces graphes seront complexes, dues à la multiplicité des nœuds, à leurs nombreuses interactions, à la prise en compte des sémantiques, etc.
L’objectif de ce travail de recherche est de proposer une modélisation à base de graphe à partir de plusieurs cas terrains de processus de conception de systèmes, et d’identifier le méta-modèle associé. Une fois ces graphes modélisés, un travail d’analyse permettra d’identifier des opportunités de capitalisation à partir de pattern, d’évaluation de performances, etc.

Profil du candidat :
Nous recherchons un·e candidat·e issu.e d’une formation en informatique (Modélisation, Graphes) de niveau M2 ou PFE ingénieur en génie mécanique (conception de produits). Il ou elle a un intérêt pour la recherche scientifique, des bases théoriques en graphes, réseaux complexes.

Formation et compétences requises :
Modélisation, Analyse, Synthèse, Programmation

Adresse d’emploi :
Laboratoire DISP
IUT Lumière Lyon 2
Campus Portes des Alpes
160 Boulevard de l’Université
69500 Bron

Document attaché : 202012301005_2021_StageM2_DISP_GrapheConceptionProduits.pdf