
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Cirad, Montpellier
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2025-01-15
Contexte :
Mots-clés : 3D Image Analysis, X-ray computed tomography, Segmentation, 3D reconstruction, #DataForGood
Les rizières jouent un rôle central dans la sécurité alimentaire mondiale, et un rôle important dans le changement climatique d’origine anthropique en émettant chaque année 50 mégatonnes de méthane. Le projet interdisciplinaire ARIZE vise à relever le double défi de la transition agroécologique et de la sécurité alimentaire en développant des outils innovants pour l’exploration morpho-anatomique du riz en 3D afin de sélectionner des variétés de riz adaptées aux cultures en sol sec. Dans ce cadre, nous explorons l’architecture interne des plantes de riz en 3D via des images inédites par micro-tomographie aux rayons X à une résolution de 10 µm. Chaque image volumétrique, de l’ordre de 1 To, permet de révéler le réseau 3D des aérenchymes, ces “canaux” internes qui transportent l’oxygène. Automatiser l’analyse de ces structures en 3D serait une première mondiale et constitue le cœur de ce stage.
Sujet :
Concevoir un pipeline complet d’analyse 3D pour reconstruire et caractériser automatiquement le réseau des aérenchymes à l’échelle de la plante entière (racines et feuilles). Les principales missions incluent le développement d’algorithmes de reconstruction 3D topologique et géométrique à partir des volumes d’imagerie (segmentation d’instance, déformation non linéaire de volume, etc.) et l’intégration des outils développés dans un démonstrateur open-source via un plugin Python pour le logiciel Napari, facilitant l’exploration des résultats par un atlas probabilistique interactif en 3D. Le stagiaire travaillera en lien étroit avec le deuxième stagiaire X-atlas 3D, dédié à la segmentation des structures anatomiques par deep learning. Une forte collaboration est prévue pour combiner les résultats dans une solution intégrée.
Profil du candidat :
Étudiant·e en Master 2 ou école d’ingénieur avec spécialisation en informatique, analyse d’images, ou modélisation mathématique. Le langage de programmation utilisé sera Python, en utilisant des outils de développement communautaire et de maintien logiciel (Github, Intégration Continue).
Formation et compétences requises :
Expérience en traitement d’images 3D, en reconstruction volumique et/ou modélisation géométrique appréciée. Intérêt pour le développement d’outils open-source et la collaboration interdisciplinaire. Capacité à travailler en équipe dans un environnement mêlant informatique, biologie et agroécologie.
Adresse d’emploi :
a rémunération selon barème légal des stages sera de 600€ mensuel, avec accès à la restauration collective le midi. Le stage aura lieu au Cirad de Montpellier, 389 Av. Agropolis, 34980 Montferrier-sur-Lez.
Document attaché : 202411271214_Offre stage M2 – 2025 – Xray arbo.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Cirad, Montpellier
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2025-01-15
Contexte :
Mots-clés : Deep Learning, 3D Image Analysis, X-ray computed tomography, 3D reconstruction, #DataForGood
Les rizières jouent un rôle central dans la sécurité alimentaire mondiale, et un rôle important dans le changement climatique d’origine anthropique en émettant chaque année 50 mégatonnes de méthane. Le projet interdisciplinaire ARIZE vise à relever le double défi de la transition agroécologique et de la sécurité alimentaire en développant des outils innovants pour l’exploration morpho-anatomique du riz en 3D afin de sélectionner des variétés de riz adaptées aux cultures en sol sec. Dans ce cadre, nous explorons l’architecture interne des plantes de riz en 3D via des images inédites par micro-tomographie aux rayons X à une résolution de 10 µm. Chaque image volumétrique, de l’ordre de 1 To, permet de révéler le réseau 3D des aérenchymes, ces “canaux” internes qui transportent l’oxygène. Automatiser l’analyse de ces structures en 3D serait une première mondiale et constitue le cœur de ce stage.
Sujet :
Concevoir un pipeline complet d’analyse 3D pour la segmentation anatomique et l’estimation de caractéristiques complexes en 3D. Dans ce but, le stagiaire aura la responsabilité de réaliser des expérimentations avec des outils de l’état de l’art (modèles dédiés “plante” et modèles-fondation généralistes), et de concevoir une solution technique open-source qui sera mise à disposition dans un démonstrateur open-source via un plugin Python pour le logiciel Napari. Le stagiaire travaillera en lien étroit avec le deuxième stagiaire X-atlas 3D, dédié à la reconstruction architecturale en 3D. Une forte collaboration est prévue pour combiner les résultats dans une solution intégrée.
Profil du candidat :
Étudiant·e en Master 2 ou école d’ingénieur avec spécialisation en informatique, analyse d’images, ou modélisation mathématique. Le langage de programmation utilisé sera Python, en utilisant des outils de développement communautaire et de maintien logiciel (Github, Intégration Continue), et des librairies standards de deep learning (Pytorch/Tensorflow).
Formation et compétences requises :
Expérience en traitement d’images 3D, et/ou modélisation géométrique appréciée. Intérêt pour le développement d’outils open-source et la collaboration interdisciplinaire. Capacité à travailler en équipe dans un environnement mêlant informatique, biologie et agroécologie.
Adresse d’emploi :
La rémunération selon barème légal des stages sera de 600€ mensuel, avec accès à la restauration collective le midi. Le stage aura lieu au Cirad de Montpellier, 389 Av. Agropolis, 34980 Montferrier-sur-Lez.
Document attaché : 202411271216_Offre stage M2 – 2025 – Deep aerenchimas.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire LISTIC – Université Savoie-Mont-Blanc
Durée : 4 à 6 mois
Contact : jean-yves.ramel@univ-smb.fr
Date limite de publication : 2025-01-26
Contexte :
Machine Learning sur Graphes (GNN et VGAE) pour des applications en neurosciences et imagerie multimodales.
L’objectif de ce travail n’est pas seulement de produire un système de classification obtenant de bonnes performances mais aussi de mettre en place des modèles permettant d’expliquer les décisions produites.
Sujet :
Missions :
1. Étude de l’état de l’art sur les représentations graphes adaptées à la représentation d’images 3D multimodales et sur les modèles GNN et VGAE permettant le traitement de telles données.
2. Sélection du mode de construction des graphes en utilisant des techniques de segmentation d’images déjà implémentées appliquées à des IRM cérébrales T1 et TEP. Il s’agira de définir les meilleurs paramètres à utiliser pour intégrer les informations multimodales de manière pertinentes au sein des graphes (mode de segmentation, mode de création des nœuds et arêtes, attributs des nœuds et arêtes du graphes).
3. Mise en place de modèles GNN et/ou VGAE et des procédures d’explicabilité associées. Application à l’analyse de graphes représentant des cerveaux humains sein ou ayant un niveau de pathologie plus ou moins important. L’objectif n’est pas uniquement de classifier mais aussi
d’identifier les bio-marqueurs associés à la tâche étudiée.
4. Les modèles proposés pourront être évalués sur un dataset d’images IRM 3D T1 et TEP de cerveaux humains (détection précoce de la maladie d’Azheimer).
5. Comparaison des performances avec d’autres modèles afin de déterminer la pertinence des solutions proposées dans ce contexte. Évaluation des performances des modèles pour la détection de patterns ou d’anomalies liés à la progression des maladies d’Alzheimer.
Plus d’infos : http://jyramel.free.fr/DATA/stage202425jyr.pdf
Profil du candidat :
• Étudiant(e) en Master 2 ou école d’ingénieurs en Informatique, Machine Learning, Data Science.
• Compétences en Machine Learning (notamment variational autoencoders, GNN, VGAE)
• Maîtrise de Python et des bibliothèques associées (PyTorch, TensorFlow, scikit-learn).
• Esprit analytique, capacité à travailler en équipe
Formation et compétences requises :
Tuteurs / Contacts
jean-yves.ramel@univ-smb.fr – Antoine.bourlier@univ-tours.fr
Merci d’envoyer votre CV et lettre de motivation
Adresse d’emploi :
Laboratoire LISTIC – Bureau 204
Bat 2D – Polytech-Annecy-Chambery
Université Savoie-Mont-Blanc
Campus Savoie-Technolac
73376 Le BOURGET du LAC cedex
Offre en lien avec l’Action/le Réseau : HELP/– — –
Laboratoire/Entreprise : IRIT, Université Toulouse Capitole
Durée : 6 mois
Contact : moncef.garouani@irit.fr
Date limite de publication : 2025-01-30
Contexte :
Sujet :
I. Contexte général et projet de recherche
Le vieillissement d’une population d’individus est associé à une augmentation de nombreuses maladies chroniques. Trouver des moyens de prévenir et de traiter ces maladies est un enjeu majeur pour la santé publique et la vie socio-économique. Dans le cadre de la recherche sur le vieillissement, notre laboratoire utilise le poisson African Turquoise Killifish (ATK) comme un modèle d’étude très pertinent, puisque sa durée de vie est seulement de 6 à 8 mois et présente un vieillissement holistique multi-organes très rapide. Au laboratoire, nous étudions le vieillissement de l’ATK notamment par l’étude de son comportement de nage spontanée par analyse vidéo. Nos résultats préliminaires montrent, au cours d’un suivi cinétique, clairement que l’ATK a un comportement de nage qui se modifie avec l’âge. Cependant, les grandes quantités de données générées par l’analyse vidéo rendent l’intelligence artificielle (IA) indispensable pour l’extraction de variables pertinentes, l’analyse et l’interprétation des données. Nous proposons dans ce projet de développer des approches d’apprentissage multimodal
(« Multimodal Machine Learning », MML) permettant d’identifier, à partir des données déjà générées, des combinaisons de comportements de nage qui évoluent avec l’âge. Nous devons relever plusieurs défis pour le MML en raison du caractère hétérogène des données longitudinale à traiter. L’encodage unimodale des données est crucial pour le MML et influence fortement son efficacité prédictive. L’identification et le tuning des encodeurs pour extraire les caractéristiques abstraites se limitent actuellement à des tâches unimodales. Dans ce projet, nous développerons (i) des stratégies d’intégration de données originales (sans homogénéisation) pour améliorer l’efficacité de nos analyses, (ii) une méthode de « meta-learning » pour identifier les encodeurs optimaux adaptés à chaque modalité, et (iii) une méthode d’explicabilité multimodale pour identifier les biomarqueurs les plus pertinents et comprendre les relations causales dans les flux de données. L’utilisation du MML appliquée à l’étude du comportement de l’ATK, nous permettra d’atteindre nos objectifs qui sont de (i) réaliser une modélisation longitudinale du comportement de l’ATK, (ii) prédire, en fonction des patterns de nage, la durée de vie d’un individu donné et (iii) son score de fragilité, et enfin (iv) évaluer l’efficacité d’une intervention thérapeutique, qu’elle soit nutritionnelle, génétique ou médicamenteuse.
II. Objectifs du Stage :
L’objectif du stage Master est de contribuer au développement d’approches d’apprentissage multimodal pour l’étude du vieillissement à partir des données comportementales du poisson African Turquoise Killifish (ATK). Plus précisément, le stage se concentrera sur les objectifs suivants :
• Exploration des Architectures d’Apprentissage Multimodal : Réaliser une revue de la littérature sur les architectures et techniques de fusion adaptées à l’intégration de données hétérogènes déjà générés.
• Analyse des Comportements de Nage : Étudier les relations entre différents paramètres comportementaux (vitesse, trajectoire, fréquence de nage) pour identifier les caractéristiques qui évoluent avec l’âge.
• Expériences sur l’Explicabilité Multimodale : Mettre en œuvre des approches d’intelligence artificielle explicable (XAI) pour comprendre comment les comportements identifiés influencent la prédiction de la durée de vie et du score de fragilité.
Le stage impliquera une revue approfondie de la littérature, la conception d’expériences d’apprentissage multimodal, l’analyse des données existantes et l’interprétation des résultats. Le candidat sélectionné travaillera en étroite collaboration avec notre équipe de recherche, acquérant une expérience pratique en apprentissage machine, en intégration de données hétérogènes et en IA explicable appliquée à la biologie du vieillissement.
Profil du candidat :
• Le/la candidat(e) doit être en Master 1/2. Il/elle aura un profil informatique avec de profondes connaissances en apprentissage automatique, avec un intérêt pour le travail interdisciplinaire.
• Compétences techniques : Solide bagage en apprentissage automatique, apprentissage profond et analyse de données.
• Programmation : Maîtrise des langages de programmation tels que Python et expérience avec des bibliothèques pertinentes (e.g., TensorFlow, PyTorch).
• Compétences analytiques : Excellentes compétences en analyse et en résolution de problèmes, avec un intérêt marqué pour la recherche multidisciplinaire.
Formation et compétences requises :
Adresse d’emploi :
Institut de Recherche en Informatique de Toulouse
Document attaché : 202411211601_Stage ML_ATK.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : IRISA, Université Bretagne Sud
Durée : 6 mois
Contact : minh-tan.pham@univ-ubs.fr
Date limite de publication : 2025-01-31
Contexte :
Sujet :
We propose an internship for Master 2 and Ecole d’Ingénieur students, with a funded opportunity to pursue a PhD within the team on the topic.
This internship is part of the European HORIZON AXOLOTLproject, for which exchanges with Cypriot researchers are planned.
For more information, please consult the offer on this link:
https://www-obelix.irisa.fr/files/2024/11/Master_internship_super_resolution.pdf
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
The expected intern will join the OBELIX research group (www.irisa.fr/obelix) from IRISA (UMR 6074) is located in the UBS (Universit´e Bretagne Sud) campus in Vannes 56000, France.
Document attaché : 202411210845_Master_topic_super_resolution.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IBISC, LISSI
Durée : 6 mois
Contact : aurelien.hazan@u-pec.fr
Date limite de publication : 2025-01-31
Contexte :
Le scanner de perfusion myocardique (ou scintigraphie de perfusion myocardique) est un examen d’imagerie de médecine nucléaire non-invasif qui utilise une petite quantité d’un traceur radioactif
L’acquisition se fait typiquement sur une durée de 20 à 40 minutes, synchronisée au rythme cardiaque permettant ainsi de reconstituer un cycle cardiaque sur une séquence 3D animée
Cependant, ces images scintigraphiques souffrent d’une mauvaise résolution spatiale (environ 1 cm3), et d’un mauvais rapport signal sur bruit.
La méthode la plus efficace utilisée actuellement pour traiter ces deux problèmes est d’augmenter les images de scintigraphie par une image 3D anatomique obtenue par tomographie à rayon X (CT) pour corriger l’atténuation des rayons gamma.
Sujet :
Méthode: Les GNN, sont une classe de modèles de deep learning spécialement conçue pour traiter des données représentées sous forme de graphes. Contrairement aux images classiques, qui sont souvent traitées en utilisant des CNN sur des grilles de pixels, les GNN permettent de capturer des relations complexes entre des éléments non structurés de manière régulière, ce qui peut être particulièrement utile pour les images médicales, la segmentation d’objets ou l’analyse de structures 3D [muller_survey_2024,han_vision_2022]
Un réseau de graphes permettra de recréer un cycle cardiaque complet à partir d’une seule image tomodensitométrique et d’un ECG. La reconstitution permettra de générer sur l’ensemble du cycle cardiaque une représentation de haute qualité de l’atténuation des tissus afin de recaler la correction d’atténuation sur l’acquisition par scintigraphie. Ceci permettrait ainsi d’éviter les artefacts observés.
Dans le but de valider notre approche sur une large base de données représentative des pratiques du service de médecine nucléaire, cette étude s’appuiera sur la base de donnée du CHSF.
Profil du candidat :
La personne recrutée devra justifier d’un diplôme d’ingénieur ou d’un Master, de solides connaissances en intelligence artificielle, par exemple en deep learning (DL), en réseaux de neurones profonds et en codage (Python, Cuda, C++). Des expériences de développement sur processeurs graphiques (GPU) seront très appréciées. Son anglais sera courant. Le candidat sélectionné aura la chance de travailler dans une équipe interdiciplinaire et avec un consortium de data scientists et de cliniciens du centre hospitalier sud-francilien (CHSF)
Formation et compétences requises :
Adresse d’emploi :
Lieux:
IBISC, EVRY.
LISSI, IUT Sénart-Fontainebleau, Lieusaint.
Contact: hichem.maaref@ibisc.univ-evry.fr, aurelien.hazan@u-pec.fr
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : MaIAGE, INRAE, université Paris-Saclay
Durée : 6 mois
Contact : arnaud.ferre@inrae.fr
Date limite de publication : 2025-01-31
Contexte :
Les techniques d’extraction d’information (text-mining) récentes les plus performantes reposent sur de l’apprentissage automatique supervisé. Or, l’évaluation et l’entraînement de ces méthodes nécessitent une phase d’annotation humaine laborieuse. Cela est particulièrement vrai pour les domaines spécialisés, tels que la microbiologie, où la production et la validation des annotations nécessitent l’intervention d’experts, et où les données produites sont d’un grand intérêt [Deléger2016]. La Réalité Virtuelle (RV) et par extension la Réalité Étendue (XR) permettent d’améliorer les performances d’utilisateurs ainsi que leur engagement lors de la réalisation de tâches spécifiques comme de la rééducation ou de l’apprentissage humain [David2017, Mayer2023].
Sujet :
Projet :
Nous proposons dans ce stage de développer et d’évaluer un outil d’annotation textuelle immersif en Réalité Virtuelle (RV) similaire à VAnnotator [Spiekermann2018] pouvant tirer parti des possibilités d’annotation en Réalité Étendue (XR) [Borhani2023]. La tâche d’annotation spécifique visée sera la reconnaissance d’entités. Cette dernière consiste à identifier et classifier des entités nommées dans un texte (ex : identifier dans la phrase suivante que la mention “Escherichia coli” est une bactérie – “Escherichia coli est trouvée dans les intestins des animaux”). L’accent sera mis sur la mise en place de l’annotateur immersif ainsi que de son évaluation comparée avec les outils existants.
Objectifs du stage :
– Revue de la littérature des solutions d’annotation immersives.
– Transfert de données textuelles issues d’un corpus BB4 pour la reconnaissance d’entités et développé à MaIAGE dans un casque de RV.
– Installation et configuration d’un annotateur standard [Colucci2024] dans un environnement immersif, pour la visualisation des données, le développement de fonctionnalités et pour améliorer l’annotation en RV.
– Mise en place d’expérimentations utilisateurs pour comparer l’utilisation immersive et non-immersive de Doccano (cybersickness, utilisabilité, etc.).
– Rédaction du manuscrit pour diffusion et documentation.
Le stage pourra être l’occasion de préparer un poster pour une conférence des domaines concernés (ex : IHM, TALN).
Profil du candidat :
Étudiant en Master 2, élève-ingénieur des Grandes Écoles ou équivalent.
Formation et compétences requises :
Formations visées : informatique (IHM, IA, etc.) ou équivalent.
Compétences requises :
– Compétences en développement informatique (préférentiellement web, Python et Android)
– Compétences en IHM (évaluation de l’expérience utilisateur, analyse d’applications interactives)
– Une expérience en développement XR serait un plus
– Capacité de travail en autonomie
– Un attrait pour la recherche scientifique
Adresse d’emploi :
INRAE – Unité MaIAGE Bât 210 et 233 Domaine de Vilvert 78352 JOUY-EN-JOSAS
Document attaché : 202411201454_Offre de stage M2 IHM & Text-Mining.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LITIS Lab / INSA Rouen
Durée : 6 mois
Contact : hind.laghmara@insa-rouen.fr
Date limite de publication : 2025-01-31
Contexte :
Les systèmes de perception multimodale (caméras, radars, lidars, capteurs infrarouges) sont de plus en plus utilisés dans les applications de mobilité autonome (véhicules, drones) et de surveillance, en particulier pour surmonter les situations de visibilité dégradée (brouillard, pluie, faible luminosité). Dans ces conditions, les données provenant des différents capteurs peuvent être sujettes à des incertitudes importantes qui impactent la fiabilité des décisions prises par les systèmes automatisés. Pour cela, ce stage se tient dans le cadre du projet ANR AdaV (2025-2028) qui a pour but d’étudier les possibilités d’extraction de caractéristiques environnementales pour l’amélioration de la fusion adaptative des modalités pour la détection d’objets multiples.
Mots clés :
Capteurs non-conventionnels, fusion multi-capteurs, analyse de scènes routières, physical attention learning, incertitude, traitement de signal et des images, deep learning.
Sujet :
Ce stage vise à développer une méthode permettant d’estimer et de modéliser les incertitudes associées aux données multimodales collectées en conditions de visibilité dégradée. L’objectif est de quantifier ces incertitudes et d’améliorer la robustesse de la fusion de données en vue d’applications critiques (navigation autonome, détection d’obstacles, etc.).
Dans un second temps, l’objectif est d’appliquer une approche de perception basée sur une fusion adaptative d’information provenant d’une caméra polarimétrique et d’une caméra RGB ainsi que de données provenant d’un LiDAR . Une partie du stage portera également sur la réalisation d’expérimentations en collaboration avec Lucas Deregnaucourt, doctorant au LITIS, pour la détection d’objets dynamiques dans le cadre de conduite en situation de visibilité réduite [1]. Le LITIS dispose d’une plateforme robotique, PERMIS, qui comprend différents robots ainsi qu’un dispositif permettant de simuler une dégradation de visibilité par la génération d’un brouillard artificiel. L’objectif du stagiaire sera de mener à bien l’entraînement de réseaux de neurones évidentiel et d’appliquer un modèle à l’un des robots en utilisant l’environnement ROS.
[1] L. Deregnaucourt, A. Lerchervy, H. Laghmara, and S. Ainouz, “An evidential deep network based on Dempster-Shafer theory for large dataset,” Advances and Applications of DSmT for Information Fusion, 2023.
Profil du candidat :
Niveau Master 2 ou ingénieur (ou équivalent) en informatique ou mathématiques appliquées ou science des données (ou disciplines similaires)
Le stage est susceptible d’être poursuivi par une thèse de doctorat dans le cadre du projet ANR AdaV (financement acquis).
Merci d’envoyer votre CV et relevés de notes aux encadrants :
— Hind Laghmara, LITIS – EA 4108, hind.laghmara@insa-rouen.fr
— Alexis Lechervy, GREYC – UMR CNRS 6072 alexis.lechervy@unicaen.fr
— Paul Honeine, LITIS – EA 4108 paul.honeine@univ-rouen.fr
Formation et compétences requises :
— Bonnes compétences en Machine Learning et vision par ordinateur
— Bonnes compétences en programmation par Python
— Un intérêt pour la robotique et la mobilité intelligente, ainsi que l’utilisation de l’environnement ROS.
Adresse d’emploi :
LITIS Lab, INSA Rouen Normandie
Document attaché : 202411220859_Offre_de_stage_Printemps_2025.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : UMR TETIS / UMR STL
Durée : 6 mois
Contact : mathieu.roche@cirad.fr
Date limite de publication : 2025-01-31
Contexte :
Avec la liberté d’expression et la pluralité d’opinions, la société moderne voit apparaître de nombreuses controverses, comme par exemple les questions liées à la vaccination, au végétarianisme ou au réchauffement climatique. De manière générale, on considère qu’une controverse apparaît lorsqu’il existe des points de vue, des croyances ou des avis différents, ce qui peut se transformer en désaccord plus ou moins manifeste entre les acteurs. Une situation de controverse se manifeste typiquement par l’emploi de l’argumentation et une charge émotive des énoncés. Leur étude permet de comprendre les enjeux et les positions qui peuvent exister autour d’une question donnée.
Dans le cadre du projet CNRS MITI STAY (Savoirs Techniques pour l’Auto-suffisance, sur Youtube), nous nous intéressons aux controverses en lien avec l’agriculture alternative. Les données de travail proviennent essentiellement des vidéos Youtube transcrites et les commentaires correspondants. Il est rare que les vidéos comportent des controverses. En revanche, les commentaires, qui se construisent en interaction entre les intervenants, peuvent contenir des opinions ou réactions controversées. Pour s’attaquer à un tel problème, nous pouvons nous intéresser aux structures des discussions et/ou au contenu des commentaires.
Sujet :
Ce stage s’intéressera plus spécifiquement à analyser les contenus textuels source de controverse. Pour mener de telles études, les données à exploiter sont souvent rares et leur collecte et annotation sont longues et complexes. Pour aider la constitution d’un corpus conséquent contenant des commentaires controversés en volume nécessaire pour être ensuite traité par des modèles de langue, il est souvent proposé d’augmenter ces données avec des méthodes spécifiques. Cette tâche constitue le coeur de ce stage. Plus particulièrement, il s’agit de travailler avec un premier ensemble de commentaires déjà annotés et d’augmenter de manière automatique ces données.
De manière concrète, le travail de stage se déroulera en trois phases successives :
– Dans un premier temps, le ou la stagiaire réalisera un état de l’art sur les approches à mobiliser en lien avec le travail de stage, à savoir l’identification automatique des controverses sur la base du contenu textuel et l’augmentation de données textuelles.
– Dans un deuxième temps, le travail proposé consistera à identifier les controverses en lien avec les thématiques sur lesquelles elles portent. Pour cela, le ou la stagiaire utilisera (1) les données en français annotées du projet STAY, (2) un lexique thématique produit par les chercheuses et chercheurs du projet.
– Enfin, des méthodes d’augmentation de données seront proposées, mises en place et évaluées sur la base des analyses réalisées précédemment.
Profil du candidat :
Profil des candidat.e.s : TAL, science des données avec une sensibilité au travail avec des données textuelles dans un cadre pluridisciplinaire
Candidature :
Envoyer un CV + relevés de notes des deux dernières années aux encadrant.e.s
Date limite : 04 décembre 2024
Formation et compétences requises :
Adresse d’emploi :
Encadrant.e.s :
– Mathieu Roche (mathieu.roche@cirad.fr) UMR TETIS, CIRAD, Montpellier
– Natalia Grabar (natalia.grabar@univ-lille.fr) UMR STL, CNRS, Lille
Lieu du stage : Montpellier ou Lille
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : EDF R&D
Durée : 6 mois
Contact : victor.charpenay@emse.fr
Date limite de publication : 2025-01-31
Contexte :
La R&D d’EDF (2000 chercheurs) a pour missions principales de contribuer à l’amélioration de la performance des unités opérationnelles du groupe EDF, d’identifier et de préparer les relais de croissance à moyen et long terme. Dans ce cadre, le département Services, Economie, Outils Innovants et IA (SEQUOIA) est un département pluridisciplinaire (sciences de l’ingénieur, sciences humaines et sociales) qui fournit un appui à l’élaboration et au portage des offres, des services et des outils de relation client aux directions opérationnelles du groupe EDF.
Au sein de ce département, ce stage sera rattaché au groupe « Statistiques et Outils d’Aide à la Décision » (SOAD) : cette équipe compte une vingtaine d’ingénieurs chercheurs spécialisés en IA et data science avec des compétences fortes autour du machine learning et du deep learning, du web sémantique, de l’IA symbolique et de l’IA générative (texte, voix, image, multimodalité…), en particulier du NLP (LLM, RAG, data mining,). Le stage portera sur l’interaction entre grands modèles de langage (LLM) et IA symbolique.
Sujet :
Les LLM sont multi-tâches. Ils peuvent aussi bien traduire un texte d’une langue à une autre que répondre à des questions de culture générale. Cependant, il est difficile de contraindre un LLM à n’effectuer qu’une seule tâche, comme répondre seulement par un nombre ou générer des données structurées selon un schéma prédéfini. Il est possible de valider a posteriori la réponse d’un LLM mais si elle s’avère syntaxiquement fausse, il n’existe pas d’approche standard pour corriger cette première réponse sans avoir à en générer une deuxième. L’objectif du stage sera d’explorer une approche neuro-symbolique pour guider la génération de LLM selon un langage contrôlé (comme un langage de requête ou un modèle de données), afin de garantir la conformité syntaxique et sémantique de chaque réponse.
Cette approche sera appliquée à la génération de graphes de connaissances à partir de documents textuels. Au sein du groupe SOAD, nous travaillons sur les possibilités d’intégration des graphes de connaissances pour améliorer la fiabilité et l’explicabilité des systèmes IA, un enjeu clé pour les applications critiques. Cependant la construction des graphes de connaissances reste une tâche coûteuse en termes de temps et de ressources, en particulier lorsqu’il s’agit d’extraire et de structurer ces connaissances à partir de documents textuels. Dans le groupe EDF, de nombreuses connaissances métiers proviennent de documents complexes, comme les descriptions d’infrastructures de production et leurs contraintes d’exploitation. Exploiter ces connaissances permettrait d’accélérer l’adoption de solutions de rupture tout en les fiabilisant et en valorisant l’expertise métier.
Profil du candidat :
• Excellent niveau français oral et écrit
• Curiosité scientifique et forte motivation pour l’innovation
Formation et compétences requises :
• Etudiant(e) en Master 2 ou équivalent école d’ingénieur, spécialité data science, IA ou équivalent
• Compétences solides en programmation, en particulier en Python.
• Connaissance des techniques de traitement du langage naturel (NLP) et des modèles d’IA générative (par exemple, GPT-4).
• Compétences en construction et manipulation de graphes de connaissances (RDF, Neo4j, graphDB, ontologie…) fortement souhaitées.
Adresse d’emploi :
EDF R&D Lab
Saclay (91120)
Document attaché : 202412041504_Offre_Stage_Knowledge_generation_2025.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : GREYC CNRS UMR 6072 – Université de Caen Normandie
Durée : 5 à 6 mois
Contact : bruno.cremilleux@unicaen.fr
Date limite de publication : 2025-01-31
Contexte :
Contexte scientifique
Ce stage de master s’inscrit dans le cadre du projet Pandora financé par l’ANR (Agence Nationale de la Recherche), projet qui démarrera en février 2025. Pandora se situe dans le contexte de l’intelligence artificielle explicable (XAI), en particulier dans le domaine des réseaux de neurones sur graphes (GNN). En se focalisant sur le fonctionnement interne des GNNs, les objectifs du projet sont les suivants :
— caractériser, comprendre et expliquer de manière claire le fonctionnement interne des GNN en utilisant des techniques d’extraction de motifs ;
— découvrir des motifs d’activation neuronale statistiquement significatifs, appelés « règles d’activation », pour déterminer comment les réseaux encodent les concepts [7, 8] ;
— traduire ces règles d’activation en motifs de graphes interprétables par un utilisateur ;
— utiliser ces connaissances pour améliorer les GNN en identifiant les biais d’apprentissage, en générant des données supplémentaires et en construisant des systèmes d’explication.
Ce stage de recherche porte sur le dernier point. Plus précisément, nous souhaitons développer de nouvelles méthodes permettant d’améliorer l’apprentissage des modèles sur graphes en s’appuyant sur l’analyse du fonctionnement interne de ces modèles via, par exemple, des règles d’activation exprimées dans l’espace latent. Il s’agira ainsi d’analyser
les frontières de décisions, de caractériser les erreurs du modèle étudié dans l’espace des données ou dans leurs représentations latentes afin de proposer des solutions correctives.
Sujet :
Cf. la description détaillée (document pdf).
Profil du candidat :
Cf. la description détaillée (document pdf).
Formation et compétences requises :
Cf. la description détaillée (document pdf).
Adresse d’emploi :
Laboratoire GREYC, CNRS UMR 6072, Université de Caen Normandie, 14000, Caen, France
Document attaché : 202411050931_StageIAexplicable_Pandora_FR.pdf
Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –
Laboratoire/Entreprise : LPC2E Orléans
Durée : 5 mois
Contact : cherry.ng-guiheneuf@cnrs-orleans.fr
Date limite de publication : 2025-01-31
Contexte :
Pulsars are highly magnetized, rapidly rotating neutron stars. Thanks to the extreme stability of pulsar rotation, pulsars are considered “cosmic clocks” with a wide range of astrophysical applications. Pulsar discoveries have directly resulted in two Nobel prizes (1974 and 1993). Collectively, pulsar-related referred articles have led to over 500,000 citations; the discovery of pulsars is therefore a gateway to new science. Although it has been over 50 years since the first pulsar was discovered in 1967, pulsar searching is still in its early stage and the discovery space remains largely unexplored. Neutron star population synthesis studies suggest that there are ~120,000 potentially observable pulsars in our Galaxy, although currently just over 3000 pulsars are known. Traditionally, single-dish radio telescopes can only focus on a single point in the sky, limiting the sky mapping speed and hence the number of pulsar discoveries. In addition, the very-low frequency range remains relatively unexplored.
Sujet :
The newly commissioned NenuFAR telescope in France opens a new window in the very-low frequency range between 10 and 85 MHz. This unique frequency range and the large field-of-view of NenuFAR thus make it a promising instrument to undertake an exhaustive pulsar survey in the low frequency regime. Since 2020, NenuFAR has been conducting a blind (untargeted) pulsar search above declination 39°. Over 4000 hours of data have been collected to date of which only ⅓ processed. During this internship, the trainee will help optimize the data processing pipeline (in python) with the goal of improving the throughput of the search. There is also the possibility of deploying the pipeline on the 28-petaflop Jean Zay High Performance Computing (HPC) cluster operated by IDRIS/CNRS. We will work on aspects of parallelization, portability and modularization of the code. The trainees will also have the opportunity to gain insight into radio astronomy as well as to make first-hand pulsar discoveries.
Profil du candidat :
We are looking for candidates with prior python programming experience and who want to further strengthen their computing profiles. Knowledge in astronomy is preferred but not obligated.
We are only able to employ students with permits to work in France. This includes European citizens as well as students (from any nationalities) who are currently enrolled in a French university.
Formation et compétences requises :
– python programming
– at least B1 level in English (the internship will be conducted primarily in English)
Adresse d’emploi :
This internship will be hosted by the ASTRO team at the LPC2E/CNRS in Orléans (3E AVENUE DE LA RECHERCHE SCIENTIFIQUE, CS 10065, 45071 ORLEANS CEDEX 2, FRANCE).
The main research interests of the group is on radio transients including pulsars, fast radio bursts as well as SETI. The ASTRO team boasts the largest pulsar research group in France and is closely connected to the Nançay Radio Astronomical Observatory in the forest of Sologne. The ASTRO team currently has 6 permanent staff, 1 postdoctoral researcher and 3 PhD students. We typically welcome 1 to 2 M2 interns in the summer. Accommodation can be arranged on the CNRS campus at roughly €400/month. Lunch at the CNRS cantine is subsidized.
Document attaché : 202412091422_M2-2025_Cherry.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Mines Saint-Étienne/LIMOS
Durée : 5-6 mois
Contact : antoine.zimmermann@emse.fr
Date limite de publication : 2025-01-31
Contexte :
Sujet :
Physical quantities form an important part of what is represented in scientific data, medical data, industry data, open data, and to some extent, various private data.
Whether it is distances, speeds, payloads in transportation, concentrations, masses, moles in chemistry, powers, intensities, voltages in the energy sector, dimensions of furniture, weights, heights of people, durations, and many others in health, there is a need to represent physical quantities, to store them, to process them, and to exchange them between information systems, potentially on a global scale, often on the Internet and via the Web.
In this internship, we seek to precisely define a way to unambiguously represent physical quantities for the Web of Data. More precisely, we will study the proposals made to encode physical quantities in the standard data model of the Semantic Web, RDF. We will be particularly interested in the use of a data type dedicated to this encoding, probably adapted from the proposal of Lefrançois & Zimmermann (2018) based on the UCUM standard.
Having established a rigorous definition of the data type (possibly its variants, if relevant), we will focus on implementing a module that can read/write and process physical quantities and their operations within the RDF data manipulation APIs, for the management, querying and reasoning with knowledge graphs containing physical quantities.
The ambition is that, on the one hand, the specification will become in a few years a de facto standard, before perhaps becoming a de jure standard; and that, on the other hand, the implementation will be the reference allowing to compare the compliance levels of other future implementations.
This study should lead to the publication of a scientific paper in a high impact scientific journal.
References
– Maxime Lefrançois and Antoine Zimmermann (2018). The Unified Code for Units of Measure in RDF: cdt:ucum and other UCUM Datatypes. In The Semantic Web: ESWC 2018 Satellite Events – ESWC 2018 Satellite Events, Heraklion, Crete, Greece, June 3-7, 2018, Revised Selected Papers, volume 11155 of the Lecture Notes in Computer Science, pp196–201, Springer.
– Gunther Shadow and Clement J. McDonald. The Unified Code for Units of Measure. Technical report, Regenstrief Institute, Inc, November 21 2017.
Profil du candidat :
Equivalent of a M2 level in CS, with knowledge of Semantic Web technologies. Also, the candidate must have either very good programming skills in Java, or very good aptitude in formal and abstract thinking.
Formation et compétences requises :
Adresse d’emploi :
Mines Saint-Étienne
158 cours Fauriel
42023 Saint-Étienne Cedex 2
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : équipes ORKAD et BONSAI (laboratoire CRIStAL, Lill
Durée : 6 mois
Contact : julie.jacques@univ-lille.fr
Date limite de publication : 2025-01-31
Contexte :
ORKAD et BONSAI sont deux équipes de recherche du laboratoire CRIStAL (Centre de Recherche en Informatique, Signal et Automatique de Lille, UMR CNRS 9189) de l’Université de Lille. L’équipe ORKAD (https://orkad.univ-lille.fr/) développe des méthodes pour l’optimisation combinatoire et l’extraction de connaissances avec des approches à base de méta-heurisitique. L’équipe BONSAI (https://www.cristal.univ-lille.fr/bonsai/) travaille en bioinformatique, avec le développement d’algorithmes et de logiciels pour l’analyse de données biologiques (génomes, gènes, protéines). Le sujet de ce stage s’inscrit également dans le cadre d’une collaboration pluridisciplinaire avec la plateforme de protéomique de l’Université de Lille.
La paléoprotéomique est l’étude des échantillons archéologiques ou paléontologiques, tels que des ossements, par des approches expérimentales de spectrométrie de masse. Les spectres de masses permettent ensuite l’identification des espèces d’origine des échantillons grâce à des peptides marqueurs [Warinner2022]. Ces peptides sont des courtes séquences protéiques susceptibles d’être obtenues par digestion et ionisées, et représentatives d’une espèce donnée. On peut donc les voir comme des peptides diagnostics ou des code-barres [Buckley2009]. Dans ce stage, nous souhaitons étudier le caractère explicatif des peptides marqueurs, en lien avec la taxonomie des espèces. Le stage mêlera les expertises de l’équipe Bonsai en algorithmique des séquences et bioinformatique et celles de l’équipe Orkad en optimisation combinatoire pour le machine learning.
Sujet :
Les peptides marqueurs permettent collectivement de caractériser une espèce ou un groupe d’espèces proches. Pour un clade donné, l’ensemble des peptides est souvent utilisé comme une boîte noire, sans prise en compte de la conservation de certains marqueurs entre espèces ou au contraire de leur caractère discriminant. Nous voulons regarder les questions suivantes: peut-on inférer un arbre de décision “simple” sur les peptides marqueurs expliquant l’assignation taxonomique ? Cet arbre de décision est-il consistant avec une taxonomie admise ? Peut-on inférer d’autres types de règles: modalités fréquentes ou corrélées avec un clade, par exemple ? Quelles sont les espèces pour lesquelles la prédiction est robuste, et a contrario, les espèces pour lesquelles la prédiction est sensible au bruit expérimental ? Cette analyse se fera à deux niveaux d’information: celui des séquences peptidiques, et celui des masses des peptides. La connaissance du premier niveau entraîne la connaissance du second niveau, mais la réciproque n’est pas vraie.
De nombreuses approches à base de métaheuristiques pour générer des arbres de décision ont été proposées [RiveraLopez2021,DhaenensJourdan2022]. Des approches prenant en compte les hiérarchies dans les données ont également été suggérées [Otero2010]. Dans ce stage, il s’agira de déterminer l’approche la plus appropriée aux données et d’adapter la modélisation (représentation d’une solution, voisinage, évaluation) pour trouver la plus appropriée aux particularités des données. Nous privilégierons une modélisation de type boîte blanche afin d’avoir une bonne exploitation des modèles générés. En particulier une réflexion sera menée sur le critère d’évaluation à utiliser pour l’optimisation: Qu’est-ce qui détermine qu’un arbre de décision répond au problème ? Cela demandera d’adapter aux données la notion d’accuracy utilisée habituellement pour les arbres de décision. Il faudra également intégrer la notion de robustesse au bruit pour permettre la prise en compte de peptides marqueurs manquants ou artéfactuels.
Ce travail mènera au développement d’un logiciel qui sera intégré à la suite PAMPA (Protein Analysis by Mass Spectrometry for Ancient Species) développée par l’équipe BONSAI : https://github.com/touzet/pampa/. En termes de données, l’équipe BONSAI a rassemblé une compilation d’environ 200 espèces mammifères, pour lesquelles un ensemble de 14 peptides marqueurs est annoté. Cela comprend des peptides consensuels au niveau de la communauté des paléoprotéomiciens, déterminés de manière expérimentale par spectrométrie de masse (https://docs.google.com/spreadsheets/d/1ipm9fFFyha8IEzRO2F5zVXIk0ldwYiWgX5pGqETzBco) ou générés par homologie.
Ce stage pourra donner lieu à une poursuite en thèse.
Profil du candidat :
Etudiant en stage de M2 informatique
Ce stage pourra donner lieu à une poursuite en thèse.
Formation et compétences requises :
Programmation Python et connaissances en machine learning (classification supervisée).
Des connaissances en recherche opérationnelle, optimisation combinatoire, technologies web ou bioinformatique seraient un plus.
Adresse d’emploi :
Laboratoire CRISTAL, Campus Scientfique, Villeneuve d’Ascq (https://www.cristal.univ-lille.fr/)
Document attaché : 202411201012_Sujet_stage_M2_ORKAD_BONSAI.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire d’Informatique, Robotique et Microélec
Durée : 6 mois
Contact : alexandre.bazin@lirmm.fr
Date limite de publication : 2025-02-01
Contexte :
Sujet :
Pour réussir la transition agroécologique, les producteurs ont besoin de disposer de connaissances sur des alternatives aux techniques agricoles classiques. Cependant, en préalable à l’utilisation d’une base de connaissances (BC) par des producteurs et des experts scientifiques, celle-ci doit être corrigée de ses anomalies. Le contexte de ce stage est la BC Knomana [Silvie et al., 2021], qui rassemble 48000 descriptions d’utilisation de plantes à effet pesticide et antibiotique, et vise à proposer des préparations à base de plantes en remplacement des produits chimiques de synthèse. Des dictionnaires permettent déjà de corriger les valeurs pour ses 31 types de données. Par contre, la vérification de la correction et de la cohérence des données est trop complexe pour être réalisée manuellement. Par exemple, une incohérence entre la plante pesticide, le système protégé (e.g. culture de maïs), le bioagresseur (e.g. insecte) et la localisation géographique suffit pour induire en erreur un producteur. La technique appelée Exploration d’Attributs (EA), développée par l’Analyse de Concepts Formels, permet de détecter et de corriger ces anomalies [Saab et al., 2022] en exprimant chaque connaissance sous forme d’une règle d’implication. Les règles sont présentées aux experts qui les valident ou les invalident afin de mettre la BC dans un état cohérent.
L’objectif du stage est de développer un prototype logiciel de détection et de correction des anomalies pour des données multidimensionnelles et multirelationnelles. Ce prototype permettra de manipuler les données et les types de données, puis d’interagir avec
la libraire FCA4J, pour le calcul des règles, et le logiciel RCAvizIR, développé avec le soutien de #Digitag (stages de Master en 2022 et 2023) pour les présenter dans un ordre facilitant le travail de correction par les experts.
* Pierre Accorsi, Mickaël Fabrègue, Arnaud Sallaberry, Flavie Cernesson, Nathalie Lalande, Agnès Braud, Sandra Bringay, Florence Le Ber, Pascal Poncelet, Maguelonne Teisseire. HydroQual: Visual Analysis of River Water Quality. Proceedings of the IEEE Symposium on Visual Analytics Science and Technology (VAST), pp. 123-132, 2014.
* Daniel A. Keim, Gennady L. Andrienko, Jean-Daniel Fekete, Carsten Görg, Jörn Kohlhammer, Guy Melançon. Visual Analytics : Definition, Process, and Challenges. Information Visualization – Human-Centered Issues and Perspectives. LNCS 4950, Springer 2008, p. 154-175. * Tamara Munzner. Visualization Analysis & Design. CRC Press, A K Perters Books, 2014. * Roberto Tamassia, Handbook on Graph Drawing and Visualization. Chapman et Hall / CRC, 2013.
* Michael Sedlmair, Miriah D. Meyer et Tamara Munzner. Design Study Methodology: Reflections from the Trenches and the Stacks. IEEE TVCG 18(12): 2431-2440, 2012.
Profil du candidat :
Compétences recherchées :
Intelligence artificielle, Fouille de données, Javascript
Formation et compétences requises :
Discipline principale du projet :
Informatique, Extraction de connaissances, Visualisation
Discipline secondaire du projet :
Sciences de la Vie et de l’Environnement
Adresse d’emploi :
Université de Montpellier
Document attaché : 202411011120_Sujet de stage Digitag 2024-1.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : TETIS
Durée : 5 mois
Contact : maguelonne.teisseire@inrae.fr
Date limite de publication : 2025-02-01
Contexte :
Ce stage s’inscrit dans les activités interdisciplinaires de l’UMR TETIS du projet STAY – Savoirs Techniques pour l’Autosuffisance, sur YouTube (financement CNRS) – en partenariat avec le LISIS (Laboratoire Interdisciplinaire Sciences Innovations Sociétés). Des pratiques agricoles sont aujourd’hui partagées et commentées sur YouTube, plateforme d’hébergement de vidéos dont la popularité n’est
plus à démontrer.En effet, en février 2023, les données Médiamétrie indiquaient 48 millions d’utilisateurs uniques en France. Disponible à tout le monde, la plateforme permet à quiconque – professionnels de l’agriculture ou pas – de devenir créateur de contenu, les caractéristiques et la qualité des informations ainsi partagées faisant l’objet d’une littérature déjà abondante. Cette littérature montre entre autres que YouTube constitue pour ses utilisateurs une source d’informations qui contribue aux appréciations qu’ils se font d’une situation, et qui peut influencer leur jugement et leur action parfois de manière significative.
Qu’il s’agisse d’utilisateurs ou de producteurs de contenu, ils peuvent être à la fois des professionnels (exploitants agricoles, Chambres d’Agriculture…) et des amateurs (des jardiniers engagés dans l’autoproduction alimentaire à l’échelle d’un potager ou petit verger, militants…). Nous nous intéressons tout particulièrement au sujet des ravageurs en production légumière et arboricole.
Sujet :
L’objectif du stage est double :
(1) dresser un inventaire le plus exhaustif possible des chaînes YouTube pouvant être consultées afin d’obtenir des informations concernant les techniques de production légumière et arboricole – avec une attention particulière aux chaînes faisant référence aux techniques de lutte contre les ravageurs – en distinguant les chaînes produites par des professionnels de l’agriculture et les chaînes alimentés par des amateurs. Il s’agira dans un premier temps d’identifier les mots-clés pertinents et d’une liste de thèmes susceptibles de faire l’objet de recherches sur YouTube
(2) réaliser de façon automatique une catégorisation des contenus, en s’appuyant sur les statistiques et métadonnées, en termes:
– d’année d’apparition
– de nombre d’abonnés, de nombre de commentaires, de nombre de vues et de nombre de likes, avec une analyse de l’évolution temporelle de ces indicateurs d’identification des repères temporels marquants pour l’apparition et l’évolution en termes de succès de ces chaînes (épidémie de Covid, des évènements climatiques significatifs, etc.)
– de production de contenu, en termes quantitatifs
– de catégories des producteurs de contenu (classification à construire) de types de contenu proposés et de thèmes abordées – relatifs aux techniques agricoles et plus particulièrement aux techniques de lutte contre les ravageurs
– de type de stratégie économique employée par les créateurs de contenu – en termes de nombre de publicités et d’autres sources de revenu (contrats, cagnotte Tipeee..).
Le/la stagiaire pourra s’appuyer sur une production académique récente (Bruhl 2023) concernant un sujet similaire, à savoir la thèse de Guillaume Bruhl intitulée « État des lieux de la vulgarisation scientifique vétérinaire francophone sur Youtube ». Les implémentations s’intégreront dans la plateforme en cours de développement du projet.
Profil du candidat :
Le/la stagiaire aura un profil en informatique avec des connaissances en traitement automatique de la langue et/ou apprentissage automatique, avec un intérêt pour le travail interdisciplinaire. Une expérience dans le langage de programmation Python est un plus.
Formation et compétences requises :
Adresse d’emploi :
500 rue JF Breton 34090 Montpellier
Document attaché : 202410290856_Distribution_Stage1_Stay2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CReSTIC
Durée : 4 à 6 mois
Contact : eric.desjardin@univ-reims.fr
Date limite de publication : 2025-02-14
Contexte :
Le cholangiocarcinome intra-hépatique (iCCA) est une tumeur maligne primitive hépatique dont le diagnostic anatomopathologique peut être difficile. L’objectif du projet CholangIA est d’améliorer le diagnostic des lésions ductulaires intra-hépatiques réalisé à partir d’images histopathologiques par les approches de l’Intelligence Artificielle. Une étude bi-centrique a permis de tester les performances de classification binaire et multi-classe des modèles VGG16, MobileNetV2 et ResNet50 [1]. Un premier pipeline de détection a été développé [Figure 1]. Nous souhaitons explorer les mécanismes d’attention et Multiple instance learning [2] afin de pouvoir rendre plus robuste les classifications obtenues.
Ce projet est mené dans le cadre d’une collaboration entre l’équipe AI4M (Artificial Intelligence for Medicine) du laboratoire CReSTIC, l’unité de recherche MEDyC et l’IIAS (Institut de l’IA en Santé) en partenariat avec l’Institut Mondor de Recherche Biomédicale.
Sujet :
Le candidat participera à l’enrichissement des travaux actuels en :
– développant des méthodes explicatives et d’attention de apprentissage profond
– implémentant une approche « Multiple instance learning »
– réalisant les Évaluations & Intégration dans le pipeline d’analyse
Profil du candidat :
Compétences impératives :
• Intelligence artificielle, machine learning, deep learning
• Programmation Python
• Librairies usuelles de deep learning (TensorFlow, Keras. . . )
• Analyse d’images
Compétences souhaitées mais non-indispensables :
• Imagerie histopathologique
• Compétences en calcul intensif
Formation et compétences requises :
Le(la) candidat(e) sera en Master 2 ou en 3e année d’école d’ingénieur.
Adresse d’emploi :
Université de Reims Champagne-Ardenne,
Laboratoire CReSTIC, Campus Moulin de la Housse, site de Reims
Document attaché : 202411221451_Stage CholangIA 2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LS2N
Durée : 6 mois
Contact : francois.queyroi@univ-nantes.fr
Date limite de publication : 2025-02-14
Contexte :
Many studies have shown that learning models can lead to inequality of treatment and unfair decisions. A decision algorithm is often said to be “unfair” if it’s outcome depends (even indirectly) on some protected attribute (e.g. race, gender, etc.). In much of the literature, however, the protected attributes are mostly discrete, encoding the fact that an individual belongs (or does not) belong to one or more groups. A challenge in this context is to take into account the intersectionality of possible discriminations faced by individuals.
Sujet :
The aim of this project is to explore alternatives to the use of discrete variables to encode sensitive attributes. One possible way is to use a graph (the sensitive network ) to encode proximity/relationship between individuals. In this context, fairness could be defined as the lack of correlation between the existence of relationships and the decision/score. An intuitive example of an “unfair decision” is hiring only people who know the same people in the network.
The objectives of this internship are to
1. Develop a state-of-the-art on alternative notions of algorithmic fairness in the context
of intersectionality.
2. Reformulate well-known definitions of group fairness in the context of simple sensitive networks.
3. Find potential case studies and datasets in order to start a benchmark.
4. Implement measures of network fairness and evaluate them on the datasets.
Profil du candidat :
M2 mathematics/computer science student (or equivalent) with an inter-
est and skills in data analysis, graph mining and fairness in machine learning. A background in the humanities (sociology, philosophy, etc.) is a big plus
Formation et compétences requises :
Adresse d’emploi :
Polytech Nantes, Rue Christian Pauc, 44300 Nantes
Document attaché : 202411251412_Sujet_Stage_GraphFairness_2025.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2025-02-14
Contexte :
L’initiative Land Matrix (https://landmatrix.org) et son observatoire mondial des acquisitions de terres à grande
échelle ont pour objectifs de créer une source fiable de données permettant d’alimenter les débats et de mettre en
oeuvre des actions éclairées sur les transactions foncières à grande échelle. La Land Matrix collecte des données
sur les tentatives prévues, conclues et échouées visant à acquérir des terres au moyen d’achat, de location ou de
concession à des fins de production agricole, extraction de bois, extraction minière, finance du carbone, activités
industrielles, production d’énergie renouvelable, conservation de la nature et tourisme, dans les pays à revenus
faibles ou intermédiaires.
Bien que les données de la Land Matrix restent la référence mondiale sur les phénomènes d’acquisitions de terres
dans le monde académique, la couverture des sites d’exploitation minière dans la base n’est toujours pas
optimale, pour plusieurs raisons historiques et liées à des soucis d’accès aux données. D’autre part, le suivi des
activités minières (et des investisseurs associés) sur ces sites est au coeur des études concernant la transition
énergétique, qui est à son tour une dimension importante d’une stratégie globale de lutte contre le changement
climatique. Ces études peuvent également contribuer à sensibiliser aux injustices distributives et à la répartition
inéquitable des coûts, les pays cibles supportant la plupart des coûts sociaux et environnementaux de l’extraction
des ressources dans des régions marquées par l’insécurité foncière et alimentaire et l’instabilité en termes de
gouvernance.
Sujet :
L’objectif du stage est de construire une base de données la plus complète possible sur les sites d’exploitation
minière dans le monde, en incluant les informations sur les investisseurs derrière ces sites et les informations
géospatiales associées (coordonnées GPS et/ou polygones). Pour y parvenir, il faudra intégrer les données Land
Matrix (https://landmatrix.org/) avec celles d’une autre plateforme, ResourceContracts
(https://www.resourcecontracts.org/). ResourceContracts est un référentiel en ligne de contrats pétroliers, gaziers
et miniers. Le site comprend la version PDF et le texte intégral de chaque contrat, des étiquettes des principaux
termes financiers, sociaux, environnementaux, opérationnels et juridiques et des outils de recherche et de
comparaison des contrats. Des techniques de Traitement Automatique du Langage (TAL), possiblement avec
l’utilisation des modèles de type LLM (Large Language Models – Grand Modèle de Langage) seront nécessaires
pour compléter cette tâche d’intégration. Finalement, la base obtenue sera mise en lien avec une autre base qui
fournit l’étendue géographique des sites minières sous forme des polygones (i.e., shapefiles). Des méthodes de
télédétection pourront être mobilisés à côté des techniques de TAL pour compléter cette deuxième étape. La base
finale sera enfin utilisée pour mener deux cas d’études analytiques sur des pays spécifiques, qui sont des hotspots
de l’extraction des ressources minière nécessaires à la transition énergétique : la République démocratique du
Congo et l’Argentine.
Profil du candidat :
Compétences du candidat/e :
● Analyse des données (collecte, exploration, mise en lien)
● Programmation (préférablement Python)
● Capacités d’analyse, rédactionnelle et de synthèse
● Travail d’équipe
● Des expériences en TAL et/ou Télédétection seront considérées comme un plus.
Informations complémentaires :
Durée de 6 mois, à partir de février 2025.
Le stage se déroulera au CIRAD, dans l’UMR TETIS (Territoire, Environnement, Télédétection et Information
Spatiale), située dans les locaux de la Maison de la Télédétection à Montpellier.
Le stagiaire sera encadré par Rémi Decoupes (INRAE, UMR TETIS), Roberto Interdonato et Simon Madec
(CIRAD, UMR TETIS), Jérémy Bourgoin (CIRAD/ILC) et Marie Gradeler (ILC).
Si des résultats significatifs sont obtenus, le stage peut conduire à une publication scientifique.
Financement :
Le stage est soutenu par le projet Land Matrix. La rémunération du stagiaire sera de l’ordre de 600 euros par
mois.
Modalité de candidature :
Attention : cette proposition ne concerne que les stages d’étudiants sous convention avec une école ou une
université : il ne s’agit pas d’une offre d’emploi.
Envoyer une lettre de motivation d’une page, précisant en outre la durée et période possible du stage, un CV
détaillé, et un relevé des notes à : remy.decoupes@inrae.fr et roberto.interdonato@cirad.fr , en précisant dans
l’objet « CANDIDATURE STAGE LAND MATRIX 2025 ».
Date limite pour l’envoi du dossier : 06 Decembre, 2024
Formation et compétences requises :
Adresse d’emploi :
Maison de la Télédétection, 500 rue Jean François Breton, 34000, Montpellier
Document attaché : 202411221612_Stage2025.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ISIR, Sorbonne Université
Durée : 5-6 mois
Contact : yvon@isir.upmc.fr
Date limite de publication : 2025-02-14
Contexte :
Sujet :
Ce stage s’intéresse à l’étude de nouvelles interactions pour la révision (post-édition) de traductions automatiques, par exemple en intégrant des mesures de confiance sur la qualité de traduction.
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
ISIR
4, Place Jussieu
75005 Paris
Document attaché : 202411251257_sujet.pdf
