
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
DAE DatAstro DSChem EXMIA GeoKIF HELP Musiscale RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LITIS Lab / INSA Rouen
Durée : 6 mois
Contact : hind.laghmara@insa-rouen.fr
Date limite de publication : 2025-01-31
Contexte :
Les systèmes de perception multimodale (caméras, radars, lidars, capteurs infrarouges) sont de plus en plus utilisés dans les applications de mobilité autonome (véhicules, drones) et de surveillance, en particulier pour surmonter les situations de visibilité dégradée (brouillard, pluie, faible luminosité). Dans ces conditions, les données provenant des différents capteurs peuvent être sujettes à des incertitudes importantes qui impactent la fiabilité des décisions prises par les systèmes automatisés. Pour cela, ce stage se tient dans le cadre du projet ANR AdaV (2025-2028) qui a pour but d’étudier les possibilités d’extraction de caractéristiques environnementales pour l’amélioration de la fusion adaptative des modalités pour la détection d’objets multiples.
Mots clés :
Capteurs non-conventionnels, fusion multi-capteurs, analyse de scènes routières, physical attention learning, incertitude, traitement de signal et des images, deep learning.
Sujet :
Ce stage vise à développer une méthode permettant d’estimer et de modéliser les incertitudes associées aux données multimodales collectées en conditions de visibilité dégradée. L’objectif est de quantifier ces incertitudes et d’améliorer la robustesse de la fusion de données en vue d’applications critiques (navigation autonome, détection d’obstacles, etc.).
Dans un second temps, l’objectif est d’appliquer une approche de perception basée sur une fusion adaptative d’information provenant d’une caméra polarimétrique et d’une caméra RGB ainsi que de données provenant d’un LiDAR . Une partie du stage portera également sur la réalisation d’expérimentations en collaboration avec Lucas Deregnaucourt, doctorant au LITIS, pour la détection d’objets dynamiques dans le cadre de conduite en situation de visibilité réduite [1]. Le LITIS dispose d’une plateforme robotique, PERMIS, qui comprend différents robots ainsi qu’un dispositif permettant de simuler une dégradation de visibilité par la génération d’un brouillard artificiel. L’objectif du stagiaire sera de mener à bien l’entraînement de réseaux de neurones évidentiel et d’appliquer un modèle à l’un des robots en utilisant l’environnement ROS.
[1] L. Deregnaucourt, A. Lerchervy, H. Laghmara, and S. Ainouz, “An evidential deep network based on Dempster-Shafer theory for large dataset,” Advances and Applications of DSmT for Information Fusion, 2023.
Profil du candidat :
Niveau Master 2 ou ingénieur (ou équivalent) en informatique ou mathématiques appliquées ou science des données (ou disciplines similaires)
Le stage est susceptible d’être poursuivi par une thèse de doctorat dans le cadre du projet ANR AdaV (financement acquis).
Merci d’envoyer votre CV et relevés de notes aux encadrants :
— Hind Laghmara, LITIS – EA 4108, hind.laghmara@insa-rouen.fr
— Alexis Lechervy, GREYC – UMR CNRS 6072 alexis.lechervy@unicaen.fr
— Paul Honeine, LITIS – EA 4108 paul.honeine@univ-rouen.fr
Formation et compétences requises :
— Bonnes compétences en Machine Learning et vision par ordinateur
— Bonnes compétences en programmation par Python
— Un intérêt pour la robotique et la mobilité intelligente, ainsi que l’utilisation de l’environnement ROS.
Adresse d’emploi :
LITIS Lab, INSA Rouen Normandie
Document attaché : 202411220859_Offre_de_stage_Printemps_2025.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : UMR TETIS / UMR STL
Durée : 6 mois
Contact : mathieu.roche@cirad.fr
Date limite de publication : 2025-01-31
Contexte :
Avec la liberté d’expression et la pluralité d’opinions, la société moderne voit apparaître de nombreuses controverses, comme par exemple les questions liées à la vaccination, au végétarianisme ou au réchauffement climatique. De manière générale, on considère qu’une controverse apparaît lorsqu’il existe des points de vue, des croyances ou des avis différents, ce qui peut se transformer en désaccord plus ou moins manifeste entre les acteurs. Une situation de controverse se manifeste typiquement par l’emploi de l’argumentation et une charge émotive des énoncés. Leur étude permet de comprendre les enjeux et les positions qui peuvent exister autour d’une question donnée.
Dans le cadre du projet CNRS MITI STAY (Savoirs Techniques pour l’Auto-suffisance, sur Youtube), nous nous intéressons aux controverses en lien avec l’agriculture alternative. Les données de travail proviennent essentiellement des vidéos Youtube transcrites et les commentaires correspondants. Il est rare que les vidéos comportent des controverses. En revanche, les commentaires, qui se construisent en interaction entre les intervenants, peuvent contenir des opinions ou réactions controversées. Pour s’attaquer à un tel problème, nous pouvons nous intéresser aux structures des discussions et/ou au contenu des commentaires.
Sujet :
Ce stage s’intéressera plus spécifiquement à analyser les contenus textuels source de controverse. Pour mener de telles études, les données à exploiter sont souvent rares et leur collecte et annotation sont longues et complexes. Pour aider la constitution d’un corpus conséquent contenant des commentaires controversés en volume nécessaire pour être ensuite traité par des modèles de langue, il est souvent proposé d’augmenter ces données avec des méthodes spécifiques. Cette tâche constitue le coeur de ce stage. Plus particulièrement, il s’agit de travailler avec un premier ensemble de commentaires déjà annotés et d’augmenter de manière automatique ces données.
De manière concrète, le travail de stage se déroulera en trois phases successives :
– Dans un premier temps, le ou la stagiaire réalisera un état de l’art sur les approches à mobiliser en lien avec le travail de stage, à savoir l’identification automatique des controverses sur la base du contenu textuel et l’augmentation de données textuelles.
– Dans un deuxième temps, le travail proposé consistera à identifier les controverses en lien avec les thématiques sur lesquelles elles portent. Pour cela, le ou la stagiaire utilisera (1) les données en français annotées du projet STAY, (2) un lexique thématique produit par les chercheuses et chercheurs du projet.
– Enfin, des méthodes d’augmentation de données seront proposées, mises en place et évaluées sur la base des analyses réalisées précédemment.
Profil du candidat :
Profil des candidat.e.s : TAL, science des données avec une sensibilité au travail avec des données textuelles dans un cadre pluridisciplinaire
Candidature :
Envoyer un CV + relevés de notes des deux dernières années aux encadrant.e.s
Date limite : 04 décembre 2024
Formation et compétences requises :
Adresse d’emploi :
Encadrant.e.s :
– Mathieu Roche (mathieu.roche@cirad.fr) UMR TETIS, CIRAD, Montpellier
– Natalia Grabar (natalia.grabar@univ-lille.fr) UMR STL, CNRS, Lille
Lieu du stage : Montpellier ou Lille
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : EDF R&D
Durée : 6 mois
Contact : victor.charpenay@emse.fr
Date limite de publication : 2025-01-31
Contexte :
La R&D d’EDF (2000 chercheurs) a pour missions principales de contribuer à l’amélioration de la performance des unités opérationnelles du groupe EDF, d’identifier et de préparer les relais de croissance à moyen et long terme. Dans ce cadre, le département Services, Economie, Outils Innovants et IA (SEQUOIA) est un département pluridisciplinaire (sciences de l’ingénieur, sciences humaines et sociales) qui fournit un appui à l’élaboration et au portage des offres, des services et des outils de relation client aux directions opérationnelles du groupe EDF.
Au sein de ce département, ce stage sera rattaché au groupe « Statistiques et Outils d’Aide à la Décision » (SOAD) : cette équipe compte une vingtaine d’ingénieurs chercheurs spécialisés en IA et data science avec des compétences fortes autour du machine learning et du deep learning, du web sémantique, de l’IA symbolique et de l’IA générative (texte, voix, image, multimodalité…), en particulier du NLP (LLM, RAG, data mining,). Le stage portera sur l’interaction entre grands modèles de langage (LLM) et IA symbolique.
Sujet :
Les LLM sont multi-tâches. Ils peuvent aussi bien traduire un texte d’une langue à une autre que répondre à des questions de culture générale. Cependant, il est difficile de contraindre un LLM à n’effectuer qu’une seule tâche, comme répondre seulement par un nombre ou générer des données structurées selon un schéma prédéfini. Il est possible de valider a posteriori la réponse d’un LLM mais si elle s’avère syntaxiquement fausse, il n’existe pas d’approche standard pour corriger cette première réponse sans avoir à en générer une deuxième. L’objectif du stage sera d’explorer une approche neuro-symbolique pour guider la génération de LLM selon un langage contrôlé (comme un langage de requête ou un modèle de données), afin de garantir la conformité syntaxique et sémantique de chaque réponse.
Cette approche sera appliquée à la génération de graphes de connaissances à partir de documents textuels. Au sein du groupe SOAD, nous travaillons sur les possibilités d’intégration des graphes de connaissances pour améliorer la fiabilité et l’explicabilité des systèmes IA, un enjeu clé pour les applications critiques. Cependant la construction des graphes de connaissances reste une tâche coûteuse en termes de temps et de ressources, en particulier lorsqu’il s’agit d’extraire et de structurer ces connaissances à partir de documents textuels. Dans le groupe EDF, de nombreuses connaissances métiers proviennent de documents complexes, comme les descriptions d’infrastructures de production et leurs contraintes d’exploitation. Exploiter ces connaissances permettrait d’accélérer l’adoption de solutions de rupture tout en les fiabilisant et en valorisant l’expertise métier.
Profil du candidat :
• Excellent niveau français oral et écrit
• Curiosité scientifique et forte motivation pour l’innovation
Formation et compétences requises :
• Etudiant(e) en Master 2 ou équivalent école d’ingénieur, spécialité data science, IA ou équivalent
• Compétences solides en programmation, en particulier en Python.
• Connaissance des techniques de traitement du langage naturel (NLP) et des modèles d’IA générative (par exemple, GPT-4).
• Compétences en construction et manipulation de graphes de connaissances (RDF, Neo4j, graphDB, ontologie…) fortement souhaitées.
Adresse d’emploi :
EDF R&D Lab
Saclay (91120)
Document attaché : 202412041504_Offre_Stage_Knowledge_generation_2025.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : GREYC CNRS UMR 6072 – Université de Caen Normandie
Durée : 5 à 6 mois
Contact : bruno.cremilleux@unicaen.fr
Date limite de publication : 2025-01-31
Contexte :
Contexte scientifique
Ce stage de master s’inscrit dans le cadre du projet Pandora financé par l’ANR (Agence Nationale de la Recherche), projet qui démarrera en février 2025. Pandora se situe dans le contexte de l’intelligence artificielle explicable (XAI), en particulier dans le domaine des réseaux de neurones sur graphes (GNN). En se focalisant sur le fonctionnement interne des GNNs, les objectifs du projet sont les suivants :
— caractériser, comprendre et expliquer de manière claire le fonctionnement interne des GNN en utilisant des techniques d’extraction de motifs ;
— découvrir des motifs d’activation neuronale statistiquement significatifs, appelés « règles d’activation », pour déterminer comment les réseaux encodent les concepts [7, 8] ;
— traduire ces règles d’activation en motifs de graphes interprétables par un utilisateur ;
— utiliser ces connaissances pour améliorer les GNN en identifiant les biais d’apprentissage, en générant des données supplémentaires et en construisant des systèmes d’explication.
Ce stage de recherche porte sur le dernier point. Plus précisément, nous souhaitons développer de nouvelles méthodes permettant d’améliorer l’apprentissage des modèles sur graphes en s’appuyant sur l’analyse du fonctionnement interne de ces modèles via, par exemple, des règles d’activation exprimées dans l’espace latent. Il s’agira ainsi d’analyser
les frontières de décisions, de caractériser les erreurs du modèle étudié dans l’espace des données ou dans leurs représentations latentes afin de proposer des solutions correctives.
Sujet :
Cf. la description détaillée (document pdf).
Profil du candidat :
Cf. la description détaillée (document pdf).
Formation et compétences requises :
Cf. la description détaillée (document pdf).
Adresse d’emploi :
Laboratoire GREYC, CNRS UMR 6072, Université de Caen Normandie, 14000, Caen, France
Document attaché : 202411050931_StageIAexplicable_Pandora_FR.pdf
Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –
Laboratoire/Entreprise : LPC2E Orléans
Durée : 5 mois
Contact : cherry.ng-guiheneuf@cnrs-orleans.fr
Date limite de publication : 2025-01-31
Contexte :
Pulsars are highly magnetized, rapidly rotating neutron stars. Thanks to the extreme stability of pulsar rotation, pulsars are considered “cosmic clocks” with a wide range of astrophysical applications. Pulsar discoveries have directly resulted in two Nobel prizes (1974 and 1993). Collectively, pulsar-related referred articles have led to over 500,000 citations; the discovery of pulsars is therefore a gateway to new science. Although it has been over 50 years since the first pulsar was discovered in 1967, pulsar searching is still in its early stage and the discovery space remains largely unexplored. Neutron star population synthesis studies suggest that there are ~120,000 potentially observable pulsars in our Galaxy, although currently just over 3000 pulsars are known. Traditionally, single-dish radio telescopes can only focus on a single point in the sky, limiting the sky mapping speed and hence the number of pulsar discoveries. In addition, the very-low frequency range remains relatively unexplored.
Sujet :
The newly commissioned NenuFAR telescope in France opens a new window in the very-low frequency range between 10 and 85 MHz. This unique frequency range and the large field-of-view of NenuFAR thus make it a promising instrument to undertake an exhaustive pulsar survey in the low frequency regime. Since 2020, NenuFAR has been conducting a blind (untargeted) pulsar search above declination 39°. Over 4000 hours of data have been collected to date of which only ⅓ processed. During this internship, the trainee will help optimize the data processing pipeline (in python) with the goal of improving the throughput of the search. There is also the possibility of deploying the pipeline on the 28-petaflop Jean Zay High Performance Computing (HPC) cluster operated by IDRIS/CNRS. We will work on aspects of parallelization, portability and modularization of the code. The trainees will also have the opportunity to gain insight into radio astronomy as well as to make first-hand pulsar discoveries.
Profil du candidat :
We are looking for candidates with prior python programming experience and who want to further strengthen their computing profiles. Knowledge in astronomy is preferred but not obligated.
We are only able to employ students with permits to work in France. This includes European citizens as well as students (from any nationalities) who are currently enrolled in a French university.
Formation et compétences requises :
– python programming
– at least B1 level in English (the internship will be conducted primarily in English)
Adresse d’emploi :
This internship will be hosted by the ASTRO team at the LPC2E/CNRS in Orléans (3E AVENUE DE LA RECHERCHE SCIENTIFIQUE, CS 10065, 45071 ORLEANS CEDEX 2, FRANCE).
The main research interests of the group is on radio transients including pulsars, fast radio bursts as well as SETI. The ASTRO team boasts the largest pulsar research group in France and is closely connected to the Nançay Radio Astronomical Observatory in the forest of Sologne. The ASTRO team currently has 6 permanent staff, 1 postdoctoral researcher and 3 PhD students. We typically welcome 1 to 2 M2 interns in the summer. Accommodation can be arranged on the CNRS campus at roughly €400/month. Lunch at the CNRS cantine is subsidized.
Document attaché : 202412091422_M2-2025_Cherry.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Mines Saint-Étienne/LIMOS
Durée : 5-6 mois
Contact : antoine.zimmermann@emse.fr
Date limite de publication : 2025-01-31
Contexte :
Sujet :
Physical quantities form an important part of what is represented in scientific data, medical data, industry data, open data, and to some extent, various private data.
Whether it is distances, speeds, payloads in transportation, concentrations, masses, moles in chemistry, powers, intensities, voltages in the energy sector, dimensions of furniture, weights, heights of people, durations, and many others in health, there is a need to represent physical quantities, to store them, to process them, and to exchange them between information systems, potentially on a global scale, often on the Internet and via the Web.
In this internship, we seek to precisely define a way to unambiguously represent physical quantities for the Web of Data. More precisely, we will study the proposals made to encode physical quantities in the standard data model of the Semantic Web, RDF. We will be particularly interested in the use of a data type dedicated to this encoding, probably adapted from the proposal of Lefrançois & Zimmermann (2018) based on the UCUM standard.
Having established a rigorous definition of the data type (possibly its variants, if relevant), we will focus on implementing a module that can read/write and process physical quantities and their operations within the RDF data manipulation APIs, for the management, querying and reasoning with knowledge graphs containing physical quantities.
The ambition is that, on the one hand, the specification will become in a few years a de facto standard, before perhaps becoming a de jure standard; and that, on the other hand, the implementation will be the reference allowing to compare the compliance levels of other future implementations.
This study should lead to the publication of a scientific paper in a high impact scientific journal.
References
– Maxime Lefrançois and Antoine Zimmermann (2018). The Unified Code for Units of Measure in RDF: cdt:ucum and other UCUM Datatypes. In The Semantic Web: ESWC 2018 Satellite Events – ESWC 2018 Satellite Events, Heraklion, Crete, Greece, June 3-7, 2018, Revised Selected Papers, volume 11155 of the Lecture Notes in Computer Science, pp196–201, Springer.
– Gunther Shadow and Clement J. McDonald. The Unified Code for Units of Measure. Technical report, Regenstrief Institute, Inc, November 21 2017.
Profil du candidat :
Equivalent of a M2 level in CS, with knowledge of Semantic Web technologies. Also, the candidate must have either very good programming skills in Java, or very good aptitude in formal and abstract thinking.
Formation et compétences requises :
Adresse d’emploi :
Mines Saint-Étienne
158 cours Fauriel
42023 Saint-Étienne Cedex 2
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : équipes ORKAD et BONSAI (laboratoire CRIStAL, Lill
Durée : 6 mois
Contact : julie.jacques@univ-lille.fr
Date limite de publication : 2025-01-31
Contexte :
ORKAD et BONSAI sont deux équipes de recherche du laboratoire CRIStAL (Centre de Recherche en Informatique, Signal et Automatique de Lille, UMR CNRS 9189) de l’Université de Lille. L’équipe ORKAD (https://orkad.univ-lille.fr/) développe des méthodes pour l’optimisation combinatoire et l’extraction de connaissances avec des approches à base de méta-heurisitique. L’équipe BONSAI (https://www.cristal.univ-lille.fr/bonsai/) travaille en bioinformatique, avec le développement d’algorithmes et de logiciels pour l’analyse de données biologiques (génomes, gènes, protéines). Le sujet de ce stage s’inscrit également dans le cadre d’une collaboration pluridisciplinaire avec la plateforme de protéomique de l’Université de Lille.
La paléoprotéomique est l’étude des échantillons archéologiques ou paléontologiques, tels que des ossements, par des approches expérimentales de spectrométrie de masse. Les spectres de masses permettent ensuite l’identification des espèces d’origine des échantillons grâce à des peptides marqueurs [Warinner2022]. Ces peptides sont des courtes séquences protéiques susceptibles d’être obtenues par digestion et ionisées, et représentatives d’une espèce donnée. On peut donc les voir comme des peptides diagnostics ou des code-barres [Buckley2009]. Dans ce stage, nous souhaitons étudier le caractère explicatif des peptides marqueurs, en lien avec la taxonomie des espèces. Le stage mêlera les expertises de l’équipe Bonsai en algorithmique des séquences et bioinformatique et celles de l’équipe Orkad en optimisation combinatoire pour le machine learning.
Sujet :
Les peptides marqueurs permettent collectivement de caractériser une espèce ou un groupe d’espèces proches. Pour un clade donné, l’ensemble des peptides est souvent utilisé comme une boîte noire, sans prise en compte de la conservation de certains marqueurs entre espèces ou au contraire de leur caractère discriminant. Nous voulons regarder les questions suivantes: peut-on inférer un arbre de décision “simple” sur les peptides marqueurs expliquant l’assignation taxonomique ? Cet arbre de décision est-il consistant avec une taxonomie admise ? Peut-on inférer d’autres types de règles: modalités fréquentes ou corrélées avec un clade, par exemple ? Quelles sont les espèces pour lesquelles la prédiction est robuste, et a contrario, les espèces pour lesquelles la prédiction est sensible au bruit expérimental ? Cette analyse se fera à deux niveaux d’information: celui des séquences peptidiques, et celui des masses des peptides. La connaissance du premier niveau entraîne la connaissance du second niveau, mais la réciproque n’est pas vraie.
De nombreuses approches à base de métaheuristiques pour générer des arbres de décision ont été proposées [RiveraLopez2021,DhaenensJourdan2022]. Des approches prenant en compte les hiérarchies dans les données ont également été suggérées [Otero2010]. Dans ce stage, il s’agira de déterminer l’approche la plus appropriée aux données et d’adapter la modélisation (représentation d’une solution, voisinage, évaluation) pour trouver la plus appropriée aux particularités des données. Nous privilégierons une modélisation de type boîte blanche afin d’avoir une bonne exploitation des modèles générés. En particulier une réflexion sera menée sur le critère d’évaluation à utiliser pour l’optimisation: Qu’est-ce qui détermine qu’un arbre de décision répond au problème ? Cela demandera d’adapter aux données la notion d’accuracy utilisée habituellement pour les arbres de décision. Il faudra également intégrer la notion de robustesse au bruit pour permettre la prise en compte de peptides marqueurs manquants ou artéfactuels.
Ce travail mènera au développement d’un logiciel qui sera intégré à la suite PAMPA (Protein Analysis by Mass Spectrometry for Ancient Species) développée par l’équipe BONSAI : https://github.com/touzet/pampa/. En termes de données, l’équipe BONSAI a rassemblé une compilation d’environ 200 espèces mammifères, pour lesquelles un ensemble de 14 peptides marqueurs est annoté. Cela comprend des peptides consensuels au niveau de la communauté des paléoprotéomiciens, déterminés de manière expérimentale par spectrométrie de masse (https://docs.google.com/spreadsheets/d/1ipm9fFFyha8IEzRO2F5zVXIk0ldwYiWgX5pGqETzBco) ou générés par homologie.
Ce stage pourra donner lieu à une poursuite en thèse.
Profil du candidat :
Etudiant en stage de M2 informatique
Ce stage pourra donner lieu à une poursuite en thèse.
Formation et compétences requises :
Programmation Python et connaissances en machine learning (classification supervisée).
Des connaissances en recherche opérationnelle, optimisation combinatoire, technologies web ou bioinformatique seraient un plus.
Adresse d’emploi :
Laboratoire CRISTAL, Campus Scientfique, Villeneuve d’Ascq (https://www.cristal.univ-lille.fr/)
Document attaché : 202411201012_Sujet_stage_M2_ORKAD_BONSAI.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire d’Informatique, Robotique et Microélec
Durée : 6 mois
Contact : alexandre.bazin@lirmm.fr
Date limite de publication : 2025-02-01
Contexte :
Sujet :
Pour réussir la transition agroécologique, les producteurs ont besoin de disposer de connaissances sur des alternatives aux techniques agricoles classiques. Cependant, en préalable à l’utilisation d’une base de connaissances (BC) par des producteurs et des experts scientifiques, celle-ci doit être corrigée de ses anomalies. Le contexte de ce stage est la BC Knomana [Silvie et al., 2021], qui rassemble 48000 descriptions d’utilisation de plantes à effet pesticide et antibiotique, et vise à proposer des préparations à base de plantes en remplacement des produits chimiques de synthèse. Des dictionnaires permettent déjà de corriger les valeurs pour ses 31 types de données. Par contre, la vérification de la correction et de la cohérence des données est trop complexe pour être réalisée manuellement. Par exemple, une incohérence entre la plante pesticide, le système protégé (e.g. culture de maïs), le bioagresseur (e.g. insecte) et la localisation géographique suffit pour induire en erreur un producteur. La technique appelée Exploration d’Attributs (EA), développée par l’Analyse de Concepts Formels, permet de détecter et de corriger ces anomalies [Saab et al., 2022] en exprimant chaque connaissance sous forme d’une règle d’implication. Les règles sont présentées aux experts qui les valident ou les invalident afin de mettre la BC dans un état cohérent.
L’objectif du stage est de développer un prototype logiciel de détection et de correction des anomalies pour des données multidimensionnelles et multirelationnelles. Ce prototype permettra de manipuler les données et les types de données, puis d’interagir avec
la libraire FCA4J, pour le calcul des règles, et le logiciel RCAvizIR, développé avec le soutien de #Digitag (stages de Master en 2022 et 2023) pour les présenter dans un ordre facilitant le travail de correction par les experts.
* Pierre Accorsi, Mickaël Fabrègue, Arnaud Sallaberry, Flavie Cernesson, Nathalie Lalande, Agnès Braud, Sandra Bringay, Florence Le Ber, Pascal Poncelet, Maguelonne Teisseire. HydroQual: Visual Analysis of River Water Quality. Proceedings of the IEEE Symposium on Visual Analytics Science and Technology (VAST), pp. 123-132, 2014.
* Daniel A. Keim, Gennady L. Andrienko, Jean-Daniel Fekete, Carsten Görg, Jörn Kohlhammer, Guy Melançon. Visual Analytics : Definition, Process, and Challenges. Information Visualization – Human-Centered Issues and Perspectives. LNCS 4950, Springer 2008, p. 154-175. * Tamara Munzner. Visualization Analysis & Design. CRC Press, A K Perters Books, 2014. * Roberto Tamassia, Handbook on Graph Drawing and Visualization. Chapman et Hall / CRC, 2013.
* Michael Sedlmair, Miriah D. Meyer et Tamara Munzner. Design Study Methodology: Reflections from the Trenches and the Stacks. IEEE TVCG 18(12): 2431-2440, 2012.
Profil du candidat :
Compétences recherchées :
Intelligence artificielle, Fouille de données, Javascript
Formation et compétences requises :
Discipline principale du projet :
Informatique, Extraction de connaissances, Visualisation
Discipline secondaire du projet :
Sciences de la Vie et de l’Environnement
Adresse d’emploi :
Université de Montpellier
Document attaché : 202411011120_Sujet de stage Digitag 2024-1.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : TETIS
Durée : 5 mois
Contact : maguelonne.teisseire@inrae.fr
Date limite de publication : 2025-02-01
Contexte :
Ce stage s’inscrit dans les activités interdisciplinaires de l’UMR TETIS du projet STAY – Savoirs Techniques pour l’Autosuffisance, sur YouTube (financement CNRS) – en partenariat avec le LISIS (Laboratoire Interdisciplinaire Sciences Innovations Sociétés). Des pratiques agricoles sont aujourd’hui partagées et commentées sur YouTube, plateforme d’hébergement de vidéos dont la popularité n’est
plus à démontrer.En effet, en février 2023, les données Médiamétrie indiquaient 48 millions d’utilisateurs uniques en France. Disponible à tout le monde, la plateforme permet à quiconque – professionnels de l’agriculture ou pas – de devenir créateur de contenu, les caractéristiques et la qualité des informations ainsi partagées faisant l’objet d’une littérature déjà abondante. Cette littérature montre entre autres que YouTube constitue pour ses utilisateurs une source d’informations qui contribue aux appréciations qu’ils se font d’une situation, et qui peut influencer leur jugement et leur action parfois de manière significative.
Qu’il s’agisse d’utilisateurs ou de producteurs de contenu, ils peuvent être à la fois des professionnels (exploitants agricoles, Chambres d’Agriculture…) et des amateurs (des jardiniers engagés dans l’autoproduction alimentaire à l’échelle d’un potager ou petit verger, militants…). Nous nous intéressons tout particulièrement au sujet des ravageurs en production légumière et arboricole.
Sujet :
L’objectif du stage est double :
(1) dresser un inventaire le plus exhaustif possible des chaînes YouTube pouvant être consultées afin d’obtenir des informations concernant les techniques de production légumière et arboricole – avec une attention particulière aux chaînes faisant référence aux techniques de lutte contre les ravageurs – en distinguant les chaînes produites par des professionnels de l’agriculture et les chaînes alimentés par des amateurs. Il s’agira dans un premier temps d’identifier les mots-clés pertinents et d’une liste de thèmes susceptibles de faire l’objet de recherches sur YouTube
(2) réaliser de façon automatique une catégorisation des contenus, en s’appuyant sur les statistiques et métadonnées, en termes:
– d’année d’apparition
– de nombre d’abonnés, de nombre de commentaires, de nombre de vues et de nombre de likes, avec une analyse de l’évolution temporelle de ces indicateurs d’identification des repères temporels marquants pour l’apparition et l’évolution en termes de succès de ces chaînes (épidémie de Covid, des évènements climatiques significatifs, etc.)
– de production de contenu, en termes quantitatifs
– de catégories des producteurs de contenu (classification à construire) de types de contenu proposés et de thèmes abordées – relatifs aux techniques agricoles et plus particulièrement aux techniques de lutte contre les ravageurs
– de type de stratégie économique employée par les créateurs de contenu – en termes de nombre de publicités et d’autres sources de revenu (contrats, cagnotte Tipeee..).
Le/la stagiaire pourra s’appuyer sur une production académique récente (Bruhl 2023) concernant un sujet similaire, à savoir la thèse de Guillaume Bruhl intitulée « État des lieux de la vulgarisation scientifique vétérinaire francophone sur Youtube ». Les implémentations s’intégreront dans la plateforme en cours de développement du projet.
Profil du candidat :
Le/la stagiaire aura un profil en informatique avec des connaissances en traitement automatique de la langue et/ou apprentissage automatique, avec un intérêt pour le travail interdisciplinaire. Une expérience dans le langage de programmation Python est un plus.
Formation et compétences requises :
Adresse d’emploi :
500 rue JF Breton 34090 Montpellier
Document attaché : 202410290856_Distribution_Stage1_Stay2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CReSTIC
Durée : 4 à 6 mois
Contact : eric.desjardin@univ-reims.fr
Date limite de publication : 2025-02-14
Contexte :
Le cholangiocarcinome intra-hépatique (iCCA) est une tumeur maligne primitive hépatique dont le diagnostic anatomopathologique peut être difficile. L’objectif du projet CholangIA est d’améliorer le diagnostic des lésions ductulaires intra-hépatiques réalisé à partir d’images histopathologiques par les approches de l’Intelligence Artificielle. Une étude bi-centrique a permis de tester les performances de classification binaire et multi-classe des modèles VGG16, MobileNetV2 et ResNet50 [1]. Un premier pipeline de détection a été développé [Figure 1]. Nous souhaitons explorer les mécanismes d’attention et Multiple instance learning [2] afin de pouvoir rendre plus robuste les classifications obtenues.
Ce projet est mené dans le cadre d’une collaboration entre l’équipe AI4M (Artificial Intelligence for Medicine) du laboratoire CReSTIC, l’unité de recherche MEDyC et l’IIAS (Institut de l’IA en Santé) en partenariat avec l’Institut Mondor de Recherche Biomédicale.
Sujet :
Le candidat participera à l’enrichissement des travaux actuels en :
– développant des méthodes explicatives et d’attention de apprentissage profond
– implémentant une approche « Multiple instance learning »
– réalisant les Évaluations & Intégration dans le pipeline d’analyse
Profil du candidat :
Compétences impératives :
• Intelligence artificielle, machine learning, deep learning
• Programmation Python
• Librairies usuelles de deep learning (TensorFlow, Keras. . . )
• Analyse d’images
Compétences souhaitées mais non-indispensables :
• Imagerie histopathologique
• Compétences en calcul intensif
Formation et compétences requises :
Le(la) candidat(e) sera en Master 2 ou en 3e année d’école d’ingénieur.
Adresse d’emploi :
Université de Reims Champagne-Ardenne,
Laboratoire CReSTIC, Campus Moulin de la Housse, site de Reims
Document attaché : 202411221451_Stage CholangIA 2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LS2N
Durée : 6 mois
Contact : francois.queyroi@univ-nantes.fr
Date limite de publication : 2025-02-14
Contexte :
Many studies have shown that learning models can lead to inequality of treatment and unfair decisions. A decision algorithm is often said to be “unfair” if it’s outcome depends (even indirectly) on some protected attribute (e.g. race, gender, etc.). In much of the literature, however, the protected attributes are mostly discrete, encoding the fact that an individual belongs (or does not) belong to one or more groups. A challenge in this context is to take into account the intersectionality of possible discriminations faced by individuals.
Sujet :
The aim of this project is to explore alternatives to the use of discrete variables to encode sensitive attributes. One possible way is to use a graph (the sensitive network ) to encode proximity/relationship between individuals. In this context, fairness could be defined as the lack of correlation between the existence of relationships and the decision/score. An intuitive example of an “unfair decision” is hiring only people who know the same people in the network.
The objectives of this internship are to
1. Develop a state-of-the-art on alternative notions of algorithmic fairness in the context
of intersectionality.
2. Reformulate well-known definitions of group fairness in the context of simple sensitive networks.
3. Find potential case studies and datasets in order to start a benchmark.
4. Implement measures of network fairness and evaluate them on the datasets.
Profil du candidat :
M2 mathematics/computer science student (or equivalent) with an inter-
est and skills in data analysis, graph mining and fairness in machine learning. A background in the humanities (sociology, philosophy, etc.) is a big plus
Formation et compétences requises :
Adresse d’emploi :
Polytech Nantes, Rue Christian Pauc, 44300 Nantes
Document attaché : 202411251412_Sujet_Stage_GraphFairness_2025.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2025-02-14
Contexte :
L’initiative Land Matrix (https://landmatrix.org) et son observatoire mondial des acquisitions de terres à grande
échelle ont pour objectifs de créer une source fiable de données permettant d’alimenter les débats et de mettre en
oeuvre des actions éclairées sur les transactions foncières à grande échelle. La Land Matrix collecte des données
sur les tentatives prévues, conclues et échouées visant à acquérir des terres au moyen d’achat, de location ou de
concession à des fins de production agricole, extraction de bois, extraction minière, finance du carbone, activités
industrielles, production d’énergie renouvelable, conservation de la nature et tourisme, dans les pays à revenus
faibles ou intermédiaires.
Bien que les données de la Land Matrix restent la référence mondiale sur les phénomènes d’acquisitions de terres
dans le monde académique, la couverture des sites d’exploitation minière dans la base n’est toujours pas
optimale, pour plusieurs raisons historiques et liées à des soucis d’accès aux données. D’autre part, le suivi des
activités minières (et des investisseurs associés) sur ces sites est au coeur des études concernant la transition
énergétique, qui est à son tour une dimension importante d’une stratégie globale de lutte contre le changement
climatique. Ces études peuvent également contribuer à sensibiliser aux injustices distributives et à la répartition
inéquitable des coûts, les pays cibles supportant la plupart des coûts sociaux et environnementaux de l’extraction
des ressources dans des régions marquées par l’insécurité foncière et alimentaire et l’instabilité en termes de
gouvernance.
Sujet :
L’objectif du stage est de construire une base de données la plus complète possible sur les sites d’exploitation
minière dans le monde, en incluant les informations sur les investisseurs derrière ces sites et les informations
géospatiales associées (coordonnées GPS et/ou polygones). Pour y parvenir, il faudra intégrer les données Land
Matrix (https://landmatrix.org/) avec celles d’une autre plateforme, ResourceContracts
(https://www.resourcecontracts.org/). ResourceContracts est un référentiel en ligne de contrats pétroliers, gaziers
et miniers. Le site comprend la version PDF et le texte intégral de chaque contrat, des étiquettes des principaux
termes financiers, sociaux, environnementaux, opérationnels et juridiques et des outils de recherche et de
comparaison des contrats. Des techniques de Traitement Automatique du Langage (TAL), possiblement avec
l’utilisation des modèles de type LLM (Large Language Models – Grand Modèle de Langage) seront nécessaires
pour compléter cette tâche d’intégration. Finalement, la base obtenue sera mise en lien avec une autre base qui
fournit l’étendue géographique des sites minières sous forme des polygones (i.e., shapefiles). Des méthodes de
télédétection pourront être mobilisés à côté des techniques de TAL pour compléter cette deuxième étape. La base
finale sera enfin utilisée pour mener deux cas d’études analytiques sur des pays spécifiques, qui sont des hotspots
de l’extraction des ressources minière nécessaires à la transition énergétique : la République démocratique du
Congo et l’Argentine.
Profil du candidat :
Compétences du candidat/e :
● Analyse des données (collecte, exploration, mise en lien)
● Programmation (préférablement Python)
● Capacités d’analyse, rédactionnelle et de synthèse
● Travail d’équipe
● Des expériences en TAL et/ou Télédétection seront considérées comme un plus.
Informations complémentaires :
Durée de 6 mois, à partir de février 2025.
Le stage se déroulera au CIRAD, dans l’UMR TETIS (Territoire, Environnement, Télédétection et Information
Spatiale), située dans les locaux de la Maison de la Télédétection à Montpellier.
Le stagiaire sera encadré par Rémi Decoupes (INRAE, UMR TETIS), Roberto Interdonato et Simon Madec
(CIRAD, UMR TETIS), Jérémy Bourgoin (CIRAD/ILC) et Marie Gradeler (ILC).
Si des résultats significatifs sont obtenus, le stage peut conduire à une publication scientifique.
Financement :
Le stage est soutenu par le projet Land Matrix. La rémunération du stagiaire sera de l’ordre de 600 euros par
mois.
Modalité de candidature :
Attention : cette proposition ne concerne que les stages d’étudiants sous convention avec une école ou une
université : il ne s’agit pas d’une offre d’emploi.
Envoyer une lettre de motivation d’une page, précisant en outre la durée et période possible du stage, un CV
détaillé, et un relevé des notes à : remy.decoupes@inrae.fr et roberto.interdonato@cirad.fr , en précisant dans
l’objet « CANDIDATURE STAGE LAND MATRIX 2025 ».
Date limite pour l’envoi du dossier : 06 Decembre, 2024
Formation et compétences requises :
Adresse d’emploi :
Maison de la Télédétection, 500 rue Jean François Breton, 34000, Montpellier
Document attaché : 202411221612_Stage2025.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ISIR, Sorbonne Université
Durée : 5-6 mois
Contact : yvon@isir.upmc.fr
Date limite de publication : 2025-02-14
Contexte :
Sujet :
Ce stage s’intéresse à l’étude de nouvelles interactions pour la révision (post-édition) de traductions automatiques, par exemple en intégrant des mesures de confiance sur la qualité de traduction.
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
ISIR
4, Place Jussieu
75005 Paris
Document attaché : 202411251257_sujet.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire d’Informatique et des Systèmes (LIS)
Durée : 5 mois
Contact : paul.chauchat@lis-lab.fr
Date limite de publication : 2025-02-14
Contexte :
Ce stage s’inscrit dans un projet de recherche visant à analyser les données issues de tests d’effort cardio-pulmonaire (CPET). Les CPET sont utilisés pour évaluer les réponses physiologiques d’un patient lors d’un exercice maximal, afin de déterminer le degré de limitation à l’effort et d’en identifier les mécanismes sous-jacents.
L’objectif global de ce projet de recherche est de concevoir des outils d’analyse et d’aide à la décision qui enrichiront l’interprétation des données CPET, et fourniront des outils prédictifs utiles pour le phénotypage des patients et la prédiction des trajectoires de soin. Cette approche vise à combler le fossé entre recherche et pratique médicale. En effet, bien que de récents travaux ont montré que l’exploitation des données collectées permette, grâce à techniques d’Intelligence artificielle d’obtenir des informations sur les patients telles que le diagnostic des limitations à l’effort (Portella, et al., 2022), la prédiction du devenir médical du patient (Hearn, et al., 2018), ou bien la détection automatique des seuils ventilatoires (Zignoli, et al., 2019), la pratique médicale se base encore sur une analyse séquentielle univariée. Il est donc nécessaire de comparer ces différentes approches en termes de pouvoir prédictif.
Ce projet est une collaboration entre les laboratoires LIS et C2VN, ainsi que l’AP-HM.
Encadrement et Collaboration
Le stage se déroulera au LIS (campus Saint Jérôme) sous la supervision de Paul Chauchat (Maître de conférences, LIS), et de Stéphane Delliaux (Maître de conférences HDR et Praticien hospitalier, C2VN), en collaboration étroite avec Luca Thiébaud, doctorant au LIS.
Sujet :
L’objectif de ce stage est de contribuer à l’exploitation des données issues des tests d’effort cardio-pulmonaire (CPET) à travers une approche de Network Physiology. Cette approche par les données examine les interactions entre différents réseaux physiologiques, tels que les systèmes cardiovasculaire, respiratoire et métabolique, pour mieux comprendre leur dynamique complexe (Bashan, Bartsch, Kantelhardt, Havlin, & Ivanov, 2012). La physiologie des réseaux a été jusqu’ici utilisée à des échelles petites (un organe), et sur des cohortes faibles mais dans un cadre contrôlé. Il s’agira donc d’étudier, dans ce stage, l’applicabilité de la méthode à une plus grande échelle, grâce à des données plus nombreuses, mais recueillies dans un cadre médical. Des données issues des tests d’effort de l’AP-HM, et éventuellement de bases open source, seront utilisées. Ces travaux visent à obtenir un meilleur diagnostic de l’état de santé des patients.
Au regard de l’avancée de ce projet et des intérêts spécifiques du/de la candidat(e), ces pistes pourront être amenées à évoluer.
Profil du candidat :
Étudiant(e) en dernière année d’École d’Ingénieur ou en Master 2, spécialités IA, mathématiques appliquées, bio-statistiques ou informatique. Vous avez un solide bagage théorique accompagné d’une bonne expérience de programmation (Python). Vous êtes motivé(e) par les applications médicales et l’analyse de données temporelles multivariées. Une expérience en Machine Learning, traitement de données médicales ou analyse statistique est un atout.
Formation et compétences requises :
Adresse d’emploi :
Campus de Saint-Jérôme, Aix-Marseille Université, 52 av de l’escadrille Normandie Niemen, 13013, Marseille, France
Document attaché : 202411261503_offre_stage.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIFAT et IRBI
Durée : 6 mois
Contact : chanson@univ-tours.fr
Date limite de publication : 2025-02-21
Contexte :
La méta-analyse est une tâche d’analyse de la littérature scientifique visant à collecter l’ensemble des études portant sur un même phénomène (p. ex. effet d’un herbicide sur le système nerveux d’un insecte), puis d’en extraire les éléments qualitatif et quantitatifs permettant la réalisation d’une étude statistique s’appuyant sur l’ensemble des résultats collectés.
Cette tâche tout comme l’analyse systématique de la littérature repose sur la lecture et l’extraction d’information d’un grand nombre de textes scientifiques. Rendant ces tâches longues et complexes.
L’émergence des modèles de langage massif (LLM) a participé à démocratiser l’usage de l’intelligence artificielle. Elle a permis à tout un chacun d’interagir et d’exploiter l’information textuelle via une interface en langue naturelle ne nécessitant aucune connaissance préalable. Néanmoins ces outils comportent des risques : quand ils sont confrontés à une question portant sur une connaissance précise, les LLMs tendent à ‘halluciner’ présentant comme réponse des informations complètement fausses [4]. Cette phénomène tend à disparaître avec les modèles désormais entraînés à répondre qu’ils ne disposent simplement pas d’une information plutôt que de l’inventer [5]. Une des techniques visant à pallier ce manque de ‘connaissance’ est d’extraire l’information d’un document source et de la fournir au LLM en plus de la requête originelle. Dans sa version la plus simple l’utilisateur lui-même peut identifier un texte source et le fournir au modèle de langue (e.g. [2]). Un process plus formel et complexe vise à construire un pipeline ou l’information pertinente de réponse à une question est automatiquement localisée et fournie au LLM. Ces méthodes dites de RAG (Retrival Augmented Generation) permettent une plus grande flexibilité et puisque le système détermine de façon autonome les parties de documents nécessaire pour compléter la requête de l’utilisateur il permet de puiser dans des milliers de documents sans intervention préalable de l’utilisateur.
Sujet :
Ce stage de recherche se propose d’explorer le potentiel des LLMs, notamment en combinaison avec des techniques de RAG, pour automatiser et améliorer certaines tâches liées à la méta-analyse. Nous nous baserons sur une méta-analyse coordonnée par Stéphane Boyer et portant sur le thème des échantillonnages ADN dits ‘non-invasifs’ pour l’étude des animaux [6]. Plus précisément, nous allons nous concentrer sur :
L’extraction des données : une fois les études pertinentes identifiées, les LLMs peuvent être utilisés pour extraire les données nécessaires à la méta-analyse, en particulier 1) la méthodologie employée et la nature des échantillons ADN collectés, 2) le caractère invasif ou non des prélèvements réalisés, et 3) le cas échéant le type ‘d’erreur’ réalisé par les auteurs dans leur utilisation du terme ‘non-invasive DNA sampling’ [6].
La synthèse des résultats : les LLMs peuvent être utilisés pour générer des résumés synthétiques des résultats de la méta-analyse, en langage naturel, et pour identifier les tendances et les conclusions principales d’une étude. L’analyse des 380 articles scientifiques étudiés en 2022 (articles publiés entre 2013 et 2018) permettra de comparer les résultats obtenus par l’approche manuelle à ceux produits par les LLMs, et d’affiner le protocole afin d’obtenir les résultats les plus précis possible.
La mise à jour de la méta-analyse sera ensuite réalisée en appliquant notre meilleur protocole LLM sur un nouveau lot d’articles, publiés entre 2019 et 2024. Cette mise à jour pourra être soumise pour publication dans un journal à comité de lecture.
[1] Zhu, Y., Yuan, H., Wang, S., Liu, J., Liu, W., Deng, C., Dou, Z., & Wen, J. (2023). Large Language Models for Information Retrieval: A Survey. ArXiv, abs/2308.07107.
[2] https://chatgpt.com/share/671fb24d-dec8-8012-9857-760539b1390f
[3] Yun, H., Pogrebitskiy, D., Marshall, I.J., & Wallace, B.C. (2024). Automatically Extracting Numerical Results from Randomized Controlled Trials with Large Language Models. ArXiv, abs/2405.01686. https://arxiv.org/pdf/2405.01686
[4] Huang, L., Yu, W., Ma, W., Zhong, W., Feng, Z., Wang, H., Chen, Q., Peng, W., Feng, X., Qin, B., & Liu, T. (2023). A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. ArXiv, abs/2311.05232.
[5] Tonmoy, S.M., Zaman, S.M., Jain, V., Rani, A., Rawte, V., Chadha, A., & Das, A. (2024). A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models. ArXiv, abs/2401.01313.
[6] Lefort, M. C., Cruickshank, R. H., Descovich, K., Adams, N. J., Barun, A., Emami-Khoyi, A., … & Boyer, S. (2022). Blood, sweat and tears: a review of non-invasive DNA sampling. Peer Community Journal, 2, e16. https://peercommunityjournal.org/articles/10.24072/pcjournal.98/
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
Tours: Campus de Grandmont
Document attaché : 202501160822_stage meta-analyse irbi_lifat (2).pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire GREYC Université de Caen
Durée : 6 mois
Contact : abdelkader.ouali@unicaen.fr
Date limite de publication : 2025-02-25
Contexte :
Ce stage de master s’inscrit dans le cadre du projet FIDD (Facilitated Exploration :Interactive Constraint-Driven Data Mining) financé par l’ANR (Agence Nationale de laRecherche), projet qui démarrera en février 2025. L’objectif principal du projet FIDD est d’améliorer l’expérience de l’utilisateur dans la boucle interactive de fouille de données en exploitant les contraintes pour capturer ses intérêts et guider efficacementle processus de fouille de données. Ce projet regroupe 6 organismes de recherche nationaux : LISN [UMR 5506 – Université de Paris-Saclay], LIRMM [UMR 5506 – Université ofMontpellier], LS2N [IMT Atlantique Nantes], GREYC [UMR 6072 – Université de Caen],LIFO [EA 4022 – Université d’Orléans], CRIL [UMR 8188 – Université of Artois]. En collaboration avec l’entreprise PME Deeplink-Medical, une application phare est considéréeafin d’améliorer la prise en charge des patients par des médecins radiologues selon leursinteractions.
Sujet :
La fouille de motifs [1] consiste à extraire, à partir d’un ensemble de données, des régu-larités ou des modèles récurrents qui peuvent être utilisés pour générer des connaissancessignificatives. Cependant, afin de réduire la durée de la procédure et donner davantage de contrôle à l’utilisateur, la fin des années 2000/le début des années 2010 voyait le déve-loppement des méthodes defouille interactive[7] : à chaque itération, un petit ensemblede motifs est proposé à l’utilisateur, l’utilisateur examine ces résultats partiels, donne desretours que l’algorithme prend en compte pendant la ou les prochaines itérations. En rai-son du très grand nombre de motifs extraits, une telle approche a pourtant besoin destechniques d’échantillonnage en sortie de motifs comme celles été proposées en [4, 5, 6, 3]pour sélectionner un sous-ensemble représentatif de l’ensemble de motifs. Ces techniquespermettent de réduire la complexité en temps de calcul et de faciliter l’analyse tout en pré-servant l’essence des informations contenues dans les motifs de la base de données. Dansces techniques, le tirage de motifs est souvent réalisé proportionnellement à une mesure re-flétant un certain intérêt de l’utilisateur. Ainsi, le processus d’échantillonnage peut intégrerdes contraintes visant à influencer le tirage lui-même ou à cibler spécifiquement des motifsqui satisfont certaines propriétés définies. Plus précisément, ce problème d’échantillonnagese formule de la manière suivante [4, 2] : étant donné une base de données S, un langage demotifsL, un ensemble de contraintes C, et une mesure de qualité φ:L→R, tirer aléatoi-rement des motifs qui satisfont les contraintes de C avec une probabilité proportionnelle à leur qualité.
Profil du candidat :
Niveau master 2 (ou équivalent) en informatique (ou mathématiques appliquées) ayantun intérêt pour l’intelligence artificielle, la programmation par contraintes, et la fouille de données.
Formation et compétences requises :
Des compétences en programmation JAVA, Python et C++ ainsi qu’une bonne compréhension des algorithmes de fouille de données et de résolution de contraintes et SAT seront appréciées. La langue utilisée est le français ou l’anglais.
Adresse d’emploi :
Laboratoire GREYC, CNRS UMR 6072, Université de Caen, 14000, Caen. Avec des interactions régulières avec l’équipe Contraintes et Apprentissage au laboratoireLIFO, EA 4022 – Université d’Orléans.
Document attaché : 202410241252_FIDD___Sujet_de_Stage_M2-1.pdf
Offre en lien avec l’Action/le Réseau : SIMDAC/– — –
Laboratoire/Entreprise : LIFO
Durée : 5 mois
Contact : Patrick.Marcel@univ-orleans.fr
Date limite de publication : 2025-02-26
Contexte :
De nombreux domaines nécessitent l’analyse de gros volumes de séquences de diverses complexités (en termes de périodicité, complétude, multivariée ou non, etc.) et en particulier de leur similarité. On peut citer les domaines aussi variés que le médical (e.g. stratification de patients, alignements de gènes), le social (analyse de trajectoires sémantiques), la science des données (génération et recommandation de pipelines d’exploration), etc.
Par exemple, le groupement de patients suivis sur de longues périodes peut être vu comme un problème de recherche et calcul de similarité sur des séquences complexes : les séquences sont apériodiques (la fréquence des rendez-vous médicaux n’étant pas fixe), multivariées (plusieurs informations sont enregistrées à chaque rendez-vous), incomplètes (les informations enregistrées peuvent varier d’un patient à l’autre) .
Sujet :
Il est souvent nécessaire d’optimiser du calcul de similarités sur ces gros volumes de données de type séquences.
L’objectif de stage est d’étudier comment différentes approches proposées pour le calcul de similarité de séries temporelles peuvent s’appliquer au calcul de similarité de séquences complexes.
Notamment, on étudiera des techniques de réduction de dimensionalité et indexation.
Profil du candidat :
Le profil recherché est un stagiaire de Master ou école d’ingénieur en informatique, ou un niveau équivalent, possédant un bon niveau en programmation, base de données, parallélisme et mathématique.
Le stage pourra déboucher sur une thèse de doctorat financée.
Formation et compétences requises :
Adresse d’emploi :
LIFO, Université d’Orléans
Document attaché : 202502261523_Sujet_de_stage___adaptation_d_approches_de_s_ries_temporelles_au_calcul_de_similarit_s__de_s_quences_complexes.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : Pôle uiversitaire Léonard de Vinci, DVRC, La défen
Durée : 6 mois
Contact : n.mellouli@iut.univ-paris8.fr
Date limite de publication : 2025-02-28
Contexte :
Les données textuelles envahissent nos quotidiens personnels et professionnels. La recherche de documents pertinents répondant à des besoins métier devient une tâche très fastidieuse et nécessite un investissement en termes d’effort humain à annoter ces documents pour pouvoir les exploiter correctement. L’annotation sémantique de documents multimodaux est un sujet de recherche brûlant que nous proposons d’attaquer selon l’angle des résumés extractifs. Nous supposons qu’une annotation ou une étiquette n’est pas suffisante pour indexer sémantiquement un document. En revanche, un résumé peut représenter collectivement les informations les plus importantes ou les plus pertinentes du contenu d’origine. Par conséquent, toute opération qui émane de l’exploration des documents d’origines telles que la classification, la recherche, la segmentation, ou encore la catégorisation des documents peut être effectuée sur la base du résumé dès lors que ce dernier soit fidèle à l’information d’origine. Ce niveau de fidélité peut être évalué par le biais de différentes métriques qui seront sélectionnées d’une manière automatique en fonction de la tâche.
Sujet :
L’évaluation des systèmes de traitement automatique de la langue a toujours été un défi majeur pour les chercheurs. En effet ces tâches reposant sur des compétences abstraites de haut niveau, avant d’être difficile à réaliser elles sont tout simplement difficile à évaluer.
Par exemple, afin d’évaluer un simple système de résumé automatique de texte, il est nécessaire de demander à des experts de créer des résumés à la main. Cependant, contrairement à une tâche d’annotation d’images certes fastidieuse mais simple, dans le cas du résumé, l’expert doit comprendre finement les documents sources afin d’en générer une synthèse fidèle. Une fois ces résumés de référence obtenus, il est nécessaire de développer une méthodologie afin de pouvoir évaluer la qualité des résumés générés automatiquement.
La métrique la plus utilisée ROUGE2(Lin, 2004) va simplement compter le nombre de bi-grammes commun entre le résumé de référence et le résumé automatique. Plus un résumé aura de bigrammes communs avec le résumé de référence plus le système sera considéré comme performant. Avec l’essor de l’apprentissage profond, ces métriques ont été améliorées par exemple avec le BERTScore(Zhang & Al, 2020) qui permet de comparer les phrases au niveau vectoriel et ainsi identifier des phrases sémantiquement proches même si elles diffèrent complètement syntaxiquement (par l’usage de synonyme par exemple). Certaines méthodes vont encore plus loin en faisant complètement abstraction de toute annotation de référence. C’est le cas de la métrique BARTScore (Weizhe & Al, 2021). Celles-ci ont été testées dans différentes applications et pour différentes tâches. Dans ce travail, nous visons leur exploitation pour une tâche d’extraction de résumés à partir de documents thématiques. Deux contextes applicatifs seront étudiés dans le cadre de ce stage. Ce travail portera sur le tourisme et s’intéresse particulièrement à l’analyse des sentiments des visiteurs basés sur les données collectées à partir de hotel.com, TripAdvisor, Booking, etc.
Les hypothèses suivantes que nous souhaitons explorer dans ce stage sont comme suit :
1) Ces métriques permettent de construire des résumés extractifs synthétiques pertinents et porteurs de sens. Cependant le cadre méthodologique de ces métriques ne permet pas d’expliquer le processus d’extraction. Or si nous cherchons à annoter sémantiquement les documents via les résumés, il est nécessaire de tracer la pertinence des mots/ phrases.
2) Via les métriques, la quantification de l’hallucination des LLM sera étudiée.
3) Ces métriques indépendantes de toute annotation peuvent être adaptées au cas de résumés génératifs de documents textuels et amorcer une boucle automatique d’amélioration de ces modèles.
4) Ces métriques peuvent être étendues aux cas de résumés génératifs textuels d’images en se basant sur les prompts et sur les commentaires associés aux images.
En perspective, ce travail pourra être envisagé pour l’étendre au résumé d’images en s’inspirant de ces mêmes métriques
Profil du candidat :
Master 2 Recherche en IA-NLP,
Formation et compétences requises :
Les compétences attendues :
Le stagiaire sera en mesure de comprendre l’état de l’art récent sur les métriques d’évaluation et l’apprentissage frugal. De proposer une implémentation modulaire de ces métriques et de les tester sur des jeux de données de benchmark pour se comparer mais également de construire un jeu de données images et textes pour tester les limites de nos hypothèses.
Adresse d’emploi :
Campus Cyber, 5-7, Rue Bellini, 92800 Puteaux
Document attaché : 202412181042_SujetStagede5A_2024_2025_DVRC.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire LASTIG
Durée : 5 mois
Contact : sami.guembour@ign.fr
Date limite de publication : 2025-02-28
Contexte :
Contexte
*******
En janvier 2019, comme une des réponses à apporter au mouvement des Gilets Jaunes, le gouvernement a mis en place la consultation du Grand Débat national (GDN) qui propose aux contributeurs et contributrices à la fois une plate-forme numérique dématérialisée et non localisée, et des supports matériels localisés dans des lieux publics : les “Cahiers citoyens”.
Chaque contribution a été directement écrite ou bien collée sur le support papier par un contributeur ou une contributrice. D’autres contributions sont arrivées en mairie sous forme de courriel ou bien de lettre ; celles-ci ont été imprimées (par la mairie collectante) et collée sur le cahier mis à disposition du public. Concernant son agencement et son positionnement sur la ou les pages, la contribution peut prendre la forme d’une lettre, ou une liste à puces, ou une suite de paragraphes.
Au total 20 152 Cahiers ont été collectés. Ils ont ensuite été numérisés sous forme de fichiers image, transcrits automatiquement par océrisation, et partiellement vérifiés par des opérateur.rice.s humain.e.s. L’ensemble des contributions constitue le corpus des “Cahiers citoyens” (corpus CC).
Sujet :
Sujet
****
Des analyses précédentes portant sur le corpus CC ont permis d’évaluer partiellement la qualité de la transcription. Trois types d’erreur ont été détectés et prennent la forme de :
– mots illisibles : lorsque le mot océrisé n’est pas reconnu par l’opérateur humain, la mention manuelle “ILLISIBLE” est substituée à la séquence de lettres ou au mot incriminés. Des analyses exploratoires ont été menées pour quantifier le phénomène ; une méthode de correction a été explorée, fondée sur le fine-tuning du modèle de langue CamemBERT pour la tâche de prédiction des mots masqués “Mask Language Modelling” [3];
– mots inconnus : les mots inconnus sont ceux qui ne sont pas reconnus lorsque le corpus est soumis à une analyse lexicale à l’aide d’outils utilisant des dictionnaires électroniques ; il s’agit majoritairement d’erreurs d’océrisation ayant transformé un mot initialement valide, ou de coquilles du contributeur.rice, plus rarement de néologismes ;
– mots échangés : un mot reconnu par les dictionnaires, mais erroné en contexte, est produit par l’outil d’océrisation sans être repéré ni corrigé à l’étape de vérification manuelle, par exemple miches et riches transcrits à la place de niches dans l’expression niches fiscales.
L’objectif du stage consiste à proposer une identification et si possible une correction du corpus au travers des trois types d’erreurs relevés. Selon l’analyse exploratoire, la correction des mots inconnus peut être identique à celle des mots illisibles. Il s’agit donc d’implémenter la méthode explorée pour la correction des mots illisibles, et de l’évaluer pour les mots illisibles et les mots inconnus. Dans un deuxième temps, il s’agira de proposer et implémenter une méthode d’identification et de correction des mots échangés.
Le stage comportera les étapes suivantes (une attention particulière sera portée aux conditions de ré-utilisabilité des ressources et codes produits, et donc à leur documentation tout au long du stage) :
– appropriation des travaux déjà réalisés sur l’analyse des corpus plate-forme GDN et CC dont [4, 1, 2] ;
– concernant les mots illisibles et les mots inconnus :
* appropriation de la méthode explorée pour l’identification et la correction des mots illisibles ;
* amélioration de cette méthode : l’objectif consistera à adapter la méthode existante afin de prédire les mots illisibles, cette fois-ci vus comme des données manquantes ;
* adaptation de cette méthode pour la correction des mots inconnus, implémentation et évaluation ;
– concernant les mots échangés : la réflexion sur une méthode d’identification a été amorcée, fondée sur la comparaison de n-grammes entre les deux corpus comparables issus de la consultation du “Grand Débat national” : le corpus CC (obtenus à partir des “Cahiers citoyens”) et les contributions de la plate-forme (qui n’ont pas eu à être océrisées puisqu’elles étaient collectées sous une forme numérique) ; elle devra être menée à bien jusqu’à une implémentation.
Profil du candidat :
Ce stage s’adresse aux étudiant.e.s de master 2 en informatique/science des données ou en traitement automatique des langues (TAL) avec une formation suffisante pour l’utilisation autonome d’un langage de programmation (de préférence Python et R) et d’outils de TAL (outils fondés sur l’apprentissage, modèles de langue, encodage de mots, de phrases ; classifieurs ; outils statistiques de lexicométrie).
Formation et compétences requises :
Encadrement du stage
******************
Catherine Dominguès, chercheure HDR, catherine.domingues@ign.fr
Sami Guembour, doctorant, sami.guembour@ign.fr
Alexandre Hippert-Ferrer, enseignant-chercheur, alexandre.hippert-ferrer@ensg.eu
Pour candidater
*************
Des entretiens seront organisés à partir de novembre 2024. Préalablement, un dossier de candidature est à envoyer aux encadrant.e.s et devra contenir les documents suivants : CV, derniers relevés de notes (M1, et premier semestre de M2 si possible), description des enseignements suivis (un lien vers le site internet de la formation est le bienvenu), dernier mémoire ou rapport de stage, lettre de motivation. L’accès au corpus des “Cahiers citoyens” étant soumis à autorisation des Archives nationales, il est souhaitable que la candidature soit validée le plus tôt possible.
Adresse d’emploi :
Laboratoire LASTIG à Champs-sur-Marne, 6-8 avenue Blaise Pascal (site de l’ENSG-Géomatique).
Accès : RER A – Noisy-Champs
Document attaché : 202411220935_stage2025_CC_diagnosticCorrectionCorpus.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : LAAS-CNRS
Durée : 6 mois
Contact : nawal.guermouche@laas.fr
Date limite de publication : 2025-02-28
Contexte :
Sujet :
Ce stage se focalise sur la gestion des conflits induits par les services IoT qui soit sensible au contexte de l’environnement d’exécution. En effet, définir une priorité absolue, par exemple à un certain groupe d’objets, est très restrictif. L’objectif est de proposer une approche dynamique de détection et de résolution des conflits flexible qui tienne compte de différents paramètres tel que l’environnement des objets et les caractéristiques des services clients. Nous nous intéressons particulièrement à l’exploitation des techniques d’apprentissage automatique dans la détection et la résolution des conflits. Les étapes du stage sont comme suit :
• Faire un état de l’art sur la détection et la résolution des conflits dans les systèmes IoT et des outils de simulation existants
• Exploration et application sur des scénarios des modèles d’apprentissage automatique et les mécanismes d’attention pour la détection des conflits des services IoT
• Implémentation d’un outil de simulation et de résolution de conflits IoT
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
LAAS-CNRS, Toulouse
Document attaché : 202411220827_Sujet-Stage-IA-Conflit.pdf
