Présentation Générale

 



           
Huitième édition du Symposium MaDICS

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Une Session Poster sera spécialement consacrée aux jeunes chercheuses et jeunes chercheurs souhaitant présenter leurs travaux en analyse et gestion de données et dans les domaines interdisciplinaires autour de la Science des Données. Cette session sera également l’occasion d’échanger avec des collègues académiques et des acteurs industriels sur les thématiques de recherche présentées.

Dates importantes :

  • Soumission de posters : au plus tard le 23 mars 2026
  • Retour : 9 avril 2026
  • Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Feb
14
Fri
2025
Stage M2 – IA Santé – Marseille – Analyse statistique des tests d’efforts pour améliorer le diagnostic patient
Feb 14 – Feb 15 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique et des Systèmes (LIS)
Durée : 5 mois
Contact : paul.chauchat@lis-lab.fr
Date limite de publication : 2025-02-14

Contexte :
Ce stage s’inscrit dans un projet de recherche visant à analyser les données issues de tests d’effort cardio-pulmonaire (CPET). Les CPET sont utilisés pour évaluer les réponses physiologiques d’un patient lors d’un exercice maximal, afin de déterminer le degré de limitation à l’effort et d’en identifier les mécanismes sous-jacents.
L’objectif global de ce projet de recherche est de concevoir des outils d’analyse et d’aide à la décision qui enrichiront l’interprétation des données CPET, et fourniront des outils prédictifs utiles pour le phénotypage des patients et la prédiction des trajectoires de soin. Cette approche vise à combler le fossé entre recherche et pratique médicale. En effet, bien que de récents travaux ont montré que l’exploitation des données collectées permette, grâce à techniques d’Intelligence artificielle d’obtenir des informations sur les patients telles que le diagnostic des limitations à l’effort (Portella, et al., 2022), la prédiction du devenir médical du patient (Hearn, et al., 2018), ou bien la détection automatique des seuils ventilatoires (Zignoli, et al., 2019), la pratique médicale se base encore sur une analyse séquentielle univariée. Il est donc nécessaire de comparer ces différentes approches en termes de pouvoir prédictif.
Ce projet est une collaboration entre les laboratoires LIS et C2VN, ainsi que l’AP-HM.

Encadrement et Collaboration
Le stage se déroulera au LIS (campus Saint Jérôme) sous la supervision de Paul Chauchat (Maître de conférences, LIS), et de Stéphane Delliaux (Maître de conférences HDR et Praticien hospitalier, C2VN), en collaboration étroite avec Luca Thiébaud, doctorant au LIS.

Sujet :
L’objectif de ce stage est de contribuer à l’exploitation des données issues des tests d’effort cardio-pulmonaire (CPET) à travers une approche de Network Physiology. Cette approche par les données examine les interactions entre différents réseaux physiologiques, tels que les systèmes cardiovasculaire, respiratoire et métabolique, pour mieux comprendre leur dynamique complexe (Bashan, Bartsch, Kantelhardt, Havlin, & Ivanov, 2012). La physiologie des réseaux a été jusqu’ici utilisée à des échelles petites (un organe), et sur des cohortes faibles mais dans un cadre contrôlé. Il s’agira donc d’étudier, dans ce stage, l’applicabilité de la méthode à une plus grande échelle, grâce à des données plus nombreuses, mais recueillies dans un cadre médical. Des données issues des tests d’effort de l’AP-HM, et éventuellement de bases open source, seront utilisées. Ces travaux visent à obtenir un meilleur diagnostic de l’état de santé des patients.
Au regard de l’avancée de ce projet et des intérêts spécifiques du/de la candidat(e), ces pistes pourront être amenées à évoluer.

Profil du candidat :
Étudiant(e) en dernière année d’École d’Ingénieur ou en Master 2, spécialités IA, mathématiques appliquées, bio-statistiques ou informatique. Vous avez un solide bagage théorique accompagné d’une bonne expérience de programmation (Python). Vous êtes motivé(e) par les applications médicales et l’analyse de données temporelles multivariées. Une expérience en Machine Learning, traitement de données médicales ou analyse statistique est un atout.

Formation et compétences requises :

Adresse d’emploi :
Campus de Saint-Jérôme, Aix-Marseille Université, 52 av de l’escadrille Normandie Niemen, 13013, Marseille, France

Document attaché : 202411261503_offre_stage.pdf

Feb
21
Fri
2025
Automatisation de Méta-Analyse bibliographique par l’Intelligence Artificielle (IA) et les Large Language Models (LLMs)
Feb 21 – Feb 22 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFAT et IRBI
Durée : 6 mois
Contact : chanson@univ-tours.fr
Date limite de publication : 2025-02-21

Contexte :

La méta-analyse est une tâche d’analyse de la littérature scientifique visant à collecter l’ensemble des études portant sur un même phénomène (p. ex. effet d’un herbicide sur le système nerveux d’un insecte), puis d’en extraire les éléments qualitatif et quantitatifs permettant la réalisation d’une étude statistique s’appuyant sur l’ensemble des résultats collectés.
Cette tâche tout comme l’analyse systématique de la littérature repose sur la lecture et l’extraction d’information d’un grand nombre de textes scientifiques. Rendant ces tâches longues et complexes.
L’émergence des modèles de langage massif (LLM) a participé à démocratiser l’usage de l’intelligence artificielle. Elle a permis à tout un chacun d’interagir et d’exploiter l’information textuelle via une interface en langue naturelle ne nécessitant aucune connaissance préalable. Néanmoins ces outils comportent des risques : quand ils sont confrontés à une question portant sur une connaissance précise, les LLMs tendent à ‘halluciner’ présentant comme réponse des informations complètement fausses [4]. Cette phénomène tend à disparaître avec les modèles désormais entraînés à répondre qu’ils ne disposent simplement pas d’une information plutôt que de l’inventer [5]. Une des techniques visant à pallier ce manque de ‘connaissance’ est d’extraire l’information d’un document source et de la fournir au LLM en plus de la requête originelle. Dans sa version la plus simple l’utilisateur lui-même peut identifier un texte source et le fournir au modèle de langue (e.g. [2]). Un process plus formel et complexe vise à construire un pipeline ou l’information pertinente de réponse à une question est automatiquement localisée et fournie au LLM. Ces méthodes dites de RAG (Retrival Augmented Generation) permettent une plus grande flexibilité et puisque le système détermine de façon autonome les parties de documents nécessaire pour compléter la requête de l’utilisateur il permet de puiser dans des milliers de documents sans intervention préalable de l’utilisateur.

Sujet :
Ce stage de recherche se propose d’explorer le potentiel des LLMs, notamment en combinaison avec des techniques de RAG, pour automatiser et améliorer certaines tâches liées à la méta-analyse. Nous nous baserons sur une méta-analyse coordonnée par Stéphane Boyer et portant sur le thème des échantillonnages ADN dits ‘non-invasifs’ pour l’étude des animaux [6]. Plus précisément, nous allons nous concentrer sur :
L’extraction des données : une fois les études pertinentes identifiées, les LLMs peuvent être utilisés pour extraire les données nécessaires à la méta-analyse, en particulier 1) la méthodologie employée et la nature des échantillons ADN collectés, 2) le caractère invasif ou non des prélèvements réalisés, et 3) le cas échéant le type ‘d’erreur’ réalisé par les auteurs dans leur utilisation du terme ‘non-invasive DNA sampling’ [6].
La synthèse des résultats : les LLMs peuvent être utilisés pour générer des résumés synthétiques des résultats de la méta-analyse, en langage naturel, et pour identifier les tendances et les conclusions principales d’une étude. L’analyse des 380 articles scientifiques étudiés en 2022 (articles publiés entre 2013 et 2018) permettra de comparer les résultats obtenus par l’approche manuelle à ceux produits par les LLMs, et d’affiner le protocole afin d’obtenir les résultats les plus précis possible.
La mise à jour de la méta-analyse sera ensuite réalisée en appliquant notre meilleur protocole LLM sur un nouveau lot d’articles, publiés entre 2019 et 2024. Cette mise à jour pourra être soumise pour publication dans un journal à comité de lecture.

[1] Zhu, Y., Yuan, H., Wang, S., Liu, J., Liu, W., Deng, C., Dou, Z., & Wen, J. (2023). Large Language Models for Information Retrieval: A Survey. ArXiv, abs/2308.07107.
[2] https://chatgpt.com/share/671fb24d-dec8-8012-9857-760539b1390f
[3] Yun, H., Pogrebitskiy, D., Marshall, I.J., & Wallace, B.C. (2024). Automatically Extracting Numerical Results from Randomized Controlled Trials with Large Language Models. ArXiv, abs/2405.01686. https://arxiv.org/pdf/2405.01686
[4] Huang, L., Yu, W., Ma, W., Zhong, W., Feng, Z., Wang, H., Chen, Q., Peng, W., Feng, X., Qin, B., & Liu, T. (2023). A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. ArXiv, abs/2311.05232.
[5] Tonmoy, S.M., Zaman, S.M., Jain, V., Rani, A., Rawte, V., Chadha, A., & Das, A. (2024). A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models. ArXiv, abs/2401.01313.
[6] Lefort, M. C., Cruickshank, R. H., Descovich, K., Adams, N. J., Barun, A., Emami-Khoyi, A., … & Boyer, S. (2022). Blood, sweat and tears: a review of non-invasive DNA sampling. Peer Community Journal, 2, e16. https://peercommunityjournal.org/articles/10.24072/pcjournal.98/

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Tours: Campus de Grandmont

Document attaché : 202501160822_stage meta-analyse irbi_lifat (2).pdf

Feb
25
Tue
2025
Échantillonnage de motifs sur des donnéeshétérogènes
Feb 25 – Feb 26 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire GREYC Université de Caen
Durée : 6 mois
Contact : abdelkader.ouali@unicaen.fr
Date limite de publication : 2025-02-25

Contexte :
Ce stage de master s’inscrit dans le cadre du projet FIDD (Facilitated Exploration :Interactive Constraint-Driven Data Mining) financé par l’ANR (Agence Nationale de laRecherche), projet qui démarrera en février 2025. L’objectif principal du projet FIDD est d’améliorer l’expérience de l’utilisateur dans la boucle interactive de fouille de données en exploitant les contraintes pour capturer ses intérêts et guider efficacementle processus de fouille de données. Ce projet regroupe 6 organismes de recherche nationaux : LISN [UMR 5506 – Université de Paris-Saclay], LIRMM [UMR 5506 – Université ofMontpellier], LS2N [IMT Atlantique Nantes], GREYC [UMR 6072 – Université de Caen],LIFO [EA 4022 – Université d’Orléans], CRIL [UMR 8188 – Université of Artois]. En collaboration avec l’entreprise PME Deeplink-Medical, une application phare est considéréeafin d’améliorer la prise en charge des patients par des médecins radiologues selon leursinteractions.

Sujet :
La fouille de motifs [1] consiste à extraire, à partir d’un ensemble de données, des régu-larités ou des modèles récurrents qui peuvent être utilisés pour générer des connaissancessignificatives. Cependant, afin de réduire la durée de la procédure et donner davantage de contrôle à l’utilisateur, la fin des années 2000/le début des années 2010 voyait le déve-loppement des méthodes defouille interactive[7] : à chaque itération, un petit ensemblede motifs est proposé à l’utilisateur, l’utilisateur examine ces résultats partiels, donne desretours que l’algorithme prend en compte pendant la ou les prochaines itérations. En rai-son du très grand nombre de motifs extraits, une telle approche a pourtant besoin destechniques d’échantillonnage en sortie de motifs comme celles été proposées en [4, 5, 6, 3]pour sélectionner un sous-ensemble représentatif de l’ensemble de motifs. Ces techniquespermettent de réduire la complexité en temps de calcul et de faciliter l’analyse tout en pré-servant l’essence des informations contenues dans les motifs de la base de données. Dansces techniques, le tirage de motifs est souvent réalisé proportionnellement à une mesure re-flétant un certain intérêt de l’utilisateur. Ainsi, le processus d’échantillonnage peut intégrerdes contraintes visant à influencer le tirage lui-même ou à cibler spécifiquement des motifsqui satisfont certaines propriétés définies. Plus précisément, ce problème d’échantillonnagese formule de la manière suivante [4, 2] : étant donné une base de données S, un langage demotifsL, un ensemble de contraintes C, et une mesure de qualité φ:L→R, tirer aléatoi-rement des motifs qui satisfont les contraintes de C avec une probabilité proportionnelle à leur qualité.

Profil du candidat :
Niveau master 2 (ou équivalent) en informatique (ou mathématiques appliquées) ayantun intérêt pour l’intelligence artificielle, la programmation par contraintes, et la fouille de données.

Formation et compétences requises :
Des compétences en programmation JAVA, Python et C++ ainsi qu’une bonne compréhension des algorithmes de fouille de données et de résolution de contraintes et SAT seront appréciées. La langue utilisée est le français ou l’anglais.

Adresse d’emploi :
Laboratoire GREYC, CNRS UMR 6072, Université de Caen, 14000, Caen. Avec des interactions régulières avec l’équipe Contraintes et Apprentissage au laboratoireLIFO, EA 4022 – Université d’Orléans.

Document attaché : 202410241252_FIDD___Sujet_de_Stage_M2-1.pdf

Feb
26
Wed
2025
Calcul de similarités de séquences complexes : adaptation d’approches pour séries temporelles
Feb 26 – Feb 27 all-day

Offre en lien avec l’Action/le Réseau : SIMDAC/– — –

Laboratoire/Entreprise : LIFO
Durée : 5 mois
Contact : Patrick.Marcel@univ-orleans.fr
Date limite de publication : 2025-02-26

Contexte :
De nombreux domaines nécessitent l’analyse de gros volumes de séquences de diverses complexités (en termes de périodicité, complétude, multivariée ou non, etc.) et en particulier de leur similarité. On peut citer les domaines aussi variés que le médical (e.g. stratification de patients, alignements de gènes), le social (analyse de trajectoires sémantiques), la science des données (génération et recommandation de pipelines d’exploration), etc.
Par exemple, le groupement de patients suivis sur de longues périodes peut être vu comme un problème de recherche et calcul de similarité sur des séquences complexes : les séquences sont apériodiques (la fréquence des rendez-vous médicaux n’étant pas fixe), multivariées (plusieurs informations sont enregistrées à chaque rendez-vous), incomplètes (les informations enregistrées peuvent varier d’un patient à l’autre) .

Sujet :
Il est souvent nécessaire d’optimiser du calcul de similarités sur ces gros volumes de données de type séquences.
L’objectif de stage est d’étudier comment différentes approches proposées pour le calcul de similarité de séries temporelles peuvent s’appliquer au calcul de similarité de séquences complexes.
Notamment, on étudiera des techniques de réduction de dimensionalité et indexation.

Profil du candidat :
Le profil recherché est un stagiaire de Master ou école d’ingénieur en informatique, ou un niveau équivalent, possédant un bon niveau en programmation, base de données, parallélisme et mathématique.
Le stage pourra déboucher sur une thèse de doctorat financée.

Formation et compétences requises :

Adresse d’emploi :
LIFO, Université d’Orléans

Document attaché : 202502261523_Sujet_de_stage___adaptation_d_approches_de_s_ries_temporelles_au_calcul_de_similarit_s__de_s_quences_complexes.pdf

Feb
28
Fri
2025
Annotation sémantique de documents multi/cross lingues par apprentissage frugal non supervisé
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Pôle uiversitaire Léonard de Vinci, DVRC, La défen
Durée : 6 mois
Contact : n.mellouli@iut.univ-paris8.fr
Date limite de publication : 2025-02-28

Contexte :
Les données textuelles envahissent nos quotidiens personnels et professionnels. La recherche de documents pertinents répondant à des besoins métier devient une tâche très fastidieuse et nécessite un investissement en termes d’effort humain à annoter ces documents pour pouvoir les exploiter correctement. L’annotation sémantique de documents multimodaux est un sujet de recherche brûlant que nous proposons d’attaquer selon l’angle des résumés extractifs. Nous supposons qu’une annotation ou une étiquette n’est pas suffisante pour indexer sémantiquement un document. En revanche, un résumé peut représenter collectivement les informations les plus importantes ou les plus pertinentes du contenu d’origine. Par conséquent, toute opération qui émane de l’exploration des documents d’origines telles que la classification, la recherche, la segmentation, ou encore la catégorisation des documents peut être effectuée sur la base du résumé dès lors que ce dernier soit fidèle à l’information d’origine. Ce niveau de fidélité peut être évalué par le biais de différentes métriques qui seront sélectionnées d’une manière automatique en fonction de la tâche.

Sujet :
L’évaluation des systèmes de traitement automatique de la langue a toujours été un défi majeur pour les chercheurs. En effet ces tâches reposant sur des compétences abstraites de haut niveau, avant d’être difficile à réaliser elles sont tout simplement difficile à évaluer.
Par exemple, afin d’évaluer un simple système de résumé automatique de texte, il est nécessaire de demander à des experts de créer des résumés à la main. Cependant, contrairement à une tâche d’annotation d’images certes fastidieuse mais simple, dans le cas du résumé, l’expert doit comprendre finement les documents sources afin d’en générer une synthèse fidèle. Une fois ces résumés de référence obtenus, il est nécessaire de développer une méthodologie afin de pouvoir évaluer la qualité des résumés générés automatiquement.

La métrique la plus utilisée ROUGE2(Lin, 2004) va simplement compter le nombre de bi-grammes commun entre le résumé de référence et le résumé automatique. Plus un résumé aura de bigrammes communs avec le résumé de référence plus le système sera considéré comme performant. Avec l’essor de l’apprentissage profond, ces métriques ont été améliorées par exemple avec le BERTScore(Zhang & Al, 2020) qui permet de comparer les phrases au niveau vectoriel et ainsi identifier des phrases sémantiquement proches même si elles diffèrent complètement syntaxiquement (par l’usage de synonyme par exemple). Certaines méthodes vont encore plus loin en faisant complètement abstraction de toute annotation de référence. C’est le cas de la métrique BARTScore (Weizhe & Al, 2021). Celles-ci ont été testées dans différentes applications et pour différentes tâches. Dans ce travail, nous visons leur exploitation pour une tâche d’extraction de résumés à partir de documents thématiques. Deux contextes applicatifs seront étudiés dans le cadre de ce stage. Ce travail portera sur le tourisme et s’intéresse particulièrement à l’analyse des sentiments des visiteurs basés sur les données collectées à partir de hotel.com, TripAdvisor, Booking, etc.
Les hypothèses suivantes que nous souhaitons explorer dans ce stage sont comme suit :

1) Ces métriques permettent de construire des résumés extractifs synthétiques pertinents et porteurs de sens. Cependant le cadre méthodologique de ces métriques ne permet pas d’expliquer le processus d’extraction. Or si nous cherchons à annoter sémantiquement les documents via les résumés, il est nécessaire de tracer la pertinence des mots/ phrases.

2) Via les métriques, la quantification de l’hallucination des LLM sera étudiée.

3) Ces métriques indépendantes de toute annotation peuvent être adaptées au cas de résumés génératifs de documents textuels et amorcer une boucle automatique d’amélioration de ces modèles.

4) Ces métriques peuvent être étendues aux cas de résumés génératifs textuels d’images en se basant sur les prompts et sur les commentaires associés aux images.

En perspective, ce travail pourra être envisagé pour l’étendre au résumé d’images en s’inspirant de ces mêmes métriques

Profil du candidat :
Master 2 Recherche en IA-NLP,

Formation et compétences requises :
Les compétences attendues :
Le stagiaire sera en mesure de comprendre l’état de l’art récent sur les métriques d’évaluation et l’apprentissage frugal. De proposer une implémentation modulaire de ces métriques et de les tester sur des jeux de données de benchmark pour se comparer mais également de construire un jeu de données images et textes pour tester les limites de nos hypothèses.

Adresse d’emploi :
Campus Cyber, 5-7, Rue Bellini, 92800 Puteaux

Document attaché : 202412181042_SujetStagede5A_2024_2025_DVRC.pdf

Cahiers citoyens – Diagnostic et correction d’un corpus océrisé à l’aide de méthodes de TAL
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire LASTIG
Durée : 5 mois
Contact : sami.guembour@ign.fr
Date limite de publication : 2025-02-28

Contexte :
Contexte

*******

En janvier 2019, comme une des réponses à apporter au mouvement des Gilets Jaunes, le gouvernement a mis en place la consultation du Grand Débat national (GDN) qui propose aux contributeurs et contributrices à la fois une plate-forme numérique dématérialisée et non localisée, et des supports matériels localisés dans des lieux publics : les “Cahiers citoyens”.

Chaque contribution a été directement écrite ou bien collée sur le support papier par un contributeur ou une contributrice. D’autres contributions sont arrivées en mairie sous forme de courriel ou bien de lettre ; celles-ci ont été imprimées (par la mairie collectante) et collée sur le cahier mis à disposition du public. Concernant son agencement et son positionnement sur la ou les pages, la contribution peut prendre la forme d’une lettre, ou une liste à puces, ou une suite de paragraphes.

Au total 20 152 Cahiers ont été collectés. Ils ont ensuite été numérisés sous forme de fichiers image, transcrits automatiquement par océrisation, et partiellement vérifiés par des opérateur.rice.s humain.e.s. L’ensemble des contributions constitue le corpus des “Cahiers citoyens” (corpus CC).

Sujet :
Sujet

****

Des analyses précédentes portant sur le corpus CC ont permis d’évaluer partiellement la qualité de la transcription. Trois types d’erreur ont été détectés et prennent la forme de :

– mots illisibles : lorsque le mot océrisé n’est pas reconnu par l’opérateur humain, la mention manuelle “ILLISIBLE” est substituée à la séquence de lettres ou au mot incriminés. Des analyses exploratoires ont été menées pour quantifier le phénomène ; une méthode de correction a été explorée, fondée sur le fine-tuning du modèle de langue CamemBERT pour la tâche de prédiction des mots masqués “Mask Language Modelling” [3];

– mots inconnus : les mots inconnus sont ceux qui ne sont pas reconnus lorsque le corpus est soumis à une analyse lexicale à l’aide d’outils utilisant des dictionnaires électroniques ; il s’agit majoritairement d’erreurs d’océrisation ayant transformé un mot initialement valide, ou de coquilles du contributeur.rice, plus rarement de néologismes ;

– mots échangés : un mot reconnu par les dictionnaires, mais erroné en contexte, est produit par l’outil d’océrisation sans être repéré ni corrigé à l’étape de vérification manuelle, par exemple miches et riches transcrits à la place de niches dans l’expression niches fiscales.

L’objectif du stage consiste à proposer une identification et si possible une correction du corpus au travers des trois types d’erreurs relevés. Selon l’analyse exploratoire, la correction des mots inconnus peut être identique à celle des mots illisibles. Il s’agit donc d’implémenter la méthode explorée pour la correction des mots illisibles, et de l’évaluer pour les mots illisibles et les mots inconnus. Dans un deuxième temps, il s’agira de proposer et implémenter une méthode d’identification et de correction des mots échangés.

Le stage comportera les étapes suivantes (une attention particulière sera portée aux conditions de ré-utilisabilité des ressources et codes produits, et donc à leur documentation tout au long du stage) :

– appropriation des travaux déjà réalisés sur l’analyse des corpus plate-forme GDN et CC dont [4, 1, 2] ;

– concernant les mots illisibles et les mots inconnus :

* appropriation de la méthode explorée pour l’identification et la correction des mots illisibles ;

* amélioration de cette méthode : l’objectif consistera à adapter la méthode existante afin de prédire les mots illisibles, cette fois-ci vus comme des données manquantes ;

* adaptation de cette méthode pour la correction des mots inconnus, implémentation et évaluation ;

– concernant les mots échangés : la réflexion sur une méthode d’identification a été amorcée, fondée sur la comparaison de n-grammes entre les deux corpus comparables issus de la consultation du “Grand Débat national” : le corpus CC (obtenus à partir des “Cahiers citoyens”) et les contributions de la plate-forme (qui n’ont pas eu à être océrisées puisqu’elles étaient collectées sous une forme numérique) ; elle devra être menée à bien jusqu’à une implémentation.

Profil du candidat :
Ce stage s’adresse aux étudiant.e.s de master 2 en informatique/science des données ou en traitement automatique des langues (TAL) avec une formation suffisante pour l’utilisation autonome d’un langage de programmation (de préférence Python et R) et d’outils de TAL (outils fondés sur l’apprentissage, modèles de langue, encodage de mots, de phrases ; classifieurs ; outils statistiques de lexicométrie).

Formation et compétences requises :
Encadrement du stage

******************

Catherine Dominguès, chercheure HDR, catherine.domingues@ign.fr

Sami Guembour, doctorant, sami.guembour@ign.fr

Alexandre Hippert-Ferrer, enseignant-chercheur, alexandre.hippert-ferrer@ensg.eu

Pour candidater

*************

Des entretiens seront organisés à partir de novembre 2024. Préalablement, un dossier de candidature est à envoyer aux encadrant.e.s et devra contenir les documents suivants : CV, derniers relevés de notes (M1, et premier semestre de M2 si possible), description des enseignements suivis (un lien vers le site internet de la formation est le bienvenu), dernier mémoire ou rapport de stage, lettre de motivation. L’accès au corpus des “Cahiers citoyens” étant soumis à autorisation des Archives nationales, il est souhaitable que la candidature soit validée le plus tôt possible.

Adresse d’emploi :
Laboratoire LASTIG à Champs-sur-Marne, 6-8 avenue Blaise Pascal (site de l’ENSG-Géomatique).

Accès : RER A – Noisy-Champs

Document attaché : 202411220935_stage2025_CC_diagnosticCorrectionCorpus.pdf

Détection et résolution intelligente des conflits pour une gestion autonome et efficace des systèmes IoT
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LAAS-CNRS
Durée : 6 mois
Contact : nawal.guermouche@laas.fr
Date limite de publication : 2025-02-28

Contexte :

Sujet :
Ce stage se focalise sur la gestion des conflits induits par les services IoT qui soit sensible au contexte de l’environnement d’exécution. En effet, définir une priorité absolue, par exemple à un certain groupe d’objets, est très restrictif. L’objectif est de proposer une approche dynamique de détection et de résolution des conflits flexible qui tienne compte de différents paramètres tel que l’environnement des objets et les caractéristiques des services clients. Nous nous intéressons particulièrement à l’exploitation des techniques d’apprentissage automatique dans la détection et la résolution des conflits. Les étapes du stage sont comme suit :
• Faire un état de l’art sur la détection et la résolution des conflits dans les systèmes IoT et des outils de simulation existants
• Exploration et application sur des scénarios des modèles d’apprentissage automatique et les mécanismes d’attention pour la détection des conflits des services IoT
• Implémentation d’un outil de simulation et de résolution de conflits IoT

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
LAAS-CNRS, Toulouse

Document attaché : 202411220827_Sujet-Stage-IA-Conflit.pdf

Identification de la sévérité cognitive d’un patient atteint de la maladie d’Alzheimer par apprentissage automatique de données
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire IBISC, Université d’Evry Paris-Saclay
Durée : 6 mois
Contact : Khalifa.Djemal@ibisc.univ-evry.fr
Date limite de publication : 2025-02-28

Contexte :

Sujet :
La détection de signes des pathologies d’Alzheimer qui est une maladie neurodégénérative est une tâche très importante dans un système d’aide au diagnostic médical. En effet, les techniques d’apprentissage automatique offrent aujourd’hui des perspectives pour détecter et identifier des troubles liés à la maladie, évaluer son avancement et à terme pouvoir rééduquer le patient. Dans un premier temps, le candidat fera une étude de l’état de l’art sur les troubles cognitives de la maladie et sur les techniques récentes employées pour reconnaitre la sévérité des patients. Il procèdera ensuite à la mise en place d’un modèle d’apprentissage à partir de bases de données qui permettra l’analyse de ces troubles cognitives conduisant ainsi à la classification et l’identification de la sévérité de la maladie.

[1] Hyun-Soo Choi, Jin Yeong Choe, HanjooKim, Ji Won Han, Yeon Kyung Chi, KayoungKim, Jongwoo Hong, Taehyun Kim, Tae Hui Kim, Sungroh Yoon and Ki Woong Kim. Deep learning based low-cost high-accuracy diagnostic framework for dementia using comprehensive neuropsychological assessment profiles, BMC Geriatrics, 18:234 (2018).

[2] Valeria Manera, Pierre-David Petit, Alexandre Derreumaux, Ivan Orvieto, Matteo Romagnoli, Graham Lyttle, Renaud David, and Philippe H. Robert, ’Kitchen and cooking’, a serious game for mild cognitive impairment and Alzheimer’s disease: a pilot study, Frontiers in Aging Neuroscience, 7: 24, 2015.

[3] Boaz Levy1, Samuel Gable, Elena Tsoy, Nurit Haspel, Brianna Wadler, Rand Wilcox, Courtney Hess, Jacqueline Hogan, Daniel Driscoll and Ardeshir Hashmi. Machine Learning Detection of Cognitive Impairment in Primary Care, Alzheimers Dis Dement, 1(2):38-46, 2017.

[4] Werner P, Rabinowitz S., Klinger E., Korczyn A. D., Josman N., Use of the virtual action planning supermarket for the diagnosis of mild cognitive impairment: a preliminary study, Dement Geriatr Cogn Disord, 27(4):301-9, 2009.

[5] Déborah A. Foloppe, Paul Richard, Takehiko Yamaguchi, Frédérique Etcharry-Bouyx & Philippe Allain, The potential of virtual reality-based training to enhance the functional autonomy of Alzheimer’s disease patients in cooking activities: A single case study, Neuropsychological Rehabilitation, October 2015.

[6] Khalifa Djemal and Hichem Maaref, Intelligent Information Description and Recognition in Biomedical Image Databases, In:Computational Modeling and Simulation of Intellect: Current State and Future Perspectives, Book Edited by Boris Igelnik, pages: 52-80, Publisher IGI Global, ISBN: 978-1-60960-551-3, February 2011.

[7] Florian Maronnat, Margaux Seguin, Khalifa Djemal, Cognitive tasks modelization and description in VR environment for Alzheimer’s disease state identification, in International conference on Image Processing Theory, Tools and Applications (IPTA 2020), November 09-12, 2020, Paris, France.

Profil du candidat :
Master 2 ou équivalent, de préférence des spécialités suivantes :
– Apprentissage automatique (Machine Learning),
– Imagerie Biomédicale
– Informatique Biomédicale,
– Informatique, Réalité Virtuelle et Systèmes Intelligents

Formation et compétences requises :

– Programmation Python, Matlab,
– Machine Learning
– Des connaissances de base en traitement d’images

Adresse d’emploi :
Laboratoire Informatique, Biologie Intégrative et Systèmes Complexes – IBISC 40 rue du Pelvoux, 91020 Evry, France

Document attaché : 202411151746_Sujet-stage-Master2-Djemal-2024-2025.pdf

Inférence de Réseaux à Partir des Données Hétérogènes
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2025-02-28

Contexte :

Sujet :
Bonjour à tous,

Nous avons le plaisir de vous annoncer une offre de stage de 6 mois au laboratoire TETIS à Montpellier, axée sur le problème d’inférence de réseaux à partir des données hétérogènes epidémiologiques en utilisant des méthodes de Graph Neural Networks.

La date de début est prévue pour février 2025 (flexible). Vous trouverez la description détaillée de l’offre en français et en anglais ici :

https://nubes.teledetection.fr/s/mTiDsdxCPHbNid3

Pour toute question, n’hésitez pas à contacter Nejat Arınık (nejat.arinik@univ-artois.fr) ou moi-même (roberto.interdonato@cirad.fr).

Pour candidater, merci d’envoyer un mail à nejat.arinik@univ-artois.fr et roberto.interdonato@cirad.fr avec sujet “CANDIDATURE STAGE MOOD 2025” en ajoutant les éléments suivants:
– lettre de motivation expliquant vos qualifications, expériences et motivation pour ce sujet (1-2 pages)
— curriculum vitae (1-2 pages)
— relevé de notes de 1ère année de master et les notes de 2ème année de master disponibles ou équivalent pour les écoles
d’ingénieurs
— un lien vers des dépôts de projets personnels (par exemple GitHub ou GitLab)
— toute autre information que vous estimerez utile

N’hésitez pas à transmettre ces offres à des étudiants qui pourraient être intéressés.

Cordialement,

Roberto et Nejat
Roberto and Nejat

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
500 rue Jean Francois Breton, Montpellier

Document attaché : 202411151304_Stage – Inférence de Réseaux à Partir des Données Hétérogènes.pdf

Measuring the Environmental Impact of NoSQL Model Transformations on the Cloud
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DVRC@ESILV
Durée : 6 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2025-02-28

Contexte :
The development of NoSQL solutions on the Cloud is a complex task, and mastering all aspects of optimization is challenging. At the DVRC (the ESILV laboratory), we have developed an approach to help developers measure the impact of their solutions under different dimensions: time, financial, and environmental.

Sujet :
In the context of this research project, we aim to study the impact of data model transformations on environmental costs in the Cloud. A cost model was previously developed in the team, and we intend to use it to better understand the impact of these transformations and create a recommendation system to minimize the carbon footprint of a NoSQL solution.
The first objective of this project will be to familiarize oneself with the cost model and apply it to various benchmarks. The results will be analyzed to study correlations between data models, queries, and data evolution. In the second phase, these results will be used to design a recommendation system to propose data model generation with a low carbon footprint while respecting other dimensions (financial and time costs).
A potential evolution of the subject could involve studying schema evolution as the database state changes, especially in the context of polystores.
This internship includes:
– Study of a cost model specialized in carbon footprint measurement
– Behavioral analysis of NoSQL databases
– Development of an environmental recommendation model

Profil du candidat :
M2 level students (Master or Engineering Schools).

Formation et compétences requises :
Distributed DB, Cost Model, Data Modeling, Carbon footprint measuring, MongoDB

Adresse d’emploi :
DVRC at ESILV at (École Supérieure d’Ingénieurs Léonard de Vinci ; Paris, la Défense).

Document attaché : 202411221058_2425_MALI_NoSQL_Mali-Travers.pdf

Modèles et algorithmes basés sur l’IA pour la détection et la prévention des perturbations chez les conducteurs TSA pour une mobilité intelligente et inclusive
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LAAS-CNRS
Durée : 6 mois
Contact : nawal.guermouche@laas.fr
Date limite de publication : 2025-02-28

Contexte :

Sujet :
La montée en puissance de l’intelligence artificielle (IA) permettrait d’offrir des services facilitant l’usage des voitures aux personnes TSA, notamment des véhicules connectés. Un véhicule connecté est doté de capteurs et objets connectés embarqués, permettant d’une part, de collecter des données en temps réel, et d’autre part, d’offrir des services capables d’interagir avec l’environnement (feux rouges, d’autres véhicules connectés. etc.) ainsi qu’avec l’écosystème plus large de la ville intelligente.
Dans le cadre de ce stage et en collaboration avec le Centre d’Études et de Recherches en Psychopathologie et Santé (CERPPS), Université Jean Jaures, nous visons à développer des modèles, des algorithmes, et des outils pour la mise en place d’un système autonome et intelligent dédié à l’accompagnement des personnes TSA dans leur mobilité. En s’appuyant sur l’IoT et l’IA, notamment via les réseaux de neurones profonds couplés aux mécanismes d’attention, ce système devra être capable d’identifier, de caractériser, et de quantifier de manière active et prédictive l’impact des événements routiers sur le conducteur. Cela doit permettre de mettre en place des solutions capables d’anticiper les potentiels impacts sur la cognition et les émotions du conducteur et ainsi l’aider à mener une conduite la plus sereine possible.

Pour atteindre les objectifs de ce stage, les principales étapes sont :
– État de l’art : une revue de littérature sur l’IoT, la mobilité intelligente, l’IA, et les troubles TSA dans le cadre la mobilité routière sera réalisée.
– Étude et analyse des dataset déjà constitués en vue de leur exploitation et enrichissement via la mise en place de nouveaux scénarios en utilisant le simulateur SimulAuto .
– Proposition d’une approche pour l’identification, la quantification, et la visualisation de l’impact des évènements routiers sur l’état cognitif et émotionnel des personnes TSA.
– Implémentation et évaluation de la solution proposée.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
LAAS-CNRS, Toulouse, France

Document attaché : 202411220830_Sujet-Stage-Mobilité-Inclusive.pdf

Multi-modal explainable machine learning for exploring consciousness recovery of coma patients
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : 6 mois
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2025-02-28

Contexte :

Sujet :
The first objective of this internship is to study and improve multi-modal Machine Learning models, for the fusion of video and EEG but potentially also EKG data, to predict the situations of our healthy control group. Based on our pre-liminary work on multi-modal LSTM and Transformer models, the aim would be to find characteristic patterns and correlations in the data that represent the different emotional or interactive situations, using eXplainable AI (XAI) techniques such as Integrated Gradient or SHAP.
The second objective would be to adapt these models and methods to DOC patients.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
INSA Lyon – LIRIS
7 Avenue Jean Capelle
69621 Villeurbanne

Document attaché : 202411111700_sujet_stage_M2_agoracoma_fusion1.pdf

Optimization of Frequent Pattern Mining for Tourist Behavior Analysis
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : DVRC@ESILV
Durée : 6 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2025-02-28

Contexte :
Understanding the appreciation of visits made by tourists is a major issue in the tourism sector to anticipate trend evolutions as well as how they move across the territory. One approach to estimating this appreciation is based on the extraction of frequent patterns on a circulation graph, such as Graphlet extraction [1], k-decomposition [2], or cohesive structures like k-plexes [6]. Thus, tourism trends are extracted using their frequency of occurrence in a topological manner.
However, tourism data from experience-recommending platforms such as TripAdvisor or Google Maps results in large data graphs that become challenging to process with traditional data mining techniques. With a large number of places visited (millions) and an enormous number of user comments (billions), it is necessary to develop a new approach for scaling graph-based algorithms.

Sujet :
To this end, within the STARCS axis of DVRC, we have developed an exhaustive and scalable pattern extraction approach on a graph using Pregel [3]. This approach allows us to extract both the pattern topology and node properties, including geodesic information [4, 5, 7]. The extraction has been extended to complex patterns giving interesting perspectives of enhancement. We now wish to take this approach a step further by focusing on optimizing the mining process.
The internship has two main goals:
• Use a topological signature technique to mine patterns in a Neo4j database (in Pregel/Java).
• Improve the method to provide a heuristic adapted to the geodesic context.
Example of aggregated tourist propagation graph across the French territory:
• How can we identify significant propagation patterns?
• What are the characteristics of a pattern?
• Can we extract seasonality from different
groups of patterns?

Profil du candidat :

M2 level students (Master or Engineering Schools).

Formation et compétences requises :
Databases, Data Mining, graph DB (Neo4j, Cypher), Java, parallelism.

Adresse d’emploi :
De Vinci Research Center at ESILV at (École Supérieure d’Ingénieurs Léonard de Vinci ; Paris, la Défense).

Document attaché : 202411221055_2425_TRAVERS_GraphMining.pdf

Semi-Automatic Annotation of Conversations in Audio-Visual Documents
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Interdisciplinaire des Sciences du Num
Durée : 5 ou 6 mois
Contact : guinaudeau@limsi.fr
Date limite de publication : 2025-02-28

Contexte :
Most human interactions occur through spoken conversations. If this interaction mode seems so natural and easy for humans, it remains a challenge for spoken language processing models as conversational speech raises critical issues. First, non-verbal information can be essential to understand a message. For example a smiling face and a joyful voice can help detecting irony or humor in a message. Second, visual grounding between participants is often needed during a conversation to integrate posture and body gesture as well as references to the surrounding world. For example, a speaker can talk about an object on a table and refer to it as this object by designing it with her hand. Finally, semantic grounding between participants of a conversation to establish mutual knowledge is essential for communicating with each other.

Sujet :
In this context, the MINERAL project aims to train a multimodal conversation representation model for communicative acts and to study communicative structures of audiovisual conversation.
As part of this project, we are offering a 5- to 6-month internship focused on semi-automatic annotation of conversations in audio-visual documents. The intern’s first task will be to extend the existing annotation ontology for dialog acts, currently available for audio documents (through the Switchboard corpus for example), to incorporate the visual modality. In a second step, the intern will develop an automatic process for transferring annotations to new audiovisual datasets (such as meeting videos and TV series or movies) using transfer or few-shot learning approaches.

Practicalities:
The internship will be funded ~500 euros per month for a duration of 5 or 6 months and will take place at LISN within the LIPS team. This internship can potentially be followed by a funded PhD, based on performance and interest in continuing research in this area.

To apply, please send your CV, a cover letter and your M1 and M2 transcripts (if available) by email to Camille Guinaudeau camille.guinaudeau@universite-paris-saclay.fr and Sahar Ghannay sahar.ghannay@universite-paris-saclay.fr

Profil du candidat :

Formation et compétences requises :
Required Qualifications:
● Master’s degree (M2) in Computer Science or related field.
● Experience with deep learning frameworks such as Keras or PyTorch.
● Knowledge of image processing would be an advantage.

Adresse d’emploi :
LISN – Équipe LIPS
Campus Universitaire bâtiment 507
Rue du Belvédère
91400 Orsay

Document attaché : 202411111659_Stage_MINERAL.pdf

Stage M2 (poursuite en thèse possible) – Machine Learning / Optimisation / Santé – Equipe ORKAD – Lille
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Equipe ORKAD / Laboratoire CRIStAL Lille
Durée : 6 mois
Contact : julie.jacques@univ-lille.fr
Date limite de publication : 2025-02-28

Contexte :
ORKAD est une équipe de recherche du groupe thématique OPTIMA du laboratoire CRIStAL (Centre de Recherche en Informatique, Signal et Automatique de Lille) (UMR CNRS 9189) de l’Université de Lille. L’objectif principal de l’équipe ORKAD est d’exploiter simultanément l’optimisation combinatoire et l’extraction de connaissances pour résoudre des problèmes d’optimisation. Les métaheuristiques ont souvent été utilisées avec succès pour résoudre différentes tâches de machine learning [DhaenensJourdan2022]. En particulier, l’algorithme MOCA-I [Jacques2013-a], permet de classifier des données hétérogènes et mal réparties par méthode d’optimisation, sur des données médicales [Jacques2020]. L’équipe ORKAD a des partenariats avec le CHU de Lille ; notamment dans le cadre du projet européen PATHACOV pour la détection du cancer du poumon à partir de la concentration en composés organiques volatils dans l’air expiré [Hulo2023]. Dans ce stage, nous nous intéressons à l’extension de ces travaux aux données du projet ALCOVE, suite du projet PATHACOV, où l’objectif est de distinguer différentes classes de sujets: sain / malade (avec le stade : I, II, III, IV) ; opérable / non opérable.

Sujet :
Dans le problème de classification multi-label, un enregistrement du jeu de données peut être associé à plusieurs labels : par exemple « cancer du poumon » et « opérable ». Des approches à base de métaheuristiques ont été proposées par le passé pour gérer ce problème, comme par exemple les colonies de fourmis [Otero2010]. La classification multi-label est souvent associée à une répartition déséquilibrée des différents labels à prédire [Tarekegn2021] et une des spécificités de l’algorithme MOCA-I est justement sa capacité à gérer ce déséquilibre [Jacques2013-a]. Dans MOCA-I, la modélisation est adaptée pour la classification binaire partielle (représentation de la solution, opérateurs d’initialisation et de voisinage,…). L’objectif de ce stage est de proposer une nouvelle représentation et opérateurs adaptés au problème de classification multi-label. Des méthodes de configuration automatique d’algorithmes comme irace [López-Ibáñez2016] seront utilisées pour identifier si les nouveaux opérateurs et stratégies proposés sont efficaces sur les benchmarks sélectionnés.

Profil du candidat :
Programmation Objet (Python ou C++) ; Connaissances en machine learning
Des connaissances en C++ et recherche opérationnelle, optimisation combinatoire seraient un plus.

Formation et compétences requises :
M2 en informatique

Adresse d’emploi :
Lieu : Laboratoire CRISTAL, Equipe ORKAD (Université de Lille, France)

Document attaché : 202411141558_Sujet_stage_M2.pdf

Mar
1
Sat
2025
Adaptive optics control and learning
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : Centre Astrophysique de Lyon
Durée : 5 months
Contact : eric.thiebaut@univ-lyon1.fr
Date limite de publication : 2025-03-01

Contexte :

Sujet :
Internship supervisors: Eric Thiébaut, Michel Tallon
@ : eric.thiebaut@univ-lyon1.fr, mtallon@obs.univ-lyon1.fr

Address/Workplace: CRAL – site Charles André : 9 avenue C. André, St Genis Laval

Hosting research team: AIRI

Internship title: Adaptive optics control and learning

Summary of proposed work:

Context: Adaptive optics (AO) systems are used by most if not all current large telescopes to counteract the effects of the turbulence on the image quality and achieve diffraction limited angular resolution (i.e. λ/D). AO systems work by sensing the wavefront after its correction by a deformable mirror whose shape is controlled considering the departure of the measured wavefront to the ideal one (e.g. a flat wavefront). The AiRi team at CRAL is leading a project, UPCAO (funded by the French ANR), targeted at developing better algorithms and methods to control in real time (i.e. faster than 1,000 times per second) the shape of the wavefront given measurements by a wavefront sensor (WFS). The objective is to provide optimal wavefront correction under varying observing conditions for the THEMIS AO system, for SAXO+, and for future AO systems on ELTs. There are several ideas to improve current AO control systems: (i) improve the model of the AO system, (ii) account for the variable and uneven quality of the WFS measurements notably the fact that not all measures are always valid, and (iii) account for the spatio-temporal statistics of the turbulence to anticipate its evolution and reduce the effects of the delay between the times of measurements and of the correction by the mirror.

Research directions:
Modeling the AO system: To compute the wavefront correction, AO real time controllers assume a model of the behavior of the components of the AO system notably the wavefront sensor (WFS) and the deformable mirror (DM). Intuitively, the closer the model to reality the better the correction. The behavior of the instrument may be complicated (non-linear) and depends on the operating conditions. It is thus important to develop flexible models whose parameters can be calibrated and updated while the AO system is running (in closed-loop). We are currently considering affine approximations of the possibly non-linear behavior of the system that can be calibrated in real-time by a perturbative method. Another possibility to investigate is to exploit deep learning to automatically build the structure of a general non-linear model and to learn its parameters in real-time.
Wavefront reconstruction: For a linear wavefront sensor (WFS), the reconstruction of the wavefront shape given the measurements and accounting for their uneven quality amounts to solving an inverse problem which has a closed-form solution. For large systems, this solution may be computed in real-time by means of accelerated iterative methods [1]. For new non-linear WFS, fast reconstruction methods compatible with the constraints of real-time have to be developed and AI based methods are emerging as competitive candidates.
Modeling and learning the spatio-temporal behavior of the turbulence: Prediction of the temporal evolution of the wavefront is the key to compensate for the delay between the acquisition of wavefront sensor (WFS) measurements and the time at which the shape of the deformable mirror (DM) can effectively account for these measurements. We are developing a fast approximation of the covariance [2] that can be exploited to learn and apply the spatio-temporal statistics of the wavefront. Another possibility is to develop AI based methods.

[1] Béchet+, “Comparison of minimum-norm maximum likelihood and maximum a posteriori wavefront reconstructions for large adaptive optics systems’’ in J. Opt. Soc. Am. A, 26, 497-508 (2009) https://doi.org/10.1364/JOSAA.26.000497
[2] Thiébaut+, “Beyond FRiM, ASAP: a family of sparse approximation for covariance matrices and preconditioners.” Adaptive Optics Systems VIII. Vol. 12185. SPIE, 2022, https://arxiv.org/pdf/2311.17721

Nature of the financial support for the internship: Labex LIO or team funding

Potential for a follow-up as a PhD thesis: Yes

Profil du candidat :
Background in signal processing, numerical methods or related fields.

Formation et compétences requises :

Adresse d’emploi :
Centre de Recherche Astrophysique de Lyon
9 avenue Charles André
69230 Saint-Genis-Laval

Document attaché : 202411181118_FicheStage_CRAL_2024_AIRI_Thiebaut.pdf

DADY : un modèle fondation de réseau de neurones pour l’observation aérienne time-lapse de systèmes agroécologiques au Sud
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Cirad, Montpellier
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2025-03-01

Contexte :
Le projet DeepAeroDynamics (DADY) vise à combiner l’imagerie drone multispectrale time-lapse et
le deep learning pour faire face aux défis du changement climatique et de la sécurité alimentaire dans les
pays du Sud. L’objectif est de développer un modèle fondation capable d’intégrer les données
multispectrales, spatiales et temporelles observées par drone aérien dans des environnements complexes
et hétérogènes du Sud dans le but d’anticiper et prédire le comportement de plantes cultivées en
agroécologie (Sahel, Madagascar, Guadeloupe).

Sujet :
Le stagiaire sera au coeur du développement d’une architecture deep learning permettant :
* D’analyser des séries temporelles multispectrales d’imagerie drone, et extraire automatiquement
des représentations informatives de l’état des systèmes observés.
* D’analyser les dynamiques temporelles en utilisant des modèles de type Transformers pour
capturer les évolutions des cultures décrites dans un espace latent.
* De maximiser l’utilisation des données par des techniques d’apprentissage semi-supervisées et
des consignes prétextes pour maximiser la capacité d’apprentissage de l’architecture fondation.

Le développement des modèles s’appuiera sur des architectures CNN et Transformers. L’approche sera
validée sur des jeux de données déjà acquis et stockés à proximité d’un supercalculateur. Les tests de
niveau 1 s’effectueront sur une ferme GPU locale, et les modèles de niveau 2 seront testés sur les
supercalculateurs Jean Zay et Adastra (20e mondial au TOP500). Les modèles seront documentés et diffusés
en open-source, accompagnés de scripts pour le fine-tuning.

Profil du candidat :
Étudiant·e en Master 2 ou école d’ingénieur avec spécialisation en deep learning. Travail
avec Python, Pytorch/Tensorflow, Github, Intégration Continue.

Formation et compétences requises :
Expérience en traitement d’images.
Capacité à travailler en équipe dans un environnement mêlant informatique, biologie et agroécologie.

Adresse d’emploi :
La rémunération selon barème légal des stages sera de 600€
mensuel, avec accès à la restauration collective le midi. Le stage aura lieu au Cirad de Montpellier, 389 Av.
Agropolis, 34980 Montferrier-sur-Lez.

Document attaché : 202502121716_Offre de stage M2 – 2025 – DADY.pdf

DADY : un modèle fondation de réseau de neurones pour l’observation aérienne time-lapse de systèmes agroécologiques au Sud
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD Montpellier
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2025-03-01

Contexte :
Le projet DeepAeroDynamics (DADY) vise à combiner l’imagerie drone multispectrale time-lapse et le deep learning pour faire face aux défis du changement climatique et de la sécurité alimentaire dans les pays du Sud. L’objectif est de développer un modèle fondation capable d’intégrer les données multispectrales, spatiales et temporelles observées par drone aérien dans des environnements complexes et hétérogènes du Sud dans le but d’anticiper et prédire le comportement de plantes cultivées en
agroécologie (Sahel, Madagascar, Guadeloupe).

Sujet :
Le stagiaire sera au coeur du développement d’une architecture deep learning permettant :
● D’analyser des séries temporelles multispectrales d’imagerie drone, et extraire automatiquement des représentations informatives de l’état des systèmes observés.
●D’analyser les dynamiques temporelles en utilisant des modèles de type Transformers pour capturer les évolutions des cultures décrites dans un espace latent.
●De maximiser l’utilisation des données par des techniques d’apprentissage semi-supervisées et des consignes prétextes pour maximiser la capacité d’apprentissage de l’architecture fondation.

Le développement des modèles s’appuiera sur des architectures CNN et Transformers. L’approche sera validée sur des jeux de données déjà acquis et stockés à proximité d’un supercalculateur. Les tests de niveau 1 s’effectueront sur une ferme GPU locale, et les modèles de niveau 2 seront testés sur les supercalculateurs Jean Zay et Adastra (20e mondial au TOP500). Les modèles seront documentés et diffusés
en open-source, accompagnés de scripts pour le fine-tuning.

Profil du candidat :
Capacité à travailler en équipe dans un environnement mêlant informatique, biologie et agroécologie.

Formation et compétences requises :
Étudiant·e en Master 2 ou école d’ingénieur avec spécialisation en deep learning. Travail avec Python, Pytorch/Tensorflow, Github, Intégration Continue. Expérience en traitement d’images.

Adresse d’emploi :
La rémunération selon barème légal des stages sera de 600€
mensuel, avec accès à la restauration collective le midi. Le stage aura lieu au Cirad de Montpellier, 389 Av.
Agropolis, 34980 Montferrier-sur-Lez.

Document attaché : 202412041713_Offre de stage M2 – 2025 – DADY.pdf

Detection and Localization Of Volcanic Fissures in Interferograms Using AI
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 4-6 mois
Contact : yajing.yan@univ-smb.fr
Date limite de publication : 2025-03-01

Contexte :
Satellite radar interferometry, more commonly known as InSAR,
provides precise displacement measurements over vast land
areas. The availability of satellite constellations and frequent
revisit times make it a crucial source of information for
monitoring volcanic activity. Understanding and
modeling a volcanic eruption are critical steps in decision-
making when dealing with such geological phenomena. The
opening of a dyke (volcanic vein) or a fissure, as
well as its initial geometry, depends on several factors, including
the pressures exerted and the mechanical properties of the
ground.

Volcanic fissures do not have a simple, flat geometry; they
narrow and widen, flare, branch, and stratify. Furthermore,
their width and shape can also change during an eruption
depending on various geological configurations.
The identification of volcanic fissures is therefore particularly
important for accurate volcanic modeling. However, this task is
currently performed manually based on in-situ observations. However, with the continuous increase in the
amount of available SAR data, there is a growing need for
advanced methods to effectively automate this detection
process. Surface deformation detection in interferograms is a
well-studied topic in the literature, whereas fissure
detection has not received the same level of attention. The Piton
de la Fournaise on the island of Réunion is the subject of
extensive monitoring and has a database spanning 24 years. Preliminary results obtained by our team on
this volcano have demonstrated the feasibility of detecting
fissures in the interferograms. Using classical methods, we
successfully detected the presence or absence of a fissure within the interferograms from a dozen different satellites. However, the mere presence or absence of a fissure is far from sufficient for analyzing the geological mechanisms associated with the volcano, and further work is needed to obtain precise locations of these fissures.

Sujet :
The objective of this project is to detect and localize volcanic
fissures in satellite radar interferograms using artificial
intelligence techniques and skeleton-based geometry
recognition. Several types of satellites pass over the Piton de la
Fournaise enclosure, allowing for regular and
continuous observation. However, each sensor has its own
characteristics, including mandated revisit times, operational
costs (free or paid), as well as different observation angles and
pass directions. One of the initial hypotheses is that the
localization of fissures follows a logical pattern depending on
the type of InSAR source and the spatial area around the
eruptive cone. The second hypothesis explores the similarity
between the structure of volcanic fissures and that of skeletons,
like action recognition based on skeletal data extracted from
photographs. Action recognition from skeletons is a task that
involves recognizing human actions from a sequence of point
data on joints captured by specific sensors. In our project, the
approach is reversed: given the eruptive attributes and the
InSAR data, we aim to recognize the fissure and associate it with
a geometric shape, regardless of the type of satellite and its field
of view.

For more details, please see the attached file.

Profil du candidat :

Formation et compétences requises :
The candidate should have knowledge and skills in machine
learning and AI programming (Python). Experience in remote
sensing and volcanic geophysics would be highly valued,
particularly concerning the analysis of InSAR data.

Adresse d’emploi :
LISTIC, 5 chemin de bellevue, CS80439, 74944, Annecy-le-Vieux

Document attaché : 202412050746_Internship LISTIC 2025 – Fissures.pdf

Direct detection and characterization of exoplanets: statistical learning, multi-epoch and multi-spectral data fusion
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : Centre Astrophysique de Lyon
Durée : 5 months
Contact : olivier.flasseur@univ-lyon1.fr
Date limite de publication : 2025-03-01

Contexte :

Sujet :
Internship supervisors: Olivier Flasseur, Eric Thiébaut, Maud Langlois
@ : olivier.flasseur@univ-lyon1.fr, eric.thiebaut@univ-lyon1.fr, maud.langlois@univ-lyon1.fr

Address/Workplace: CRAL – site Charles André : 9 avenue C. André, St Genis Laval

Hosting research team: AIRI

Internship title: Direct detection and characterization of exoplanets: statistical learning, multi-epoch and multi-spectral data fusion

Summary of proposed work:

Context: The direct observation of the close environment of stars can reveal the presence of exoplanets and circumstellar disks, providing crucial information for a better understanding of planetary system formation, evolution, and diversity. Given the very small angular separation with respect to the host star and the huge contrast between the (bright) star and the (faint) exoplanets and disks, imaging the immediate vicinity of a star is extremely challenging. In addition to the use of extreme adaptive optics and a coronagraph, dedicated post-processing methods combining images recorded with the pupil tracking mode of the telescope are needed to efficiently suppress the nuisance component (speckles and noise) corrupting the signals of interest.
Beyond optimal post-processing of individual observations, fusing multiple observations of the same star taken over different epochs can significantly improve the detection sensitivity. The key challenge in this approach lies in accounting for both the nuisance statistics and the orbital motion of the exoplanet across epochs. To address this, the PACOME algorithm (for PACO Multi-Epoch; [1]) has been recently introduced. PACOME leverages statistical modeling of the nuisance component and its correlations at the local scale within a small pixel patch. This approach is inherited from the PACO algorithm, specifically designed for exoplanet detection from individual (mono-epoch) dataset of observations. The by-products of PACO from each epoch provide sufficient statistics that can be optimally combined using PACOME, while efficiently exploring the Keplerian motion of exoplanets. This multi-epoch strategy yields a combined detection score that is directly interpretable as a measure of detection confidence. In addition to improving sensitivity, PACOME enables the estimation of orbital parameters, along with their joint and marginal distributions. Although PACOME achieves state-of-the-art performance, there remains room for improvement, especially near the star. Here, the assumption of a local-scale statistical description of the nuisance component overlooks larger-scale spatial correlations, thus limiting the method’s detection sensitivity.
In this context, data science developments are decisive to improve the detection sensitivity of exoplanets and the accuracy of the estimation of their orbit.

Research directions: This project will build on recent advancements in modeling the nuisance component that corrupts high-contrast total intensity observations. The focus will be on improving exoplanet detection and characterization. Possible research directions include:
1/ Modeling large-scale nuisance correlations: To address the limitations discussed, the goal is to integrate a more refined modeling of the nuisance component within multi-epoch detection algorithms. This can be achieved using the ASAP approach [2], which approximates the precision matrix (i.e., inverse of the covariance matrix) with a structured, sparse model that may better capture large-scale correlations compared to PACO.
2/ Joint spatio-spectral modeling of large-scale correlations: Building on point 1/, the objective is to develop a joint spatio-spectral model of the nuisance that accounts for large-scale correlations across both spatial and spectral dimensions.

Data: The project will focus on developing / improving new processing algorithms using spectroscopic total intensity observations (i.e., spatio-temporal-spectral data recorded with an Integral Field Spectrograph) from the SPHERE instrument, currently operating on the Very Large Telescope (VLT). Several multi-epochs observations are available to both ground the performance of the proposed algorithm and to search for new exoplanets!
Once a proof of concept is established, simulations for HARMONI, one of the first-light instruments of the upcoming Extremely Large Telescope (ELT), may be considered. In this case, the algorithm will be adapted to account for HARMONI’s specific features, particularly its higher spectral resolution. Achieving the required contrast with this instrument will require extended total exposure times on a single star, making a multi-epoch strategy indispensable.

Bibliography:
[1] Dallant+, “PACOME: Optimal multi-epoch combination of direct imaging observations for joint exoplanet detection and orbit estimation.” Astronomy & Astrophysics, 679, A38, 2023, https://arxiv.org/pdf/2309.08679
[2] Thiébaut+, “Beyond FRiM, ASAP: a family of sparse approximation for covariance matrices and preconditioners.” Adaptive Optics Systems VIII. Vol. 12185. SPIE, 2022, https://arxiv.org/pdf/2311.17721

Nature of the financial support for the internship: Labex LIO or team funding

Potential for a follow-up as a PhD thesis: Yes

Profil du candidat :
Background in signal processing, numerical methods or related fields.

Formation et compétences requises :

Adresse d’emploi :
Centre Astrophysique de Lyon
9 avenue Charles André
69230 Saint-Genis-Laval

Document attaché : 202411181114_FicheStage_CRAL_2024_AIRI_Flasseur-1.pdf