MaDICS

Huitième édition du Symposium MaDICS

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.
Cette année le Symposium se tiendra à Avignon les 2 et 3 juin 2026.

Pour en savoir plus…

Second SEEDS@MaDICS
Cette rencontre vise à créer des échanges entre les milieux industriels et le monde académique (doctorant·es et post-doctorant·es) par le biais d’une semaine de travail sur des problèmes concrets posés par des industriels et nécessitant des approches informatiques et/ou mathématiques innovantes. Ces semaines s’inspirent du modèle des SEME (Semaine d’Etude Mathématiques – Entreprise) de l’AMIES.

SEEDS@MaDICS 2026 aura lieu à l’Université de Technologie de Troyes du 22 au 26 juin 2026.
Inscrivez-vous ici (deadline le 1er juin 2026)

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…

Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.

Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus…
Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus…
Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus…
Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…

Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS

Feb

Sat

2026

Extraction et analyse de transactions issues d’une blockchain locale

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut UTINAM, UMR 6213 CNRS / UMLP
Durée : 4 à 5 mois
Contact : jose.lages@univ-fcomte.fr
Date limite de publication : 2026-02-28

Contexte :

Sujet :
Depuis toujours, les échanges de ressources, de biens et de services structurent les sociétés humaines, révélant inégalités, hiérarchies et formes d’organisation collective. À l’ère numérique, de nouvelles formes de valeur émergent, portées notamment par les technologies blockchain, qui renouvellent nos conceptions de l’échange, de la souveraineté économique et de la territorialité. Ces systèmes d’échange peuvent être étudiés comme des systèmes complexes, caractérisés par des topologies non triviales, l’émergence de comportements collectifs, ainsi que des dynamiques de coopération et de compétition. Les transactions numériques sont enregistrées dans une blockchain, un registre distribué reposant sur des mécanismes cryptographiques assurant l’intégrité et la traçabilité des échanges. L’extraction de ces données permet de reconstruire le réseau d’échanges entre acteurs et d’en analyser la structure. Dans ce projet, nous nous intéressons à un cas d’étude spécifique : la monnaie complémentaire citoyenne PIVE (Jura) et sa version numérique. Le ou la stagiaire aura pour mission, dans un premier temps, d’extraire les données issues de la blockchain associée, puis d’utiliser des outils issus de la physique statistique et de la théorie des graphes afin de caractériser le graphe de transactions sous-jacent. L’objectif est notamment d’identifier des structures centrales ou périphériques, ainsi que d’éventuelles zones de faible connectivité, afin d’apporter des éléments d’analyse sur la santé macroéconomique et territoriale du réseau PIVE. Le ou la stagiaire travaillera au sein de l’équipe de physique théorique de l’Institut UTINAM, UMR 6213 CNRS / Univ. Marie et Louis Pasteur (Besançon) et collaborera avec une équipe de recherche en économie du CRESE, Univ. Marie et Louis Pasteur.

Profil du candidat :
Environnement technique
– Programmation en Python
– Packages recommandés : PySpark, pandas, NumPy, NetworkX

Profil recherché
• Étudiant·e en Master 2 (physique ou informatique), intéressé·e par la data science. Bon niveau en programmation Python
• Des connaissances en blockchain et cryptomonnaies constituent un plus, mais ne sont pas indispensables

Formation et compétences requises :
Étudiant·e en Master 2 (physique ou informatique)

Adresse d’emploi :
Institut UTINAM, UMR 6213 CNRS / Univ. Marie et Louis Pasteur (Besançon)

Categories: Stages

Extraction et traitement de données spatio-temporelles hydrologiques et météorologiques pour le machine learning

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO
Durée : 3-4 mois
Contact : etienne.lehembre@unicaen.fr
Date limite de publication : 2026-02-28

Contexte :
Le stage se déroule dans le cadre du projet Junon au sein du LIFO (Laboratoire d’Informatique Fondamentale d’Orléans) avec le BRGM (Bureau de Recherches Géologiques et Minières). Le projet Junon a pour but de mettre en place des modèles de Machine Learning afin de prédire le niveau d’eau futur de la nappe phréatique de la Beauce. Pour entraîner ces modèles, le BRGM a fourni au projet 12 séries temporelles correspondant à 12 historiques des mesures d’eau de piézomètre (puits servant à mesurer le niveau de la nappe phréatique).

Sujet :
Afin de pouvoir complexifier les modèles, il est nécessaire d’obtenir davantage de données. Seulement, les séries temporelles des piézomètres sont souvent incomplète, car les relevés journaliers ne sont pas toujours possibles. Ainsi, le stage a pour but d’extraire les séries temporelles d’autres piézomètres, de compléter ces séries temporelles en essayant différents algorithmes d’interpolation, et de compléter ces données avec des données météorologiques issues de SAFRAN.

Profil du candidat :
Ce stage s’adresse aux étudiants en BUT3, M1 ou équivalent. Une expertise en Python (avec les librairies Pandas ou NumPy) est indispensable.

Formation et compétences requises :
Ce stage s’adresse aux étudiants en BUT3, M1 ou équivalent. Une expertise en Python (avec les librairies Pandas ou NumPy) est indispensable.

Adresse d’emploi :
LIFO, 6 Rue Léonard de Vinci, 45067 Orléans

Document attaché : 202512181055_offre-stage-Junon-Data-mining.pdf

Categories: Stages

Extraction semi-automatique d’annotations sémantiques pour la préservation du patrimoine culturel

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIAS
Durée : 6 mois
Contact : baron@ensma.fr
Date limite de publication : 2026-02-28

Contexte :
L’étude du patrimoine repose sur des données hétérogènes provenant de sources multiples (mesures, croquis, photographies, acquisitions 3D, etc.), souvent difficiles à manipuler en raison de la fragilité ou de l’inaccessibilité des objets. Le projet ANR DIGITALIS vise à développer des outils numériques dédiés à la gestion, à la pérennisation, à la réutilisation et à la visualisation de ces données. Le laboratoire LIAS, partenaire du projet ANR, travaille sur la conception de méthodes et de structures pour gérer des données complexes de manière interopérable.

Dans le cadre du projet ANR DIGITALIS, cette expertise est utilisée pour proposer un modèle de données dédié au patrimoine, permettant aux experts de partager et d’enrichir leurs annotations sur des objets patrimoniaux. Ce besoin s’inscrit dans la continuité de travaux existants,
comme le modèle sémantique CIDOC CRM, qui vise à assurer la traçabilité et l’annotation des objets numériques dans le domaine historique. Le principal enjeu est d’automatiser l’extraction des données vers ce modèle, une tâche complexe et chronophage, d’autant plus que les historiens maîtrisent peu ce formalisme et que les informaticiens ne sont pas spécialistes du patrimoine.

Le laboratoire LIAS a obtenu des résultats en explorant l’usage de l’IA générative pour transformer des données textuelles issues de fouilles archéologiques en représentations conformes au modèle CIDOC CRM.

Sujet :
Les objectifs du stage sont multiples à vise à compléter les travaux obtenus.

Le premier objectif porte sur le compromis entre précision, performance et impact environnemental, ainsi que sur les enjeux de vie privée liés aux déploiements cloud ou locaux. Le stagiaire devra donc reprendre les résultats existants et les évaluer sur différents modèles d’IA générative, qu’ils soient hébergés dans le cloud ou exécutés localement via des modèles à poids ouverts de plus petite taille. Cela permettra au stagiaire de se familiariser avec les concepts de base de l’IA générative et des travaux développés par le laboratoire LIAS dans ce domaine.

Le deuxième objectif porte sur la capacité à référencer les sources (mesures, croquis, photographies, acquisitions 3D, etc.) utilisées pour produire les annotations. Cette question, non traitée dans nos travaux initiaux, est pourtant essentielle pour assurer la traçabilité des anno-
tations. Le stagiaire devra ainsi explorer des solutions permettant d’intégrer explicitement la notion de source dans le processus de génération des annotations. Cela permettra au stagiaire de se familiariser avec le modèle CIDOC CRM.

Le troisième objectif, qui constitue la contribution principale de ce stage, porte sur l’intégration de vocabulaires contrôlés, tels que des thésaurus, dans le processus de génération des annotations. Cette intégration vise à améliorer la cohérence et la qualité des annotations, notamment
en facilitant la gestion des synonymes (par exemple : église <=> lieu de culte).

Ce stage recherche sera encadré par un doctorant travaillant sur des problématiques similaires, ainsi que deux chercheurs du laboratoire LIAS spécialisés dans le domaine de l’IA générative et du patrimoine. Une publication scientifique serait attendue à l’issue du stage, en fonction des résultats obtenus.

Profil du candidat :
Le candidat doit être en Master 2 en Informatique ou en dernière année de préparation d’un diplôme d’ingénieur spécialité Informatique.

Formation et compétences requises :
Une bonne connaissance du langage de programmation Python et des bibliothèques usuelles d’apprentissage automatique est requise.

Adresse d’emploi :
Le stage se déroulera dans les locaux du LIAS sur le site du Futuroscope.

Document attaché : 202601050906_Sujet_Stage_DigitalisAli_2026.pdf

Categories: Stages

Offre de stage M2 – Enrichissement d’ontologies par approche neuro-symbolique (LLM)

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : HELP/– — –

Laboratoire/Entreprise : Laboratoire d’Intelligence Artificielle et Sémant
Durée : 4 à 5 mois
Contact : t.mecharnia@iut.univ-paris8.fr
Date limite de publication : 2026-02-28

Contexte :

Sujet :
Ce stage s’inscrit dans des travaux de recherche à l’interface entre intelligence artificielle symbolique, apprentissage automatique et ingénierie des connaissances. Il portera notamment sur l’exploitation de LLM pour la génération, l’alignement et la validation de connaissances ontologiques.

Une description détaillée du sujet, des objectifs scientifiques et du contexte de recherche est disponible dans le document joint.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Équipe EID du LIASD, IUT de Montreuil, 140 Rue de la Nouvelle France,
93100 Montreuil, France

Document attaché : 202601071430_Annonce_Stage_M2.pdf

Categories: Stages

Offre de stage M2 – Enrichissement d’ontologies par approche neuro-symbolique (LLM)

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Intelligence Artificielle et Sémant
Durée : 4 – 5 mois
Contact : t.mecharnia@iut.univ-paris8.fr
Date limite de publication : 2026-02-28

Contexte :
Les grands modèles de langage (LLM) tels que GPT, Llama ou Mistral sont capables de raisonner sur du texte, d’extraire des entités et d’établir des relations sémantiques complexes. Leur utilisation pour l’enrichissement automatique d’ontologies est un domaine émergent en ingénierie des connaissances.
Toutefois, les informations produites par un LLM ne respectent pas nécessairement la cohérence logique ni la structure formelle d’une ontologie exprimée en OWL. Ce stage s’inscrit dans une démarche de recherche visant à concevoir une approche neuro-symbolique, combinant :
— La créativité sémantique d’un LLM pour proposer de nouveaux concepts et propriétés.
— La rigueur du raisonnement logique via un moteur de raisonnement OWL permet de valider ces propositions.
L’objectif est de développer un cadre d’enrichissement automatique d’ontologies à partir de textes scientifiques, de notices techniques ou de graphes RDF existants.

Une description détaillée du sujet, des objectifs scientifiques et du contexte de recherche est disponible dans le document joint.

Les candidats intéressés sont invités à transmettre, exclusivement au format PDF, les documents suivants à l’adresse :
t.mecharnia@iut.univ-paris8.fr

Profil du candidat :
Etudiant·e en 2e année de master ou en dernière année d’école d’ingénieur dans le domaine de l’intelligence artificielle, avec des compétences

Formation et compétences requises :
Techniques :
— Programmation : Python (rdflib, transformers, torch).
— Web sémantique : RDF, OWL, SPARQL, Protégé.
— NLP / LLMs : prompts, pipelines, fine-tuning (un plus).
— Raisonnement symbolique, logiques des descriptions, utilisation de reasoners.

Scientifiques :
— Compréhension des modèles LLM.
— Conception d’ontologies et validation sémantique.

Adresse d’emploi :
Équipe EID du LIASD, IUT de Montreuil, 140 Rue de la Nouvelle France, 93100 Montreuil, France

Document attaché : 202601071543_Annonce_Stage_M2.pdf

Categories: Stages

Stage M2 : Deep metric learning of 2D shape representations

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : 5-6 mois
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2026-02-28

Contexte :
In the field of 2D or 3D region of interest (ROI) delineation in medical imaging, combining segmentations of anatomical structures from different sources proves beneficial. This is particularly relevant given the development of multimodal and multi-parametric imaging acquisition devices. Furthermore, combining multiple expert tracings of the same ROI can be useful for evaluating segmentation methods to estimate a consensus ground truth, thereby accounting for intra- or inter-expert variability. Finally, combining multiple segmentation methods can help improve results and their reproducibility. Thus, even though deep learning segmentation methods offer highly accurate results, it is sometimes necessary to combine several architectures or parameterizations to pool segmentation results and reduce variability.
To address these various challenges in segmentation method evaluation and fusion, the CREATIS lab and its collaborators have been developing a method for several years to compute a mutual shape from n masks corresponding to n segmentations of the same region. Within this working group, we initially proposed a variational formulation of the foundational STAPLE algorithm, enabling the evaluation of segmentation methods without a gold standard. The mathematical framework we established, based on domain optimization tools, subsequently allowed us to study different shape metrics, including an original shape metric based on information theory concepts. This metric also proved relevant for the robust fusion of 2D or 3D segmentation methods.

Sujet :
Based on this mathematical framework we aim for developing a deep learning based model to combine several segmentation maps and compare it with our analytical methods.
The aim of this internship is to design a new deep learning architecture similar to N. Courty et al. “Learning Wasserstein Embeddings”. It would be composed of a (convolutional) auto-encoder that is trained to reconstruct segmentation maps combined with a contrastive learning framework to structure the embedding space according to the desired properties of the shape distance (e.g. mutual shape). The advantage of such a model is that it may compute distances between shapes in a Euclidean space (i.e. the distance between the embeddings) and thus more easily compute the final reference shape of the n input segmentation maps by combining the n embeddings and reconstructing the corresponding segmentation map.
There are several scientific challenges that need to be addresses, e.g. the way to constrain the latent space according to the target distance measure, the architecture of the neural network and loss function and the way to combine several embeddings.
In the first place, we will work with binary segmentation maps and later, potentially, extend the approach to probability maps. An advantage would be that a combination based on probability maps would better incorporate uncertainty and, in theory, lead to a better fused reference shape. In this regard, the intern will collaborate with another intern working on the mathematical aspects of the extension of the existing method (of mutual shape) to probability maps.

Profil du candidat :
Good skills in python programming and machine learning, in particular deep learning.
Scientific curiosity and autonomy.

Formation et compétences requises :
Student in M2 or engineering school in computer science or applied mathematics.

Adresse d’emploi :
INSA Lyon
7 Avenue Jean Capelle
69621 Villeurbanne

Document attaché : 202511190724_internship_smip_liris_2026.pdf

Categories: Stages

Mar

Sun

2026

Stage M2 — Privacy attacks on synthetic data generation

Tickets

Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire IRISA
Durée : 5-6 mois
Contact : tristan.allard@irisa.fr
Date limite de publication : 2026-03-01

Contexte :
Health data, social networks, electricity consumption… Vast quantities of personal data are collected today by private companies or public organizations. Various legal, monetary, or visibility incentives push data holders to envision sharing versions of the collected datasets that provide both statistical utility and privacy guarantees. Indeed, sharing data at large, e.g., as open data, without jeopardizing privacy, is expected to bring strong benefits (strengthening, e.g., scientific studies, innovation, public policies). Synthetic data generation is a promising approach. First, synthetic data generation algorithms aim at generating datasets that are as close as possible to the original datasets. Either synthetically generated data or the generative models trained over the original data could be shared for supporting elaborate data analysis. Second, substantial progress has been made during the last decade about the privacy guarantees of synthetic data generation algorithms. For example, there exist today synthetic data generation algorithms that satisfy variants of differential privacy, one of the most prominent family of privacy models. However, the wealth of generative algorithms, of privacy models and algorithms, and of parameters makes it hard for non expert users to understand clearly the privacy implications of any given choice. Given the growing number of privacy attacks on machine learning models and especially on generative algorithms, an inappropriate choice can result in catastrophic consequences.

Sujet :
The main goal of this M2 thesis is to design an efficient approach for allowing a data holder to compute the most relevant privacy attacks given the data holder’s choice.

The main tasks of the Master student will be to:
• Study the state-of-the-art about privacy attacks (e.g., membership inference attacks [2, 4, 5]). We will focus on tabular data.
• Formalize the attackers (e.g., adversarial goals, background knowledge, impacts and costs of the attacks, vulnerable algorithms), structure the space of attackers (e.g., generalization/specialization of attackers, implications), and explore efficiently the resulting space for finding the attacks that best illustrate the privacy risks.
• Implement the approach and evaluate its performance.

In addition to the core tasks of the project, the successful candidate will also contribute to the organisation of competitions where the privacy guarantees of synthetic data generation algorithms are challenged.

Profil du candidat :
• The candidate must be in the second year of a master’s degree, or equivalent, in computer science or in a related field.
• The candidate must be curious, autonomous, and rigorous.
• The candidate must be able to communicate in English (oral and written). The knowledge of the French language is not required.
• The candidate must have a strong interest in cybersecurity.
• Skills in machine learning will be appreciated.

Formation et compétences requises :

Adresse d’emploi :
Campus de Beaulieu IRISA/Inria Rennes
263 avenue du Général Leclerc
35042 RENNES cedex

Document attaché : 202511171626_m2-attacks-25_26.pdf

Categories: Stages

Mar

Sun

2026

Offre de stage M2 – Correction de requêtes SPARQL avec LLMs

Tickets

Mar 8 – Mar 9 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Intelligence Artificielle et Sémantique des Donnée
Durée : 5 – 6 mois
Contact : t.mecharnia@iut.univ-paris8.fr
Date limite de publication : 2026-03-08

Contexte :

Sujet :
Les graphes de connaissances constituent une infrastructure centrale pour la représentation et l’interrogation de données structurées dans de nombreux domaines (Web de données, bases de connaissances ouvertes, systèmes d’aide à la décision). Le langage SPARQL permet d’interroger ces graphes de manière précise, mais sa maîtrise reste complexe, tant pour les utilisateurs humains que pour les systèmes automatisés.

Dans les systèmes récents de traduction du langage naturel vers SPARQL (Text-to-SPARQL), les modèles de langage (LLMs) sont de plus en plus utilisés. Toutefois, ces modèles génèrent fréquemment des requêtes SPARQL erronées, soit sur le plan syntaxique, soit plus souvent sur le plan sémantique (mauvais prédicats/propriétés, incohérences avec l’ontologie).

La correction automatique de requêtes SPARQL constitue donc un enjeu majeur pour améliorer la fiabilité, la robustesse et l’explicabilité des LLMs en les combinant avec des schémas ontologiques.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
IUT de Montreuil, 140 Rue de la Nouvelle France, 93100 Montreuil, France

Document attaché : 202602080855_Stage_M2_EID_2026___Correction_de_requetes_SPARQL_avec_LLMs.pdf

Categories: Stages

Apr

Fri

2026

Étude, conception et exploitation de modèles de Knowledge Tracing multi-sources

Tickets

Apr 17 – Apr 18 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique Fondamentale d’Orléans
Durée : 4 à 6 mois
Contact : guillaume.cleuziou@univ-orleans.fr
Date limite de publication : 2026-04-17

Contexte :

Sujet :
Le Knowledge Tracing est un domaine d’étude à l’intersection de l’Educational Data Mining (EDM), du Learning Analytics (LA) et de l’IA en Education (AIED) qui renferme un ensemble de méthodes de modélisation des connaissances d’un apprenant à partir de l’analyse de ses activités pédagogiques dans un environnement pédagogique digital. Ces modélisations sont utilisées dans des tâches de prédiction de la réussite et permettent alors de concevoir des parcours personnalisés d’apprentissage (ITS -Intelligent Tutoring Systems). Ces méthodes reposent aujourd’hui principalement sur des modèles de Machine Learning et plus particulièrement d’apprentissage profond (deep learning). Ces approches ont conduit à l’émergence du Deep Knowledge Tracing depuis les travaux de PIECH et al. (2015).

Les recherches existantes exploitent principalement les activités pédagogiques prenant la forme d’exercices, généralement dédiés à l’acquisition d’une compétence cible, dont la réussite ou l’échec aide à estimer le niveau de maîtrise de l’apprenant à cette compétence. Plus récemment des travaux proposent d’exploiter non plus seulement les exercices mais également les dialogues tuteur/apprenant issus par exemple d’un chatbot, au moyen de LLMs (SCARLATOS, BAKER et LAN 2025). Ces avancées prometteuses tirent avantage des progrès récents en IA et offrent des opportunités nouvelles en terme d’innovations dans le domaine du Knowledge Tracing.

L’objectif du stage est d’une part de dresser un état de l’art du domaine (Knowledge Tracing) et en particulier une revue des approches récentes mettant en oeuvre une exploitation des dialogues tuteur/apprenant. Il s’agira également d’étudier les solutions d’exploitation conjointe de plusieurs sources d’information (exercices, dialogues, traces d’activités, etc.) au sein d’un modèle de Knowledge Tracing unifié. Une étude expérimentale sur données réelles est attendue. Dans cette optique, le·a stagiaire collaborera avec ses encadrants et l’équipe e-INSPE :
– dans la mise en place de la collecte des données sur les formations de la plateforme
– sur l’information aux usagers concernés par ce projet de recherche> en informant des objectifs et de l’état d’avancement de son projet
– en initiant aux fondamentaux des champs concernés (knowledge tracing, apprentissage automatique, deep learning)

Ce stage pourra donner lieu à une poursuite en thèse.

Références

PIECH, Chris et al. (2015). “Deep knowledge tracing”. In : Advances in neural information processing systems 28.

SCARLATOS, Alexander, Ryan S BAKER et Andrew LAN (2025). “Exploring knowledge tracing in tutor-student dialogues using llms”. In : Proceedings of the 15th international learning analytics and knowledge conference, p. 249-259.

Profil du candidat :
Vous manifestez un intérêt pour les sciences de l’éducation.

Une expertise Moodle serait un plus mais des modalités de formation (via l’Université d’Orléans ou de Tours et Réseau Canopé) seront envisageables.

Formation et compétences requises :
Vous êtes étudiant·e en master ou en école d’ingénieur en Informatique.

Vous disposez d’une culture scientifique en Apprentissage Automatique et d’une expérience dans la mise en œuvre de modèles de Deep Learning.

Adresse d’emploi :
DT Canopé (en fonction de la domiciliation du candidat) ; réunions en présentiel à prévoir au LIFO (Orléans)

Document attaché : 202603261753_Stage_M2_2026_eINSPE_LIFO.pdf

Categories: Stages

Modélisation adaptative par apprentissage profond actif des blocs opératoires dans les systèmes hospitaliers

Tickets

Apr 17 – Apr 18 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique Bioinformatique et Sys
Durée : 5 à 6 mois
Contact : Khalifa.Djemal@ibisc.univ-evry.fr
Date limite de publication : 2026-04-17

Contexte :
Offre de Stage financée au sein du laboratoire IBISC Université Evry Paris Saclay.

Sujet :
La planification des tâches pour des blocs opératoires comme les admissions, est un problème complexe compte tenu de la l’intervention humaine et en particulier des événements aléatoires perturbatrices. Dans ce domaine, de nombreuses recherches ont été menées ces dernières années, la plupart de ces travaux sont basés sur des modèles stochastiques. L’intelligence artificielle a montré son efficacité pour résoudre des systèmes complexes dans différents domaines d’applications. Dans ce contexte, des modèles de planification peuvent s’appuyer sur les approches de l’apprentissage automatique. En effet, ces techniques permettent de développer des modèles d’ordonnancement prédictif et de l’optimisation des entrepôts de données.

L’objectif de ce stage, consiste dans le développement d’une approche de planification adaptative du bloc opératoire. Basée sur le principe de l’apprentissage automatique, la méthode de planification permettra le pilotage temps-réel du bloc opératoire. Les travaux seront réalisés dans un cadre d’application pratique dans des services de chirurgie faisant partie de l’établissement hospitalier.

Le candidat réalisera une étude de l’état de l’art et se penchera ensuite sur les différentes possibilités de la mise en place d’une stratégie de planification par apprentissage automatique tenant compte des contraintes souvent incertaines qui peuvent surgir à tout instant.

Références:

[1] Valentina Bellini, Michele Russo, Tania Domenichetti, Matteo Panizzi, Simone Allai, Elena Giovanna Bignami, Artificial Intelligence in Operating Room Management, Journal of Medical Systems (2024) 48:19 https://doi.org/10.1007/s10916-024-02038-2

[2] Zhenzhong Liu, Kelong Chen, Shuai Wang, Yijun Xiao, Guobin Zhang, Deep learning in surgical process modeling: A systematic review of workflow recognition, Journal of Biomedical Informatics, Volume 162, February 2025, 104779 https://doi.org/10.1016/j.jbi.2025.104779

[3] Md Mahfuzur Rahman, Rubayet Karim, Md Moniruzzaman, Md Afjal Hossein and Hammad Younes, Modeling Hospital Operating Theater Services: A System Dynamics Approach, Logistics2023, 7(4), 85; https://doi.org/10.3390/logistics7040085

Profil du candidat :

Formation et compétences requises :
De formation Master 2 ou équivalent possédant de préférence les compétences suivantes:
– Programmation Python, Matlab,
– Machine Learning
– Des connaissances de base en modélisation et ordonnancement

Adresse d’emploi :
Laboratoire Informatique, Bioinformatique et Systèmes Complexes – IBISC
40 rue du Pelvoux, 91020 Evry, France.

Document attaché : 202601251431_Sujet-Stage-BO.pdf

Categories: Stages

Apr

Wed

2026

Estimation du schéma d’acquisition en imagerie par résonnance magnétique (IRM)

Tickets

Apr 29 – Apr 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : institut Fresnel
Durée : 4 à 6 mois
Contact : andre@fresnel.fr
Date limite de publication : 2026-04-29

Contexte :

Sujet :
See attached file

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
52 Av. Escadrille Normandie Niemen, 13013 Marseille

Document attaché : 202509111720_sujet stage MRI CS.pdf

Categories: Stages

Image processing for the enhancement of brain tumor biomarker visualization from images acquired by Stimulated Raman Scattering microscopy

Tickets

Apr 29 – Apr 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : institut Fresnel
Durée : 4 à 6 mois
Contact : andre@fresnel.fr
Date limite de publication : 2026-04-29

Contexte :

Sujet :
please see the attached file

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
52 Av. Escadrille Normandie Niemen, 13013 Marseille

Document attaché : 202509111718_sujet stage SRH.pdf

Categories: Stages

Apr

Thu

2026

Argumentative Graph-RAG for Participatory Democracy

Tickets

Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6, Sorbonne University
Durée : 5-6 months
Contact : rafael.angarita@lip6.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
Participatory democracy platforms (Make, Decidim, Cap Collectif, Consul) enable thousands of citizens to propose and discuss ideas for public policies. However, the large volume of textual contributions produces severe information overload: citizens struggle to identify similar or opposing proposals, while decision-makers face difficulty in detecting consensus or disagreement.

Recent research at LIP6 has shown that Natural Language Processing (NLP) can detect argumentative relations between citizen proposals (equivalence, contradiction, neutrality). These relations can be structured into argumentative graphs, which help organize debates and improve navigation within large participatory datasets.

This internship aims to extend these ideas using Graph Retrieval-Augmented Generation (Graph-RAG). By combining graph-based retrieval with language generation, the project seeks to build intelligent tools capable of summarizing debates, identifying conflicting or redundant proposals, and assisting citizens in writing balanced contributions.

Profil du candidat :
Master 2 / Final-year engineering

Formation et compétences requises :
– Programming: Python, PyTorch or TensorFlow

– NLP / ML: Experience with large language models, embeddings, or NLP tasks

– Data Science: Text preprocessing, vector representations, evaluation metrics

– Research: Ability to conduct literature reviews, design small experiments, and analyze results

– Participatory democracy: Interest in participatory democracy or computational argumentation

Adresse d’emploi :
Sorbonne University, 4 place Jussieu 75005 Paris.

Document attaché : 202511121059_Stage_LIP6_2025_2026.pdf

Categories: Stages

Développement d’un module radiomique prédictif de la pneumopathie radio-induite après radiothérapie pulmonaire (Projet RP radiomics)

Tickets

Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CRESTIC (URCA) / Institut Godinot (Reims)
Durée : 6 mois
Contact : Arnaud.BEDDOK@reims.unicancer.fr
Date limite de publication : 2026-04-30

Contexte :
Cf. Fiche

Sujet :
Développement d’un module radiomique prédictif de la pneumopathie radio-induite après radiothérapie pulmonaire (Projet RP radiomics)

Cf. fiche.

Profil du candidat :
Cf. fiche.

Formation et compétences requises :
Cf. fiche.

Adresse d’emploi :
CRESTIC (URCA) / Institut Godinot (Reims)

Document attaché : 202512180752_Offre de stage M2 20250926.pdf

Categories: Stages

Efficient self-supervised learning using dataset distillation

Tickets

Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIPADE
Durée : 6 months
Contact : ayoub.karine@u-paris.fr
Date limite de publication : 2026-04-30

Contexte :
The performance of supervised deep learning methods in computer vision heavily depends on the availability of
labeled data, whose annotation is both time-consuming and requires expert knowledge. To overcome this limitation,
Self-Supervised Learning (SSL) has emerged as a promising alternative to address the challenge of limited annotations.
In this paradigm, models learn from unlabeled data by generating their own supervisory signals. The resulting pre-
trained models can then be fine-tuned on various downstream tasks such as image classification, object detection, and
semantic segmentation. However, achieving performance comparable to supervised learning often requires large-scale
datasets and high training costs, which significantly increase computational and storage demands. This internship
aims to alleviate these constraints by exploring data distillation techniques to make SSL training more efficient.

Sujet :
Dataset Distillation (DD) [1] aims to condense a large-scale training dataset into a much smaller synthetic one
such that models trained on the distilled data achieve performance comparable to those trained on the original
dataset (see figure 1). Most existing DD methods are designed for efficient supervised learning and can be broadly
classified into three main categories [2] : (1) Performance Matching, which minimizes the loss on the synthetic
dataset by aligning the performance of models trained on real and synthetic data, (2) Parameter Matching, which
trains two neural networks respectively on real and synthetic data and encourages similarity in their parameters and
(3) Distribution Matching, which generates synthetic data that closely mimics the distribution of the original dataset.
In this internship, we will focus on the Parameter Matching approach. Building upon the work of Cazenavette et al.
[3], the authors of [4] extended this concept to SSL using knowledge distillation [5, 6, 7], particularly employing SSL
methods such as Barlow Twins and SimCLR. In the same vein, this internship will explore the DINO (self-DIstillation
with NO labels, MetaAI) SSL method [8], which naturally produces teacher–student parameter trajectories that can
be leveraged for Parameter Matching. The different steps of the internship are :
▷ Step 1 – Literature review : Review recent dataset distillation methods applied to computer vision, with a
focus on parameter matching and SSL-based approaches.
▷ Step 2 – Trajectory Observation : Analyze and visualize the teacher–student parameter trajectories generated
by DINO during SSL training.
▷ Step 3 – Integration into Data Distillation Frameworks : Design a trajectory matching loss based on
DINO’s teacher–student dynamics and train a student model on synthetic data guided by these trajectories.
▷ Step 4 – Test on down-stream computer vision tasks : Assess the effectiveness of the proposed approach
on tasks such as image classification
– Bibliography
[1] Tongzhou Wang et al. “Dataset distillation”. In : arXiv preprint arXiv :1811.10959 (2018).
[2] Ruonan Yu, Songhua Liu et Xinchao Wang. “Dataset distillation : A comprehensive review”. In : IEEE transactions on pattern analysis and machine
intelligence 46.1 (2023), p. 150-170.
[3] George Cazenavette et al. “Dataset distillation by matching training trajectories”. In : Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition. 2022, p. 4750-4759.
[4] Siddharth Joshi, Jiayi Ni et Baharan Mirzasoleiman. “Dataset Distillation via Knowledge Distillation : Towards Efficient Self-Supervised Pre-training
of Deep Networks”. In : The Thirteenth International Conference on Learning Representations. 2025. url : https://openreview.net/forum?id=c61unr33XA.
[5] Geoffrey Hinton, Oriol Vinyals et Jeff Dean. “Distilling the knowledge in a neural network”. In : arXiv preprint arXiv :1503.02531 (2015).
[6] Ayoub Karine, Thibault Napoléon et Maher Jridi. “I2CKD : Intra- and inter-class knowledge distillation for semantic segmentation”. In : Neurocomputing
649 (oct. 2025), p. 130791. url : https://hal.science/hal-05144692.
[7] Ayoub Karine, Thibault Napoléon et Maher Jridi. “Channel-spatial knowledge distillation for efficient semantic segmentation”. In : Pattern Recognition
Letters 180 (avr. 2024), p. 48-54. url : https://hal.science/hal-04488459.
[8] Oriane Siméoni et al. “Dinov3”. In : arXiv preprint arXiv :2508.10104 (2025)

Profil du candidat :
The ideal
candidate should have knowledge in deep learning, computer vision, Python programming and an interest in efficient
machine/deep learning.

Formation et compétences requises :
Master 2 student or final year of MSc, or engineering school in computer science.

Adresse d’emploi :
45 rue des Saints-Pères, 75006, Paris

Document attaché : 202511111324_2025_Internship_DD_SSL.pdf

Categories: Stages

Interprétabilité en IA des séries temporelles radar

Tickets

Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 4-6 mois
Contact : christophe.lin-kwong-chon@univ-smb.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
Interprétabilité en IA des séries temporelles radar

(descriptions détaillées dans la fiche attachée)

Profil du candidat :
Des compétences en machine learning sont attendues.
Le stage portera exclusivement sur la programmation en Python.
Une expérience en télédétection radar, géophysique des volcans
ou en explicabilité/interprétabilité de l’IA serait un atout.

Formation et compétences requises :

Adresse d’emploi :
LISTIC, 5 chemin de bellevue, 74944, Annecy le Vieux

Document attaché : 202510060816_Sujet – Interprétabilité en IA des séries temporelles radar.pdf

Categories: Stages

Knowledge Distillation from Large Vision Foundation Models for Efficient Dense Prediction

Tickets

Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIPADE
Durée : 6 months
Contact : ayoub.karine@u-paris.fr
Date limite de publication : 2026-04-30

Contexte :
Recently, several Large Vision Foundation Models (LVFMs) have been proposed in the literature [1]. They are
trained through a Self-Supervised Learning (SSL) paradigm on large-scale unlabeled datasets and evaluated on small
labeled datasets (fine-tuning). These models have achieved state-of-the-art performance across a wide range of
downstream computer vision tasks, including both non-dense tasks (e.g., image classification, image retrieval) and
dense tasks (e.g., semantic segmentation, object detection). However, the growing size and computational demands of
the LVFMs significantly constrain their applicability in resource-limited devices (e.g., drone, smarphone). For instance,
CLIP (Contrastive Language–Image Pretraining, OpenAI) [2] comprises up to 0.4 billion parameters, DINOv3 (self-
DIstillation with NO labels, MetaAI) [3] includes models with up to 7 billion parameters, and the SAM 2 (Segment
Anything Model, Meta AI) [4] exceeds 224 million parameters. To reduce the computational demands of such massive
architectures, this internship will focus on investigating knowledge distillation techniques.

Sujet :
The knowledge distillation (KD) technique [5, 6, 7] transfers knowledge from a powerful teacher network to a
smaller student model, enabling the student to achieve significantly improved performance with lower computational
cost. In this process, the student is trained on the same dataset as the teacher, allowing it to directly leverage the
teacher’s learned representations. However, directly applying KD to LVFMs presents several challenges. First, the
most performant LVFMs are developed by large tech companies, and their training datasets are often not publicly
available. Second, these LVFMs typically employ Vision Transformer (ViT) architectures [8] as encoders, whereas
convolutional neural networks (CNNs) are generally lighter and more computationally efficient, making them strong
candidates for student models on edge devices. Third, there are significant discrepancies in capacity between LVFMs
and smaller edge models. The latter two challenges are partially addressed by Lee et al. [9], who propose a method
to customize the well-generalized features of LVFMs for a given student model. Despite promising results, this work
does not thoroughly address the issues of unavailable source datasets and cross-architecture knowledge transfer.
Additionally, only the image classification task is considered. In this internship, we aim to tackle these challenges by
investigating state-of-the-art methods for cross-architecture KD [10], data-free KD [11] and adaptive KD [12]. As
illustrated in figure 1, we will focus on two dense down-stream tasks : semantic segmentation and object detection.
The different steps of the internship are :
▷ Step 1 – Literature review on KD from foundation models
▷ Step 2 – Compare different methods of cross-architecture KD, data-free KD and adaptive KD : The
teacher will be a LVFM such as CLIP, DINOv3 and SAM2. The student encoder should be a CNN one like ResNet18.
▷ Step 3 – Test the student model on different semantic segmentation and object detection datasets :
A comparison is to be done with classical KD methods dedicated to dense prediction.
– Bibliography
[1] Muhammad Awais et al. “Foundation models defining a new era in vision : a survey and outlook”. In : IEEE Transactions on Pattern Analysis and
Machine Intelligence (2025).
[2] Alec Radford et al. “Learning transferable visual models from natural language supervision”. In : International conference on machine learning. PmLR.
2021, p. 8748-8763.
[3] Oriane Siméoni et al. “Dinov3”. In : arXiv preprint arXiv :2508.10104 (2025).
[4] Nikhila Ravi et al. “Sam 2 : Segment anything in images and videos”. In : arXiv preprint arXiv :2408.00714 (2024)
[5] Geoffrey Hinton, Oriol Vinyals et Jeff Dean. “Distilling the knowledge in a neural network”. In : arXiv preprint arXiv :1503.02531 (2015).
[6] Ayoub Karine, Thibault Napoléon et Maher Jridi. “I2CKD : Intra- and inter-class knowledge distillation for semantic segmentation”. In : Neurocom-
puting 649 (oct. 2025), p. 130791. doi : 10.1016/j.neucom.2025.130791. url : https://hal.science/hal-05144692.
[7] Ayoub Karine, Thibault Napoléon et Maher Jridi. “Channel-spatial knowledge distillation for efficient semantic segmentation”. In : Pattern Recognition
Letters 180 (avr. 2024), p. 48-54. doi : 10.1016/j.patrec.2024.02.027. url : https://hal.science/hal-04488459.
[8] Alexey Dosovitskiy et al. “An Image is Worth 16×16 Words : Transformers for Image Recognition at Scale”. In : International Conference on Learning
Representations. 2021. url : https://openreview.net/forum?id=YicbFdNTTy.
[9] Jungsoo Lee et al. “Customkd : Customizing large vision foundation for edge model improvement via knowledge distillation”. In : Proceedings of the
Computer Vision and Pattern Recognition Conference. 2025, p. 25176-25186.
[10] Weijia Zhang et al. “Cross-Architecture Distillation Made Simple with Redundancy Suppression”. In : Proceedings of the IEEE/CVF International Confe-
rence on Computer Vision. 2025, p. 23256-23266.
[11] Qianlong Xiang et al. “Dkdm : Data-free knowledge distillation for diffusion models with any architecture”. In : Proceedings of the Computer Vision and
Pattern Recognition Conference. 2025, p. 2955-2965.
[12] Yichen Zhu et Yi Wang. “Student customized knowledge distillation : Bridging the gap between student and teacher”. In : Proceedings of the IEEE/CVF
International Conference on Computer Vision. 2021, p. 5057-5066.

Profil du candidat :
The ideal candidate should have knowledge in deep learning, computer vision, Python programming and an interest in efficient
deep learning.

Formation et compétences requises :
Master 2 student or final year of MSc, or engineering school in computer science

Adresse d’emploi :
45 rue des Saints-Pères, 75006, Paris

Document attaché : 202511111320_2025_Internship_KD_LVFM.pdf

Categories: Stages

Régression symbolique pour la modélisation en volcanologie

Tickets

Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 4-6 mois
Contact : argheesh.bhanot@univ-smb.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
En sciences naturelles, la modélisation des phénomènes physiques constitue toujours un sujet difficile. Les formules existantes ne suffisent parfois pas à représenter adéquatement les mécanismes complexes, notamment ceux qui ne sont pas directement observables. Il arrive également que ces formules ne correspondent pas parfaitement aux observations issues des données. Ces problèmes ont, par exemple, été rencontrés dans le suivi de la concentration des polluants, l’étalement de la végétation ou encore les coulées de lave.
Dans ce projet, nous nous concentrons sur la modélisation volcanique. En volcanologie, par exemple, les scientifiques disposent de mesures de déplacements en surface, obtenues grâce à l’imagerie SAR, induits par une source volcanique en profondeur, et utilisent ces mesures pour estimer les paramètres physiques d’un modèle volcanique.
Dans un premier temps, nous sommes partis d’un modèle simple sous forme d’une expression analytique : le modèle Mogi. Dans ce modèle, deux paramètres clés, la variation du volume et la profondeur de la chambre magmatique ont été modifiés pour générer des données synthétiques. En utilisant la régression symbolique, nous avons exploré des expressions mathématiques directement à partir des données. La
pertinence de l’approche et la sensibilité de la modélisation à la variété de l’activité volcanique, sur des données synthétiques et des sites volcaniques réels, ont été mesurées et comparées au modèle Mogi original. L’approche fonctionne bien jusqu’à un certain niveau de bruit, notamment sur les données
synthétiques. L’objectif du stage consiste à utiliser les méthodes de régression symbolique pour affiner le modèle Mogi, car il reste une vision simplifiée de la physique sous-jacente. Des travaux supplémentaires sont encore nécessaires pour améliorer les résultats sur les données réelles en proposant des nouvelles techniques en régression symbolique. En s’appuyant sur des travaux d’IA classique développés au laboratoire sur
l’inversion de modèles géophysiques, trois types de données sont disponibles pour créer un cadre expérimental et de validation : 1) des déplacements simulés à partir du modèle Mogi ; 2) des déplacements simulés avec un bruit ajouté ; 3) des déplacements réels sur des volcans africains. Selon
l’avancement du projet, cette étude pourra être étendue à un modèle volcanique plus sophistiqué, par exemple le modèle Okada, qui décrit le mécanisme de fonctionnement d’un volcan à l’aide d’un plus grand nombre de paramètres et s’appuie sur des équations différentielles. Le stagiaire appuiera entre autres sur les articles suivants :
– Cranmer, M. (2023). Interpretable machine learning for science with PySR and SymbolicRegression. jl.
arXiv preprint arXiv:2305.01582.
– Tenachi, W., et al. (2023). Physical Symbolic Optimization. arXiv preprint arXiv:2312.03612.
– Albino, F., & Biggs, J. (2021). Magmatic processes in the East African Rift system: insights from a 2015–
2020 Sentinel‐1 InSAR survey. Geochemistry, Geophysics, Geosystems, 22(3), e2020GC009488.
– Dzurisin, D. (2007), Volcano Deformation: Geodetic Monitoring Techniques. Mogi, K. (1958), Bull. Earthq.
Inst. U. Tokyo, 36, 99‐134 Delaney, P., McTigue, D. (1994) Bull. Volcanology, 56 417‐42
– Lopez-Uroz L, Yan Y., Benoit A., Albino F., Bouygues P., Giffard-Roisin S., Pinel V., Exploring Deep Learning
for Volcanic Source Inversion, IEEE Transactions on Geosciences & Remote Sensing.
– Petersen, B. K., et al. (2019). Deep symbolic regression: Recovering mathematical expressions from data
via risk-seeking policy gradients. arXiv preprint arXiv:1912.04871.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
LISTIC, 5 chemin de bellevue, 74944, Annecy le Vieux, France.

Document attaché : 202510221322_stage_regressionsymbolique_2026.pdf

Categories: Stages

Transformer-based methods for cluster detection in astronomical images

Tickets

Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIPADE & APC
Durée : 6 mois
Contact : ayoub.karine@u-paris.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
Deep Learning techniques have revolutionized artificial intelligence. Their application to astrophysics and cosmology permits us to analyze the large quantity of data obtained with
current surveys and expected from future surveys with the aim of improving our understanding of the cosmological model.
The internship is in the context of the data acquired by Vera Rubin Observatory (https://www.lsst.org/about) LLST (Legacy Survey of Space and Time), in particular in the context of the Dark Energy (DESC) and Galaxies Rubin Science Collaborations
(https://rubinobservatory.org/for-scientists/science-collaborations), and of the Euclid space mission (https://sci.esa.int/web/euclid). Galaxy clusters are powerful probes for cosmological models. LSST and Euclid will reach
unprecedented depths and, thus, they require highly complete and pure cluster catalogs, with a well-defined selection function. In this internship, we will focus on analysing astronomical
images through deep learning. Our team have developed a new cluster detection algorithm named YOLO for CLuster detection
(YOLO-CL), which is a modified version of the state-of-the-art object detection deep convolutional network named You only look once (YOLO) that has been optimized for the
detection of galaxy clusters [1,2]. The YOLO approach is a convolution-based method that primarily captures local features. In this internship, we aim to investigate transformer-based methods to model global relationships across entire astronomical images. These models are capable of capturing spatial and contextual interactions between multiple objects, which is expected to enhance detection performance compared to YOLO in our target application. In this context, we focus on the Detection Transformer (DETR) framework [3], an end-to-end
architecture that employs a transformer encoder–decoder network.
– Bibliography
[1] Grishin, Kirill, Simona Mei, and Stéphane Ilić. “YOLO–CL: Galaxy cluster detection in the SDSS with deep machine learning.” Astronomy & Astrophysics 677 (2023): A101.
[2] Grishin, Kirill, Simona Mei, Stephane Ilic, Michel Aguena, Dominique Boutigny, and Marie
Paturel. “YOLO-CL cluster detection in the Rubin/LSST DC2 simulations.” Astronomy & Astrophysics 695 (2025): A246.
[3] Carion, Nicolas, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. “End-to-end object detection with transformers.” In European conference on computer vision, pp. 213-229. Cham: Springer International Publishing, 2020.

Profil du candidat :
The ideal candidate should have knowledge in deep learning, computer vision, Python programming and an interest in handling astronomical images. We have already obtained funding for the internship for 3-6 months.

Formation et compétences requises :
Master 2 or final year of MSc, or engineering school students in computer science.

Adresse d’emploi :
10 rue A.Domon et Léonie Duquet, 75205 Paris and/or 45 rue des
Saints-Pères, 75006, Paris

Document attaché : 202511111316_2025_Internship_Transformer-ClusterDetection.pdf

Categories: Stages

Jun

Mon

2026

NeOWL4j : création d’un éditeur d’ontologie moderne basé sur l’environnement Neo4j

Tickets

Jun 1 – Jun 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique et Systèmes
Durée : 3 à 6 mois
Contact : alexis.guyot@lis-lab.fr
Date limite de publication : 2026-06-01

Contexte :
L’ingénierie des connaissances vise à modéliser, structurer et exploiter des savoirs pour les rendre manipulables par des systèmes informatiques. Au cœur de cette démarche, une ontologie est une représentation formelle d’un domaine : elle définit des concepts (classes), leurs relations (propriétés)
et des contraintes/axiomes (p. ex. hiérarchies, cardinalités). Les ontologies favorisent l’interopérabilité sémantique entre systèmes hétérogènes, facilitent l’intégration des données, soutiennent le raisonnement (inférences, vérification de cohérence) et encadrent la gouvernance des connaissances au moyen de référentiels partagés. Des outils comme Protégé font aujourd’hui autorité pour l’édition d’ontologies.

Le stage consiste à prototyper une alternative à Protégé en développant une surcouche d’édition et de raisonnement au-dessus du SGBD orienté graphe Neo4j, combinant ergonomie moderne, exploitation riche de graphe et compatibilité OWL (OWL API, moteurs de raisonnement standards). L’enjeu est de livrer une expérience contemporaine et efficace, sans réinventer les composants qui existent déjà lorsqu’ils sont adaptés.

Sujet :
**But du stage**
Concevoir et prototyper une application moderne (plutôt web, mais desktop possible) servant de sur-couche à Neo4j pour créer, éditer, valider et raisonner sur des ontologies (OWL/SWRL), avec une attention forte portée à l’UX et à l’esthétique. L’application doit ester interopérable avec l’écosystème existant (dont Protégé) tout en capitalisant sur les forces de Neo4j.

**Objectifs et missions**
Le/la stagiaire commencera par cadrer formellement le projet : étude de Protégé (exploration libre de l’outil, lecture de la documentation, entretiens avec des experts pour cerner besoins et limites de l’existant) ; rapide panorama des fonctionnalités des autres éditeurs d’ontologies, éventuellement complété par un album de captures pour comparer l’UX ; identification des contraintes techniques de l’existant (écosystème Neo4j, briques OWL/SWRL, validation et raisonnement) et repérage des bonnes pratiques UX 2025 pour guider la conception.

Sur cette base, il/elle rédigera des spécifications fonctionnelles et techniques pour le nouvel outil, puis développera un prototype de manière incrémentale : éditeur de d’ontologies ergonomique connecté à Neo4j, import/export assurant l’interopérabilité, mécanismes de validation, etc. Selon la durée et le profil,
le stage pourra s’étendre à l’édition d’axiomes et de règles, à l’intégration d’un raisonneur standard et à la création d’un démonstrateur complet sur une ontologie de référence.

**Technologies envisagées**
Côté interface, l’option prioritaire est une application web en TypeScript s’appuyant sur React ou SvelteKit, avec un composant d’édition de graphes adapté (par ex. React Flow ou Cytoscape.js), des moteurs de layout (elkjs/dagre) et un système de design moderne (Tailwind avec composants accessibles type Radix/shadcn). Cette combinaison permet de viser une UX actuelle : thèmes (y compris dark mode), accessibilité, performance (virtualisation), micro-interactions sobres.

En alternative desktop, on pourra empaqueter l’interface web via Electron ou Tauri, ou opter pour une interface native en JavaFX (Java) ou JetBrains Compose for Desktop (Kotlin), afin de faciliter l’intégration directe avec les bibliothèques web sémantique de l’écosystème Java.

Pour le backend, une pile Java avec Spring Boot est privilégiée afin d’intégrer naturellement OWL API/Apache Jena, de s’interfacer avec un raisonneur standard (HermiT, Pellet, Fact++), et de dialoguer avec Neo4j via le driver Java et neosemantics (n10s) pour les échanges RDF/OWL. La validation pourra
s’appuyer sur SHACL. L’API sera exposée simplement (REST/JSON ou gRPC) et restera découpée de façon à pouvoir évoluer (microservice dédié aux fonctions ontologiques si nécessaire).

Profil du candidat :
— Niveau : Bac+3 à Bac+5 (informatique / BD / IA / génie logiciel / IHM).
— Dominantes possibles : développement front moderne (TS + React/SvelteKit), Java et conception d’API, bases de données, graphes, web sémantique (OWL/RDF, SWRL, SHACL), UX/UI.
— Qualités attendues : autonomie, rigueur, curiosité, sens de l’ergonomie, communication.

Formation et compétences requises :

Adresse d’emploi :
LIS UMR 7020 CNRS / AMU / UTLN, équipe IACD
Aix Marseille Université – Campus de Saint Jérôme – Bat. Polytech
52 Av. Escadrille Normandie Niemen
13397 Marseille Cedex 20

Document attaché : 202510011418_2025_Sujet_Stage_NeOWL4J.pdf

Categories: Stages

February – June 2026 Feb – Jun 2026

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Présentation Générale

Manifestations à venir

Actions, Ateliers et Groupes de Travail :