An NLP framework to automatically evaluate the adequacy and relevance of assessment items

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : SAMOVAR, Télécom SudParis, IP Paris
Durée : 6 Months
Contact : luca.benedetto@telecom-sudparis.eu
Date limite de publication : 2026-01-10

Contexte :

Sujet :
This project proposes developing an NLP framework to automatically evaluate the adequacy and relevance of assessment items in relation to their associated learning content. While existing research in Question Difficulty Estimation from Text (QDET) has focused primarily on analyzing exam items in isolation, this work addresses a critical gap by evaluating questions within the context of course lectures and learning paths. The framework will employ a combination of traditional machine learning, Information Retrieval techniques, semantic embeddings, and Large Language Models to assess newly created exam questions for validity, relevance, and difficulty.

Profil du candidat :
Previous experience with Python and Machine Learning is required.

Formation et compétences requises :

Adresse d’emploi :
19 place Marguerite Perey, 91120 Palaiseau France

ou

9 rue Charles Fourier, 91011 Evry-Courcouronnes France

Document attaché : 202512031306_2025_11___Proposal_Stage_M2.pdf

Generative AI for Ransomware Time‑Series Detection

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire DVRC
Durée : 4-6 mois
Contact : christophe.rodrigues@devinci.fr
Date limite de publication : 2026-02-02

Contexte :

Sujet :
M2 Research Internship

Generative AI for Ransomware Time‑Series Detection

The context of the work is Owlyshield, a behavioral time‑series dataset built from Endpoint Detection and Response (EDR) logs to detect ransomware attacks. We aim to generate realistic synthetic sequences that preserve temporal structure and inter‑feature dependencies to improve anomaly detection (benign or ransomware) on this dataset.
Missions
The intern will:

review deep generative models for time series (with a focus on transformer‑style methods);
design and implement conditional generative models (e.g., TimeGAN‑like architectures) to produce labeled multivariate sequences consistent with Owlyshield statistics;
define quality metrics (distributional similarity, temporal coherence, correlation structures);
evaluate the impact of synthetic data on downstream ransomware/anomaly detection performance.

Profile
M2 student in Computer Science, Data/AI, or Applied Mathematics. Solid background in machine learning and Python; experience with deep learning (PyTorch or TensorFlow) and time‑series data. Knowledge of generative models (GANs/VAEs) and transformers, cybersecurity is a plus. Autonomy, rigor, and good written English are expected.
Practical information
Duration: 4-6 months (full-time, 2026).
Location: ESILV, Paris
Supervision: Sourav Rai, Christophe Rodrigues and Nga Nguyen
Application
Send CV, cover letter, grades and recommendation letters to christophe.rodrigues@devinci.fr and nga.nguyen@devinci.fr with subject: “M2 Internship – Generative Time‑Series”.
Dataset/ References
[1] SitInCloud, “Ransomware Detection (Owlyshield documentation),” https://docs.sitincloud.com/concepts/ransomware-detection.html
[2] J. Yoon, D. Jarrett, M. van der Schaar, “Time‑series Generative Adversarial Networks,” NeurIPS, 2019.
[3] X. Li, V. Metsis, H. Wang, A. H. H. Ngu, “TTS-GAN: A Transformer-based Time-Series Generative Adversarial Network,” in Proc. 20th Int. Conf. on Artificial Intelligence in Medicine (AIME), 2022.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Paris, La Défense

Generative AI for Ransomware Time‑Series Detection

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire DVRC
Durée : 4-6 mois
Contact : christophe.rodrigues@devinci.fr
Date limite de publication : 2026-02-02

Contexte :

Sujet :
M2 Research Internship

Generative AI for Ransomware Time‑Series Detection

The context of the work is Owlyshield, a behavioral time‑series dataset built from Endpoint Detection and Response (EDR) logs to detect ransomware attacks. We aim to generate realistic synthetic sequences that preserve temporal structure and inter‑feature dependencies to improve anomaly detection (benign or ransomware) on this dataset.
Missions
The intern will:

review deep generative models for time series (with a focus on transformer‑style methods);
design and implement conditional generative models (e.g., TimeGAN‑like architectures) to produce labeled multivariate sequences consistent with Owlyshield statistics;
define quality metrics (distributional similarity, temporal coherence, correlation structures);
evaluate the impact of synthetic data on downstream ransomware/anomaly detection performance.

Profile
M2 student in Computer Science, Data/AI, or Applied Mathematics. Solid background in machine learning and Python; experience with deep learning (PyTorch or TensorFlow) and time‑series data. Knowledge of generative models (GANs/VAEs) and transformers, cybersecurity is a plus. Autonomy, rigor, and good written English are expected.
Practical information
Duration: 4-6 months (full-time, 2026).
Location: ESILV, Paris
Supervision: Sourav Rai, Christophe Rodrigues and Nga Nguyen
Application
Send CV, cover letter, grades and recommendation letters to christophe.rodrigues@devinci.fr and nga.nguyen@devinci.fr with subject: “M2 Internship – Generative Time‑Series”.
Dataset/ References
[1] SitInCloud, “Ransomware Detection (Owlyshield documentation),” https://docs.sitincloud.com/concepts/ransomware-detection.html
[2] J. Yoon, D. Jarrett, M. van der Schaar, “Time‑series Generative Adversarial Networks,” NeurIPS, 2019.
[3] X. Li, V. Metsis, H. Wang, A. H. H. Ngu, “TTS-GAN: A Transformer-based Time-Series Generative Adversarial Network,” in Proc. 20th Int. Conf. on Artificial Intelligence in Medicine (AIME), 2022.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Paris, La Défense

Construction de graphes de connaissances historiques à l’aide d’algorithmes de graphes, LLMs et RAG

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : LIP6 – Sorbonne Université
Durée : 6 mois
Contact : camelia.constantin@lip6.fr
Date limite de publication : 2025-12-27

Contexte :
Nos recherches portent sur les bases prosopographiques ayant pour objet la période médiévale. La prosopographie est une méthode des sciences sociales (sociologie, histoire) dans laquelle on cherche à analyser un groupe à partir d’une étude systématique des itinéraires singuliers des individus qui le composent. Pour cela les chercheurs collectent tous les faits (factoïdes) possibles sur chaque individu. En histoire médiévale, ces données sont rares, discontinues, incertaines et souvent d’une qualité médiocre. En effet, les experts de ces disciplines gèrent la qualité et l’incertitude dans le temps et l’espace. Ainsi, les personnes sont désignées par plusieurs noms, les lieux changent de noms et de frontières avec le temps ou selon l’auteur et un parcours de diplomation peut changer en fonction de l’époque, du lieu ou de la classe sociale de la personne. En raison de cette complexité, de nombreuses règles restent opaques pour les historiens médiévistes. En organisant ces données sous forme de graphe de connaissances, nous pouvons représenter des concepts, des personnes, des lieux ou des objets sous forme des nœuds et des interactions entre ceux-ci, comme telles que des affiliations ou des localisations comme arêtes avec des propriétés. Cela permet une organisation sémantique des données qui aide à mieux comprendre les contextes et les relations complexes entre les entités mentionnées dans les textes et de visualiser clairement l’interconnexion entre les différents éléments d’un ensemble de données.
La construction de graphes de connaissances à partir de sources de données ambiguës soulève plusieurs difficultés majeures liées à la nature imparfaite, hétérogène et souvent imprécise des textes ou bases d’origine. Les principales sources de complexité résident dans l’ambiguïté des entités (lorsqu’un même nom peut désigner plusieurs objets distincts ou, inversement, lorsqu’une entité apparaît sous des formes lexicales variées (abréviations, translittérations, synonymes). S’ajoutent à cela l’imprécision ou l’incomplétude des informations (par exemple, des dates approximatives ou des localisations vagues), qui favorisent la duplication d’entités lors de l’intégration : plusieurs nœuds représentant en réalité la même entité peuvent être créés. Les textes peuvent également contenir des relations implicites difficiles à extraire automatiquement, ou des contradictions entre sources multiples.

Parmi ces problèmes, certains peuvent être atténués par l’usage de modèles de langage de grande taille (LLMs), capables d’intégrer des indices sémantiques complexes et de désambiguïser les entités en tenant compte du contexte global. Les LLMs améliorent la reconnaissance des relations implicites et la cohérence sémantique entre textes hétérogènes. Cependant, plusieurs défis demeurent : les modèles ne résolvent pas les ambiguïtés lorsque deux entités très similaires apparaissent dans le texte sans marqueurs de distinction, ni les contradictions entre sources (le LLM peut les reconnaître mais ne garantit pas de choisir la bonne version, ou peut donner une confiance excessive à l’une sans justification). Ils n’éliminent pas non plus les duplications induites par des informations incomplètes ou imprécises, et peuvent introduire de nouveaux biais, notamment par hallucination d’entités ou surestimation de leur confiance. Dans des domaines historiques, le LLM peut manquer de données de formation spécifiques, ce qui réduit sa performance. Ces limites exigent l’intégration de méthodes complémentaires, telles que la reconnaissance d’entités nommées (NER), qui impose un typage explicite et stable des entités (personne, organisation, lieu, date, etc.), en permettant ainsi de filtrer les entités erronées ou inventées. En s’appuyant sur des lexiques, ontologies ou dictionnaires de référence, elle facilite la normalisation et l’alignement des entités, limitant ainsi la création d’alias ou de doublons. Des méthodes complémentaires, comme entity linking ou l’utilisation de règles symboliques peuvent aider à l’alignement des entités obtenues par des LLMs.

L’ajout de réseaux de neurones de graphes (GNN) améliore la désambiguïsation d’entités lorsque le contexte textuel seul est insuffisant, en s’appuyant sur les voisins et les motifs relationnels pour identifier la bonne correspondance, en exploitant la structure relationnelle du graphe. Ils renforcent également la détection de doublons et la fusion d’entités similaires en apprenant des représentations qui intègrent à la fois les attributs et les connexions locales.

Sujet :
Afin de pouvoir améliorer le liage d’entités, il est important d’avoir le maximum d’information pour chaque entité, et notamment ses liens avec les autres entités. L’objectif de ce stage est la mise en œuvre d’une architecture RAG-GNN intégrée, destinée à la construction, à la détection des duplicats et à la fusion d’entités d’un graphe de connaissances construit à partir de données prosopographiques Studium ambigües. Ces données existent sous forme de fiches où les mêmes individus ou lieux apparaissent plusieurs fois avec une description très différente suivant la source (donc des propriétés et relations différentes) voire des noms parfois très différents. Cette démarche vise à améliorer la qualité et l’utilité du graphe en découvrant et en intégrant des informations qui ne sont pas explicitement présentes mais qui peuvent être inférées à partir des relations et des attributs existants. D’autres jeux de données comme KnowledgeNet pourront être également utilisés.
Méthodologie : La méthodologie combine des modèles de langage préentraînés, recherche contextuelle, et apprentissage de représentations de graphes pour la construction et la consolidation de graphes de connaissances à partir de données historiques ambiguës. Dans une première étape, un modèle de langage de grande taille (LLM) est utilisé pour extraire automatiquement des entités, relations et attributs (dates, lieux, personnes) à partir des textes. Cette extraction est renforcée par des méthodes de reconnaissance d’entités nommées (NER), assurant une détection typée et une segmentation fiable des mentions, conformément aux principes décrits dans [1]. Le graphe ainsi obtenu sera stocké dans une base de données graphe (Neo4j) avec traçabilité des chunks sources et va constituer une base brute soumise à un processus d’enrichissement et de validation des liens de duplication( sameAs)). Un module de Retrieval-Augmented Generation (RAG) sera utilisé dans une première phase pour une décision sameAs ou notSame pour chaque paire d’entités candidate, accompagnée de preuves textuelles. Le LLM reçoit le contexte enrichi (entité A, entité B, leurs propriétés, leurs relations adjacentes dans le graphe et leurs chunks sources) pour prendre une décision de fusion, en fournisant la provenance factuelle pour la décision de résolution d’entité [2]. Les Graph Neural Networks (GNNs) sont ensuite utilisés pour exploiter la structure relationnelle du graphe et apprendre des représentations topologiques capables d’identifier les clusters d’entités équivalentes [3]. Le GNN sélectionne et connecte des sous-graphes d’un graphe de connaissances qui sont ensuite convertis en entrées textuelles pour un LLM [4], permettant la mise en place d’une boucle de rétroaction LLM–GNN afin d’affiner progressivement les décisions de fusion : les inférences structurelles issues du GNN guident le LLM dans ses réévaluations contextuelles, tandis que les jugements linguistiques du LLM enrichissent les représentations structurelles apprises par le GNN.

Profil du candidat :
Etudiant en Master 2 ou en dernière année d’école d’ingénieur.

Formation et compétences requises :
Connaissances en python et en machine learning.

Adresse d’emploi :
LIP6 (Sorbonne Université),
Équipe Bases de Données http://www-bd.lip6.fr/

Document attaché : 202511272002_sujetStageKG_2026.pdf

Appel à soumission d’articles pour l’atelier XAI4Sciences @EDBT2026

Date : 2026-03-24
Lieu : Tampere, Finland

Dear Colleagues,
We are pleased to announce the Call for Papers for XAI4Science2026 workshop, to be held on 24th March 2026 at Tampere (Finland) in conjunction with EDBT.

We invite scholars, researchers, and practitioners to share innovative work, present new findings, and engage in meaningful discussions on emerging developments in the field of Explainable Machine Learning (XAI)

Research topics include, but are not limited to:

-Generative AI methods for automatically propose new hypothesis compatible with the available scientific data and domain knowledge
-Explanation methods for validating or contrasting scientific hypotheses by uncovering cause-effect relationships
-Interpretable AI methods to discover spatial and temporal dynamics in complex systems
-Formal verification to bridge the gap between data-driven decisions and domain-specific constraints
-Multimodal Explanations using graphical (visual), symbolic (equations), and sentential (verbal) interfaces
-Quantitative evaluation of explanations utility in scientific domains
-Exploratory processes of explanations involving complex interactions between human, technical, and organizational factors

We are welcoming submissions of short papers (4 pages limit) and regular papers (6 pages limit), including all figures and tables. Unlimited pages are allowed for references and appendices in the same PDF as the main paper.

Submission Deadline : 05/01/2026
Notification : 02/02/2026
Camera-ready: 17/02/2026

Please find all the details of the workshop below:

International Workshop on Explainable Data Science and Machine Learning for the Sciences (XAI4Science)
24 March 2026, Tampere, Finland In conjunction with EDBT/ICDT 2026
https://www.etis-lab.fr/XAI4Science2026

Over the last couple of decades, the increasing availability of advanced computational resources and big scientific data boosted data-driven methods in scientific discovery and innovation. From neuroscience and astrophysics, to medicine and pharmaceutics, chemistry and material sciences up to weather and climate sciences, scientists currently process large volumes of experimental data and employ data science and machine learning techniques to validate and generate scientific hypotheses. Unfortunately, existing AI systems used to engineer and analyse data are mainly opaque, i.e., it is difficult to understand why they return a specific output or what they could return if input data were slightly different. They typically made automated decisions by fixating on a particular hypothesis under investigation without providing evidence for or against it. Recent advances in explainable artificial intelligence (XAI) aim to bridge the gap between a human cognitive decision-making process and AI systems. However, XAI methods mainly focus on understanding AI model behavior rather than how to exploit it for discovering new human knowledge. Their impact in complex problem solving is currently limited by the lack of completeness, robustness and universality across AI models, data modalities and scientific pipelines. The XAI4Science workshop aims to bring together researchers, practitioners, and domain experts working at the intersection of data science, machine learning and scientific disciplines for discussing advances in XAI methods that can effectively and efficiently support scientific discovery. The workshop will include a wide range of explanation techniques (i) for analysing diverse data modalities (e.g., from image, to time series and graphs) (ii) using several AI models of increasing generality (e.g., trained from scratch, pre-trained or foundation models) (iii) via complex laboratory pipelines with scientists in the loop.

Organizers:
Vassilis Christophides (ETIS, CNRS, ENSEA), Jin-Song Dong (National University of Singapore), Nicolas Labroche (Univ. of Tours), Evaggelia Pitoura (Univ. of Ioannina, Archimedes Research Unit of Athena RC), Céline Robardet (INSA Lyon, LIRIS), Yongfeng Zhang (Rutgers University)

PC:
Julien Aligon (Université Toulouse Capitole, IRIT Lab, SIG Team)
Alexandre Chanson (Université de Tours, LIFAT Lab)
Emmanuel Doumard (Université de Tours, LIFAT Lab)
Moncef Garouani (Université Toulouse Capitole, IRIT Lab, SIG Team)
Leilani Gilpin (University of California Santa Cruz, AIEA Lab)
Riccardo Guidotti (University of Pisa, KDD Lab)
Matthijs van Leeuwen (Leiden University, LIACS Lab)
Michele Linardi (CY Cergy Paris Université / ENSEA, ETIS Lab)
Marie-Jeanne Lesot (Sorbonne Université / LIP6)
Patrick Marcel (Université d’Orléans, LIFO Lab)
Christophe Marsala (Sorbonne Université / LIP6)
Guillaume Renton (ENSEA, ETIS Lab)
Konstantinos Stefanidis (Tampere University, Data Science Subunit)
Simone Stumpf (University of Glasgow, School of Computing Science)
Juntao Tan (Rutgers University, Computer Science Department)
Aikaterini Tzompanaki (CY Cergy Paris Université / ENSEA, ETIS Lab)
Eirini Ntoutsi (Bundeswehr University Munich, AIML)

Best Regards,
Katerina Tzompanaki (on behalf of the organizers).

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

TranslA : Sociétés en Transition à l’ère de l’Intelligence Artificielle

Date : 2026-03-12 => 2025-11-24
Lieu : Université de Tours – Institut Universitaire de Technologie – 29 Rue du Pont Volant – 37100 Tours

SOCIÉTÉS EN TRANSITION À L’ÈRE DE
L’INTELLIGENCE ARTIFICIELLE
Interroger les dynamiques historiques, les recompositions sociétales et les nouveaux horizons normatifs
(TRANSIA)

Les sociétés humaines traversent régulièrement des périodes de transition qui reconfigurent leurs structures organisationnelles, leurs systèmes de valeurs et leurs modes de gouvernance. L’émergence de l’intelligence artificielle s’inscrit pleinement dans cette dynamique historique, tout en soulevant des interrogations inédites sur les choix de société, les cadres éthiques contemporains et la fabrique du collectif.

Dans un contexte d’accélération technologique qui questionne les processus traditionnels de délibération démocratique, l’objectif de ce colloque est de questionner l’articulation entre innovation technique, reconfiguration des valeurs et enjeux de gouvernance, au regard des continuités et des ruptures avec les transitions antérieures (Castoriadis, 1975 ; Ricoeur, 1984).

Afin de saisir toute la complexité de ces évolutions, nous invitons les contributions à croiser approches historiques, empiriques et théoriques, afin de penser l’IA non seulement comme une avancée technique mais aussi comme une construction sociale et symbolique. Dans la lignée d’une interrogation sur les « conditions de possibilité » des transitions (Kant, 1781), la pluralité des regards (anthropologie, droit, économie, gestion, informatique, philosophie, science politique, sciences de l’éducation, sciences de l’information et communication, sociologie, etc.) permettra d’analyser ce qui rend possible, souhaitable ou problématique les évolutions autour de l’IA, tout en questionnant leurs impacts, leurs limites et les enjeux de pouvoir qu’elles soulèvent.

Les contributions attendues devront être originales, analyser les transformations induites par l’IA sur les individus, les organisations et les structures sociales et interroger les récits et valeurs qui accompagnent ces innovations dans une perspective diachronique. Les propositions fondées sur des cas pratiques, retours d’expériences ou expérimentations innovantes, issues de milieux professionnels, institutionnels ou associatifs, sont également encouragées. Leur apport permettra d’articuler réflexion théorique et enseignements issus du terrain autour des transitions liées à l’IA.

À titre indicatif et sans qu’il s’agisse d’une liste exhaustive, les présentations pourront s’inscrire dans les quatre axes thématiques suivants :

Axe 1 : Gouvernance, normes et régulations de l’IA

Cet axe vise à interroger les cadres juridiques, économiques, politiques et éthiques qui guident l’émergence et le développement de l’intelligence artificielle à différentes échelles, nationale, européenne, internationale … 

Axe 2 : Transformations du travail et des organisations à l’ère de l’IA

Cet axe accueille des analyses empiriques ou théoriques concernant les mutations des métiers, des compétences, des pratiques professionnelles et de la gestion organisationnelle liées à l’IA. 

Axe 3 : IA, transitions environnementales et durabilité

Dans cet axe, l’accent est mis sur les interactions entre intelligence artificielle, transition écologique et quête de modèles durables pour la société. 

Axe 4 : Représentations sociales, imaginaires et cultures de l’IA

Ce dernier axe explore la manière dont l’IA transforme les imaginaires collectifs, les représentations, les valeurs et la place de la technique dans la société. 

 

Calendrier

  • 1er décembre 2025 : Date limite pour la soumission des résumés
  • 30 janvier 2026 : Retour aux contributeurs et contributrices
  • 1er mars 2026 : Date limite pour la soumission des textes complets
  • 5 mars 2026 : Fin des inscriptions (obligatoires) en ligne

 

Format des soumissions

Le fichier “résumé” en format Word contiendra :

  • Le titre de la présentation
  • Le nom des auteurs, leur laboratoire et université de rattachement (pays)
  • Un résumé d’une page maximum (3000 signes bibliographie non comprise) avec la description de la thématique et de la problématique de recherche en lien avec l’IA
  • Les propositions suivront un format “problématique/méthode/résultats/discussion” à l’exception des propositions en droit ou visant à apporter un éclairage théorique et non empirique
  • 5 mots-clés
  • L’axe de rattachement parmi les 4 axes proposés

Le fichier “texte complet” demandé aux contributeurs dont les présentations auront été acceptées sera en version Word et devra suivre le modèle fourni sur la plateforme.

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Détection de phénomènes de diffusion dans les réseaux sociaux

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Université Bourgogne Europe
Durée : 5 à 6 mois
Contact : annabelle.gillet@u-bourgogne.fr
Date limite de publication : 2025-12-31

Contexte :
Dans les réseaux sociaux, la manipulation de l’information est une problématique pouvant avoir des conséquences néfastes importantes. Les stratégies de diffusion d’informations manipulées sont complexes, et peuvent avoir recours à la mise en oeuvre d’armées de robots ayant différents rôles dans le réseau. Par exemple, un groupe de robots peut avoir pour tâche de spammer certains messages ou mots clés afin de manipuler les tendances et de gagner une visibilité importante en peu de temps, d’autres robots peuvent avoir un profil évolué ainsi qu’une activité quotidienne, leur permettant de passer pour des utilisateurs légitimes et de donner plus de poids aux messages qu’ils pourraient diffuser dans certaines communautés. Toutefois, la détection de ces armées de robots est complexe, et l’évolution rapide de leur comportement et de leur organisation restreint les types d’algorithmes utilisables.

Le projet ANR Beelzebot est un projet interdisciplinaire regroupant des chercheurs en informatique, en sciences de la communication et du langage. Il a pour objectif de définir des mécanismes pour détecter les armées de robots sur Twitter en se basant sur des méthodes non-supervisées, ainsi qu’à caractériser les activités de ces armées.

Sujet :
L’objectif du stage, dans le cadre du projet ANR Beelzebot, est de détecter des phénomènes de diffusion sur Twitter et de les caractériser. Pour cela, une approche prometteuse consiste à utiliser des algorithmes s’appuyant sur des tenseurs afin de créer un résumé des données pouvant être exploité pour détecter des zones denses sur le réseau qui peuvent correspondre à des phénomènes de diffusion. Un des avantages des tenseurs est leur aspect multi-dimensionnel, permettant notamment d’intégrer nativement une dimension temporelle aux analyses, contrairement aux approches basées sur les graphes.

Un autre objectif du stage est d’étudier plus en détail les phénomènes de diffusion détectés, en utilisant des analyses complémentaires visant à les caractériser. En effet, certains phénomènes de diffusion sont naturels et résultent de l’utilisation standard du réseau, tandis que d’autres proviennent d’actions de manipulation tentant de profiter des mécanismes du réseau pour diffuser des idées ou perturber son fonctionnement normal. Il s’agit plus particulièrement d’étudier leurs impacts sur les structures communautaires, les utilisateurs frontières, les utilisateurs influents, l’émergence de hashtags, etc.

En plus des jeux de données publics, plusieurs jeux de données collectés sur Twitter sont à disposition, comme par exemple les discussions autour de l’élection présidentielle française de 2022 ou le COVID, contenant de plusieurs millions à plusieurs milliards de tweets. L’environnement matériel des serveurs de stockage et de traitement est opérationnel au Data Center Régional de l’Université Bourgogne Europe.

Une poursuite en thèse à la suite du stage est envisageable.

Profil du candidat :
– étudiant en Master 2 avec spécialité informatique ;
– curiosité et rigueur scientifique ;
– compétences en gestion de données ;
– solides connaissances et compétences en algorithmique et développement logiciel.

Formation et compétences requises :

Adresse d’emploi :
Université Bourgogne Europe, Dijon

Document attaché : 202511211319_StageBeelzebot2026.pdf

AIDT-2026

Date : 2026-06-22 => 2026-06-24
Lieu : UFAZ (French Azerbaidjani University)
Bakou, Azerbaidjan

The Artificial Intelligence for Digital Transformations (AIDT 2026) conference is an international forum dedicated to exploring how Artificial Intelligence (AI) is reshaping the digital landscape across industries, organizations, and societies.

Digital transformation is no longer a choice but a necessity. AI is at the heart of this transformation, enabling new forms of automation, decision-making, and innovation. AIDT 2026 will bring together leading researchers, practitioners, policymakers, and industry experts to exchange knowledge, present cutting-edge research, and discuss real-world applications of AI in the digital era.

AIDT 2026 is co-organized by the French-Azerbaijani University (UFAZ), the Azerbaijan State Oil and Industry University (ASOIU), and the French University of Strasbourg (Unistra) and its ICube laboratory, in collaboration with INSA Rouen Normandie (France) and its LITIS laboratory. The conference is supported by the Ministry of Education and Science of Azerbaijan.

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

From text analysis to influence graphs: approaches based on LLM, fuzzy logic, and Bayesian networks

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : (UR 4108 / FR CNRS 3638)
Durée : 6 mois
Contact : asma.dhaouadi@insa-rouen.fr
Date limite de publication : 2026-02-27

Contexte :
Facility Management (FM) encompasses all activities aimed at improving the efficiency of the working
environment (building management, energy consumption, employee comfort, safety, etc.). These practices
directly influence a company’s economic, environmental, and societal performance [1, 2]. However, the
relationships between these indicators are complex, often implicit, and rarely described in clear quantitative
terms. In addition, company executives need to identify these relationships and their influence on
the overall work environment.
The emergence of Large Language Models (LLMs) and qualitative reasoning approaches (qualitative
influence diagrams, fuzzy logic, Bayesian networks) paves the way for more detailed modeling of dependencies
between indicators, facilitating analysis and strategic decision-making.

Sujet :
Goals
• Automatic extraction of indicators from Quality of Life and Working Conditions (QLWC) documents
(scientific publications, reports, CSR documents, audits).
• Identification of qualitative relationships of influence between these indicators using LLM (e.g.,
“better air quality improves employee productivity”).
• Construction of an influence graph representing these relationships in the form of Qualitative Influence
Diagrams (QID) [3], using two different approaches :
• Fuzzy Logic [4]
• Bayesian Networks [5]
• Analysis of the graph to detect key indicators (those that strongly influence others) and their
influences linking FM practices to overall performance (economic, environmental, societal).
• Prototype decision-making tool for visualizing these graphs and simulating the impact of a change
in indicators.

Bibliography
1. AFNOR, “NF EN 15221-1 : Facility Management — Part 1 : Terms and Definitions,” French Standard,
Association Française de Normalisation, Dec. 2006. Withdrawn on Jul. 13, 2018.
2. Mouvement des Entreprises de France (MEDEF), “GUIDE RSE – Introduction à la Qualité de Vie
et des Conditions de Travail (QVCT),” Paris, France : MEDEF, 2023.
3. Renooij, S., & van der Gaag, L. C. (1998, May). Decision Making in Qualitative Influence Diagrams.
In FLAIRS (pp. 410-414).
4. Klir, G. J., & Yuan, B. (1995). Fuzzy Sets and Fuzzy Logic : Theory and Applications. Prentice
Hall.
5. Koller, D., & Friedman, N. (2009). Probabilistic Graphical Models : Principles and Techniques.
MIT Press.

Profil du candidat :
Expected Skills
• Good knowledge of Python 3 and interest in LLMs.
• Basics of Semantic Web (ontologies, RDF, OWL, SPARQL).
• Interest in fuzzy set theory and probabilistic reasoning.
• Strong motivation for collaboration and teamwork.

Formation et compétences requises :

Adresse d’emploi :
INSA Rouen Normandie
Equipe MIND – LITIS (UR 4108 / FR CNRS 3638)
Avenue de l’Université, BP 8, 76801 Saint-Étienne-du-Rouvray cedex, France

Document attaché : 202511201327_2026_stage.pdf

Stage M2 : Deep metric learning of 2D shape representations

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : 5-6 mois
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2026-02-28

Contexte :
In the field of 2D or 3D region of interest (ROI) delineation in medical imaging, combining segmentations of anatomical structures from different sources proves beneficial. This is particularly relevant given the development of multimodal and multi-parametric imaging acquisition devices. Furthermore, combining multiple expert tracings of the same ROI can be useful for evaluating segmentation methods to estimate a consensus ground truth, thereby accounting for intra- or inter-expert variability. Finally, combining multiple segmentation methods can help improve results and their reproducibility. Thus, even though deep learning segmentation methods offer highly accurate results, it is sometimes necessary to combine several architectures or parameterizations to pool segmentation results and reduce variability.
To address these various challenges in segmentation method evaluation and fusion, the CREATIS lab and its collaborators have been developing a method for several years to compute a mutual shape from n masks corresponding to n segmentations of the same region. Within this working group, we initially proposed a variational formulation of the foundational STAPLE algorithm, enabling the evaluation of segmentation methods without a gold standard. The mathematical framework we established, based on domain optimization tools, subsequently allowed us to study different shape metrics, including an original shape metric based on information theory concepts. This metric also proved relevant for the robust fusion of 2D or 3D segmentation methods.

Sujet :
Based on this mathematical framework we aim for developing a deep learning based model to combine several segmentation maps and compare it with our analytical methods.
The aim of this internship is to design a new deep learning architecture similar to N. Courty et al. “Learning Wasserstein Embeddings”. It would be composed of a (convolutional) auto-encoder that is trained to reconstruct segmentation maps combined with a contrastive learning framework to structure the embedding space according to the desired properties of the shape distance (e.g. mutual shape). The advantage of such a model is that it may compute distances between shapes in a Euclidean space (i.e. the distance between the embeddings) and thus more easily compute the final reference shape of the n input segmentation maps by combining the n embeddings and reconstructing the corresponding segmentation map.
There are several scientific challenges that need to be addresses, e.g. the way to constrain the latent space according to the target distance measure, the architecture of the neural network and loss function and the way to combine several embeddings.
In the first place, we will work with binary segmentation maps and later, potentially, extend the approach to probability maps. An advantage would be that a combination based on probability maps would better incorporate uncertainty and, in theory, lead to a better fused reference shape. In this regard, the intern will collaborate with another intern working on the mathematical aspects of the extension of the existing method (of mutual shape) to probability maps.

Profil du candidat :
Good skills in python programming and machine learning, in particular deep learning.
Scientific curiosity and autonomy.

Formation et compétences requises :
Student in M2 or engineering school in computer science or applied mathematics.

Adresse d’emploi :
INSA Lyon
7 Avenue Jean Capelle
69621 Villeurbanne

Document attaché : 202511190724_internship_smip_liris_2026.pdf