
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire d’Informatique et Systèmes
Durée : 3 à 6 mois
Contact : alexis.guyot@lis-lab.fr
Date limite de publication : 2026-06-01
Contexte :
L’ingénierie des connaissances vise à modéliser, structurer et exploiter des savoirs pour les rendre manipulables par des systèmes informatiques. Au cœur de cette démarche, une ontologie est une représentation formelle d’un domaine : elle définit des concepts (classes), leurs relations (propriétés)
et des contraintes/axiomes (p. ex. hiérarchies, cardinalités). Les ontologies favorisent l’interopérabilité sémantique entre systèmes hétérogènes, facilitent l’intégration des données, soutiennent le raisonnement (inférences, vérification de cohérence) et encadrent la gouvernance des connaissances au moyen de référentiels partagés. Des outils comme Protégé font aujourd’hui autorité pour l’édition d’ontologies.
Le stage consiste à prototyper une alternative à Protégé en développant une surcouche d’édition et de raisonnement au-dessus du SGBD orienté graphe Neo4j, combinant ergonomie moderne, exploitation riche de graphe et compatibilité OWL (OWL API, moteurs de raisonnement standards). L’enjeu est de livrer une expérience contemporaine et efficace, sans réinventer les composants qui existent déjà lorsqu’ils sont adaptés.
Sujet :
**But du stage**
Concevoir et prototyper une application moderne (plutôt web, mais desktop possible) servant de sur-couche à Neo4j pour créer, éditer, valider et raisonner sur des ontologies (OWL/SWRL), avec une attention forte portée à l’UX et à l’esthétique. L’application doit ester interopérable avec l’écosystème existant (dont Protégé) tout en capitalisant sur les forces de Neo4j.
**Objectifs et missions**
Le/la stagiaire commencera par cadrer formellement le projet : étude de Protégé (exploration libre de l’outil, lecture de la documentation, entretiens avec des experts pour cerner besoins et limites de l’existant) ; rapide panorama des fonctionnalités des autres éditeurs d’ontologies, éventuellement complété par un album de captures pour comparer l’UX ; identification des contraintes techniques de l’existant (écosystème Neo4j, briques OWL/SWRL, validation et raisonnement) et repérage des bonnes pratiques UX 2025 pour guider la conception.
Sur cette base, il/elle rédigera des spécifications fonctionnelles et techniques pour le nouvel outil, puis développera un prototype de manière incrémentale : éditeur de d’ontologies ergonomique connecté à Neo4j, import/export assurant l’interopérabilité, mécanismes de validation, etc. Selon la durée et le profil,
le stage pourra s’étendre à l’édition d’axiomes et de règles, à l’intégration d’un raisonneur standard et à la création d’un démonstrateur complet sur une ontologie de référence.
**Technologies envisagées**
Côté interface, l’option prioritaire est une application web en TypeScript s’appuyant sur React ou SvelteKit, avec un composant d’édition de graphes adapté (par ex. React Flow ou Cytoscape.js), des moteurs de layout (elkjs/dagre) et un système de design moderne (Tailwind avec composants accessibles type Radix/shadcn). Cette combinaison permet de viser une UX actuelle : thèmes (y compris dark mode), accessibilité, performance (virtualisation), micro-interactions sobres.
En alternative desktop, on pourra empaqueter l’interface web via Electron ou Tauri, ou opter pour une interface native en JavaFX (Java) ou JetBrains Compose for Desktop (Kotlin), afin de faciliter l’intégration directe avec les bibliothèques web sémantique de l’écosystème Java.
Pour le backend, une pile Java avec Spring Boot est privilégiée afin d’intégrer naturellement OWL API/Apache Jena, de s’interfacer avec un raisonneur standard (HermiT, Pellet, Fact++), et de dialoguer avec Neo4j via le driver Java et neosemantics (n10s) pour les échanges RDF/OWL. La validation pourra
s’appuyer sur SHACL. L’API sera exposée simplement (REST/JSON ou gRPC) et restera découpée de façon à pouvoir évoluer (microservice dédié aux fonctions ontologiques si nécessaire).
Profil du candidat :
— Niveau : Bac+3 à Bac+5 (informatique / BD / IA / génie logiciel / IHM).
— Dominantes possibles : développement front moderne (TS + React/SvelteKit), Java et conception d’API, bases de données, graphes, web sémantique (OWL/RDF, SWRL, SHACL), UX/UI.
— Qualités attendues : autonomie, rigueur, curiosité, sens de l’ergonomie, communication.
Formation et compétences requises :
Adresse d’emploi :
LIS UMR 7020 CNRS / AMU / UTLN, équipe IACD
Aix Marseille Université – Campus de Saint Jérôme – Bat. Polytech
52 Av. Escadrille Normandie Niemen
13397 Marseille Cedex 20
Document attaché : 202510011418_2025_Sujet_Stage_NeOWL4J.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : DICEN
Durée : 5-6 mois
Contact : olivier.champalle@univ-eiffel.fr
Date limite de publication : 2026-07-01
Contexte :
Sujet :
Nous nous intéressons à la notion de similarité entre exercice dans le cadre des enseignements algorithmique et de programmation informatique quelque soit le langage.
L’idée est de comprendre si il est possible d’identifier des exercices (énoncé + correction) « proches » ou « distants » entre-eux et comment caractériser cette distance de manière à créer une classification réutilisable.
Cette classification pourrait prendre en compte :
– les concepts ou notions d’algorithmique et leur maîtrise nécessaire
pour répondre correctement à l’exercice
– les compétences propre au langage (python, java, C, ..) et leur niveau de
maîtrise
Une telle classification permettrait de recommander et/ou substituer des exercices à d’autres en garantissant que les étudiants devront mobiliser, et donc renforcer, des notions et concepts proches attendus pour la bonne réalisation de l’exercice.
Les applications potentielles d’une telle recherche (sur le long terme), pourraient être déployées dans des EIAH de type exerciseur pour permettre à des étudiants de s’entraîner sur des exercices auto-corrigés, mais aussi d’assister les enseignants dans la réutilisation d’exercice sur étagère.
Un autre terrain d’application pourrait être de faciliter la validation ou l’invalidation d’exercices générés par IA.
Attendu :
– Une analyse de l’état de l’art de la littérature scientifique sur la notion de similarité entre exercices, algorithmes, code, ainsi que les moyens utilisés et leurs terrains d’application: similarité entre algorithme, AST [ZS89], ML, TAL [RG19], …
– Création / adaptation / réutilisation (en fonction de la littérature) d’une ou de plusieurs méthodes de détection de similarité entre exercicies
– Validation et calibration sur des données expérimentales
Le ou la candidate pourra s’appuyer sur un travail préliminaire de M1 qui a déjà permis de construire une base de données d’exercices et d’explorer quelques premières méthodes automatique de détection de similarité [A.Ziani25].
Références :
[RG19] Nils Reimers and Iryna Gurevych. Sentence-bert : Sentence embeddings using siamese bert-networks. arXiv preprint arXiv :1908.10084, 2019.
[A.Ziani25] Adel Ziani, Détection automatique d’exercices de programmation similaires, rapport de stage de M1 informatique, 2025
[ZS89] Kaizhong Zhang and Dennis Shasha. Simple fast algorithms for the editing distance between trees and related problems. SIAM journal on computing, 18(6) :1245–1262, 1989.
Profil du candidat :
M2 informatique profil IA (ML & TAL) ainsi qu’ un intérêt pour la recherche
Formation et compétences requises :
A minima :
– Langage Python,
– bibliothèque d’analyse de données et de ML (pandas, scikit-learn, …)
– connaissance en TAL (vectorisation, …)
Adresse d’emploi :
UNIVERSITE GUSTAVE EIFFEL,
Campus de marne la vallée 5 BD Descartes 77454 CHAMPS-SUR-MARNE FRANCE
Document attaché : 202605040736_Dicen_Similarite_M2.pdf
