MaDICS

Appel à Ateliers 2027

Le GDR MaDICS anime des activités de recherche interdisciplinaires en Sciences des Données à travers des Actions et Ateliers.

Il s’agit à travers ses outils de promouvoir et/ou amplifier des échanges autour de problématiques de recherche partagées par une communauté de chercheurs et de partenaires de diverses disciplines sur des masses de données scientifiques bien identifiées.

Comme tous les ans, le GDR fait appel à ses membres pour qu’ils soumettent des propositions de création de nouveaux Ateliers.

Soumissions avant le 16 novembre 2026 pour un démarrage le 1er janvier 2027.

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…

Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.

Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus…
Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus…
Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus…
Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…

Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS

Feb

Sat

2025

Offre de stage M2 – Projet STAY (LISIS- TETIS ) à Montpellier

Tickets

Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : TETIS
Durée : 5 mois
Contact : maguelonne.teisseire@inrae.fr
Date limite de publication : 2025-02-01

Contexte :
Ce stage s’inscrit dans les activités interdisciplinaires de l’UMR TETIS du projet STAY – Savoirs Techniques pour l’Autosuffisance, sur YouTube (financement CNRS) – en partenariat avec le LISIS (Laboratoire Interdisciplinaire Sciences Innovations Sociétés). Des pratiques agricoles sont aujourd’hui partagées et commentées sur YouTube, plateforme d’hébergement de vidéos dont la popularité n’est
plus à démontrer.En effet, en février 2023, les données Médiamétrie indiquaient 48 millions d’utilisateurs uniques en France. Disponible à tout le monde, la plateforme permet à quiconque – professionnels de l’agriculture ou pas – de devenir créateur de contenu, les caractéristiques et la qualité des informations ainsi partagées faisant l’objet d’une littérature déjà abondante. Cette littérature montre entre autres que YouTube constitue pour ses utilisateurs une source d’informations qui contribue aux appréciations qu’ils se font d’une situation, et qui peut influencer leur jugement et leur action parfois de manière significative.
Qu’il s’agisse d’utilisateurs ou de producteurs de contenu, ils peuvent être à la fois des professionnels (exploitants agricoles, Chambres d’Agriculture…) et des amateurs (des jardiniers engagés dans l’autoproduction alimentaire à l’échelle d’un potager ou petit verger, militants…). Nous nous intéressons tout particulièrement au sujet des ravageurs en production légumière et arboricole.

Sujet :
L’objectif du stage est double :
(1) dresser un inventaire le plus exhaustif possible des chaînes YouTube pouvant être consultées afin d’obtenir des informations concernant les techniques de production légumière et arboricole – avec une attention particulière aux chaînes faisant référence aux techniques de lutte contre les ravageurs – en distinguant les chaînes produites par des professionnels de l’agriculture et les chaînes alimentés par des amateurs. Il s’agira dans un premier temps d’identifier les mots-clés pertinents et d’une liste de thèmes susceptibles de faire l’objet de recherches sur YouTube
(2) réaliser de façon automatique une catégorisation des contenus, en s’appuyant sur les statistiques et métadonnées, en termes:
– d’année d’apparition
– de nombre d’abonnés, de nombre de commentaires, de nombre de vues et de nombre de likes, avec une analyse de l’évolution temporelle de ces indicateurs d’identification des repères temporels marquants pour l’apparition et l’évolution en termes de succès de ces chaînes (épidémie de Covid, des évènements climatiques significatifs, etc.)
– de production de contenu, en termes quantitatifs
– de catégories des producteurs de contenu (classification à construire) de types de contenu proposés et de thèmes abordées – relatifs aux techniques agricoles et plus particulièrement aux techniques de lutte contre les ravageurs
– de type de stratégie économique employée par les créateurs de contenu – en termes de nombre de publicités et d’autres sources de revenu (contrats, cagnotte Tipeee..).

Le/la stagiaire pourra s’appuyer sur une production académique récente (Bruhl 2023) concernant un sujet similaire, à savoir la thèse de Guillaume Bruhl intitulée « État des lieux de la vulgarisation scientifique vétérinaire francophone sur Youtube ». Les implémentations s’intégreront dans la plateforme en cours de développement du projet.

Profil du candidat :
Le/la stagiaire aura un profil en informatique avec des connaissances en traitement automatique de la langue et/ou apprentissage automatique, avec un intérêt pour le travail interdisciplinaire. Une expérience dans le langage de programmation Python est un plus.

Formation et compétences requises :

Adresse d’emploi :
500 rue JF Breton 34090 Montpellier

Document attaché : 202410290856_Distribution_Stage1_Stay2024.pdf

Categories: Stages

Feb

Fri

2025

Classification de lésions intrahépatiques en histopathologie par apprentissage profond

Tickets

Feb 14 – Feb 15 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CReSTIC
Durée : 4 à 6 mois
Contact : eric.desjardin@univ-reims.fr
Date limite de publication : 2025-02-14

Contexte :
Le cholangiocarcinome intra-hépatique (iCCA) est une tumeur maligne primitive hépatique dont le diagnostic anatomopathologique peut être difficile. L’objectif du projet CholangIA est d’améliorer le diagnostic des lésions ductulaires intra-hépatiques réalisé à partir d’images histopathologiques par les approches de l’Intelligence Artificielle. Une étude bi-centrique a permis de tester les performances de classification binaire et multi-classe des modèles VGG16, MobileNetV2 et ResNet50 [1]. Un premier pipeline de détection a été développé [Figure 1]. Nous souhaitons explorer les mécanismes d’attention et Multiple instance learning [2] afin de pouvoir rendre plus robuste les classifications obtenues.
Ce projet est mené dans le cadre d’une collaboration entre l’équipe AI4M (Artificial Intelligence for Medicine) du laboratoire CReSTIC, l’unité de recherche MEDyC et l’IIAS (Institut de l’IA en Santé) en partenariat avec l’Institut Mondor de Recherche Biomédicale.

Sujet :
Le candidat participera à l’enrichissement des travaux actuels en :
– développant des méthodes explicatives et d’attention de apprentissage profond
– implémentant une approche « Multiple instance learning »
– réalisant les Évaluations & Intégration dans le pipeline d’analyse

Profil du candidat :
Compétences impératives :
• Intelligence artificielle, machine learning, deep learning
• Programmation Python
• Librairies usuelles de deep learning (TensorFlow, Keras. . . )
• Analyse d’images

Compétences souhaitées mais non-indispensables :
• Imagerie histopathologique
• Compétences en calcul intensif

Formation et compétences requises :
Le(la) candidat(e) sera en Master 2 ou en 3e année d’école d’ingénieur.

Adresse d’emploi :
Université de Reims Champagne-Ardenne,
Laboratoire CReSTIC, Campus Moulin de la Housse, site de Reims

Document attaché : 202411221451_Stage CholangIA 2024.pdf

Categories: Stages

Exploring Alternative Definitions of Fairness in Machine Learning using Sensitive Networks

Tickets

Feb 14 – Feb 15 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N
Durée : 6 mois
Contact : francois.queyroi@univ-nantes.fr
Date limite de publication : 2025-02-14

Contexte :
Many studies have shown that learning models can lead to inequality of treatment and unfair decisions. A decision algorithm is often said to be “unfair” if it’s outcome depends (even indirectly) on some protected attribute (e.g. race, gender, etc.). In much of the literature, however, the protected attributes are mostly discrete, encoding the fact that an individual belongs (or does not) belong to one or more groups. A challenge in this context is to take into account the intersectionality of possible discriminations faced by individuals.

Sujet :
The aim of this project is to explore alternatives to the use of discrete variables to encode sensitive attributes. One possible way is to use a graph (the sensitive network ) to encode proximity/relationship between individuals. In this context, fairness could be defined as the lack of correlation between the existence of relationships and the decision/score. An intuitive example of an “unfair decision” is hiring only people who know the same people in the network.

The objectives of this internship are to
1. Develop a state-of-the-art on alternative notions of algorithmic fairness in the context
of intersectionality.
2. Reformulate well-known definitions of group fairness in the context of simple sensitive networks.
3. Find potential case studies and datasets in order to start a benchmark.
4. Implement measures of network fairness and evaluate them on the datasets.

Profil du candidat :
M2 mathematics/computer science student (or equivalent) with an inter-
est and skills in data analysis, graph mining and fairness in machine learning. A background in the humanities (sociology, philosophy, etc.) is a big plus

Formation et compétences requises :

Adresse d’emploi :
Polytech Nantes, Rue Christian Pauc, 44300 Nantes

Document attaché : 202411251412_Sujet_Stage_GraphFairness_2025.pdf

Categories: Stages

Intégration des bases de données sur l’extraction de ressources minières avec NLP et modèles de langage

Tickets

Feb 14 – Feb 15 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2025-02-14

Contexte :
L’initiative Land Matrix (https://landmatrix.org) et son observatoire mondial des acquisitions de terres à grande
échelle ont pour objectifs de créer une source fiable de données permettant d’alimenter les débats et de mettre en
oeuvre des actions éclairées sur les transactions foncières à grande échelle. La Land Matrix collecte des données
sur les tentatives prévues, conclues et échouées visant à acquérir des terres au moyen d’achat, de location ou de
concession à des fins de production agricole, extraction de bois, extraction minière, finance du carbone, activités
industrielles, production d’énergie renouvelable, conservation de la nature et tourisme, dans les pays à revenus
faibles ou intermédiaires.
Bien que les données de la Land Matrix restent la référence mondiale sur les phénomènes d’acquisitions de terres
dans le monde académique, la couverture des sites d’exploitation minière dans la base n’est toujours pas
optimale, pour plusieurs raisons historiques et liées à des soucis d’accès aux données. D’autre part, le suivi des
activités minières (et des investisseurs associés) sur ces sites est au coeur des études concernant la transition
énergétique, qui est à son tour une dimension importante d’une stratégie globale de lutte contre le changement
climatique. Ces études peuvent également contribuer à sensibiliser aux injustices distributives et à la répartition
inéquitable des coûts, les pays cibles supportant la plupart des coûts sociaux et environnementaux de l’extraction
des ressources dans des régions marquées par l’insécurité foncière et alimentaire et l’instabilité en termes de
gouvernance.

Sujet :
L’objectif du stage est de construire une base de données la plus complète possible sur les sites d’exploitation
minière dans le monde, en incluant les informations sur les investisseurs derrière ces sites et les informations
géospatiales associées (coordonnées GPS et/ou polygones). Pour y parvenir, il faudra intégrer les données Land
Matrix (https://landmatrix.org/) avec celles d’une autre plateforme, ResourceContracts
(https://www.resourcecontracts.org/). ResourceContracts est un référentiel en ligne de contrats pétroliers, gaziers
et miniers. Le site comprend la version PDF et le texte intégral de chaque contrat, des étiquettes des principaux
termes financiers, sociaux, environnementaux, opérationnels et juridiques et des outils de recherche et de
comparaison des contrats. Des techniques de Traitement Automatique du Langage (TAL), possiblement avec
l’utilisation des modèles de type LLM (Large Language Models – Grand Modèle de Langage) seront nécessaires
pour compléter cette tâche d’intégration. Finalement, la base obtenue sera mise en lien avec une autre base qui
fournit l’étendue géographique des sites minières sous forme des polygones (i.e., shapefiles). Des méthodes de
télédétection pourront être mobilisés à côté des techniques de TAL pour compléter cette deuxième étape. La base
finale sera enfin utilisée pour mener deux cas d’études analytiques sur des pays spécifiques, qui sont des hotspots
de l’extraction des ressources minière nécessaires à la transition énergétique : la République démocratique du
Congo et l’Argentine.

Profil du candidat :
Compétences du candidat/e :
● Analyse des données (collecte, exploration, mise en lien)
● Programmation (préférablement Python)
● Capacités d’analyse, rédactionnelle et de synthèse
● Travail d’équipe
● Des expériences en TAL et/ou Télédétection seront considérées comme un plus.

Informations complémentaires :

Durée de 6 mois, à partir de février 2025.
Le stage se déroulera au CIRAD, dans l’UMR TETIS (Territoire, Environnement, Télédétection et Information
Spatiale), située dans les locaux de la Maison de la Télédétection à Montpellier.
Le stagiaire sera encadré par Rémi Decoupes (INRAE, UMR TETIS), Roberto Interdonato et Simon Madec
(CIRAD, UMR TETIS), Jérémy Bourgoin (CIRAD/ILC) et Marie Gradeler (ILC).
Si des résultats significatifs sont obtenus, le stage peut conduire à une publication scientifique.
Financement :
Le stage est soutenu par le projet Land Matrix. La rémunération du stagiaire sera de l’ordre de 600 euros par
mois.

Modalité de candidature :

Attention : cette proposition ne concerne que les stages d’étudiants sous convention avec une école ou une
université : il ne s’agit pas d’une offre d’emploi.
Envoyer une lettre de motivation d’une page, précisant en outre la durée et période possible du stage, un CV
détaillé, et un relevé des notes à : remy.decoupes@inrae.fr et roberto.interdonato@cirad.fr , en précisant dans
l’objet « CANDIDATURE STAGE LAND MATRIX 2025 ».

Date limite pour l’envoi du dossier : 06 Decembre, 2024

Formation et compétences requises :

Adresse d’emploi :
Maison de la Télédétection, 500 rue Jean François Breton, 34000, Montpellier

Document attaché : 202411221612_Stage2025.pdf

Categories: Stages

Nouvelles Interactions pour la Post-Edition de Traductions Automatiques

Tickets

Feb 14 – Feb 15 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ISIR, Sorbonne Université
Durée : 5-6 mois
Contact : yvon@isir.upmc.fr
Date limite de publication : 2025-02-14

Contexte :

Sujet :
Ce stage s’intéresse à l’étude de nouvelles interactions pour la révision (post-édition) de traductions automatiques, par exemple en intégrant des mesures de confiance sur la qualité de traduction.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
ISIR
4, Place Jussieu
75005 Paris

Document attaché : 202411251257_sujet.pdf

Categories: Stages

Stage M2 – IA Santé – Marseille – Analyse statistique des tests d’efforts pour améliorer le diagnostic patient

Tickets

Feb 14 – Feb 15 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique et des Systèmes (LIS)
Durée : 5 mois
Contact : paul.chauchat@lis-lab.fr
Date limite de publication : 2025-02-14

Contexte :
Ce stage s’inscrit dans un projet de recherche visant à analyser les données issues de tests d’effort cardio-pulmonaire (CPET). Les CPET sont utilisés pour évaluer les réponses physiologiques d’un patient lors d’un exercice maximal, afin de déterminer le degré de limitation à l’effort et d’en identifier les mécanismes sous-jacents.
L’objectif global de ce projet de recherche est de concevoir des outils d’analyse et d’aide à la décision qui enrichiront l’interprétation des données CPET, et fourniront des outils prédictifs utiles pour le phénotypage des patients et la prédiction des trajectoires de soin. Cette approche vise à combler le fossé entre recherche et pratique médicale. En effet, bien que de récents travaux ont montré que l’exploitation des données collectées permette, grâce à techniques d’Intelligence artificielle d’obtenir des informations sur les patients telles que le diagnostic des limitations à l’effort (Portella, et al., 2022), la prédiction du devenir médical du patient (Hearn, et al., 2018), ou bien la détection automatique des seuils ventilatoires (Zignoli, et al., 2019), la pratique médicale se base encore sur une analyse séquentielle univariée. Il est donc nécessaire de comparer ces différentes approches en termes de pouvoir prédictif.
Ce projet est une collaboration entre les laboratoires LIS et C2VN, ainsi que l’AP-HM.

Encadrement et Collaboration
Le stage se déroulera au LIS (campus Saint Jérôme) sous la supervision de Paul Chauchat (Maître de conférences, LIS), et de Stéphane Delliaux (Maître de conférences HDR et Praticien hospitalier, C2VN), en collaboration étroite avec Luca Thiébaud, doctorant au LIS.

Sujet :
L’objectif de ce stage est de contribuer à l’exploitation des données issues des tests d’effort cardio-pulmonaire (CPET) à travers une approche de Network Physiology. Cette approche par les données examine les interactions entre différents réseaux physiologiques, tels que les systèmes cardiovasculaire, respiratoire et métabolique, pour mieux comprendre leur dynamique complexe (Bashan, Bartsch, Kantelhardt, Havlin, & Ivanov, 2012). La physiologie des réseaux a été jusqu’ici utilisée à des échelles petites (un organe), et sur des cohortes faibles mais dans un cadre contrôlé. Il s’agira donc d’étudier, dans ce stage, l’applicabilité de la méthode à une plus grande échelle, grâce à des données plus nombreuses, mais recueillies dans un cadre médical. Des données issues des tests d’effort de l’AP-HM, et éventuellement de bases open source, seront utilisées. Ces travaux visent à obtenir un meilleur diagnostic de l’état de santé des patients.
Au regard de l’avancée de ce projet et des intérêts spécifiques du/de la candidat(e), ces pistes pourront être amenées à évoluer.

Profil du candidat :
Étudiant(e) en dernière année d’École d’Ingénieur ou en Master 2, spécialités IA, mathématiques appliquées, bio-statistiques ou informatique. Vous avez un solide bagage théorique accompagné d’une bonne expérience de programmation (Python). Vous êtes motivé(e) par les applications médicales et l’analyse de données temporelles multivariées. Une expérience en Machine Learning, traitement de données médicales ou analyse statistique est un atout.

Formation et compétences requises :

Adresse d’emploi :
Campus de Saint-Jérôme, Aix-Marseille Université, 52 av de l’escadrille Normandie Niemen, 13013, Marseille, France

Document attaché : 202411261503_offre_stage.pdf

Categories: Stages

Feb

Fri

2025

Automatisation de Méta-Analyse bibliographique par l’Intelligence Artificielle (IA) et les Large Language Models (LLMs)

Tickets

Feb 21 – Feb 22 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFAT et IRBI
Durée : 6 mois
Contact : chanson@univ-tours.fr
Date limite de publication : 2025-02-21

Contexte :

La méta-analyse est une tâche d’analyse de la littérature scientifique visant à collecter l’ensemble des études portant sur un même phénomène (p. ex. effet d’un herbicide sur le système nerveux d’un insecte), puis d’en extraire les éléments qualitatif et quantitatifs permettant la réalisation d’une étude statistique s’appuyant sur l’ensemble des résultats collectés.
Cette tâche tout comme l’analyse systématique de la littérature repose sur la lecture et l’extraction d’information d’un grand nombre de textes scientifiques. Rendant ces tâches longues et complexes.
L’émergence des modèles de langage massif (LLM) a participé à démocratiser l’usage de l’intelligence artificielle. Elle a permis à tout un chacun d’interagir et d’exploiter l’information textuelle via une interface en langue naturelle ne nécessitant aucune connaissance préalable. Néanmoins ces outils comportent des risques : quand ils sont confrontés à une question portant sur une connaissance précise, les LLMs tendent à ‘halluciner’ présentant comme réponse des informations complètement fausses [4]. Cette phénomène tend à disparaître avec les modèles désormais entraînés à répondre qu’ils ne disposent simplement pas d’une information plutôt que de l’inventer [5]. Une des techniques visant à pallier ce manque de ‘connaissance’ est d’extraire l’information d’un document source et de la fournir au LLM en plus de la requête originelle. Dans sa version la plus simple l’utilisateur lui-même peut identifier un texte source et le fournir au modèle de langue (e.g. [2]). Un process plus formel et complexe vise à construire un pipeline ou l’information pertinente de réponse à une question est automatiquement localisée et fournie au LLM. Ces méthodes dites de RAG (Retrival Augmented Generation) permettent une plus grande flexibilité et puisque le système détermine de façon autonome les parties de documents nécessaire pour compléter la requête de l’utilisateur il permet de puiser dans des milliers de documents sans intervention préalable de l’utilisateur.

Sujet :
Ce stage de recherche se propose d’explorer le potentiel des LLMs, notamment en combinaison avec des techniques de RAG, pour automatiser et améliorer certaines tâches liées à la méta-analyse. Nous nous baserons sur une méta-analyse coordonnée par Stéphane Boyer et portant sur le thème des échantillonnages ADN dits ‘non-invasifs’ pour l’étude des animaux [6]. Plus précisément, nous allons nous concentrer sur :
L’extraction des données : une fois les études pertinentes identifiées, les LLMs peuvent être utilisés pour extraire les données nécessaires à la méta-analyse, en particulier 1) la méthodologie employée et la nature des échantillons ADN collectés, 2) le caractère invasif ou non des prélèvements réalisés, et 3) le cas échéant le type ‘d’erreur’ réalisé par les auteurs dans leur utilisation du terme ‘non-invasive DNA sampling’ [6].
La synthèse des résultats : les LLMs peuvent être utilisés pour générer des résumés synthétiques des résultats de la méta-analyse, en langage naturel, et pour identifier les tendances et les conclusions principales d’une étude. L’analyse des 380 articles scientifiques étudiés en 2022 (articles publiés entre 2013 et 2018) permettra de comparer les résultats obtenus par l’approche manuelle à ceux produits par les LLMs, et d’affiner le protocole afin d’obtenir les résultats les plus précis possible.
La mise à jour de la méta-analyse sera ensuite réalisée en appliquant notre meilleur protocole LLM sur un nouveau lot d’articles, publiés entre 2019 et 2024. Cette mise à jour pourra être soumise pour publication dans un journal à comité de lecture.

[1] Zhu, Y., Yuan, H., Wang, S., Liu, J., Liu, W., Deng, C., Dou, Z., & Wen, J. (2023). Large Language Models for Information Retrieval: A Survey. ArXiv, abs/2308.07107.
[2] https://chatgpt.com/share/671fb24d-dec8-8012-9857-760539b1390f
[3] Yun, H., Pogrebitskiy, D., Marshall, I.J., & Wallace, B.C. (2024). Automatically Extracting Numerical Results from Randomized Controlled Trials with Large Language Models. ArXiv, abs/2405.01686. https://arxiv.org/pdf/2405.01686
[4] Huang, L., Yu, W., Ma, W., Zhong, W., Feng, Z., Wang, H., Chen, Q., Peng, W., Feng, X., Qin, B., & Liu, T. (2023). A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. ArXiv, abs/2311.05232.
[5] Tonmoy, S.M., Zaman, S.M., Jain, V., Rani, A., Rawte, V., Chadha, A., & Das, A. (2024). A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models. ArXiv, abs/2401.01313.
[6] Lefort, M. C., Cruickshank, R. H., Descovich, K., Adams, N. J., Barun, A., Emami-Khoyi, A., … & Boyer, S. (2022). Blood, sweat and tears: a review of non-invasive DNA sampling. Peer Community Journal, 2, e16. https://peercommunityjournal.org/articles/10.24072/pcjournal.98/

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Tours: Campus de Grandmont

Document attaché : 202501160822_stage meta-analyse irbi_lifat (2).pdf

Categories: Stages

Feb

Tue

2025

Échantillonnage de motifs sur des donnéeshétérogènes

Tickets

Feb 25 – Feb 26 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire GREYC Université de Caen
Durée : 6 mois
Contact : abdelkader.ouali@unicaen.fr
Date limite de publication : 2025-02-25

Contexte :
Ce stage de master s’inscrit dans le cadre du projet FIDD (Facilitated Exploration :Interactive Constraint-Driven Data Mining) financé par l’ANR (Agence Nationale de laRecherche), projet qui démarrera en février 2025. L’objectif principal du projet FIDD est d’améliorer l’expérience de l’utilisateur dans la boucle interactive de fouille de données en exploitant les contraintes pour capturer ses intérêts et guider efficacementle processus de fouille de données. Ce projet regroupe 6 organismes de recherche nationaux : LISN [UMR 5506 – Université de Paris-Saclay], LIRMM [UMR 5506 – Université ofMontpellier], LS2N [IMT Atlantique Nantes], GREYC [UMR 6072 – Université de Caen],LIFO [EA 4022 – Université d’Orléans], CRIL [UMR 8188 – Université of Artois]. En collaboration avec l’entreprise PME Deeplink-Medical, une application phare est considéréeafin d’améliorer la prise en charge des patients par des médecins radiologues selon leursinteractions.

Sujet :
La fouille de motifs [1] consiste à extraire, à partir d’un ensemble de données, des régu-larités ou des modèles récurrents qui peuvent être utilisés pour générer des connaissancessignificatives. Cependant, afin de réduire la durée de la procédure et donner davantage de contrôle à l’utilisateur, la fin des années 2000/le début des années 2010 voyait le déve-loppement des méthodes defouille interactive[7] : à chaque itération, un petit ensemblede motifs est proposé à l’utilisateur, l’utilisateur examine ces résultats partiels, donne desretours que l’algorithme prend en compte pendant la ou les prochaines itérations. En rai-son du très grand nombre de motifs extraits, une telle approche a pourtant besoin destechniques d’échantillonnage en sortie de motifs comme celles été proposées en [4, 5, 6, 3]pour sélectionner un sous-ensemble représentatif de l’ensemble de motifs. Ces techniquespermettent de réduire la complexité en temps de calcul et de faciliter l’analyse tout en pré-servant l’essence des informations contenues dans les motifs de la base de données. Dansces techniques, le tirage de motifs est souvent réalisé proportionnellement à une mesure re-flétant un certain intérêt de l’utilisateur. Ainsi, le processus d’échantillonnage peut intégrerdes contraintes visant à influencer le tirage lui-même ou à cibler spécifiquement des motifsqui satisfont certaines propriétés définies. Plus précisément, ce problème d’échantillonnagese formule de la manière suivante [4, 2] : étant donné une base de données S, un langage demotifsL, un ensemble de contraintes C, et une mesure de qualité φ:L→R, tirer aléatoi-rement des motifs qui satisfont les contraintes de C avec une probabilité proportionnelle à leur qualité.

Profil du candidat :
Niveau master 2 (ou équivalent) en informatique (ou mathématiques appliquées) ayantun intérêt pour l’intelligence artificielle, la programmation par contraintes, et la fouille de données.

Formation et compétences requises :
Des compétences en programmation JAVA, Python et C++ ainsi qu’une bonne compréhension des algorithmes de fouille de données et de résolution de contraintes et SAT seront appréciées. La langue utilisée est le français ou l’anglais.

Adresse d’emploi :
Laboratoire GREYC, CNRS UMR 6072, Université de Caen, 14000, Caen. Avec des interactions régulières avec l’équipe Contraintes et Apprentissage au laboratoireLIFO, EA 4022 – Université d’Orléans.

Document attaché : 202410241252_FIDD___Sujet_de_Stage_M2-1.pdf

Categories: Stages

Feb

Wed

2025

Calcul de similarités de séquences complexes : adaptation d’approches pour séries temporelles

Tickets

Feb 26 – Feb 27 all-day

Offre en lien avec l’Action/le Réseau : SIMDAC/– — –

Laboratoire/Entreprise : LIFO
Durée : 5 mois
Contact : Patrick.Marcel@univ-orleans.fr
Date limite de publication : 2025-02-26

Contexte :
De nombreux domaines nécessitent l’analyse de gros volumes de séquences de diverses complexités (en termes de périodicité, complétude, multivariée ou non, etc.) et en particulier de leur similarité. On peut citer les domaines aussi variés que le médical (e.g. stratification de patients, alignements de gènes), le social (analyse de trajectoires sémantiques), la science des données (génération et recommandation de pipelines d’exploration), etc.
Par exemple, le groupement de patients suivis sur de longues périodes peut être vu comme un problème de recherche et calcul de similarité sur des séquences complexes : les séquences sont apériodiques (la fréquence des rendez-vous médicaux n’étant pas fixe), multivariées (plusieurs informations sont enregistrées à chaque rendez-vous), incomplètes (les informations enregistrées peuvent varier d’un patient à l’autre) .

Sujet :
Il est souvent nécessaire d’optimiser du calcul de similarités sur ces gros volumes de données de type séquences.
L’objectif de stage est d’étudier comment différentes approches proposées pour le calcul de similarité de séries temporelles peuvent s’appliquer au calcul de similarité de séquences complexes.
Notamment, on étudiera des techniques de réduction de dimensionalité et indexation.

Profil du candidat :
Le profil recherché est un stagiaire de Master ou école d’ingénieur en informatique, ou un niveau équivalent, possédant un bon niveau en programmation, base de données, parallélisme et mathématique.
Le stage pourra déboucher sur une thèse de doctorat financée.

Formation et compétences requises :

Adresse d’emploi :
LIFO, Université d’Orléans

Document attaché : 202502261523_Sujet_de_stage___adaptation_d_approches_de_s_ries_temporelles_au_calcul_de_similarit_s__de_s_quences_complexes.pdf

Categories: Stages

Feb

Fri

2025

Annotation sémantique de documents multi/cross lingues par apprentissage frugal non supervisé

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Pôle uiversitaire Léonard de Vinci, DVRC, La défen
Durée : 6 mois
Contact : n.mellouli@iut.univ-paris8.fr
Date limite de publication : 2025-02-28

Contexte :
Les données textuelles envahissent nos quotidiens personnels et professionnels. La recherche de documents pertinents répondant à des besoins métier devient une tâche très fastidieuse et nécessite un investissement en termes d’effort humain à annoter ces documents pour pouvoir les exploiter correctement. L’annotation sémantique de documents multimodaux est un sujet de recherche brûlant que nous proposons d’attaquer selon l’angle des résumés extractifs. Nous supposons qu’une annotation ou une étiquette n’est pas suffisante pour indexer sémantiquement un document. En revanche, un résumé peut représenter collectivement les informations les plus importantes ou les plus pertinentes du contenu d’origine. Par conséquent, toute opération qui émane de l’exploration des documents d’origines telles que la classification, la recherche, la segmentation, ou encore la catégorisation des documents peut être effectuée sur la base du résumé dès lors que ce dernier soit fidèle à l’information d’origine. Ce niveau de fidélité peut être évalué par le biais de différentes métriques qui seront sélectionnées d’une manière automatique en fonction de la tâche.

Sujet :
L’évaluation des systèmes de traitement automatique de la langue a toujours été un défi majeur pour les chercheurs. En effet ces tâches reposant sur des compétences abstraites de haut niveau, avant d’être difficile à réaliser elles sont tout simplement difficile à évaluer.
Par exemple, afin d’évaluer un simple système de résumé automatique de texte, il est nécessaire de demander à des experts de créer des résumés à la main. Cependant, contrairement à une tâche d’annotation d’images certes fastidieuse mais simple, dans le cas du résumé, l’expert doit comprendre finement les documents sources afin d’en générer une synthèse fidèle. Une fois ces résumés de référence obtenus, il est nécessaire de développer une méthodologie afin de pouvoir évaluer la qualité des résumés générés automatiquement.

La métrique la plus utilisée ROUGE2(Lin, 2004) va simplement compter le nombre de bi-grammes commun entre le résumé de référence et le résumé automatique. Plus un résumé aura de bigrammes communs avec le résumé de référence plus le système sera considéré comme performant. Avec l’essor de l’apprentissage profond, ces métriques ont été améliorées par exemple avec le BERTScore(Zhang & Al, 2020) qui permet de comparer les phrases au niveau vectoriel et ainsi identifier des phrases sémantiquement proches même si elles diffèrent complètement syntaxiquement (par l’usage de synonyme par exemple). Certaines méthodes vont encore plus loin en faisant complètement abstraction de toute annotation de référence. C’est le cas de la métrique BARTScore (Weizhe & Al, 2021). Celles-ci ont été testées dans différentes applications et pour différentes tâches. Dans ce travail, nous visons leur exploitation pour une tâche d’extraction de résumés à partir de documents thématiques. Deux contextes applicatifs seront étudiés dans le cadre de ce stage. Ce travail portera sur le tourisme et s’intéresse particulièrement à l’analyse des sentiments des visiteurs basés sur les données collectées à partir de hotel.com, TripAdvisor, Booking, etc.
Les hypothèses suivantes que nous souhaitons explorer dans ce stage sont comme suit :

1) Ces métriques permettent de construire des résumés extractifs synthétiques pertinents et porteurs de sens. Cependant le cadre méthodologique de ces métriques ne permet pas d’expliquer le processus d’extraction. Or si nous cherchons à annoter sémantiquement les documents via les résumés, il est nécessaire de tracer la pertinence des mots/ phrases.

2) Via les métriques, la quantification de l’hallucination des LLM sera étudiée.

3) Ces métriques indépendantes de toute annotation peuvent être adaptées au cas de résumés génératifs de documents textuels et amorcer une boucle automatique d’amélioration de ces modèles.

4) Ces métriques peuvent être étendues aux cas de résumés génératifs textuels d’images en se basant sur les prompts et sur les commentaires associés aux images.

En perspective, ce travail pourra être envisagé pour l’étendre au résumé d’images en s’inspirant de ces mêmes métriques

Profil du candidat :
Master 2 Recherche en IA-NLP,

Formation et compétences requises :
Les compétences attendues :
Le stagiaire sera en mesure de comprendre l’état de l’art récent sur les métriques d’évaluation et l’apprentissage frugal. De proposer une implémentation modulaire de ces métriques et de les tester sur des jeux de données de benchmark pour se comparer mais également de construire un jeu de données images et textes pour tester les limites de nos hypothèses.

Adresse d’emploi :
Campus Cyber, 5-7, Rue Bellini, 92800 Puteaux

Document attaché : 202412181042_SujetStagede5A_2024_2025_DVRC.pdf

Categories: Stages

Cahiers citoyens – Diagnostic et correction d’un corpus océrisé à l’aide de méthodes de TAL

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire LASTIG
Durée : 5 mois
Contact : sami.guembour@ign.fr
Date limite de publication : 2025-02-28

Contexte :
Contexte

*******

En janvier 2019, comme une des réponses à apporter au mouvement des Gilets Jaunes, le gouvernement a mis en place la consultation du Grand Débat national (GDN) qui propose aux contributeurs et contributrices à la fois une plate-forme numérique dématérialisée et non localisée, et des supports matériels localisés dans des lieux publics : les “Cahiers citoyens”.

Chaque contribution a été directement écrite ou bien collée sur le support papier par un contributeur ou une contributrice. D’autres contributions sont arrivées en mairie sous forme de courriel ou bien de lettre ; celles-ci ont été imprimées (par la mairie collectante) et collée sur le cahier mis à disposition du public. Concernant son agencement et son positionnement sur la ou les pages, la contribution peut prendre la forme d’une lettre, ou une liste à puces, ou une suite de paragraphes.

Au total 20 152 Cahiers ont été collectés. Ils ont ensuite été numérisés sous forme de fichiers image, transcrits automatiquement par océrisation, et partiellement vérifiés par des opérateur.rice.s humain.e.s. L’ensemble des contributions constitue le corpus des “Cahiers citoyens” (corpus CC).

Sujet :
Sujet

****

Des analyses précédentes portant sur le corpus CC ont permis d’évaluer partiellement la qualité de la transcription. Trois types d’erreur ont été détectés et prennent la forme de :

– mots illisibles : lorsque le mot océrisé n’est pas reconnu par l’opérateur humain, la mention manuelle “ILLISIBLE” est substituée à la séquence de lettres ou au mot incriminés. Des analyses exploratoires ont été menées pour quantifier le phénomène ; une méthode de correction a été explorée, fondée sur le fine-tuning du modèle de langue CamemBERT pour la tâche de prédiction des mots masqués “Mask Language Modelling” [3];

– mots inconnus : les mots inconnus sont ceux qui ne sont pas reconnus lorsque le corpus est soumis à une analyse lexicale à l’aide d’outils utilisant des dictionnaires électroniques ; il s’agit majoritairement d’erreurs d’océrisation ayant transformé un mot initialement valide, ou de coquilles du contributeur.rice, plus rarement de néologismes ;

– mots échangés : un mot reconnu par les dictionnaires, mais erroné en contexte, est produit par l’outil d’océrisation sans être repéré ni corrigé à l’étape de vérification manuelle, par exemple miches et riches transcrits à la place de niches dans l’expression niches fiscales.

L’objectif du stage consiste à proposer une identification et si possible une correction du corpus au travers des trois types d’erreurs relevés. Selon l’analyse exploratoire, la correction des mots inconnus peut être identique à celle des mots illisibles. Il s’agit donc d’implémenter la méthode explorée pour la correction des mots illisibles, et de l’évaluer pour les mots illisibles et les mots inconnus. Dans un deuxième temps, il s’agira de proposer et implémenter une méthode d’identification et de correction des mots échangés.

Le stage comportera les étapes suivantes (une attention particulière sera portée aux conditions de ré-utilisabilité des ressources et codes produits, et donc à leur documentation tout au long du stage) :

– appropriation des travaux déjà réalisés sur l’analyse des corpus plate-forme GDN et CC dont [4, 1, 2] ;

– concernant les mots illisibles et les mots inconnus :

* appropriation de la méthode explorée pour l’identification et la correction des mots illisibles ;

* amélioration de cette méthode : l’objectif consistera à adapter la méthode existante afin de prédire les mots illisibles, cette fois-ci vus comme des données manquantes ;

* adaptation de cette méthode pour la correction des mots inconnus, implémentation et évaluation ;

– concernant les mots échangés : la réflexion sur une méthode d’identification a été amorcée, fondée sur la comparaison de n-grammes entre les deux corpus comparables issus de la consultation du “Grand Débat national” : le corpus CC (obtenus à partir des “Cahiers citoyens”) et les contributions de la plate-forme (qui n’ont pas eu à être océrisées puisqu’elles étaient collectées sous une forme numérique) ; elle devra être menée à bien jusqu’à une implémentation.

Profil du candidat :
Ce stage s’adresse aux étudiant.e.s de master 2 en informatique/science des données ou en traitement automatique des langues (TAL) avec une formation suffisante pour l’utilisation autonome d’un langage de programmation (de préférence Python et R) et d’outils de TAL (outils fondés sur l’apprentissage, modèles de langue, encodage de mots, de phrases ; classifieurs ; outils statistiques de lexicométrie).

Formation et compétences requises :
Encadrement du stage

******************

Catherine Dominguès, chercheure HDR, catherine.domingues@ign.fr

Sami Guembour, doctorant, sami.guembour@ign.fr

Alexandre Hippert-Ferrer, enseignant-chercheur, alexandre.hippert-ferrer@ensg.eu

Pour candidater

*************

Des entretiens seront organisés à partir de novembre 2024. Préalablement, un dossier de candidature est à envoyer aux encadrant.e.s et devra contenir les documents suivants : CV, derniers relevés de notes (M1, et premier semestre de M2 si possible), description des enseignements suivis (un lien vers le site internet de la formation est le bienvenu), dernier mémoire ou rapport de stage, lettre de motivation. L’accès au corpus des “Cahiers citoyens” étant soumis à autorisation des Archives nationales, il est souhaitable que la candidature soit validée le plus tôt possible.

Adresse d’emploi :
Laboratoire LASTIG à Champs-sur-Marne, 6-8 avenue Blaise Pascal (site de l’ENSG-Géomatique).

Accès : RER A – Noisy-Champs

Document attaché : 202411220935_stage2025_CC_diagnosticCorrectionCorpus.pdf

Categories: Stages

Détection et résolution intelligente des conflits pour une gestion autonome et efficace des systèmes IoT

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LAAS-CNRS
Durée : 6 mois
Contact : nawal.guermouche@laas.fr
Date limite de publication : 2025-02-28

Contexte :

Sujet :
Ce stage se focalise sur la gestion des conflits induits par les services IoT qui soit sensible au contexte de l’environnement d’exécution. En effet, définir une priorité absolue, par exemple à un certain groupe d’objets, est très restrictif. L’objectif est de proposer une approche dynamique de détection et de résolution des conflits flexible qui tienne compte de différents paramètres tel que l’environnement des objets et les caractéristiques des services clients. Nous nous intéressons particulièrement à l’exploitation des techniques d’apprentissage automatique dans la détection et la résolution des conflits. Les étapes du stage sont comme suit :
• Faire un état de l’art sur la détection et la résolution des conflits dans les systèmes IoT et des outils de simulation existants
• Exploration et application sur des scénarios des modèles d’apprentissage automatique et les mécanismes d’attention pour la détection des conflits des services IoT
• Implémentation d’un outil de simulation et de résolution de conflits IoT

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
LAAS-CNRS, Toulouse

Document attaché : 202411220827_Sujet-Stage-IA-Conflit.pdf

Categories: Stages

Identification de la sévérité cognitive d’un patient atteint de la maladie d’Alzheimer par apprentissage automatique de données

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire IBISC, Université d’Evry Paris-Saclay
Durée : 6 mois
Contact : Khalifa.Djemal@ibisc.univ-evry.fr
Date limite de publication : 2025-02-28

Contexte :

Sujet :
La détection de signes des pathologies d’Alzheimer qui est une maladie neurodégénérative est une tâche très importante dans un système d’aide au diagnostic médical. En effet, les techniques d’apprentissage automatique offrent aujourd’hui des perspectives pour détecter et identifier des troubles liés à la maladie, évaluer son avancement et à terme pouvoir rééduquer le patient. Dans un premier temps, le candidat fera une étude de l’état de l’art sur les troubles cognitives de la maladie et sur les techniques récentes employées pour reconnaitre la sévérité des patients. Il procèdera ensuite à la mise en place d’un modèle d’apprentissage à partir de bases de données qui permettra l’analyse de ces troubles cognitives conduisant ainsi à la classification et l’identification de la sévérité de la maladie.

[1] Hyun-Soo Choi, Jin Yeong Choe, HanjooKim, Ji Won Han, Yeon Kyung Chi, KayoungKim, Jongwoo Hong, Taehyun Kim, Tae Hui Kim, Sungroh Yoon and Ki Woong Kim. Deep learning based low-cost high-accuracy diagnostic framework for dementia using comprehensive neuropsychological assessment profiles, BMC Geriatrics, 18:234 (2018).

[2] Valeria Manera, Pierre-David Petit, Alexandre Derreumaux, Ivan Orvieto, Matteo Romagnoli, Graham Lyttle, Renaud David, and Philippe H. Robert, ’Kitchen and cooking’, a serious game for mild cognitive impairment and Alzheimer’s disease: a pilot study, Frontiers in Aging Neuroscience, 7: 24, 2015.

[3] Boaz Levy1, Samuel Gable, Elena Tsoy, Nurit Haspel, Brianna Wadler, Rand Wilcox, Courtney Hess, Jacqueline Hogan, Daniel Driscoll and Ardeshir Hashmi. Machine Learning Detection of Cognitive Impairment in Primary Care, Alzheimers Dis Dement, 1(2):38-46, 2017.

[4] Werner P, Rabinowitz S., Klinger E., Korczyn A. D., Josman N., Use of the virtual action planning supermarket for the diagnosis of mild cognitive impairment: a preliminary study, Dement Geriatr Cogn Disord, 27(4):301-9, 2009.

[5] Déborah A. Foloppe, Paul Richard, Takehiko Yamaguchi, Frédérique Etcharry-Bouyx & Philippe Allain, The potential of virtual reality-based training to enhance the functional autonomy of Alzheimer’s disease patients in cooking activities: A single case study, Neuropsychological Rehabilitation, October 2015.

[6] Khalifa Djemal and Hichem Maaref, Intelligent Information Description and Recognition in Biomedical Image Databases, In:Computational Modeling and Simulation of Intellect: Current State and Future Perspectives, Book Edited by Boris Igelnik, pages: 52-80, Publisher IGI Global, ISBN: 978-1-60960-551-3, February 2011.

[7] Florian Maronnat, Margaux Seguin, Khalifa Djemal, Cognitive tasks modelization and description in VR environment for Alzheimer’s disease state identification, in International conference on Image Processing Theory, Tools and Applications (IPTA 2020), November 09-12, 2020, Paris, France.

Profil du candidat :
Master 2 ou équivalent, de préférence des spécialités suivantes :
– Apprentissage automatique (Machine Learning),
– Imagerie Biomédicale
– Informatique Biomédicale,
– Informatique, Réalité Virtuelle et Systèmes Intelligents

Formation et compétences requises :

– Programmation Python, Matlab,
– Machine Learning
– Des connaissances de base en traitement d’images

Adresse d’emploi :
Laboratoire Informatique, Biologie Intégrative et Systèmes Complexes – IBISC 40 rue du Pelvoux, 91020 Evry, France

Document attaché : 202411151746_Sujet-stage-Master2-Djemal-2024-2025.pdf

Categories: Stages

Inférence de Réseaux à Partir des Données Hétérogènes

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2025-02-28

Contexte :

Sujet :
Bonjour à tous,

Nous avons le plaisir de vous annoncer une offre de stage de 6 mois au laboratoire TETIS à Montpellier, axée sur le problème d’inférence de réseaux à partir des données hétérogènes epidémiologiques en utilisant des méthodes de Graph Neural Networks.

La date de début est prévue pour février 2025 (flexible). Vous trouverez la description détaillée de l’offre en français et en anglais ici :

https://nubes.teledetection.fr/s/mTiDsdxCPHbNid3

Pour toute question, n’hésitez pas à contacter Nejat Arınık (nejat.arinik@univ-artois.fr) ou moi-même (roberto.interdonato@cirad.fr).

Pour candidater, merci d’envoyer un mail à nejat.arinik@univ-artois.fr et roberto.interdonato@cirad.fr avec sujet “CANDIDATURE STAGE MOOD 2025” en ajoutant les éléments suivants:
– lettre de motivation expliquant vos qualifications, expériences et motivation pour ce sujet (1-2 pages)
— curriculum vitae (1-2 pages)
— relevé de notes de 1ère année de master et les notes de 2ème année de master disponibles ou équivalent pour les écoles
d’ingénieurs
— un lien vers des dépôts de projets personnels (par exemple GitHub ou GitLab)
— toute autre information que vous estimerez utile

N’hésitez pas à transmettre ces offres à des étudiants qui pourraient être intéressés.

Cordialement,

Roberto et Nejat
Roberto and Nejat

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
500 rue Jean Francois Breton, Montpellier

Document attaché : 202411151304_Stage – Inférence de Réseaux à Partir des Données Hétérogènes.pdf

Categories: Stages

Measuring the Environmental Impact of NoSQL Model Transformations on the Cloud

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DVRC@ESILV
Durée : 6 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2025-02-28

Contexte :
The development of NoSQL solutions on the Cloud is a complex task, and mastering all aspects of optimization is challenging. At the DVRC (the ESILV laboratory), we have developed an approach to help developers measure the impact of their solutions under different dimensions: time, financial, and environmental.

Sujet :
In the context of this research project, we aim to study the impact of data model transformations on environmental costs in the Cloud. A cost model was previously developed in the team, and we intend to use it to better understand the impact of these transformations and create a recommendation system to minimize the carbon footprint of a NoSQL solution.
The first objective of this project will be to familiarize oneself with the cost model and apply it to various benchmarks. The results will be analyzed to study correlations between data models, queries, and data evolution. In the second phase, these results will be used to design a recommendation system to propose data model generation with a low carbon footprint while respecting other dimensions (financial and time costs).
A potential evolution of the subject could involve studying schema evolution as the database state changes, especially in the context of polystores.
This internship includes:
– Study of a cost model specialized in carbon footprint measurement
– Behavioral analysis of NoSQL databases
– Development of an environmental recommendation model

Profil du candidat :
M2 level students (Master or Engineering Schools).

Formation et compétences requises :
Distributed DB, Cost Model, Data Modeling, Carbon footprint measuring, MongoDB

Adresse d’emploi :
DVRC at ESILV at (École Supérieure d’Ingénieurs Léonard de Vinci ; Paris, la Défense).

Document attaché : 202411221058_2425_MALI_NoSQL_Mali-Travers.pdf

Categories: Stages

Modèles et algorithmes basés sur l’IA pour la détection et la prévention des perturbations chez les conducteurs TSA pour une mobilité intelligente et inclusive

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LAAS-CNRS
Durée : 6 mois
Contact : nawal.guermouche@laas.fr
Date limite de publication : 2025-02-28

Contexte :

Sujet :
La montée en puissance de l’intelligence artificielle (IA) permettrait d’offrir des services facilitant l’usage des voitures aux personnes TSA, notamment des véhicules connectés. Un véhicule connecté est doté de capteurs et objets connectés embarqués, permettant d’une part, de collecter des données en temps réel, et d’autre part, d’offrir des services capables d’interagir avec l’environnement (feux rouges, d’autres véhicules connectés. etc.) ainsi qu’avec l’écosystème plus large de la ville intelligente.
Dans le cadre de ce stage et en collaboration avec le Centre d’Études et de Recherches en Psychopathologie et Santé (CERPPS), Université Jean Jaures, nous visons à développer des modèles, des algorithmes, et des outils pour la mise en place d’un système autonome et intelligent dédié à l’accompagnement des personnes TSA dans leur mobilité. En s’appuyant sur l’IoT et l’IA, notamment via les réseaux de neurones profonds couplés aux mécanismes d’attention, ce système devra être capable d’identifier, de caractériser, et de quantifier de manière active et prédictive l’impact des événements routiers sur le conducteur. Cela doit permettre de mettre en place des solutions capables d’anticiper les potentiels impacts sur la cognition et les émotions du conducteur et ainsi l’aider à mener une conduite la plus sereine possible.

Pour atteindre les objectifs de ce stage, les principales étapes sont :
– État de l’art : une revue de littérature sur l’IoT, la mobilité intelligente, l’IA, et les troubles TSA dans le cadre la mobilité routière sera réalisée.
– Étude et analyse des dataset déjà constitués en vue de leur exploitation et enrichissement via la mise en place de nouveaux scénarios en utilisant le simulateur SimulAuto .
– Proposition d’une approche pour l’identification, la quantification, et la visualisation de l’impact des évènements routiers sur l’état cognitif et émotionnel des personnes TSA.
– Implémentation et évaluation de la solution proposée.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
LAAS-CNRS, Toulouse, France

Document attaché : 202411220830_Sujet-Stage-Mobilité-Inclusive.pdf

Categories: Stages

Multi-modal explainable machine learning for exploring consciousness recovery of coma patients

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : 6 mois
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2025-02-28

Contexte :

Sujet :
The first objective of this internship is to study and improve multi-modal Machine Learning models, for the fusion of video and EEG but potentially also EKG data, to predict the situations of our healthy control group. Based on our pre-liminary work on multi-modal LSTM and Transformer models, the aim would be to find characteristic patterns and correlations in the data that represent the different emotional or interactive situations, using eXplainable AI (XAI) techniques such as Integrated Gradient or SHAP.
The second objective would be to adapt these models and methods to DOC patients.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
INSA Lyon – LIRIS
7 Avenue Jean Capelle
69621 Villeurbanne

Document attaché : 202411111700_sujet_stage_M2_agoracoma_fusion1.pdf

Categories: Stages

Optimization of Frequent Pattern Mining for Tourist Behavior Analysis

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : DVRC@ESILV
Durée : 6 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2025-02-28

Contexte :
Understanding the appreciation of visits made by tourists is a major issue in the tourism sector to anticipate trend evolutions as well as how they move across the territory. One approach to estimating this appreciation is based on the extraction of frequent patterns on a circulation graph, such as Graphlet extraction [1], k-decomposition [2], or cohesive structures like k-plexes [6]. Thus, tourism trends are extracted using their frequency of occurrence in a topological manner.
However, tourism data from experience-recommending platforms such as TripAdvisor or Google Maps results in large data graphs that become challenging to process with traditional data mining techniques. With a large number of places visited (millions) and an enormous number of user comments (billions), it is necessary to develop a new approach for scaling graph-based algorithms.

Sujet :
To this end, within the STARCS axis of DVRC, we have developed an exhaustive and scalable pattern extraction approach on a graph using Pregel [3]. This approach allows us to extract both the pattern topology and node properties, including geodesic information [4, 5, 7]. The extraction has been extended to complex patterns giving interesting perspectives of enhancement. We now wish to take this approach a step further by focusing on optimizing the mining process.
The internship has two main goals:
• Use a topological signature technique to mine patterns in a Neo4j database (in Pregel/Java).
• Improve the method to provide a heuristic adapted to the geodesic context.
Example of aggregated tourist propagation graph across the French territory:
• How can we identify significant propagation patterns?
• What are the characteristics of a pattern?
• Can we extract seasonality from different
groups of patterns?

Profil du candidat :

M2 level students (Master or Engineering Schools).

Formation et compétences requises :
Databases, Data Mining, graph DB (Neo4j, Cypher), Java, parallelism.

Adresse d’emploi :
De Vinci Research Center at ESILV at (École Supérieure d’Ingénieurs Léonard de Vinci ; Paris, la Défense).

Document attaché : 202411221055_2425_TRAVERS_GraphMining.pdf

Categories: Stages

Semi-Automatic Annotation of Conversations in Audio-Visual Documents

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Interdisciplinaire des Sciences du Num
Durée : 5 ou 6 mois
Contact : guinaudeau@limsi.fr
Date limite de publication : 2025-02-28

Contexte :
Most human interactions occur through spoken conversations. If this interaction mode seems so natural and easy for humans, it remains a challenge for spoken language processing models as conversational speech raises critical issues. First, non-verbal information can be essential to understand a message. For example a smiling face and a joyful voice can help detecting irony or humor in a message. Second, visual grounding between participants is often needed during a conversation to integrate posture and body gesture as well as references to the surrounding world. For example, a speaker can talk about an object on a table and refer to it as this object by designing it with her hand. Finally, semantic grounding between participants of a conversation to establish mutual knowledge is essential for communicating with each other.

Sujet :
In this context, the MINERAL project aims to train a multimodal conversation representation model for communicative acts and to study communicative structures of audiovisual conversation.
As part of this project, we are offering a 5- to 6-month internship focused on semi-automatic annotation of conversations in audio-visual documents. The intern’s first task will be to extend the existing annotation ontology for dialog acts, currently available for audio documents (through the Switchboard corpus for example), to incorporate the visual modality. In a second step, the intern will develop an automatic process for transferring annotations to new audiovisual datasets (such as meeting videos and TV series or movies) using transfer or few-shot learning approaches.

Practicalities:
The internship will be funded ~500 euros per month for a duration of 5 or 6 months and will take place at LISN within the LIPS team. This internship can potentially be followed by a funded PhD, based on performance and interest in continuing research in this area.

To apply, please send your CV, a cover letter and your M1 and M2 transcripts (if available) by email to Camille Guinaudeau camille.guinaudeau@universite-paris-saclay.fr and Sahar Ghannay sahar.ghannay@universite-paris-saclay.fr

Profil du candidat :

Formation et compétences requises :
Required Qualifications:
● Master’s degree (M2) in Computer Science or related field.
● Experience with deep learning frameworks such as Keras or PyTorch.
● Knowledge of image processing would be an advantage.

Adresse d’emploi :
LISN – Équipe LIPS
Campus Universitaire bâtiment 507
Rue du Belvédère
91400 Orsay

Document attaché : 202411111659_Stage_MINERAL.pdf

Categories: Stages

Stage M2 (poursuite en thèse possible) – Machine Learning / Optimisation / Santé – Equipe ORKAD – Lille

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Equipe ORKAD / Laboratoire CRIStAL Lille
Durée : 6 mois
Contact : julie.jacques@univ-lille.fr
Date limite de publication : 2025-02-28

Contexte :
ORKAD est une équipe de recherche du groupe thématique OPTIMA du laboratoire CRIStAL (Centre de Recherche en Informatique, Signal et Automatique de Lille) (UMR CNRS 9189) de l’Université de Lille. L’objectif principal de l’équipe ORKAD est d’exploiter simultanément l’optimisation combinatoire et l’extraction de connaissances pour résoudre des problèmes d’optimisation. Les métaheuristiques ont souvent été utilisées avec succès pour résoudre différentes tâches de machine learning [DhaenensJourdan2022]. En particulier, l’algorithme MOCA-I [Jacques2013-a], permet de classifier des données hétérogènes et mal réparties par méthode d’optimisation, sur des données médicales [Jacques2020]. L’équipe ORKAD a des partenariats avec le CHU de Lille ; notamment dans le cadre du projet européen PATHACOV pour la détection du cancer du poumon à partir de la concentration en composés organiques volatils dans l’air expiré [Hulo2023]. Dans ce stage, nous nous intéressons à l’extension de ces travaux aux données du projet ALCOVE, suite du projet PATHACOV, où l’objectif est de distinguer différentes classes de sujets: sain / malade (avec le stade : I, II, III, IV) ; opérable / non opérable.

Sujet :
Dans le problème de classification multi-label, un enregistrement du jeu de données peut être associé à plusieurs labels : par exemple « cancer du poumon » et « opérable ». Des approches à base de métaheuristiques ont été proposées par le passé pour gérer ce problème, comme par exemple les colonies de fourmis [Otero2010]. La classification multi-label est souvent associée à une répartition déséquilibrée des différents labels à prédire [Tarekegn2021] et une des spécificités de l’algorithme MOCA-I est justement sa capacité à gérer ce déséquilibre [Jacques2013-a]. Dans MOCA-I, la modélisation est adaptée pour la classification binaire partielle (représentation de la solution, opérateurs d’initialisation et de voisinage,…). L’objectif de ce stage est de proposer une nouvelle représentation et opérateurs adaptés au problème de classification multi-label. Des méthodes de configuration automatique d’algorithmes comme irace [López-Ibáñez2016] seront utilisées pour identifier si les nouveaux opérateurs et stratégies proposés sont efficaces sur les benchmarks sélectionnés.

Profil du candidat :
Programmation Objet (Python ou C++) ; Connaissances en machine learning
Des connaissances en C++ et recherche opérationnelle, optimisation combinatoire seraient un plus.

Formation et compétences requises :
M2 en informatique

Adresse d’emploi :
Lieu : Laboratoire CRISTAL, Equipe ORKAD (Université de Lille, France)

Document attaché : 202411141558_Sujet_stage_M2.pdf

Categories: Stages

February 2025 Feb 2025

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Présentation Générale

Manifestations à venir

Actions, Ateliers et Groupes de Travail :