Interprétation automatique de coupe géologique de forage par apprentissage automatique semi-supervisé

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO & BRGM
Durée : 6 mois
Contact : Patrick.Marcel@univ-orleans.fr
Date limite de publication : 2024-12-23

Contexte :

Sujet :
Proposition de stage au LIFO – Université d’Orléans avec le BRGM:

Interprétation automatique de coupe géologique de forage par apprentissage automatique semi-supervisé

Encadrant : P. Marcel (LIFO – Univ. Orléans) ; C. Loiselet (BRGM)

Contexte : Le BRGM, service géologique national, a la charge de mettre à disposition une connaissance géologique du sous-sol de notre territoire. Pour ce faire, nous collectons les données d’ouvrages souterrains (forages, sondages) qui sont structurées dans une base de données nommée la Banque du Sous-Sol (BSS), organisée et gérée par le BRGM. Cette bancarisation permet de favoriser les applications en ressources naturelles (ressources fossiles et énergétiques), en géotechniques (travaux d’infrastructure et d’aménagement, etc.). Cette base de données contient 700 000 ouvrages et travaux souterrains qui, pour près de la moitié, contiennent des données et informations sur la géologie du sous-sol et plus particulièrement la description géologique le long des logs de sondages/forages. Ces données sont actuellement mises à disposition sur notre plateforme de diffusion InfoTerre (http://inforterre.brgm.fr).

Ces logs géologiques sont par la suite interprétés afin de fournir une information géologique cohérente de notre sous-sol selon une coupe géologique. Aujourd’hui, environ 20% des logs possèdent une coupe géologique interprétée. Nous cherchons ici à accélérer le travail d’interprétation de ces données afin de fournir le plus d’informations possible par l’application d’une méthode d’Intelligence Artificielle.

Description du stage : L’objectif de ce stage est d’étudier une méthode d’apprentissage automatique semi-supervisée pour prédire des données de forage. Cette méthode est inspirée de méthode de recommandation par apprentissage de similarité [1,2]. Dans le cas des données de forage, il s’agira d’utiliser une approche basée sur les K plus proches voisins (KNN), où le voisinage est constitué par des forages existants. Un point clé est donc la définition d’une similarité entre forages, qui sera apprise à partir des caractéristiques des forages.

La méthode envisagée repose sur les étapes suivantes :
1. Extraction de caractéristiques pertinentes des forages existants
2. Définition de similarités simples propres à chaque caractéristique
3. Constitution d’un ensemble d’apprentissage par labellisation faible [3]
4. Entrainement d’un classifier linéaire permettant de pondérer les similarités entre caractéristiques [1]
5. Définition des paramètres du KNN
6. Définition de la méthode de prédiction à partir des forages voisins

L’approche sera comparée aux méthodes de l’état de l’art pour prédire les données de forage, notamment le Krigeage (https://fr.wikipedia.org/wiki/Krigeage).

Le déroulement du stage comprendra :
– une étude bibliographique,
– la proposition d’une approche de prédiction de données de forage,
– l’implémentation et le test de l’approche proposée.

Le profil recherché est un(e) étudiant(e) ayant des connaissances solides en géologie, programmation, et mathématiques, et une appétence pour la recherche. Le stage pourra déboucher sur une thèse de doctorat financée.

Spécificités du poste :
– Stage en fin d’études (Ingénieur ou Master 2)
– Niveau d’études requis : bac+4
– Durée du stage : 6 mois
– Période de stage : Avril – Septembre

Le stage sera encadré par Christelle Loiselet (BRGM c.loiselet@brgm.fr) et Patrick Marcel (LIFO -Univ. Orléans patrick.marcel@univ-orleans.fr). Il se déroulera au LIFO, campus Universitaire de la Source à Orléans.

Votre lettre de motivation et un CV sont à adresser par email jusqu’au 31/12/2024 aux tuteurs du stage.

Références :
[1] Ramanathan V. Guha, Vineet Gupta, Vivek Raghunathan, Ramakrishnan Srikant: User Modeling for a Personal Assistant. WSDM 2015: 275-284
[2] Krista Drushku, Julien Aligon, Nicolas Labroche, Patrick Marcel, Verónika Peralta: Interest-based recommendations for business intelligence users. Inf. Syst. 86: 79-93 (2019)
[3] Alexander Ratner, Stephen H. Bach, Henry R. Ehrenberg, Jason A. Fries, Sen Wu, Christopher Ré: Snorkel: rapid training data creation with weak supervision. VLDB J. 29(2-3): 709-730 (2020)

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Le stage se déroulera au LIFO, campus Universitaire de la Source à Orléans.

Document attaché : 202410221420_Proposition de stage au LIFO-BRGM.docx

Appel à Soumissions – 5ème Atelier DAHLIA (Digital Humanities and Cultural HerItage) @EGC2025

Date : 2025-01-28
Lieu : Strasbourg

APPEL A SOUMISSIONS

==============================================

5ème Atelier DAHLIA (DigitAl Humanities and cuLtural herItAge: data and knowledge management and analysis) @EGC2025
28 Janvier 2025, Strasbourg
http://dahlia.egc.asso.fr/atelierDAHLIA-EGC2025.html
Contact : claudia.marinica@univ-nantes.fr

==============================================

L’atelier DAHLIA, à sa cinquième édition, est organisé par le groupe de travail DAHLIA qui est soutenu par l’Association EGC et il a pour objectif de permettre à la communauté du groupe de travail de se retrouver, mais aussi de donner la parole aux étudiants en thèse afin d’exposer leurs thématiques. Dans le cadre de cet atelier, des travaux autours des humanités numériques et du patrimoine culturel seront présentés ; ces travaux devraient s’encadrer dans les thématiques d’EGC, notamment la gestion et l’analyse de données ou des connaissances provenant des SHS/patrimoine.

DATES IMPORTANTES

Date limite de soumission des articles : 02/12/2024
Notification aux auteurs : 16/12/2024
Version finale : 13/01/2025

INSTRUCTIONS AUX AUTEURS, SOUMISSIONS, INSCRIPTIONS

Dans le cadre de l’atelier DAHLIA, nous espérons des soumissions qui lancent les discussions parmi les participants ; des soumissions autours des travaux passés, en cours ou très récents présentant des idées mises en pratique et/ou validées, des prises de position argumentées, ou des problématiques applicatives seront appréciées.
Les auteurs sont invités à soumettre des travaux sous la forme suivante :
• résumés étendus de 2 pages ;
• papiers courts de 6 pages ;
• papiers longs de 12 pages.

Les soumissions devront être réalisées au format pdf et devront utiliser le format RNTI disponible en téléchargement à l’adresse :
• latex : www.editions-rnti.fr/files/RNTI-X-Y2.1.zip
• word : http://dahlia.egc.asso.fr/RNTI.doc

Pour soumettre un papier, vous devez suivre le lien suivant : https://easychair.org/my/conference?conf=egc2025 en choisissant lors de la soumission le track DAHLIA correspondant à l’atelier. Si vous avez des difficultés, n’hésitez pas à nous contacter par mail.

Les inscriptions peuvent se réaliser à l’atelier seul ou à tout l’événement (atelier + conférence principale). Le tarif d’inscription et la procédure d’inscription sont disponibles sur le site de la conférence EGC : https://www.egc2025.cnrs.fr/inscription/ .

DESCRIPTION

Le groupe de travail DAHLIA (DigitAl Humanities and cuLtural herItAge: data and knowledge management and analysis) est soutenu par l’Association EGC et il a pour but de réunir les acteurs (chercheurs ou institutions) qui s’intéressent, dans le cadre des humanités numériques, voire le patrimoine culturel, à la gestion des données mais aussi à leur analyse afin de produire des connaissances.
Le groupe de travail DAHLIA a déjà organisé cinq événements : un atelier DAHLIA à EGC2019 (22 janvier 2019, Metz), une journée DAHLIA le 28 juin 2019 (Nantes), un deuxième atelier DAHLIA EGC2020 (28 janvier 2020, Bruxelles, Belgique), un troisième atelier DAHLIA EGC2021 (en ligne pour cause de Covid-19), un quatrième atelier DAHLIA EGC2022 (Tour), et une journée DAHLIA étant annulée pour cause de la Covid-19 (2-3 juin 2020). Ces événements ont été un franc succès, ont accueilli autour de 35 participants chacune, et ont donné lieu à des échanges soutenus. Après une pause de deux années, cette nouvelle action souhaite permettre la continuation de ces échanges.
En effet, de nos jours, les acteurs des SHS en général et les institutions culturelles en particulier, peuvent gérer des données et connaissances sous différents formats : documents textuels, documents structurés, bases de données, base de connaissances, images, représentation 3D, etc. De plus, ces données peuvent être distribuées sur plusieurs sites ou non, voir ouvertes et liées (open data).
Pour pouvoir accéder à ces informations, ou, voire plus, mettre en lien ses données avec celles d’un partenaire, un acteur doit mettre en place des systèmes d’information complexes qui soulèvent des réels questionnements car il faut prendre en considération la variété des données : sources, contenu, type de documents, mais aussi leur disponibilité, leur sémantique et leur stockage.
De plus, une fois l’accès aux données mis en place, que peuvent-elles nous dire, quelles sont les connaissances qu’elles pourront apporter aux différentes institutions ? Cette question pratique soulève des nombreux défis : comment identifier et extraire les connaissances des données disponibles ? Quelle sémantique leur accorder ? Comment rendre ces connaissances disponibles et compréhensibles par les institutions ? Il y a-t-il des problèmes liés à la protection de la vie privée des individus, des objets ?
L’atelier DAHLIA se propose de traiter, via les travaux présentés et les invités, ces questionnements et y répondre en partie.

PRINCIPAUX THEMES DE L’ATELIER (LISTE NON EXHAUSTIVE)

• acquisition de données lors d’un processus d’étude et d’analyse du domaine SHS et du cas d’étude précis en collaboration étroite avec les experts du domaine ;
• acquisition et analyse de connaissances métier/expert SHS concernant les processus/tâches ;
• intéroperabilité des données provenant de plusieurs sources SHS ;
• extraction des connaissances à partir des données SHS : fouille, apprentissage ;
• annotation sémantique de données du patrimoine ;
• restitution par visualisation de données (principalement du patrimoine) en vue de compréhension, analyse, etc. ;
• visualisation d’œuvres, immeubles, etc. en 2D/3D ;
• extraction et analyse des interactions du public lors des événements culturels ;
• étude des processus de diffusion des informations dans les réseaux sociaux.

COMITE D’ORGANISATION

Claudia Marinica
Laboratoire LS2N, équipe DUKe – Polytech’Nantes
email : claudia.marinica@univ-nantes.fr

Fabrice Guillet
Laboratoire LS2N, équipe DUKe – Polytech’Nantes
email : fabrice.guillet@univ-nantes.fr

Florent Laroche
Laboratoire LS2N, équipe IS3P – Ecole Centrale de Nantes
email : florent.laroche@ec-nantes.fr

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Alignement of LLMs, hate speech detection

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : NAVER Labs
Durée : 6 mois
Contact : julien.velcin@univ-lyon2.fr
Date limite de publication : 2024-11-30

Contexte :
This internship is part of an ANR project called DIKÉ (https://www.anr-dike.fr/), which aims at studying bias, fairness and ethics of compressed NLP models. Results are expected to be reported in a paper by the end of the internship (or soon after). The internship will be hosted at NAVER LABS Europe and co-supervised by NAVER LABS and Lyon 2 University researchers.

Sujet :
The goal of this internship is to investigate strategies to diminish offensive content generation focusing on implicit offensive speech in multilingual settings. More details and online application here: https://europe.naverlabs.com/job/offensive-content-mitigation-research-internship/

Profil du candidat :
PhD or last year MSc student in NLP-related domains

Formation et compétences requises :
– Solid deep learning and NLP background
– Strong programming skills, with knowledge of PyTorch, NumPy, and the HF Transformers
– Familiarity with recent preference optimization techniques, such as DPO, is a plus
– Ability to communicate in English; knowledge of French is an advantage

Adresse d’emploi :
NAVER Labs, Europe
6 Chem. de Maupertuis, 38240 Meylan

Call for internship proposals, M2 PSL IASD

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : PSL University
Durée : 5 mois
Contact : pierre@senellart.com
Date limite de publication : 2025-03-31

Contexte :
Le M2 IASD est le parcours de deuxième année en Intelligence Artificielle et Science des Données du Master Informatique de l’Université PSL (porté par l’Université Paris-Dauphine, l’École Normale Supérieure et Mines Paris). Voir https://www.masteriasd.eu/fr/ pour plus d’information.

The IASD M2 is the second-year track on Artificial Intelligence and Data Science of the Master’s degree in Computer Science of PSL University (involving Université Paris-Dauphine, École Normale Supérieure, and Mines Paris). See https://www.masteriasd.eu/ for more information.

Sujet :
… [See below for English version] …

Le master IASD lance un appel à propositions de stages pour ses étudiants pour l’année académique 2024-2025. Les stages durent 5 mois, généralement d’avril à août. Les stages peuvent se dérouler dans des laboratoires ou services de recherche académiques ou industriels mais doivent être orientés vers la recherche.

Les propositions peuvent être soumises directement via le formulaire
  https://db.masteriasd.eu/internships/submit
et seront visibles sur le site web du M2 IASD

Propositions de stage

… [Voir ci-dessus pour la version française] …

The IASD M2 calls for internship proposals for its students for the 2024-2025 academic year. Internships last 5 months, typically, from April to August. Internships can be held in academic or industrial environments but must be oriented towards research.

Proposals can be submitted directly at
  https://db.masteriasd.eu/internships/submit
and will be displayed on IASD’s website

List of internships proposals

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
TBD

Offre de post-Doc Data Scientist – Géosciences Environnement Toulouse

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Géosciences Environnement Toulouse
Durée : 2 ans
Contact : david.baratoux@ird.Fr
Date limite de publication : 2024-10-31

Contexte :
Le ou la candidate recrutée prendra part au Programme PEPR Sous-Sol portant sur l’amélioration des méthodes et des données mises en œuvre dans l’Analyse du Cycle de Vie (ACV), pour une évaluation environnementale cohérente, complète et représentative des utilisations du sous-sol (Projet LCA-SUB, ou Projet Cible 6 du PEPR Sous-Sol), porté par un consortium piloté par le BRGM et l’université de Bordeaux. Plus précisément, le ou la candidate devra prendre part principalement au work package n°3 du projet, tel que défini ci-dessous.

Le work package concerné a pour objectif de développer des méthodes pour produire une cartographie des empreintes spatiales et temporelles sur les terres et les eaux continentales des impacts de l’exploitation minière à l’échelle régionale et mondiale. Cette tâche vise à améliorer de manière significative la façon dont l’occupation et la transformation des terres sont abordées dans les approches Life Cycle Thinking (LCT), en tirant parti de l’utilisation d’images satellites, en particulier à partir des séries temporelles des satellites Sentinel 2 (visible et proche infrarouge, programme Copernicus de l’UE) qui permettent d’étudier la dynamique d’un site minier dans le temps (potentiellement >1 image/mois) à proximité de la mine et à l’échelle régionale. Des approches seront également développées pour quantifier l’impact sur la qualité des sols, sur la base des développements récents des capteurs hyperspectraux embarqués.

Cette approche sera menée en parallèle avec une analyse des flux physiques entrant et sortant de l’environnement minier (eau, énergie, polluants, minerai extrait) et une analyse de l’impact de la mine, vu de l’espace, à différentes échelles (Inventaire de Cycle de Vie). Une attention particulière sera portée sur les sites miniers actifs sources de contaminations environnementales ainsi que sur les sites miniers abandonnés.

Le work package concerné consistera également en une analyse croisée des flux physiques et de la chaîne de valeur des métaux consommés en France et extraits dans les pays du Sud. Ce travail de territorialisation des stocks et des flux de certains métaux conduira à caractériser les points chauds socio-écologiques des chaînes d’approvisionnement considérées. Il s’agira alors d’extraire, d’analyser et de modéliser les données des bases existantes (ecoinvent.org, prosum.geology.cz, minerals4eu.brgm-rec.fr, FutuRaM, etc.) en vue de reconstituer les secteurs. Une interaction étroite sera assurée avec le BRGM, qui a codéveloppé plusieurs de ces bases de données.

Plusieurs cas seront étudiés, en Afrique de l’Ouest (Côte d’Ivoire & Ghana) et Amérique du Sud (Pérou), et pour plusieurs métaux, en particulier l’or et le lithium.

Sujet :
PEPR – Sous-Sol Bien Commun
Plateforme sur l’évaluation environnementale et la pensée cycle de vie pour une utilisation durable du sous-sol

Profil du candidat :
Expériences en traitement d’images satellite, expérience en analyse de données (data scientist), expérience en intelligence artificielle appliquée aux données de télédétection serait un plus.
Autonomie de travail.
Langues : anglais – français – espagnol
Capacité d’adaptation à différents milieux culturels.
Des expériences de travail hors académie seraient appréciées.

Formation et compétences requises :
Expériences en traitement d’images satellite, expérience en analyse de données (data scientist), expérience en intelligence artificielle appliquée aux données de télédétection serait un plus.
Autonomie de travail.
Langues : anglais – français – espagnol
Capacité d’adaptation à différents milieux culturels.
Des expériences de travail hors académie seraient appréciées.

Adresse d’emploi :
Géosciences Environnement Toulouse,
14, Avenue Edouard Belin
31400 Toulouse, France

Le chercheur sera amené à réaliser des missions de terrain de plusieurs mois en Afrique de l’Ouest et en Amérique du Sud (Pérou).
Des séjours de plusieurs semaines dans les locaux du BRGM (Orléans) sont également à prévoir, afin d’assurer l’articulation avec le reste du projet.

Document attaché : 202410161147_Fiche_Poste_PEPR_bilingue.pdf

Segmentation d’IRM multiplan par réseaux de neurones profonds

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique et Systèmes LIS – UMR
Durée : 5 à 6 mois
Contact : marc-emmanuel.bellemare@univ-amu.fr
Date limite de publication : 2025-01-15

Contexte :
Les troubles de la statique pelvienne représentent un enjeu de santé publique. Ils regroupent un ensemble de pathologies associant une perte des rapports anatomiques normaux des organes pelviens, et une altération dramatique de la qualité de vie des malades. Ces pathologies sont handicapantes à des degrés variés mais leur physiopathologie reste encore mal connue ce qui complique leur prise en charge. Dans le cadre d’une collaboration avec le service de chirurgie digestive de l’AP-HM, de nouvelles acquisitions IRM, associées à une reconstruction adaptée, ont permis la visualisation 3D des organes en mouvement. Des résultats probants ont été récemment obtenus et publiés pour l’observation de la vessie et il s’agit de s’intéresser aux autres organes pelviens

Sujet :
Le stagiaire s’attachera à la segmentation des images acquises lors de l’observation par IRM dynamique des déformations des organes pelviens afin de produire des reconstructions 3D des surfaces en mouvement.
Des acquisitions multi-planaires ont été réalisées dans des plans non classiques ce qui complique la reconnaissance des organes. Ainsi la segmentation des principaux organes impliqués est une étape primordiale mais difficile. Les partenaires cliniciens ont réalisé des segmentations manuelles des organes sur ces plans ce qui permet de disposer d’une vérité-terrain. Nous envisageons de proposer un nouveau modèle de réseau, adapté à la configuration des plans d’acquisition.
Les problématiques de recalage, de segmentation et de modèles 3D, au cœur du projet, seront abordées selon les compétences et préférences du stagiaire.

Profil du candidat :
Le candidat ou la candidate sera intéressé(e) par un projet pluridisciplinaire et par l’imagerie médicale. Les domaines abordés concernent les réseaux de neurones profonds, la segmentation d’IRM et la reconstruction 3D.

Formation et compétences requises :
Des compétences en mathématiques appliquées seront particulièrement appréciées. Une expérience de la programmation avec l’environnement python (PyTorch) serait un plus.

Adresse d’emploi :
Le stage se déroulera à Marseille essentiellement au laboratoire d’informatique et des systèmes (LIS) dans l’équipe Images & Modèles sur le campus de St Jérôme

Document attaché : 202410160845_Sujet_Master2_DL&SegmentationMultiPlan.pdf

Le ConText-GAN pour la génération d’images de microscopie électronique : Augmentation de données par approche générative.

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIS UMR 7020 : www.lis-lab.fr
Durée : 5 à 6 mois
Contact : marc-emmanuel.bellemare@univ-amu.fr
Date limite de publication : 2025-01-15

Contexte :
Ce projet s’appuie sur une collaboration entre le laboratoire Informatique et Systèmes (LIS), expert dans l’analyse d’image, et le laboratoire Mephi (IHU Méditerranée Infection), expert en microbiologie et en microscopie électronique. L’EI est une pathologie grave, associée à un diagnostic difficile et une grande mortalité (Habib 2019). L’EI est caractérisée par une infection bactérienne ou fongique de l’endocarde avec une destruction des valves cardiaques et la formation d’un dépôt fibrino-plaquetaire inflammatoire et infecté, ou végétation. La microscopie électronique à balayage (MEB) est une technique de microscopie électronique capable de produire des images en haute résolution de la surface d’un échantillon (lien). Par une approche innovante par MEB, on a démontré une hétérogénéité de l’ultrastructure des vegetations d’EI qui dépend du microorganisme infectieux (Hannachi 2020 ; vidéo). Cette approche innovante a ainsi montré sa force mais elle s’appuie sur une analyse experte des images qui reste manuelle et fastidieuse.

Sujet :
L’objectif du stage est de développer une méthode à base de réseaux profonds pour accélérer l’analyse des images des végétations, c’est-à-dire pour identifier et quantifier automatiquement les éléments biologiques présents (plaquettes, fibrine, globules, bactéries). Nous nous proposons d’utiliser une architecture qui permettra à la fois la détection et la segmentation des objets d’intérêt dans l’image. Cependant, l’entrainement de réseaux profonds demande une quantité importante d’images annotées. Le nombre des images disponibles étant actuellement limité, il s’agit alors de mettre en œuvre une stratégie d’augmentation de données qui pourrait profiter d’une architecture générative d’images. Le ConTextGAN (Hostin 2023) que nous avons développé au LIS permet de produire des images dont le contenu est finement contrôlé. Il a montré ses performances dans le cadre de l’IRM. Aussi, dans le cadre de ce stage le ConTextGAN sera entrainé pour la génération de différents types d’images MEB et les performances seront évaluées par l’apport de ces images sur les performances de segmentation d’un réseau du type YOLO ou nnUnet. Une comparaison des performances du ConTextGAN avec celles des méthodes de diffusion sera (e.g. ControlNet) envisagée.
https://huggingface.co/docs/diffusers/using-diffusers/controlnet#guess-mode

Profil du candidat :
Le candidat ou la candidate de niveau Bac+5, formé(e) au traitement des images, sera intéressé(e) par un projet pluridisciplinaire et l’imagerie médicale.

Formation et compétences requises :
La programmation des algorithmes se fera avec le langage python et les réseaux profonds seront développés avec l’API PyTorch. Des compétences en classification ou en mathématiques appliquées seront particulièrement appréciées.

Adresse d’emploi :
Le stage se déroulera à Marseille dans les locaux de l’équipe Image & Modèles du LIS à St Jérôme (site de Polytech’) ou dans ceux de l’équipe MEPHI de l’IHU Méditerranée Infection, selon les besoins.

Document attaché : 202410160834_Sujet_Master2_ConTextGAN-AugmentationDL-SEM.pdf

SiDoS : similarité de données séquentielles massives @ EGC 2025

Date : 2025-01-28
Lieu : Strasbourg

SiDoS : similarité de données séquentielles massives @ EGC 2025 (27 au 31 janvier à Strasbourg)
https://sites.google.com/view/sidos2025/home

Le 28/01/2025

Date limite de soumissions des papiers : 26/11/2024
Notification aux auteurs : 13/12/2024

Objectifs

De nombreux domaines nécessitent l’analyse de gros volumes de séquences de diverses complexités (en termes de périodicité, complétude, multivariée ou non, etc.) et en particulier de leur similarité. On peut citer les domaines aussi variés que le médical (e.g., stratification de patients, alignements de gènes), le social (analyse de trajectoires sémantiques), la science des données (génération et recommandation de pipelines d’exploration), etc.

SiDoS est le premier atelier portant sur l’optimisation du calcul de distances sur de gros volumes de données de type séquences. Ce thème est à la croisée des domaines HPC (calcul haute performance) et analyse et exploration de données.
Il recouvre différents défis scientifiques : prise en compte de la spécificité des données (séquences, séries, trajectoires, etc.), définition de méthodes de réduction de dimensionalité et indexation, parallélisation du calcul de similarité, adaptation d’approches existantes (par exemple, sur séries temporelles ou données spatio-temporelles), etc.

L’objectif de l’atelier est de structurer la communauté française traitant de séquences massives et du calcul de leur similarité. Il constitue un temps d’échange entre les membres des communautés traitement de la donnée et HPC.

Thèmes de l’atelier (liste non exhaustive)

Définition de similarité entre séquences, spécifique à un type de séquences
Algorithmes de clustering de séquences
Apprentissage de similarité entre séquences
Techniques de réduction de dimensionalité, indexation, hachage, … adaptées aux séquences
Modèles de parallélisme implicite pour l’étude de similarité entre séquences
Utilisation des architectures GPU pour optimiser le calcul de similarité
Modèle de parallélisme pour la similarité sur de larges volumes de données
Adaptation aux séquences des approches sur d’autres types de données (séries temporelles, données spatio-temporelles, etc.)
Présentation d’applications ou de banc d’essais faisant usage de similarité entre séquences

Soumissions

Deux types de soumissions seront possibles :
– Articles courts : de 2 pages à 4 pages maximum
– Articles longs : jusqu’à 12 pages

Les articles longs pourront inclure tout travail de recherche original, description d’application, expérimentation, résumé de papiers internationaux. Les articles courts sont réservés à la description de travaux en cours, de démonstration ou de déclaration d’intention.

Les articles soumis seront relus par 3 membres du comité de programme. Les soumissions devront être au format PDF exclusivement et devront utiliser le format RNTI latex : https://www.editions-rnti.fr/files/RNTI-202208.zip. Les soumissions se feront via easychair (lien à venir).

Comité de programme

Thomas Devogele (LIFAT)
Laurent d’Orazio (Université Rennes, IRISA)
Christel Dartigues-Pallez (Université Côte d’Azur)
Thomas Guyet (INRIA)
Nicolas Hiot (LIFO)
Nicolas Labroche (LIFAT)
Sébastien Limet, (LIFO)
Patrick Marcel (LIFO)
Emmanuel Melin (LIFO)
Sophie Robert (LIFO)
Veronika Peralta (LIFAT)

Organisation

Thomas Devogele, Nicolas Labroche, Veronika Peralta (LIFAT Tours)
Patrick Marcel, Sophie Robert (LIFO Orléans)

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Proposition de post-doc 18 mois en explicabilité dans le cadre du projet ARD Junon

Offre en lien avec l’Action/le Réseau : HELP/– — –

Laboratoire/Entreprise : LIFAT Université de Tours
Durée : 18 mois
Contact : nicolas.labroche@univ-tours.fr
Date limite de publication : 2024-12-01

Contexte :
The Junon project aims at building AI tools for making predictions about environmental objects. The first issue and main scientific challenge of the Prediction project within Junon are to propose new predictive AI methods adapted to the specific features of environmental problems such as multi-source and heterogeneous data, non-stationarity, adaptation for digital twins transfer, and reusability and evaluation of the proposed model.

This post-doc takes place in the Prediction and more precisely in the evaluation process of AI models for digital twins with the development of new algorithms for the explainability of AI/ML models, also termed as eXplainable Artificial Intelligence (or XAI for short).

Current XAI approaches suffer from two main limitations. The first is related to the complexity of the explanation process itself, which involves the particular characteristics of “the training data, the precise shape of the decision surface, and the selection of one explanatory algorithm over another”. As a result, there is a risk of accepting plausible explanations that only reflect spurious correlations between internal layers of DL with input features. Bordt (2022) emphasizes the need for explanations methods “that cast doubt on certain features of AI systems”. These results call for (i) a more thorough consideration of inner relationships in the data and how models use this information, (ii) methods to assist users in selecting explanation methods based on objective metrics. The second limitation is related to the lack “of XAI approaches tackling real-world machine learning issues” that would “help to clarify what is currently feasible and what is not feasible when employing XAI techniques”..

Sujet :
The Junon post-doc aims to address fundamental issues related to the quality and the applicability of explanations produced for DL models driven by the recent vision of actionable explainable AI (aXAI). In particular, we focus on more expressive forms of explanations that can answer not only why questions but also action-guiding explanations such as how-to and what-if as illustrated hereafter :

• why: why do we obtain a specific prediction, given the features of input observations?\
• how-to: what are the necessary actions to change the prediction of a specific input observation?
• what-if: what are the necessary and minimal sets of actions on input observations required to obtain an alternative prediction?

During the postdoc we envision several research questions attached to the aforementioned objectives of quality and applicability of XAI approaches:

Benchmark existing quality metrics (Nauta, 2023) for the task of explanations exploration

The recruited post-doc will contribute with a preliminary literature survey on explanation quality metrics for feature influence, counterfactual, or other causal explanation methods. An emphasis will be made on coherence with the predictive model and plausibility as an alignment with user knowledge (see next item), but also accuracy to ground-truth or alternative solutions with diversity. The post-doc may produce a reference implementation library for these metrics.

Model prior knowledge from BRGM experts and derive new quality metrics for explanations based on their covering, novelty, or interestingness

Modeling of prior knowledge will likely be based on causal models and knowledge graphs. Novelty and interestingness metrics will take inspiration from what is done in Exploratory Data Analysis (EDA) that have a long record of research works to guide the user towards interesting patterns or insights hidden in very large databases.

Build a user-oriented protocol and carry out user studies with BRGM experts
The goal is to qualify how well quality measures match the expert’s expectations in terms of quality, and whether it is possible to learn better explanation quality measures (i.e. depending on the context of the analysis and previous analysis as done in exploratory data analysis). Different use cases will be considered, such as debugging the ML model for digital twins, understanding predicted parameters for a simulation model like Gardenia, and observing common and distinctive important factors from one predictive problem to the next (e.g. snalysis of similarities between prediction of underground water resources in different places).

In conjunction with the ARD Junon project team, the successful candidate will be responsible for implementing the research program outlined in the preceding three points in consultation with their supervisor and the project partners. The successful candidate will also be involved in the animation of research groups interested in XAI such as (but not limited to) Explain’AI (GT EGC), Help (GdR Madics), Explicon (GdR RADIA).

Profil du candidat :
PhD thesis in Computer Sciences

Formation et compétences requises :
PhD in Computer Science, specializing in artificial intelligence (explainability, possibly deep learning), experience in processing temporal data (multivariate time series and multivariate event sequences). Experience working with libraries offering implementations of XAI and deep learning models. Experience in setting user protocol would be appreciated.

Adresse d’emploi :
The hired candidate will work in Tours, Faculté des Sciences et Techniques, avenue Monge 37200 Tours. This is a fully in-office position, although one day a week of remote work may be allowed by the supervisor.

Document attaché : 202410140745_post_doc_Junon.pdf

Blockchain Educational Day

Date : 2024-10-15
Lieu : Université Paris Dauphine-PSL

Journée éducative sur la technologie Blockchain pour les étudiants, les universitaires, les entreprises et les formateurs professionnels.

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.