Ingénieur.e de recherche 24 mois : interopérabilité d’outils de fouille de graphes et de données relationnelles

Offre en lien avec l’Action/le Réseau : RoCED/– — –

Laboratoire/Entreprise : IRISA
Durée : 24 mois
Contact : ferre@irisa.fr
Date limite de publication : 2023-02-01

Contexte :
L’Analyse de concepts formels (FCA) [1] est une méthode de découverte de connaissances. Elle est employée dans des tâches d’analyse de données, de fouille de données, de classification ou de recherche d’information ; et appliquée dans domaines variés tels que les sciences de la vie, les sciences humaines ou la linguistique. De multiples extensions de FCA ont été proposées par différentes équipes pour traiter des données complexes telles que des séquences, des trajectoires, des arbres ou des graphes [2]. Au-delà des verrous théoriques et pratiques, il y a un problème d’interopérabilité entre ces différentes extensions, ce qui freine leur adoption et leur composition dans des workflows.
Un objectif important du projet SmartFCA est de rendre ces extensions de FCA interopérables en les encapsulant dans des composants logiciels ayant des interfaces compatibles sur les plans conceptuels et technologiques. Il s’agit aussi d’implémenter une plateforme permettant la contruction de workflows à partir des composants. Le partenaire IRISA/Rennes est responsable du composant Graph-FCA [3], une extension de FCA aux données relationnelles et aux graphes. Nous collaborons étroitement avec le partenaire ICube/Strasbourg qui est responsable du composant pour une autre extension de FCA aux données relationnelles, RCA (Relational Concept Analysis) [4].
Un autre objectif du projet est développer des cas d’usage dans divers domaines, pour leur intérêt intrinsèque et pour évaluer la plateforme développée. IRISA/Rennes développera des cas d’usage sur les données linguistiques de langues peu dotées (breton [5,6] et géorgien [7] notamment).

Sujet :
Après une phase de familiarisation avec Graph-FCA et son implémentation actuelle, ainsi que RCA, il s’agira de collaborer avec ICube/Strasbourg pour concevoir une interface compatible entre les deux extensions de FCA (modélisation des entrées/sorties, jeux d’options). Il s’agira ensuite d’encapsuler l’implémentation existante de Graph-FCA dans une API RESTful, en accord avec les normes établies dans le cadre du projet. Il est attendu de la candidate ou du candidat de collaborer avec les autres partenaires du projet dans l’établissement de ces normes, et d’être force de proposition. Il sera également nécessaire de développer des interfaces de test et de démo du composant Graph-FCA pour ne pas dépendre de la plateforme qui ne sera achevée que vers la fin du projet.

Le candidat ou la candidate devra également apporter un support technique et être force de proposition dans les cas d’usage en linguistique (aucune connaissance en linguistique n’est requise). Cela comprend l’aide à la préparation des données, à l’application du composant Graph-FCA et des autres composants dévelopés dans le projet et à la mise en valeur des résultats, c’est-à-dire des connaissances extraites des données.

Profil du candidat :
Nous cherchons un.e candidat.e motivé.e par une expérience de recherche & développement dans le cadre d’un projet de recherche académique.

Formation et compétences requises :
La formation requise est un doctorat ou un master en informatique.
Expertise requise pour le poste :
• programmation web, surtout backend et Node.js : conception, développement, configuration et documentation
• modèles de données, notamment relationnels et graphes
• outils et méthodes de développement
• travail collaboratif
• rédaction de rapports techniques et présentations orales
Connaissances ou expériences souhaitées :
• extraction de connaissances (fouille de données, data mining, classification)
• programmation Caml ou autre langage fonctionnel (Haskell, Scala, …)

Qualités attendues : autonomie, rigueur, aptitude à collaborer en présentiel et distanciel avec plusieurs équipes, force de proposition

Adresse d’emploi :
équipe LACODAM
IRISA / INRIA
Campus de Beaulieu, 35042 Rennes cedex

Document attaché : 202212081254_fiche_poste_IR_SmartFCA.pdf

Résolution d’entités nommées dans des corpus de documents historiques de grande taille et partiellement redondants: le cas des annuaires commerciaux de Paris du XIXème siècle

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LASTIG, Univ Gustave Eiffel, IGN-ENSG
Durée : 5 mois
Contact : nathalie-f.abadie@ign.fr
Date limite de publication : 2023-02-01

Contexte :
Ce stage s’inscrit dans le projet ANR SODUCO qui vise à étudier l’évolution de la structure spatiale de Paris en lien avec les pratiques sociales de la population, sur la période allant de la Révolution Française au début du 20ème siècle. Le projet exploite deux types de sources historiques rassemblées en deux corpus:
• un corpus spatial : plans et cadastres, qui représentent les structures urbaines (rues, bâti, etc.)
• un corpus social : “annuaires du commerce”, sorte de “pages jaunes” avant l’heure, qui contiennent les noms, statuts sociaux, activités professionnelles et adresses d’une partie des parisiens.
Un premier stage a permis de proposer une approche pour l’appariement des entrées représentant un même commerce d’une année à l’autre. Cette dernière a été appliquée aux métiers de la photographie, qui représentent une faible portion du corpus des annuaires.

Sujet :
Ce sujet de stage comporte un objectif méthodologique principal : proposer et mettre en œuvre une approche reproductible et qui passe à l’échelle pour identifier des relations d’équivalence entre les principales entités nommées extraites dans les annuaires du commerce parisien du XIXe siècle et qui représentent un même élément du monde réel.
Il comporte trois objectifs applicatifs: produire trois graphes spatio-temporels permettant le suivi des commerces, des adresses et des activités parisiennes au XIXe siècle.

Profil du candidat :
Master 2 ou troisième année d’école d’ingénieur en informatique, ou en géomatique.

Formation et compétences requises :
– Données spatio-temporelles,
– Résolution d’entités nommées, liage, appariement,
– Graphes de connaissances géohistoriques,
– Développement Python,
– Un intérêt pour l’histoire sociale est un plus.

Adresse d’emploi :
Institut National de l’Information Géographique et Forestière
73 avenue de Paris
94160 Saint-Mandé

Document attaché : 202212072201_SoDUCo2022NELInternship.pdf

5th ESAO Webinar, Wednesday, December 14th, 2022 — Call for Participation

Date : 2022-12-14
Lieu : Online

The Educational Series on Applied Ontology (ESAO) [1] is open for everyone and welcomes students, researchers and practitioners alike.

–> The fourth of its regular webinar sessions will be held on
Wednesday, December 14th, 2022 at 10:00 EST / 15:00 UTC / 16:00 CET / 17:00 SAST via a Zoom meeting (full connection details at the end of this message):

https://univ-tlse2.zoom.us/j/94922889721?pwd=T2ozYlFKMUNreGMwVVlTWTZEdzl4QT09

No registration needed; please find full connection details at the end of this message.

Program
——-

* 10:00-10:30 EST / 15:00-15:30 UTC / 16:00-16:30 CET / 17:00-17:30 SAST

Nathalie Aussenac-Gilles, Institut de Recherche de Toulouse, CNRS, Toulouse, France

“From Semantic metadata to an ontology-based legal decision support system for data sharing”

Abstract: With the increasing availability of open datasets, data sharing becomes an evidence, in particular in the research domain. The FAIR principles have provided some guidelines to facilitate data sharing. They strongly recommend the use of semantic, machine processable and standard metatada. Nevertheless, these metadata are not sufficient to check if the data sharing is compatible with data sharing regulations like the General Data Protection Regulation (GDPR), other regulations about AI-based data analysis, or even the anticipation of inappropriate reuses of data. In the first part of my talk I will illustrate the advantages and limitations of semantic metadata. Then I will expose a research line based on collaborations with lawyers to design a rule-based and ontology-based support system that could guide data producers in their decision to share data according tho regulations and preferences.

Series Description
——————

The IAOA [2] has created ESAO [1], a new educational effort directed towards topics of Applied Ontology, primarily established basics and foundations.

The series is inspired by the Interdisciplinary Schools on Applied Ontology (ISAO) [3] (whose next edition will be held in 2023). ESAO is complementary in format and its overall approach. The goal is to provide a combination of an archive of educational material (e.g., short video lectures) and a series of webinars for presenting and discussing that material.

Organization
————

Members of the Education Technical Committee of IAOA [2] and among those primarily (in alphabetical order):

* Lucía Gómez Álvarez
* Frank Loebe
* Sandra Lovrenčić
* Cassia Trojahn (Chair)
* Laure Vieu

Contact
E-Mail: info@iaoa.org

[1] Educational Series on Applied Ontology
https://wiki.iaoa.org/index.php/Edu:ESAO

[2] IAOA website

Landing

[3] ISAO History page

ISAO history

Connection Details
——————

Topic: ESAO 5th Session
Time: Dec 14, 2022 04:00 PM Paris

Join Zoom Meeting
https://univ-tlse2.zoom.us/j/94922889721?pwd=T2ozYlFKMUNreGMwVVlTWTZEdzl4QT09

Meeting ID: 949 2288 9721
Passcode: 936862

Join by SIP
94922889721@zoomcrc.com

Join by H.323
162.255.37.11 (US West)
162.255.36.11 (US East)
221.122.88.195 (China)
115.114.131.7 (India Mumbai)
115.114.115.7 (India Hyderabad)
213.19.144.110 (Amsterdam Netherlands)
213.244.140.110 (Germany)
103.122.166.55 (Australia Sydney)
103.122.167.55 (Australia Melbourne)
209.9.211.110 (Hong Kong SAR)
149.137.40.110 (Singapore)
64.211.144.160 (Brazil)
69.174.57.160 (Canada Toronto)
65.39.152.160 (Canada Vancouver)
207.226.132.110 (Japan Tokyo)
149.137.24.110 (Japan Osaka)
Meeting ID: 949 2288 9721
Passcode: 936862

Join by Skype for Business
https://univ-tlse2.zoom.us/skype/94922889721

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Stage LIVIA – La conservation des livres par l’IA

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ETIS, UMR8051, CY Cergy Paris Université, ENSEA Ce
Durée : 6 mois
Contact : michel.jordan@cyu.fr
Date limite de publication : 2023-01-01

Contexte :
Le contexte du stage est le développement d’un outil permettant de repérer automatiquement les altérations dangereuses sur le dos des reliures pour aider les conservateurs de bibliothèques à évaluer l’état des fonds de livres.

Contacts : Camille Simon Chane, camille.simon-chane@ensea.fr; Michel Jordan, michel.jordan@cyu.fr

Sujet :
Description de la mission :
Le contexte du stage est le développement d’un outil permettant de repérer automatiquement les altérations dangereuses sur le dos des reliures pour aider les conservateurs de bibliothèques à évaluer l’état des fonds de livres. Un premier travail a été réalisé en partenariat avec les Archives. Il a permis de mettre en place un pipeline complet (voir photo) basé sur les techniques de la segmentation sémantique pour repérer les altérations dangereuses sur les reliures des archives du Parlement de Paris, constituant un corpus très homogène d’environ 11 000 ouvrages. Un partenariat avec les Archives nationales du Québec (BanQ) nous a permis d’acquérir et d’annoter des images d’ouvrages plus récents et hétéroclites. Cette base de données est composée de 300 photographies, soit plus de 5000 ouvrages. Il s’agit désormais d’évaluer les algorithmes de segmentation des livres et de détection des altérations sur cette base de données.

L’étudiant sera responsable des tâches suivantes :
1. Évaluation des algorithmes existant sur les nouvelles images
2. Adaptation et développement de nouveaux algorithmes
3. Choix et implémentation de métriques adaptées à l’évaluation de l’état sanitaire.

En sus de l’encadrement scientifique, un dialogue continu avec une restauratrice et avec les bibliothèques guidera le travail. Ce projet permettra à l’étudiant de mettre en pratique ses connaissances en deep-learning dans un contexte avec des contraintes fortes et stimulantes.

Calendrier de travail : nous prévoyons un stage de 6 mois :
– Mois 1 : bibliographie. Prise en main du travail existant
– Mois 1 : Évaluation de la détection de livres
– Mois 2 : Évaluation de la détection d’altérations
– Mois 1 à 3 : Choix et implémentation de métriques
– Mois 2 à 3 : Adaptation de l’algorithme de détection de livres
– Mois 4 à 6 : Développement d’un nouvel algorithme de détection des altérations
– Mois 6 : Rédaction du rapport de stage et de la documentation

A propos du laboratoire ETIS :
ETIS est une unité mixte de recherche (UMR 8051) commune à CY Cergy Paris Université, à l’ENSEA (Ecole nationale supérieure de l’électronique et de ses applications, Cergy) et au CNRS, rattachée principalement à l’INS2I. Le laboratoire mène des recherches aussi bien théoriques qu’expérimentales en vue de permettre à des systèmes de traitement de l’information d’acquérir des capacités d’autonomie. L’autonomie s’entend ici aussi bien en termes d’apprentissage et d’adaptation à l’environnement (y compris l’utilisateur), que de prise de décision et de faible consommation énergétique ou de puissance de calcul par exemple. Les domaines concernés sont l’analyse des données, l’indexation d’images, la robotique développementale, la théorie de l’information et les télécommunications. ETIS est doté d’un pôle de recherche d’excellence en intégration de données pour le patrimoine culturel qui a participé activement au LabEx Patrima et à l’EquipEx Patrimex.

Candidature :
Contacter les responsables du stage, Camille Simon Chane et Michel Jordan.
Date limite de candidature : 31 décembre 2022.
Début du stage : à partir du 1er mars 2023.

Profil du candidat :
Nous cherchons un étudiant en master 2 ou équivalent (ingénieur) dans l’un des domaines suivants: sciences de la donnée, intelligence artificielle, machine learning. Nous cherchons également un candidat qui a une appétence pour les sciences du patrimoine.

Formation et compétences requises :
Des compétences en programmation Python sont indispensables. L’étudiant doit avoir codé, entraîné et paramétré un réseau au cours de ses études. Une expérience avec la librairie PyTorch sera appréciée.

Niveau de qualification requis : Bac + 4/5 et +

Adresse d’emploi :
ETIS, UMR 8051, CY Cergy Paris Université, ENSEA, CNRS

ENSEA
6 avenue du Ponceau
95014 Cergy-Pontoise cedex

Representation of physical quantities on the Semantic Web

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIMOS at Institut Henri Fayol, Mines Saint-Étienne
Durée : 5 mois
Contact : antoine.zimmermann@emse.fr
Date limite de publication : 2023-03-01

Contexte :
Physical quantities form an important part of what is represented in scientific data, medical data, industry data, open data, and to some extent, various private data.

Whether it is distances, speeds, payloads in transportation, concentrations, masses, moles in chemistry, powers, intensities, voltages in the energy sector, dimensions of furniture, weights, heights of people, durations, and many others in health, there is a need to represent physical quantities, to store them, to process them, and to exchange them between information systems, potentially on a global scale, often on the Internet and via the Web.

Sujet :
In this internship, we seek to precisely define a way to unambiguously represent physical quantities for the Web of Data. More precisely, we will study the proposals made to encode physical quantities in the standard data model of the Semantic Web, RDF. We will be particularly interested in the use of a data type dedicated to this encoding, probably adapted from the proposal of Lefrançois & Zimmermann (2018) based on the UCUM standard.

Having established a rigorous definition of the data type (possibly its variants, if relevant), we will focus on implementing a module that can read/write and process physical quantities and their operations within the RDF data manipulation APIs, for the management, querying and reasoning with knowledge graphs containing physical quantities.

The ambition is that, on the one hand, the specification will become in a few years a de facto standard, before perhaps becoming a de jure standard; and that, on the other hand, the implementation will be the reference allowing to compare the compliance levels of other future implementations.

This study should lead to the publication of a scientific paper in a high impact scientific journal.

References
1. Maxime Lefrançois and Antoine Zimmermann (2018). The Unified Code for Units of Measure in RDF: cdt:ucum and other UCUM Datatypes. In The Semantic Web: ESWC 2018 Satellite Events – ESWC 2018 Satellite Events, Heraklion, Crete, Greece, June 3-7, 2018, Revised Selected Papers, volume 11155 of the Lecture Notes in Computer Science, pp196–201, Springer.
2. Gunther Shadow and Clement J. McDonald. The Unified Code for Units of Measure. Technical report, Regenstrief Institute, Inc, November 21 2017.

Complete description available at https://www.emse.fr/~zimmermann/Teaching/SemWeb/Internship/

Profil du candidat :
Interested in the definition of specifications and their implementation.
Interested in research activities.

Formation et compétences requises :
Master 2 in computer science
Knowledge of Semantic Web technologies
Java programming
Preferably good writing skills

Adresse d’emploi :
École des mines de Saint-Étienne, bâtiment espace Fauriel, 29 rue Ponchardier, Saint-Étienne. https://www.openstreetmap.org/node/2794933485

InteX-ML : Conception d’une plateforme d’aide à l’explicabilité et l’interprétabilité d’algorithmes usuels de Machine Learning

Offre en lien avec l’Action/le Réseau : PLATFORM/– — –

Laboratoire/Entreprise : Unité de Recherche LIST3N (Laboratoire Informatiqu
Durée : 6
Contact : babiga.birregah@utt.fr
Date limite de publication : 2023-01-15

Contexte :
En parallèle des progrès du Machine Learning, et particulièrement des modèles « black box » de deep learning, les questions d’interprétabilité et d’explicabilité des décisions algorithmiques occupent une place grandissante aussi bien dans la communauté scientifique qu’auprès du grand public ([1], [2], [3]). Ces deux problématiques constituent l’enjeux majeur pour les chercheurs et les industriels qui souhaitent « garantir » l’acceptabilité des solutions d’IA. De même la standardisation de l’interprétabilité et de l’explicabilité reste un problème ouvert ([4]).
Le projet InteX-ML a justement pour objectif de poser les bases d’une démarche générique pour l’explicabilité et l’interprétabilité des algorithmes de l’IA, en partant de cas usuels.

Sujet :
Objectifs du projet
Le projet InteX-ML a pour objectif de proposer un cadre méthodologique et technique, suffisamment générique, d’aide à l’explicabilité et l’interprétabilité d’un algorithme sur des cas d’usages proposés par l’utilisateur. Il s’agira de construire la première version d’un outil capable de « révéler » les étapes de l’exécution d’un algorithme d’IA à son utilisateur afin de permettre à ce dernier de mieux expliquer les choix et d’ interpréter les résultats associés. Au-delà de l’aide à l’explicabilité il s’agit aussi de fournir une approche « standardisée » d’évaluation des impacts du choix des valeurs d’entrée et des paramètres de l’algorithme.
Méthodologie
Le stage est structuré en trois grandes étapes :
1. Revue de littérature : Identifier le cadre théorique dans lequel s’inscrivent les différents travaux, afin de se positionner vis-à-vis d’un domaine où le vocabulaire n’est pas encore figé (e.g. explicabilité vs interprétabilité vs transparence…). Identifier les types d’explicabilités (model-agnostic vs local) et les méthodes courantes pour chaque type
3. Proposition d’un framework  : Définir les métriques et critères d’explicabilité et d’interprétabilité à retenir dans le cadre de ce projet ainsi que l’apport de ces derniers
4. Prototypage : Réalisation d’une plateforme (package logiciel par exemple) intégrant ces critères et métriques pour l’XAI d’algorithmes classiques du Machine Learning
Références
[1] Lipton, Z. C. The Mythos of Model Interpretability. ACM Queue (2018)
[2] Adedjouma, Morayo, et al. “Towards the engineering of trustworthy AI applications for critical systems-The Confiance. ai program.” (2022).
[3] Burkart, Nadia, and Marco F. Huber. “A survey on the explainability of supervised machine learning.” Journal of Artificial Intelligence Research 70 (2021): 245-317.
[4] Doshi-Velez, F., & Kim, B. (2017). Towards A Rigorous Science of Interpretable Machine Learning. stat, 1050, 2.

Profil du candidat :
En fin de cursus Ingénieur ou Master, vous avez de bonnes connaissances en Machine Learning et vous souhaiter travailler dans le domaine émergent et challengeant de l’explicabilité de l’Intelligence Artificielle.

Formation et compétences requises :
Vous êtes capable de mener à bien une mission d’analyse et de synthèse bibliographique et de présenter/défendre vos résultats (esprit critique et de synthèse).
Sur le plan technique: Très bonne maîtrise de Python et/ou Rstudio pour le data science.

Adresse d’emploi :
UTT – Université de Technologie de Troyes
12 rue Marie Curie – CS 42060 – 10004 TROYES CEDEX
Tél. : (+33) 03 25 71 58 69

Prototypage d’une librairie Python pour l’extraction d’information

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Unité MaIAGE, INRAE, Université Paris-Saclay
Durée : 4-6 mois
Contact : arnaud.ferre@inrae.fr
Date limite de publication : 2023-03-06

Contexte :
L’extraction d’information est le domaine du Traitement Automatique des Langues Naturelles visant à extraire et à structurer automatiquement des informations contenues dans de grandes quantités de textes. Une extraction commence classiquement par une tâche de reconnaissance d’entité, puis peut être suivie par une tâche de normalisation d’entité (parfois nommée “entity linking/disambiguation” ou “concept normalization”) et/ou par une tâche d’extraction de relation.

L’équipe Bibliome de l’unité de recherche MaIAGE de INRAE/Université Paris-Saclay est spécialisée dans la recherche méthodologique en extraction d’information, notamment en domaines spécialisés. Elle développe également des solutions d’extraction pour des applications finalisées appliquées au domaine des sciences du vivant.

Encadrants : Arnaud Ferré et Louise Deléger

Sujet :
Aujourd’hui, la grande majorité des méthodes d’extraction sont codées en langage Python. Bien que commencent à apparaître certaines librairies standards pour le traitement automatique des langues naturelles et qui contiennent leurs structures de données (ex : Stanza [1] ou spaCy [2]), celles-ci ne représentent souvent pas suffisamment les objets manipulés spécifiquement en extraction d’information. Par exemple, elles ne contiennent pas de classes explicites nommées “mention” ou “concept”, basiques en normalisation d’entité, et bien qu’il existe une classe plus abstraite capable de représenter en particulier une mention, celle-ci ne peut pas être définie comme discontinue (ex : le groupe nominal “liver and pancreatic cancer” contient deux mentions distinctes dont la mention d’intérêt “liver cancer”, laquelle ne peut être représentée de façon discontinue). En conséquence, la plupart des chercheurs qui développent de nouvelles méthodes s’appuient encore sur des structures ad hoc adaptées à leurs tâches, mais peu partageables et posant même des questions en termes de reproductibilité.

Nous faisons l’hypothèse qu’une librairie standard définissant une structure de données plus spécifique, c’est-à-dire plus proche des besoins des méthodologistes en extraction d’information, permettrait une meilleure reproductibilité, une facilité de prise en main, et un gain de temps de développement et d’intégration des méthodes.

La/le stagiaire devra développer un prototype de librairie Python définissant des classes d’objets adaptées aux besoins des méthodologistes pour les tâches de reconnaissance et normalisation d’entité. Un premier travail de comparaison avec au moins une des librairies standards devra être mené. Si cela est pertinent, la librairie pourra être développée comme une extension d’une de ces librairies standards. Des méthodes de reconnaissance et de normalisation et des jeux de données d’évaluation seront mis à disposition pour permettre de mettre en place un cadre de développement expérimental. Ce travail passera par le développement de parseurs qui iront parcourir, analyser et extraire les éléments des fichiers de jeux de données (de différents formats) pour les instancier dans un programme grâce aux structures de la librairie développée. Dans un second temps, ce travail pourra être dérivé à l’extraction de relation.

Le stagiaire aura accès à un ordinateur fixe, aux serveurs de calculs du laboratoire, et, au besoin, à des infrastructures de calcul haute performance (ex : Lab-IA).

[1] Qi, Peng, et al. “Stanza: A Python Natural Language Processing Toolkit for Many Human Languages.” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. 2020.
[2] Honnibal, Matthew, and Ines Montani. “spaCy 2: Natural language understanding with Bloom embeddings, convolutional neural networks and incremental parsing.” To appear 7.1 (2017): 411-420.

Profil du candidat :
Etre formé(e) ou expérimenté(e) en traitement automatique des langues naturelles ou plus particulièrement en extraction d’information.

Autonome en programmation Python, notamment orientée objet.

Formation et compétences requises :
Master 2 / dernière année d’école d’ingénieur en informatique, linguistique ou TAL. Ouvert à d‘autres spécialités (ex : bioinformatique) selon expérience.

Adresse d’emploi :
Centre de recherche INRAE de Jouy-en-Josas (78)

Vers un modèle explicable pour la détection d’infox sur des données médicales basée sur des méthodes d’apprentissage profond

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ICube, université de Strasbourg
Durée : 5-6 mois
Contact : stella@unistra.fr
Date limite de publication : 2023-03-06

Contexte :
Ce stage s’inscrit dans le cadre du projet DEEPISH (Deep lEarning ExPlainabilIty through Symbolic approacHes) mené au sein des équipes SDC (Science des Données et Connaissances) et CSTB (Systèmes Complexes et Bioinformatique Translationnelle) du laboratoire ICube. Ce projet a pour objectif de proposer un modèle général reposant sur des techniques de raisonnement symbolique, permettant d’expliquer les décisions de systèmes basés sur un apprentissage profond.

Sujet :
Ce travail de stage consiste à proposer une méthode de détection d’informations fallacieuses ou infox (“fake news”) issues de données médicales collectées sur internet. La détection se fera au moyen de méthodes de classification de textes, reposant sur des modèles de langue pré-entraînés à l’aide de grandes quantités de données textuelles ou modèles de “transformers” de type “BERT”. La détection devra s’accompagner d’un modèle d’explicabilité basé sur une conceptualisation des données extraites.

Profil du candidat :
Autonome, curieux, ayant un goût pour la modélisation de concepts, et pour la mise en œuvre de techniques d’apprentissage profond.
Bonne aptitude à la communication et aux échanges d’idées.

Formation et compétences requises :
En Master deuxième année ou d’un niveau équivalent dans une école d’ingénieurs, le ou la candidat.e devra avoir suivi une filière d’informatique orientée en science des données ou en intelligence artificielle. Il ou elle devra avoir une bonne maîtrise :
– des mécanismes de base de l’apprentissage profond (librairies TensorFlow, Keras, etc.),
– du langage Python.
– des méthodes de traitement automatique des langues (NLP),
– du raisonnement symbolique et de la modélisation de connaissances (règles logiques, ontologies, etc.).

Adresse d’emploi :
ICube UMR 7357 – Laboratoire des sciences de l’ingénieur, de l’informatique et de l’imagerie
300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex

Document attaché : 202212051544_Sujet DEEPISH M2 2023.pdf

Explainable deep learning for Mild Cognitive Impairment detection with MR spectroscopy data

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : XLIM, university of Poitiers
Durée : 5/6 months
Contact : olfa.ben.ahmed@univ-poitiers.fr
Date limite de publication : 2023-03-06

Contexte :
Alzheimer’s Disease (AD) is the most comment form of dementia. Neuroimaging data is an integral part of the clinical assessment providing a way for clinicians to detect brain abnormalities for AD diagnosis. Patients with AD suffer from the cognitive decline that leads to brain neurons and synaptic loss (i.e., memory loss, difficulty with problem-solving, etc.). Although there is currently no cure for AD, there are available medications that can slow down disease progression and improve the patient lifestyle. Recent studies on bio-markers research have demonstrated that the AD pathology is now suspected to start a long time before the manifestation of the clinical symptoms and even before brain damage. Hence, diagnosis of AD at earlier stages is of great clinical importance so that cognitive functions would be improved by medications and the spread of the disease would be prevented. Mild Cognitive Impairment (MCI) is an intermediary stage condition between healthy people and AD.
Detecting MCI subjects provide a potential window for early AD detection. However, MCI subjects’ detection remain a challenging clinical problem as it lies on a spectrum between NC and manifest AD. Therefore, identifying efficient bio-markers for early AD stages detection helps in establishing diagnosis and treatment strategies without delay. Over the last decades, imaging bio makers derived from anatomical Structural with machine learning techniques has been widely studied to assess brain atrophy for AD detection and prediction [1]. In addition to structural changes, metabolic changes in some brain regions could be a good biomarker for early AD detection [2]. However, the structural brain atrophy is not detectable at an early stage of the disease (namely for Mild Cognitive Impairment (MCI) and Mild Alzheimer’s Disease (MAD). Indeed, potential biological bio-markers have been proved their ability to early detect brain abnormalities related to AD before brain structural damage and clinical manifestation. Magnetic Resonance Spectroscopy (MRS) is a non-invasive technique providing a complementary approach to brain metabolism in vivo, during conventional MRI examination. MRS provides biological information of brain tissues at the molecular level allowing detecting brain abnormalities while MRI remains normal.

Sujet :
The goal of this internship is to:
• develop new deep learning based models for spectroscopy data classification for early AD detection, namely the MCI class detection.
• propose and implement a method for 1D Class Activation Map (CAM) generation for the 1D spectroscopy data for model interpretation. This task will the of a recently achieved work in our team [3]. The obtained 1D CAM should highlight the contributions of different MRS metabolites in the classification tasks. Data used in this internship are provided by CHU of Poitiers. In addition to the on MRS data, this data set contains multi-modal data of patients affected by different stages of AD (healthy elderly subjects, Mild Cognitive Impairment (MCI) and AD subjects)
Possibility to continue with a PhD proposal (starting in September/October 2023) in Artificial intelligence for medical images analysis

Location : XLIM (Site de Futuroscope), university of Poitiers in collaboration with the CHU of Poitiers
Tentative start date February/march 2023

Profil du candidat :
• Master 2 in computer vision, image processing, machine learning or any related field

Application : Send CV + transcripts and 2 reference letters to olfa.ben.ahmed@univ-poitiers.fr

Formation et compétences requises :
• Strong programming skills in python and deep learning frameworks (TensorFlow, pytorch)

Adresse d’emploi :
Location : XLIM (Site de Futuroscope), university of Poitiers in collaboration with the CHU of Poitiers

Analyse de données hétérogènes pour améliorer la prédiction d’indices de sécurité alimentaire

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : simon.madec@cirad.fr
Date limite de publication : 2023-03-06

Contexte :
Ce stage de Master s’inscrit dans le cadre du projet SCOSSA du programme TOSCA du CNES et dans la thématique générale de la sécurité alimentaire en Afrique de l’Ouest considérée comme l’un des enjeux majeurs de développement de la région.

Dans ce contexte, des données recueillies au travers d’enquêtes ménage représentent aujourd’hui une source d’informations fondamentales pour calculer les indicateurs de sécurité alimentaire qui sont ensuite utilisés en routine par différentes organisations. Ces indicateurs sont particulièrement difficiles à mettre en place dans les zones de conflit où les enquêtes ne peuvent se dérouler normalement.

Des études récentes se sont intéressées à l’estimation de ces indices à partir de données géospatiales et hétérogènes, en proposant des méthodes fondées sur l’utilisation des techniques avancées de science des données, et plus précisément d’apprentissage automatique et profond [1]. Ces approches permettent d’expliquer une part de la variation de la consommation alimentaire insuffisante et peut surpasser un modèle utilisant la prévalence comme estimation.

Des limitations existent encore et concernent notamment l’explicabilité des modèles (apprentissage par machine) ainsi que les performances et la validation de ces modèles face à des situations inédites : régions concernées par des conflits armés, périodes de crises économiques/inflation.

Sujet :
Au sein de l’UMR TETIS et en lien avec les équipes MISCA et ATTOS, l’objectif de ce stage est d’améliorer la performance des modèles d’apprentissage qui permettent d’estimer les indicateurs de consommation alimentaire.

Une première tâche sera la collecte et la mise en lien de données hétérogènes d’ordre économique et en lien avec les situations de conflits dans les régions d’intérêts [2].

Une deuxième étape sera d’analyser les résultats de simulation pour différentes entrées (données statique et non statique, d’ordre agronomique/ météorologique / économique…).

Des tests seront aussi réalisés sur d’autres régions / avec des données issues de nouvelles enquêtes [3].

[1] Deléglise, Hugo, et al. “Food security prediction from heterogeneous data combining machine and deep learning methods.” Expert Systems with Applications 190 (2022): 116189.

[2] Andree, Bo Pieter Johannes. “Estimating Food Price Inflation from Partial Surveys.” World Bank, Washington, DC (2021).

[3] https://microdata.worldbank.org/index.php/catalog/3768#metadata-version

Profil du candidat :
Compétences du candidat/e :

Connaissances/goût pour la programmation

Intérêt pour l’analyse de données

Rigueur scientifique

Curiosité et ouverture d’esprit

Capacité d’analyses, rédactionnelles et de synthèse

Informations complémentaires :

Durée de 6 mois, à partir de février 2023

Le stage se déroulera au CIRAD, dans l’UMR TETIS (Territoire, Environnement, Télédétection et Information Spatiale), située dans les locaux de la Maison de la Télédétection à Montpellier.

Encadrement

Simon Madec / Roberto Interdonato

Envoyer un CV et une lettre de motivation avant le 31/12/2022 à : simon.madec@cirad.fr

Formation et compétences requises :
Compétences du candidat/e :

Connaissances/goût pour la programmation

Intérêt pour l’analyse de données

Rigueur scientifique

Curiosité et ouverture d’esprit

Capacité d’analyses, rédactionnelles et de synthèse

Adresse d’emploi :
Maison de la Télédetection, 500 Rue Jean François Breton, 34090, Montpellier

Document attaché : 202212051459_Document.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Archives

Ingénieur.e de recherche 24 mois : interopérabilité d’outils de fouille de graphes et de données relationnelles

Résolution d’entités nommées dans des corpus de documents historiques de grande taille et partiellement redondants: le cas des annuaires commerciaux de Paris du XIXème siècle

5th ESAO Webinar, Wednesday, December 14th, 2022 — Call for Participation

Stage LIVIA – La conservation des livres par l’IA

Representation of physical quantities on the Semantic Web

InteX-ML : Conception d’une plateforme d’aide à l’explicabilité et l’interprétabilité d’algorithmes usuels de Machine Learning

Prototypage d’une librairie Python pour l’extraction d’information

Vers un modèle explicable pour la détection d’infox sur des données médicales basée sur des méthodes d’apprentissage profond

Explainable deep learning for Mild Cognitive Impairment detection with MR spectroscopy data

Analyse de données hétérogènes pour améliorer la prédiction d’indices de sécurité alimentaire