Application de méthodes de Natural Language Processing (NLP) pour l’extraction automatisée de données web pour la création d’une base de données des traits phénotypiques des adventices tropicales

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Cirad
Durée : 6 mois
Contact : gregoire.blanchard@cirad.fr
Date limite de publication : 2025-01-10

Contexte :
L’objectif de ce stage est de définir, extraire et organiser des données de traits phénotypiques et de distribution géographique des adventices tropicales (plantes qui s’établissent spontanément dans les systèmes tropicaux cultivés) afin de construire une base de données complète et exploitable pour décrire et comparer leur caractéristiques et leur diversité. Les plantes adventices des cultures tropicales ont un impact significatif sur la productivité agricole mais aussi sur de multiples services écosystémiques comme le maintien de la fertilité des sols, la réduction de l’érosion, la régulation des bioagresseurs etc. Une meilleure connaissance des traits phénotypiques des adventices tropicales permettrait d’améliorer notre compréhension de leur fonctionnement et de leur écologie, qui déterminent leur développement aux sein des cultures, leur réponse aux facteurs environnementaux et aux pratiques agronomiques, ainsi que leur distribution géographique. C’est donc une étape cruciale pour développer des stratégies de gestion efficaces.

Sujet :
Dans ce contexte, le stage a pour objectif de collecter, de traiter et d’organiser des données pertinentes des traits des plantes en utilisant des techniques de web scraping et le text-mining. La finalité du stage est de construire une base de données relationnelle structurée regroupant les traits des adventices tropicales qui sera un outil précieux pour les
chercheurs, permettant d’effectuer différentes analyses, pour une meilleure compréhension de la réponse des espèces adventices aux facteurs environnementaux et aux pratiques agricoles, ainsi que de leur impact sur le fonctionnement des cultures tropicales. Le/la stagiaire sera responsable du développement des scripts de web scraping en utilisant principalement le langage de programmation Python via des bibliothèques spécialisées. Une première étape sera d’évaluer et de comparer les performances spécifiques de différentes méthodes de text mining (Spacy, GLiNER, UniversalNER) pour l’extraction des entités visées dans le cadre de ce travail. Les méthodes retenues permettront d’extraire des informations spécifiques sur les plantes adventices et leurs traits phénotypiques et éventuellement leur répartition géographique. Les données seront ensuite normalisées et structurées de manière cohérente pour leur intégration dans une base de données relationnelle (PostgreSQL). Enfin, des analyses descriptives des données recueillies pourront être réalisées pour évaluer l’état et le volume des connaissances accumulées dans la base de données, et la distribution des valeurs de traits des espèces en fonction de leur distribution au travers des gradients environnementaux, géographiques et agronomiques.

Profil du candidat :
Formation de niveau Master 2 en cours dans le domaine de l’intelligence artificielle ou de la science des données.

Formation et compétences requises :

Adresse d’emploi :
Stage basé en Guadeloupe (station de Neufchateau, Capesterre-Belle-Eau) avec une mission sur Montpellier pour Digitagora.

Document attaché : 202412021735_Stage_DigitAg_Text_mining.pdf

Research engineer/Post-doctoral position – Physical Informed Neural Networks for Electromagnetic Applications

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIST3N
Durée : 10 to 12 months
Contact : alexandre.baussard@utt.fr
Date limite de publication : 2025-01-10

Contexte :

Sujet :
The research proposed in this project fall within the field of physical informed neural networks for electromagnetic applications. The aim is to use this type of method to generate synthetic data to deal with the lack of data in some applications. Until now, the solution has been to use simulators based on physical models. Several levels of modeling can be used such as approximate physical models or the so-called exact models. However, these models are either too simplified or too time-consuming and computationally demanding. Moreover, even if in theory the exact models can consider all the physical phenomena, at the end there always exist differences with real data.
The goal of this project is to evaluate the physical informed neural networks (PINNs) as an alternative solution to physical models. PINNs are becoming increasingly popular but there are still number research works to do, especially when dealing with 3D problems. We also must take into account the fact that the electromagnetic field is complex-valued. In this project we will first evaluate PINN to compute the scattered field from object considering 2D configurations. Depending on the results, 3D problems can be considered.

Profil du candidat :
We are looking for a highly motivated candidate to study PINNs for electromagnetic applications. The candidate should possess the following qualifications:
• A robust background in machine learning, signal processing, or applied mathematics
• Strong programming abilities in Python and PyTorch.

Formation et compétences requises :
Research engineer or Ph.D. with strong experience in deep learning and, if possible, PINNs. Basic knowledge of electromagnetism and modeling would be appreciated.

Adresse d’emploi :
LIST3N – Université de Technologie de Troyes

TPDL 2025 – The 29th International Conference on Theory and Practice of Digital Libraries – Demo Track

Date : 2025-09-23 => 2025-09-26
Lieu : Tampere, Finland

TPDL 2025 – The 29th International Conference on Theory and Practice of
Digital Libraries
Call for demonstration papers

*23-26 September 2025 – Tampere, Finland *

*Website*: https://tpdl2025.github.io/Calls/demos.html
*Submission deadline*: June 12, 2025 (AoE)
*Overview*

TPDL is an international forum focused on Digital Libraries, Document
Analysis/Recognition, and Information Retrieval and their associated
technical, practical, and social issues. The conference encompasses the
many meanings of the term digital libraries, embracing the whole spectrum
of the GLAM (Gallery, Library, Archive, and Museum) community; information
access and operational information systems with all manner of digital
content; new means of selecting, collecting, organizing, distributing, and
accessing digital content; and theoretical models of information media,
including document genres and electronic publishing.

*Topics*

Topics in 2025 include but are not limited to, theories, models, standards,
tools, and applications on the following themes:

– Publishing Science
– Information Management Science
– Monitoring and Assessment of Science
– Knowledge Creation and Dissemination
– AI and Machine Learning Applications in Digital Libraries
– Digital Humanities and Cultural Heritage
– Human-Computer Interaction in Digital Libraries
– Information Retrieval
– Retrieval Augmented Generation (RAG) in the context of Digital
Libraries
– Recommender Systems in Digital Libraries
– Document Analysis and Recognition

Also see the detailed list of topics of the main conference, here:
https://tpdl2025.github.io/Calls/researchtrack.html

*Important Dates*

All deadlines are 23:59 (11:59 pm) in the AoE (Anywhere on Earth) time zone
on the date specified.

– Demonstration paper submission deadline: June 12, 2025
– Notification of acceptance for demonstration papers: July 13, 2025
– Camera-ready submission: July 27, 2025

*Contribution Types*

Demonstration papers (8 pages + unlimited references) present high-quality,
original research, applications or tools that are of relevance to the TPDL
community. Accepted papers will be published in the conference proceedings.
At least one author of each accepted demonstration must register and attend
the conference. The Demo Track invites researchers to present their
research prototypes and operational systems to the community, receive
expert feedback, share insights, and exchange knowledge on the development
and implementation of innovative systems. Proposals from startups and
industry participants are also welcome.

– Submissions should clearly define the purpose, scope, and audience of
the demo.
– Each paper should include a section describing the exact demonstration
scenarios, which include how the audience will experience the demo, the
artifact=E2=80=99s functionalities, user interface and interaction optio=
ns, etc.
– All submissions should provide a URL to a live online version of their
demo or, alternatively, provide a URL to a video (up to 5 minutes)
showcasing the main features of their demo.
– Demonstrations that make their source code freely available are
especially encouraged.

*Awards*

Springer will sponsor the TPDL 2025 Best Demonstration Paper Award, which
will be announced during the TPDL Banquet.

*Submission Guidelines*

Accepted papers will be published in the conference proceedings. All
submissions must be written in English and use the Springer LNCS
proceedings templates, either for LaTeX or for Word, see Springer LNCS
guidelines:
https://www.springer.com/gp/computer-science/lncs/conference-proceedings-gu=
idelines

Every paper must be submitted in PDF format using the CMT online submission
system after selecting the TPDL2025 – Demos Track:
https://cmt3.research.microsoft.com/TPDL2025.

Failure to comply with the submission guidelines will lead to direct
rejection without review.

Demonstration submissions are single-blind. You are not expected to take
measures to conceal your identity from reviewers. Authors should note that
changes to the author list after the submission deadline are not allowed
without permission from the PC Chairs.

In addition, the corresponding author of each accepted paper, acting on
behalf of all of the authors of that paper, must complete and sign a
Consent-to-Publish form. The corresponding author signing the copyright
form should match the corresponding author marked on the paper. Once the
paper has been submitted, changes relating to its authorship cannot be made=
.

*Dual Submission Policy*

Papers submitted to TPDL 2025 must be substantially different from those
previously published, accepted for publication, or currently under review
at other venues. Exceptions include:

– Papers presented or to be presented at conferences or workshops
without published proceedings.
– Papers previously available only as technical reports (e.g., in
institutional archives or on preprint platforms like arXiv).

*Demonstration Chairs*

Liana Ermakova, Universit=C3=A9 de Bretagne Occidentale, France
Yannis Tzitzikas, University of Crete and FORTH, Greece

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Offre de Stage de Fin d’Étude de Master – Système de Recommandation Basée sur les Graphes de Connaissances

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : SAMOVAR
Durée : 6 mois
Contact : julien.romero@telecom-sudparis.eu
Date limite de publication : 2024-12-29

Contexte :

Sujet :
Laboratoire SAMOVAR – Télécom SudParis & ensIIE
1. Introduction et Contexte
Le laboratoire SAMOVAR de Télécom SudParis et de l’ensIIE (Évry) recherche un(e) étudiant(e) en fin de cycle Master pour un stage de six mois portant sur le développement d’un système de recommandation basé sur des graphes de connaissances. Ce projet s’inscrit dans le cadre des recherches avancées en systèmes de recommandation, un domaine en pleine évolution qui exploite des données complexes et hétérogènes pour générer des suggestions personnalisées.
L’objectif du stage est de concevoir un modèle de recommandation reposant sur un graphe de connaissances unifié, capable d’intégrer et de fusionner plusieurs sources d’informations. En mobilisant des techniques avancées d’apprentissage profond, notamment les réseaux de neurones pour graphes (Graph Neural Networks, GNN), le projet vise à développer un système robuste, pertinent et performant. Les défis du stage concernent principalement la construction et l’optimisation de sous-graphes, un aspect clé pour garantir l’efficacité et la précision des recommandations.
2. Déroulement du Stage
Le stage se déroulera en trois grandes phases :
Phase 1 : Intégration de sources dans un graphe de connaissances unifié
Dans cette phase, l’étudiant(e) travaillera sur la collecte et l’intégration de plusieurs sources d’informations dans un graphe de connaissances global. Cette étape nécessite la structuration et l’enrichissement des données, ainsi que leur alignement pour assurer une cohérence au sein du graphe unifié. L’objectif sera d’obtenir une base de connaissances qui pourra être exploitée pour les recommandations.
Phase 2 : Extraction de sous-graphes pertinents
Pour réduire le bruit et optimiser les performances du modèle, l’étudiant(e) développera une méthode de sampling intelligente pour sélectionner des sous-graphes à la fois suffisamment riches en informations et suffisamment légers pour être traités rapidement. Cette étape nécessitera l’implémentation de techniques de sélection et de réduction de graphes, en tenant compte des caractéristiques structurelles et du contexte de la recommandation.
Phase 3 : Recommandation via un Graph Neural Network (GNN)
La dernière phase consistera à utiliser un réseau de neurones pour graphes pour générer les recommandations finales. L’étudiant(e) implémentera, entraînera et ajustera un GNN sur les sous-graphes extraits, afin de maximiser la pertinence des recommandations tout en maintenant une faible latence de traitement.
3. Compétences Attendues
Connaissances en apprentissage automatique et réseaux de neurones, idéalement sur des structures de graphes (GNN).
Expérience en manipulation et gestion de données structurées et non structurées.
Compétences en programmation : Python, et familiarité avec des bibliothèques telles que PyTorch, TensorFlow ou équivalentes pour les modèles de machine learning.
Notions de graphes de connaissances et de bases de données orientées graphes (RDF, Neo4j, etc.).
Esprit d’analyse et capacité à formuler et tester des hypothèses de recherche.
Capacité de travail en autonomie et en équipe, pour interagir avec les membres du laboratoire SAMOVAR.
4. Documents demandés
Les candidat(e)s intéressé(e)s sont invité(e)s à envoyer leur CV et une lettre de motivation à :
Julien Romero (julien.romero@telecom-sudparis.eu)
Stefania Dumbrava (stefania.dumbrava@ensiie.fr)
Ce stage représente une opportunité unique de contribuer à un projet de recherche innovant et à fort impact au sein de Télécom SudParis et de l’ensIIE, dans un environnement de travail stimulant.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Télécom SudParis, Évry

Document attaché : 202411290917_Offre de Stage de Fin d’Étude de Master – Système de Recommandation Basée sur les Graphes de Connaissances.pdf

Large-scale place recognition in 3D points clouds @LASTIG – IGN/UGE – Paris area

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LASTIG
Durée : 5-6 mois
Contact : valerie.gouet@ign.fr
Date limite de publication : 2024-12-29

Contexte :
Master’s internship M2 2025
LASTIG Lab – IGN / Gustave Eiffel University (Grand Paris area, France)
« Large-scale place recognition in 3D points clouds »

Keywords

Computer Vision, Photogrammetry, Machine Learning, Place Recognition, Pose Estimation, 3D Points Clouds, Big Data, LLM

Full description and candidature: https://www.umr-lastig.fr/vgouet/News/sujet_stage_2025-Loc3D-ext-v2.pdf

Sujet :
Subject

Place recognition based on the visual mapping of the environment is a problem at the heart of many topical application domains, such as geolocalization for mobile mapping, digital twins update and documentation, collections annotation in digital humanities, augmented reality or fact-checking. Recognizing a location can take many forms, from the production of an annotation to a 6D pose that also provides information on the location of the acquisition sensor. In the state of the art of computer vision, when no initial position is known, existing techniques are based on indexing and similarity search of visual content in a geolocalized image repository. Here, we study the generalization of this type of approach to 3D by considering 3D point cloud acquisition campaigns (notably LiDAR), which are becoming increasingly popular and whose richness in terms of geometry and semantics is attractive, but with a volume and diversity that are complex to handle. The internship is at the heart of the problem of indexing and retrieval in 3D point clouds for place recognition, through the study of deep 3D points cloud descriptors up to efficient retrieval and reranking for 3D pose estimation.

Profil du candidat :
Skills

Bac+5 in computer science, applied math or computer vision (master or engineering school); good knowledge in image or 3D data processing, as well as strong skills in Python programming. Good skills in Apache Spark, hugging Face API, LLM, PyTorch, or functional programming is a significant plus.

Formation et compétences requises :
Submitting your candidature

Before February 15th 2025, send by e-mail to the contacts in a single PDF file:
o CV
o motivation letter
o 2 recommendation letters, or persons to contact
o Transcript of grades from the last two years of study
o A list of courses followed and passed in the last two years

Adresse d’emploi :
LASTIG Lab – IGN / Gustave Eiffel University (Grand Paris area, France)

Contact
o Valérie Gouet-Brunet, snior researcher, LASTIG – valerie.gouet@ign.fr
o Laurent Caraffa, researcher, LASTIG – laurent.caraffa@ign.fr

Document attaché : 202411271436_sujet_stage_2025-Loc3D-ext-v2.pdf

X-atlas 3D-II, segmentation 3D automatique à haut-débit de structures anatomiques à partir d’images de micro-tomographie rayons X

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Cirad, Montpellier
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2025-01-15

Contexte :
Mots-clés : Deep Learning, 3D Image Analysis, X-ray computed tomography, 3D reconstruction, #DataForGood

Les rizières jouent un rôle central dans la sécurité alimentaire mondiale, et un rôle important dans le changement climatique d’origine anthropique en émettant chaque année 50 mégatonnes de méthane. Le projet interdisciplinaire ARIZE vise à relever le double défi de la transition agroécologique et de la sécurité alimentaire en développant des outils innovants pour l’exploration morpho-anatomique du riz en 3D afin de sélectionner des variétés de riz adaptées aux cultures en sol sec. Dans ce cadre, nous explorons l’architecture interne des plantes de riz en 3D via des images inédites par micro-tomographie aux rayons X à une résolution de 10 µm. Chaque image volumétrique, de l’ordre de 1 To, permet de révéler le réseau 3D des aérenchymes, ces “canaux” internes qui transportent l’oxygène. Automatiser l’analyse de ces structures en 3D serait une première mondiale et constitue le cœur de ce stage.

Sujet :
Concevoir un pipeline complet d’analyse 3D pour la segmentation anatomique et l’estimation de caractéristiques complexes en 3D. Dans ce but, le stagiaire aura la responsabilité de réaliser des expérimentations avec des outils de l’état de l’art (modèles dédiés “plante” et modèles-fondation généralistes), et de concevoir une solution technique open-source qui sera mise à disposition dans un démonstrateur open-source via un plugin Python pour le logiciel Napari. Le stagiaire travaillera en lien étroit avec le deuxième stagiaire X-atlas 3D, dédié à la reconstruction architecturale en 3D. Une forte collaboration est prévue pour combiner les résultats dans une solution intégrée.

Profil du candidat :
Étudiant·e en Master 2 ou école d’ingénieur avec spécialisation en informatique, analyse d’images, ou modélisation mathématique. Le langage de programmation utilisé sera Python, en utilisant des outils de développement communautaire et de maintien logiciel (Github, Intégration Continue), et des librairies standards de deep learning (Pytorch/Tensorflow).

Formation et compétences requises :
Expérience en traitement d’images 3D, et/ou modélisation géométrique appréciée. Intérêt pour le développement d’outils open-source et la collaboration interdisciplinaire. Capacité à travailler en équipe dans un environnement mêlant informatique, biologie et agroécologie.

Adresse d’emploi :
La rémunération selon barème légal des stages sera de 600€ mensuel, avec accès à la restauration collective le midi. Le stage aura lieu au Cirad de Montpellier, 389 Av. Agropolis, 34980 Montferrier-sur-Lez.

Document attaché : 202411271216_Offre stage M2 – 2025 – Deep aerenchimas.pdf

X-atlas 3D-I, reconstruction automatique d’atlas d’architecture 3D plante entière à partir d’images de micro-tomographie rayons X

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Cirad, Montpellier
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2025-01-15

Contexte :
Mots-clés : 3D Image Analysis, X-ray computed tomography, Segmentation, 3D reconstruction, #DataForGood

Les rizières jouent un rôle central dans la sécurité alimentaire mondiale, et un rôle important dans le changement climatique d’origine anthropique en émettant chaque année 50 mégatonnes de méthane. Le projet interdisciplinaire ARIZE vise à relever le double défi de la transition agroécologique et de la sécurité alimentaire en développant des outils innovants pour l’exploration morpho-anatomique du riz en 3D afin de sélectionner des variétés de riz adaptées aux cultures en sol sec. Dans ce cadre, nous explorons l’architecture interne des plantes de riz en 3D via des images inédites par micro-tomographie aux rayons X à une résolution de 10 µm. Chaque image volumétrique, de l’ordre de 1 To, permet de révéler le réseau 3D des aérenchymes, ces “canaux” internes qui transportent l’oxygène. Automatiser l’analyse de ces structures en 3D serait une première mondiale et constitue le cœur de ce stage.

Sujet :
Concevoir un pipeline complet d’analyse 3D pour reconstruire et caractériser automatiquement le réseau des aérenchymes à l’échelle de la plante entière (racines et feuilles). Les principales missions incluent le développement d’algorithmes de reconstruction 3D topologique et géométrique à partir des volumes d’imagerie (segmentation d’instance, déformation non linéaire de volume, etc.) et l’intégration des outils développés dans un démonstrateur open-source via un plugin Python pour le logiciel Napari, facilitant l’exploration des résultats par un atlas probabilistique interactif en 3D. Le stagiaire travaillera en lien étroit avec le deuxième stagiaire X-atlas 3D, dédié à la segmentation des structures anatomiques par deep learning. Une forte collaboration est prévue pour combiner les résultats dans une solution intégrée.

Profil du candidat :
Étudiant·e en Master 2 ou école d’ingénieur avec spécialisation en informatique, analyse d’images, ou modélisation mathématique. Le langage de programmation utilisé sera Python, en utilisant des outils de développement communautaire et de maintien logiciel (Github, Intégration Continue).

Formation et compétences requises :
Expérience en traitement d’images 3D, en reconstruction volumique et/ou modélisation géométrique appréciée. Intérêt pour le développement d’outils open-source et la collaboration interdisciplinaire. Capacité à travailler en équipe dans un environnement mêlant informatique, biologie et agroécologie.

Adresse d’emploi :
a rémunération selon barème légal des stages sera de 600€ mensuel, avec accès à la restauration collective le midi. Le stage aura lieu au Cirad de Montpellier, 389 Av. Agropolis, 34980 Montferrier-sur-Lez.

Document attaché : 202411271214_Offre stage M2 – 2025 – Xray arbo.pdf

Stage M2 – IA Santé – Marseille – Analyse statistique des tests d’efforts pour améliorer le diagnostic patient

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique et des Systèmes (LIS)
Durée : 5 mois
Contact : paul.chauchat@lis-lab.fr
Date limite de publication : 2025-02-14

Contexte :
Ce stage s’inscrit dans un projet de recherche visant à analyser les données issues de tests d’effort cardio-pulmonaire (CPET). Les CPET sont utilisés pour évaluer les réponses physiologiques d’un patient lors d’un exercice maximal, afin de déterminer le degré de limitation à l’effort et d’en identifier les mécanismes sous-jacents.
L’objectif global de ce projet de recherche est de concevoir des outils d’analyse et d’aide à la décision qui enrichiront l’interprétation des données CPET, et fourniront des outils prédictifs utiles pour le phénotypage des patients et la prédiction des trajectoires de soin. Cette approche vise à combler le fossé entre recherche et pratique médicale. En effet, bien que de récents travaux ont montré que l’exploitation des données collectées permette, grâce à techniques d’Intelligence artificielle d’obtenir des informations sur les patients telles que le diagnostic des limitations à l’effort (Portella, et al., 2022), la prédiction du devenir médical du patient (Hearn, et al., 2018), ou bien la détection automatique des seuils ventilatoires (Zignoli, et al., 2019), la pratique médicale se base encore sur une analyse séquentielle univariée. Il est donc nécessaire de comparer ces différentes approches en termes de pouvoir prédictif.
Ce projet est une collaboration entre les laboratoires LIS et C2VN, ainsi que l’AP-HM.

Encadrement et Collaboration
Le stage se déroulera au LIS (campus Saint Jérôme) sous la supervision de Paul Chauchat (Maître de conférences, LIS), et de Stéphane Delliaux (Maître de conférences HDR et Praticien hospitalier, C2VN), en collaboration étroite avec Luca Thiébaud, doctorant au LIS.

Sujet :
L’objectif de ce stage est de contribuer à l’exploitation des données issues des tests d’effort cardio-pulmonaire (CPET) à travers une approche de Network Physiology. Cette approche par les données examine les interactions entre différents réseaux physiologiques, tels que les systèmes cardiovasculaire, respiratoire et métabolique, pour mieux comprendre leur dynamique complexe (Bashan, Bartsch, Kantelhardt, Havlin, & Ivanov, 2012). La physiologie des réseaux a été jusqu’ici utilisée à des échelles petites (un organe), et sur des cohortes faibles mais dans un cadre contrôlé. Il s’agira donc d’étudier, dans ce stage, l’applicabilité de la méthode à une plus grande échelle, grâce à des données plus nombreuses, mais recueillies dans un cadre médical. Des données issues des tests d’effort de l’AP-HM, et éventuellement de bases open source, seront utilisées. Ces travaux visent à obtenir un meilleur diagnostic de l’état de santé des patients.
Au regard de l’avancée de ce projet et des intérêts spécifiques du/de la candidat(e), ces pistes pourront être amenées à évoluer.

Profil du candidat :
Étudiant(e) en dernière année d’École d’Ingénieur ou en Master 2, spécialités IA, mathématiques appliquées, bio-statistiques ou informatique. Vous avez un solide bagage théorique accompagné d’une bonne expérience de programmation (Python). Vous êtes motivé(e) par les applications médicales et l’analyse de données temporelles multivariées. Une expérience en Machine Learning, traitement de données médicales ou analyse statistique est un atout.

Formation et compétences requises :

Adresse d’emploi :
Campus de Saint-Jérôme, Aix-Marseille Université, 52 av de l’escadrille Normandie Niemen, 13013, Marseille, France

Document attaché : 202411261503_offre_stage.pdf

Exploring Alternative Definitions of Fairness in Machine Learning using Sensitive Networks

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N
Durée : 6 mois
Contact : francois.queyroi@univ-nantes.fr
Date limite de publication : 2025-02-14

Contexte :
Many studies have shown that learning models can lead to inequality of treatment and unfair decisions. A decision algorithm is often said to be “unfair” if it’s outcome depends (even indirectly) on some protected attribute (e.g. race, gender, etc.). In much of the literature, however, the protected attributes are mostly discrete, encoding the fact that an individual belongs (or does not) belong to one or more groups. A challenge in this context is to take into account the intersectionality of possible discriminations faced by individuals.

Sujet :
The aim of this project is to explore alternatives to the use of discrete variables to encode sensitive attributes. One possible way is to use a graph (the sensitive network ) to encode proximity/relationship between individuals. In this context, fairness could be defined as the lack of correlation between the existence of relationships and the decision/score. An intuitive example of an “unfair decision” is hiring only people who know the same people in the network.

The objectives of this internship are to
1. Develop a state-of-the-art on alternative notions of algorithmic fairness in the context
of intersectionality.
2. Reformulate well-known definitions of group fairness in the context of simple sensitive networks.
3. Find potential case studies and datasets in order to start a benchmark.
4. Implement measures of network fairness and evaluate them on the datasets.

Profil du candidat :
M2 mathematics/computer science student (or equivalent) with an inter-
est and skills in data analysis, graph mining and fairness in machine learning. A background in the humanities (sociology, philosophy, etc.) is a big plus

Formation et compétences requises :

Adresse d’emploi :
Polytech Nantes, Rue Christian Pauc, 44300 Nantes

Document attaché : 202411251412_Sujet_Stage_GraphFairness_2025.pdf

Nouvelles Interactions pour la Post-Edition de Traductions Automatiques

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ISIR, Sorbonne Université
Durée : 5-6 mois
Contact : yvon@isir.upmc.fr
Date limite de publication : 2025-02-14

Contexte :

Sujet :
Ce stage s’intéresse à l’étude de nouvelles interactions pour la révision (post-édition) de traductions automatiques, par exemple en intégrant des mesures de confiance sur la qualité de traduction.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
ISIR
4, Place Jussieu
75005 Paris

Document attaché : 202411251257_sujet.pdf