
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : DSChem/– — –
Laboratoire/Entreprise : Groupe de recherche en informatique, image, automa
Durée : 6 mois
Contact : jean-luc.lamotte@unicaen.fr
Date limite de publication : 2024-02-28
Contexte :
Ce stage prend place dans une collaboration de longue date entre trois laboratoires :
1. Le GREYC (UMR 6072, Caen), a développé au cours des années une expertise forte en fouille de données et apprentissage appliqué à la Chemoinformatique,
2. Le CERMN (UR 4258, Caen) est le centre d’études et de recherche sur le médicament de Normandie et entretient depuis de nombreuses années une collaboration avec le GREYC sur l’analyse informatique de molécules pour créer de nouveaux médicaments,
3. Le LITIS (UR 4108, Rouen), a acquis une solide expérience en apprentissage machine qu’il applique notamment sur des bases de graphes.
Le GREYC et le LITIS collaborent activement au sein de la fédération NormaSTIC.
Des membres des trois laboratoires participeront à l’encadrement du stage en y apportant leurs compétences respectives.
Ce stage peut être considéré comme une étape préparatoire à une thèse de doctorat sur le même sujet.
Sujet :
Le stage commencera par une étude des méthodes GNN permettant de prédire les propriétés de nos jeux de données. L’étude sera ciblée sur la prédiction des interactions protéines/ligands à partir des structures des molécules. A
cette occasion, des méthodes basées GCN, au sens large, et GCN+pooling seront étudiées.
Si cette étape est validée, nous aborderons une comparaison des méthodes de la littérature permettant d’expliquer les résultats de ces GNNs. Les résultats produits (en termes d’explication) seront évalués en utilisant plusieurs critères tels que l’accuracy, l’aire sous la courbe, la fidélité, la parcimonie,. . .. Nous espérons identifier à partir de cette étude des sous structures pharmacophoriques pertinentes pour les propriétés à prédire.
Nous essaierons, dans un troisième temps, d’appliquer ces méthodes sur les graphes moléculaires squelettiques. Il s’agira de comparer sous l’angle de l’explicabilité les descriptions moléculaires ”brutes” et celles produites en intégrant une expertise du domaine via le graphe pharmacophorique.
Profil du candidat :
Le candidat doit être inscrit en dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation. Une expérience en informatique pour la Science des Données, apprentissage profond, notamment sur graphes, sera un plus.
Formation et compétences requises :
Le candidat doit être inscrit en dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation.
Adresse d’emploi :
Le stage sera effectué au GREYC (Caen) ou au LITIS (Rouen) en fonction du lieu de recrutement de l’étudiant. Il débutera en février ou mars 2024 pour une durée de 6 mois et bénéficiera d’une gratification au tarif minimum réglementaire pour les stages.
Document attaché : 202312181731_stageMasterGNN-chemo.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : SAMOVAR/Télécom SudParis
Durée : 6 mois
Contact : romerojulien34@gmail.com
Date limite de publication : 2024-02-28
Contexte :
In this internship, we propose to study the problem of financial forecasting, i.e., predicting the future
variation of the price of a financial instrument, using deep learning. The student will work on a new
data source with a finer granularity than existing datasets. Because of the difficulty of obtaining
data, previous works focused on price prediction at the scale of a day, a week, or a month. Our
new dataset contains intraday information. Therefore, we can predict the price within a day and
use multi-scale analysis. Besides, our new dataset contains different kinds of financial instruments
(FOREX, crypto, options, futures) and additional information about the companies (description,
financial reports, dividends).
Sujet :
In this internship, we propose to study the problem of financial forecasting, i.e., predicting the future
variation of the price of a financial instrument, using deep learning. The student will work on a new
data source with a finer granularity than existing datasets. Because of the difficulty of obtaining
data, previous works focused on price prediction at the scale of a day, a week, or a month. Our
new dataset contains intraday information. Therefore, we can predict the price within a day and
use multi-scale analysis. Besides, our new dataset contains different kinds of financial instruments
(FOREX, crypto, options, futures) and additional information about the companies (description,
financial reports, dividends).
Profil du candidat :
The intern should be involved in a master’s program and have a good knowledge of machine learning,
deep learning, and data processing. A good understanding of Python and the standard libraries used
in data science (scikit-learn, PyTorch, pandas) is also expected. A previous experience with finance
is appreciated but not required for this internship.
Formation et compétences requises :
The intern should be involved in a master’s program and have a good knowledge of machine learning,
deep learning, and data processing. A good understanding of Python and the standard libraries used
in data science (scikit-learn, PyTorch, pandas) is also expected. A previous experience with finance
is appreciated but not required for this internship.
Adresse d’emploi :
Télécom SudParis, Palaiseau
Document attaché : 202312181259_stage_finance.pdf
Offre en lien avec l’Action/le Réseau : RoCED/– — –
Laboratoire/Entreprise : INRAE Toulouse
Durée : 6 mois
Contact : mathieu.fauvel@inrae.fr
Date limite de publication : 2024-02-28
Contexte :
Over the last ten years, Earth Observation (EO) has made enormous advances in terms of spatial and temporal resolutions, data
availability and open policies for end-users. The increasing availability of complementary imaging sensors allows land ecosystems
state variables and processes to be observed at different spatio-temporal scales. Big EO data can thus enable the design of new
land monitoring systems providing critical information in order to guide climate change monitoring, mitigation and adaptation.
Conventional machine learning methods are not well adapted to the complexity of multi-modal, multi-resolution satellite image
time series (SITS) with irregular sampling. Therefore they are not suitable for extracting and processing all the relevant infor-
mation. On the other hand, methods based on deep neural networks have shown to be very effective to learn low-dimensional
representations of complex data for several tasks and come with high potential for EO data. However, they often emerge from the
computer vision (CV) and natural language processing (NLP) communities and need to be extended and properly instantiated to
handle the very specificities of Earth Observation data.
Previous works at the CESBIO-lab have shown that generative encoder-decoder architectures such as the Variational Auto-
Encoder (VAE) or the U-NET models perform very well for a variety of EO tasks : estimation of biophysical parameters or
Sentinel-1 to Sentinel-2 translations, to cite a few.
However, such approaches appear to be inadequate to handle data coming from more than 2 sources and acquired at different
time and spatial resolutions, as prioritized in the RELEO chair within ANITI. In particular, the generative capability of these
models may generalize poorly to unseen regions or temporal periods. Processing such streams of data requires to jointly encode
all sources into a structured latent space where each complementary information carried by each source can be embedded while
ensuring long-term encoding of newly acquired data (from possibly new sensors).
Sujet :
The objective of this internship is to investigate Gaussian process (GP) prior for Variational Auto-Encoders (VAEs). Usually,
VAEs assume independence between samples. This assumption is generally made for sake of simplicity and computational ef-
ficiency of the training and inference steps. However, assuming independence of samples amount to ignoring the correlation
between adjacent pixels in the temporal domains. Furthermore, because of the very deterministic nature of such neural networks
architectures, they do not properly encode uncertainty related to missing/noisy data.
Adopting this GP prior is expected to model correlations between times. However, due to the irregular and unaligned nature of
SITS and their massive volume, approximation are required to maintain fast training and inference.
The work-plan of this Master internship is as follows :
1. Define GP prior VAEs for pixel satellite time series with different approximations,
2. Implement the models in PyTorch,
3. Perform experiments on massive SITS and compare with others VAEs on downstream tasks.
Profil du candidat :
Master or Engineering school students with major in applied mathematics, computer science or electrical engineering.
Formation et compétences requises :
The knowledge needed for this work includes a strong background in machine learning or data science, signal & image
processing or remote sensing data processing. Good scientific programming skills (e.g., Python) and good communication skills
in English, both written and oral are also expected. Interests in Earth observation will be appreciated.
Adresse d’emploi :
Centre d’Etudes Spatiales de la Biosph`ere (CESBIO) & INRAE
Document attaché : 202312190628_proposal_MSc_2024_ANITI.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : SAMOVAR/Télécom SudParis
Durée : 6 mois
Contact : romerojulien34@gmail.com
Date limite de publication : 2024-02-28
Contexte :
Job recommendation is the task of associating candidates with
jobs. This can be useful for candidates who would like to find to best possible
jobs, for companies that want to find the rarest talents in the vast pool of
candidates, but also for independent recruiters who need to be as precise as
possible when they send a resume to a company.
In this internship, you will work on a new dataset for job recommendations.
Its particularity is that it contains much additional information about candi-
dates and jobs we can represent as a graph. Besides, it is very sensitive to the
cold start problem: We have many new candidates and new jobs, and it restricts
a lot of the algorithms we can use.
If we consider video recommendations on Youtube, an average viewer watches
many videos, and each video is viewed many times. Therefore, when recom-
mending new videos to a specific user, we can look at what other similar view-
ers watched and recommend the most relevant video. This is the principle of
collaborative filtering. In our case, our users are likely to get a job and never
come back. Likewise, jobs are associated with one person, and then, we are
done with it. Therefore, we need to exploit extra information to make the
recommendation.
For our dataset, we can represent our pool of candidates and jobs with a
heterogeneous graph, connecting candidates and jobs, but also additional node
types like skills, cities, or employment types. Because we have this expressive
representation, we must adapt the existing algorithms. During the internship,
we will see how graph neural networks can be used to make recommendations,
and we will propose a new architecture to solve our specific problem.
The goal of this internship will be to publish a paper at an international
conference. The intern will work together with a Ph.D. student.
Sujet :
Job recommendation is the task of associating candidates with
jobs. This can be useful for candidates who would like to find to best possible
jobs, for companies that want to find the rarest talents in the vast pool of
candidates, but also for independent recruiters who need to be as precise as
possible when they send a resume to a company.
In this internship, you will work on a new dataset for job recommendations.
Its particularity is that it contains much additional information about candi-
dates and jobs we can represent as a graph. Besides, it is very sensitive to the
cold start problem: We have many new candidates and new jobs, and it restricts
a lot of the algorithms we can use.
If we consider video recommendations on Youtube, an average viewer watches
many videos, and each video is viewed many times. Therefore, when recom-
mending new videos to a specific user, we can look at what other similar view-
ers watched and recommend the most relevant video. This is the principle of
collaborative filtering. In our case, our users are likely to get a job and never
come back. Likewise, jobs are associated with one person, and then, we are
done with it. Therefore, we need to exploit extra information to make the
recommendation.
For our dataset, we can represent our pool of candidates and jobs with a
heterogeneous graph, connecting candidates and jobs, but also additional node
types like skills, cities, or employment types. Because we have this expressive
representation, we must adapt the existing algorithms. During the internship,
we will see how graph neural networks can be used to make recommendations,
and we will propose a new architecture to solve our specific problem.
The goal of this internship will be to publish a paper at an international
conference. The intern will work together with a Ph.D. student.
Profil du candidat :
The intern should be involved in a master’s program and have
a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries
used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.
Formation et compétences requises :
The intern should be involved in a master’s program and have
a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries
used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.
Adresse d’emploi :
Télécom Sudparis, Palaiseau
Document attaché : 202312181300_internship_job_recommandation-2.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIFO
Durée : 6 mois
Contact : anais.halftermeyer@univ-orleans.fr
Date limite de publication : 2024-02-29
Contexte :
Nous proposons, dans le cadre de ce sujet de stage financé, d’explorer l’intégration de connaissances dans un système par apprentissage profond, reposant sur un modèle de langue, à résoudre des tâches de raisonnement temporel. Nous proposons de travailler dans le cadre de l’extraction d’informations temporelles qui associe à un texte en langue naturelle une représentation synthétique des évènements qui y sont relatés. Une représentation classique de ce type de données est un graphe de relations temporelles entre les évènements relatés et/ou entre expressions temporelles [1].
Les récentes avancées du deep learning en matière de compétences langagières nous amène à nous interroger sur la maîtrise de l’humain sur les processus de résolution de tâche reposant sur la langue naturelle. Ces modèles ont des architectures de plus en plus complexes et sont de plus en plus gourmands en puissance de calcul et en données d’entraînement. Cependant ils restent insuffisants puisque les connaissances générales sur des relations temporelles ne sont pas exploitées pour mieux orienter les résultats, ainsi que pour expliquer ces résultats.
Un premier système [3] a proposé de construire un graphe temporel à partir de textes médicaux en s’appuyant de BERT, de la mise à profit de règles en logique probabiliste dans la phase d’apprentissage du modèle, ainsi qu’à la phase d’’inférence globale. Ce travail hybride a ouvert des pistes de recherche sur l’apport considérable que pouvait représenter la connaissance propre à la temporalité via le travail sur les règles. Afin de rendre plus performant les systèmes, [4] a proposé de tirer partie de l’analyse syntaxique des entrées avec succès. Dans la même lignée de [2], nous proposons de tirer partie de la représentation de la connaissance temporelle comme levier de performance et d’explicabilité du système dans sa totalité.
Sujet :
Nous nous intéressons à intégrer de la connaissance dans ces modèles afin de résoudre au mieux les tâches de raisonnement temporel, et ce via l’expression de contraintes afin de :
• tirer profit du meilleur des deux mondes que sont les contraintes et les modèles de langues acquis par deep learning
• proposer des modèles hybrides en partie explicables
• faire reposer nos systèmes sur une puissance de calcul maîtrisée combinée à une méthodologie reproductible d’injection de connaissances
Concrètement, étant donné un système d’apprentissage profond reposant sur un modèle de langue entraîné à traduire un texte en un graphe temporel représentant les évènements narrés dans le texte en entrée, l’injection de connaissances via l’expression de contraintes modifiera les sorties du système.
Nous cherchons à figer une méthodologie permettant d’injecter des connaissances de manière incrémentale afin de guider notre système tout en maîtrisant :
• la taille de notre modèle
• la taille de nos données d’entraînement
• la complexité de nos contraintes
Profil du candidat :
Idéalement, la personne recrutée terminera des études de niveau Master (Master 2) et disposera de connaissances théoriques et pratiques sur les techniques par apprentissage profond. Un intérêt pour la langue et son traitement automatique serait apprécié, sans être un pré-requis à recrutement.
Formation et compétences requises :
niveau Master (Master 2)
Adresse d’emploi :
LIFO Orléans campus de la Source
Document attaché : 202402081058_Sujet_Stage.pdf
Offre en lien avec l’Action/le Réseau : SimpleText/– — –
Laboratoire/Entreprise : DVRC
Durée : 4 mois
Contact : sonia.djebali@devinci.fr
Date limite de publication : 2024-02-29
Contexte :
Industrial context
The energy sector is in the midst of significant transformation, prompted by the need to increase the use of renewable energy sources and improve energy efficiency, becoming a Smart Grid. This cutting-edge technology allows for the analysis, management, and coordination of energy production, consumption, and distribution, all with the goal of promoting more sustainable practices. A challenge arises from the fact that the data is mixed, containing both numerical and categorical information, often in the form of a data stream. Analyzing this kind of data requires adapted methods. As a result, traditional methods that are designed for numerical data are not well-suited to this type of data.
Advanced tools for analyzing complex systems that can handle rich and heterogeneous data are crucial for Trusted Third Parties for Energy Measurement and Performance to provide independent energy performance analysis and recommendations for clients. It is important that these tools are also easily interpretable by energy experts to facilitate classification and recommendation.
Creating clusters of similar buildings is an effective way to handle complex energy data. Hierarchical clustering of mixed data is a crucial approach that allows energy experts to easily associate clusters with recommendations. It is an essential tool for not only the energy sector but also has diverse applications in fields such as biology, medicine, marketing, and economics.
Sujet :
Scientific context
Although mixed data is widespread, clustering tools specifically designed for it are limited. Some of the bottlenecks have already been defined in a previous scientific paper. Here is a non-exhaustive list of bottlenecks one can encounter when handling mixed data in a pipeline:
Data preprocessing: Data preprocessing is a critical step in mixed data clustering like handling missing data, encoding categorical data, and scaling numerical data.
Feature selection: Mixed data clustering requires feature selection to be performed before clustering. However, selecting relevant features can be a challenging and time-consuming task.
Metric selection: Choosing the right distance metric to measure the similarity between different data types.
Evaluation: There is a lack of standard evaluation criteria for mixed data clustering, which makes it hard to compare different methods.
Computational complexity: Mixed data clustering involves dealing with different types of data and distance metrics, which can result in high computational complexity.
Visualization: It is difficult to create visualizations that effectively communicate the relationships between different data types.
Interpretation: Understanding the relationships between different data types can be challenging, especially if the clusters are not well-separated or the data are altered before using any methods.
Profil du candidat :
Etudiant(e) de niveau M1 ou M2 en informatique (Master ou école d’ingénieurs).
Formation et compétences requises :
Connaissance en Machine Learning, Clustring, Python et expérience dans l’utilisation de bibliothèques de ML,
Forte appétence pour la recherche académique
Capacité à effectuer des recherches bibliographiques
Rigueur, synthèse, autonomie, capacité à travailler en équipe
Adresse d’emploi :
Pole Léonard de Vinci
92 916 Paris La Défense Cedex
Document attaché : 202312221037_2024_Stage_MixedData.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Sesstim, Aix Marseille Université
Durée : 6 Mois
Contact : raquel.urena@univ-amu.fr
Date limite de publication : 2024-02-29
Contexte :
Estimer l’âge d’un enfant est crucial pour comprendre son développement général. L’âge chronologique est la donnée la plus communément utilisée puisque les dates de naissance des patients sont connues dans la majorité des cas. Cependant, cet âge chronologique ne reflète pas entièrement la maturité physiologique d’un individu et n’est donc pas un facteur fiable [1]. Par conséquent, la croissance d’un enfant peut être estimée en évaluant un âge biologique.
L’estimation de l’âge biologique (EAB) s’applique dans divers domaines, notamment en odontologie pédiatrique et en orthodontie, où elle constitue un outil fondamental pour le diagnostic et la planification des traitements [2]. Cette estimation se pratique également couramment dans le domaine judiciaire, en contexte d’évaluation de responsabilité pénale, d’établissement d’un profil biologique ou d’identification de migrants mineurs isolés [3].
La précision de l’EAB chez les enfants revêt une importance cruciale en odontologie pédiatrique, avec des implications dans les domaines de la clinique, du médico-légal et de l’orthodontie. L’estimation de l’âge biologique (EAB) est une clé pour évaluer la croissance et le développement du patient, facilitant la planification des traitements et soutenant la vérification de l’âge dans des contextes médico-légaux.
Sujet :
L’objectif est de mettre en place un système de deep learning capable d’estimer à la fois un âge dentaire à partir de radiographies panoramiques dentaires et un âge osseux à partir de téléradiographies de profil. Le stagiaire travaillera sur l’implémentation et l’évaluation de méthodes de Machine Learning et Deep Learning en utilisant des données réelles (radiographies dentaires et téléradiographies de profil). Les missions incluent le nettoyage et l’analyse des données, la recherche de méthodes d’IA applicables, l’implémentation, l’entraînement des modèles et la documentation des développements réalisés.
Profil du candidat :
Bonne connaissance en deep learning et traitement d’images. Maîtrise de l’environnement Python, Pytorch, Keras et Tensorflow. Capacité d’analyse et de synthèse, autonomie, esprit d’initiative, connaissances du secteur de la santé appréciées, aptitude à travailler en mode projet avec une communication efficace (Français et/ou Anglais).
Formation et compétences requises :
M2 en Informatique, Statistique ou Mathématiques
Adresse d’emploi :
Faculté des sciences médicales et paramédicales – 27 Bd Jean Moulin 13385 Marseille Cedex 5 FRANCE
Document attaché : 202401110930_Proposition-Stage-Dentaire.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIRIS, Lyon
Durée : 5-6
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2024-02-29
Contexte :
–
Sujet :
–
Profil du candidat :
–
Formation et compétences requises :
–
Adresse d’emploi :
–
Document attaché : 202401111242_Sujet_PFE_Atmo_Liris_Validation_micro-capteurs__1_.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire ETIS UMR 8051
Durée : 6 mois
Contact : maria.malek@cyu.fr
Date limite de publication : 2024-03-01
Contexte :
Nous avons exploré dans des travaux récents portant sur l’analyse des médias sociaux, la combinaison des méthodes classiques d’exploration d’opinion avec celles de l’analyse des réseaux sociaux ainsi que leur impact sur la formation et la propagation d’opinion. Afin d’étudier l’impact des utilisateurs influents (nœuds influents), plusieurs facteurs d’influence extraits du réseau (graphe) ont été intégré dans le processus d’exploration d’opinions. Ces facteurs sont généralement calculés en utilisant différentes mesures de centralité comme le degré, la proximité, l’intermédiarité, la centralité PageRank, etc.
En intégrant une méthode d’explicabilité adéquate, nous souhaitons rendre plus compréhensible également les résultats concernant la polarité de l’opinion trouvée au niveau des utilisateurs et au niveau des groupes (communautés). De même, le modèle doit être capable d’expliquer les changements d’opinion détectés en prenant en compte les informations extraites du réseau de propagation et les séquences d’actions entreprises (par exemple : tweets, retweets, réponses) menant à ce changement.
Un modèle transparent basé sur l’apprentissage automatique pour la détection de la modification d’opinions au sein des réseaux égocentriques autour des influenceurs, a été proposé. Ainsi, des caractéristiques (attributs) de différentes natures (textuelle, contextuelle et topologique) qui expliquent la modification de l’opinion, ont pu être identifiées. Nous souhaitons généraliser cette approche afin de pouvoir proposer un cadre général de l’explicabilité pour l’analyse des opinions dans les médias sociaux.
Sujet :
Le but de stage est de proposer et d’intégrer une (ou plusieurs) méthode(s) d’explicabilité dans les algorithmes d’analyse d’opinions afin de produire des explications émergeantes qui combinent des informations nodales (comme le profil d’utilisateur et les données textuelles) et topologiques extraites de la structure du graphe de propagation des opinions.
L’objectif est d’étudier et de compare deux principales approches de l’explicabilité dans les réseaux complexes à travers l’exemple de l’étude de l’analyse d’opinions : la première consiste à l’utilisation des méthodes XAI lors de l’application des méthodes d’apprentissage automatique pour l’analyse des réseaux, comme par exemple, les méthodes de network embedding ainsi que les réseaux de neurones en graphes (Graph Neural networks), la deuxième approche consiste à définir des méthodes d’explicabilité propres au domaine de l’analyse des réseaux. Ces méthodes seront par nature spécifiques et en lien étroit avec les algorithmes d’analyse du graphe du terrain social utilisés lors de l’analyse d’opinions.
Profil du candidat :
Dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine en lien avec l’informatique ou les mathématiques appliquées.
Formation et compétences requises :
Connaissances en apprentissage automatique et compétences en Python. Une compétence en analyse des réseaux complexes sera appréciée.
Adresse d’emploi :
ETIS UMR8051, CY Université, ENSEA, CNRS
Site Saint Martin 1
2, avenue Adolphe Chauvin
95302 CERGY PONTOISE
Document attaché : 202401171405_Proposition_M2_ETIS_Explicabilité_AnalyseOpinions.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRISA
Durée : 5 mois
Contact : laetitia.chapel@irisa.fr
Date limite de publication : 2024-03-01
Contexte :
AI methodologies typically depend on extensive datasets that may be tainted by noise, missing values, or can be collected in heterogeneous yet related environments. Data with missing values are ubiquitous in many applications; they can be due to equipment failure, incomplete information collection (e.g. clouds in the remote sensing case) or inadequate data entry for instance. Nevertheless, conventional
learning algorithms often assume that the data are complete and independent and identically distributed, that is to say they have been drawn randomly from a single distribution.
Data imputation aim at substituting missing data by plausible values, e.g. by filling them by the value of the nearest sample or by imputing with some relevant statistics. The imputation can have a high
impact on performances of the learning task at hand, leading to biased results or degraded performances. Most of the imputation methods rely on some (completely) missing at random assumption and with no pattern between the missingness of the data and any values. More challenging scenario deal with random block missing or blackout missing, in which blocks of information are missing and where the
structure of block-wise missing data should be further taken into consideration.
In practice, the data are often collected on different yet related domains, offering the potential to enhance the generalization capability of the learning algorithm. For instance, in Earth observation, and especially for land cover mapping applications, the differences in weather, soil conditions or farmer practices between study sites are known to induce temporal shifts that can be corrected to enhance task performance. For predicting crop yield, the variability under changing climates and severe weather events have to be taken into account when considering data from the past to predict the evolution of the yield.
Domain adaptation [6, 7] aims to transfer knowledge from one domain to another and has demonstrated significant enhancements in classification or clustering tasks when domain shifts are carefully managed.
Sujet :
The aim of the internship is to study the potential of data imputation method within the context of domain adaptation. Existing approaches mostly tackle missing values within an inferential framework, wherein they are replaced with values derived from dataset statistics, relying on robust parametric assumptions. However, when a shift exists between the datasets, this strategy becomes inadequate. Instead, we propose to address imputation and learning tasks concurrently, introducing the additional complexity that the data may originate from different domains.
The research directions will explore optimal transport-based solutions, known for their success in
imputing missing values and aligning distributions in a domain adaptation context, especially
when dealing with temporal data.
Profil du candidat :
Master student
== peut éventuellement être poursuivi par une thèse ==
Formation et compétences requises :
Applicants are expected to be graduated in mathematics/statistics and in computer science and/or machine learning and/or signal & image processing, and show an excellent academic profile.
Beyond, good programming skills are mandatory.
Adresse d’emploi :
Laboratoire IRISA, Rennes
Document attaché : 202401180900_Missing_data_and_DA___internship-2.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : ISID and Vertigo teams at Centre d’études et de re
Durée : 6 mois
Contact : nada.mimouni@cnam.fr
Date limite de publication : 2024-03-01
Contexte :
In the field of cultural heritage, and painting in particular, the management of large collections has become increasingly complex over the years. Heritage data, including aspects such as names, creators, representations and images, have posed significant challenges for curators and researchers alike.
Semantic knowledge graphs have emerged as a promising approach to representing cultural heritage datasets. They provide a structured framework for integrating heterogeneous data sources, enabling comprehensive exploration and reasoning about cultural artworks and
their relationships. However, existing knowledge graphs are far from complete in this domain, and creating and populating semantic models for heritage data is a resourceintensive undertaking, requiring substantial human expertise. Knowledge graph completion (KGC) approaches have been proposed to enhance knowledge graphs by completing their missing connections. In this work, we aim to extend knowledge-graph completion techniques to this specific data domain, by leveraging both pre-trained language models and Graph Neural Networks (GNNs) to facilitate the efficient creation and extension of
knowledge graphs.
Sujet :
The work will be organized as follows:
– Related work: analysis of existing approaches on the use of pre-trained language models and GNNs to improve knowledge graph completion (KGC).
– Data: collection and creation of benchmarks to evaluate the models.
– Methodology: definition of a methodology for data preparation and knowledge graph enrichment.
– Interpretation and evaluation: carry out a quantitative assessment of the proposed methods for KGC, based on the created benchmarks, in order to establish their effectiveness in this context. An effort towards explaining these results should be made.
Profil du candidat :
A master degree in one or more of the following areas: machine learning, natural language processing, symbolic AI, semantic web.
Formation et compétences requises :
As a minimum requirement, the successful candidate should have:
• A master degree in one or more of the following areas: machine learning, natural language processing, symbolic AI, semantic web.
• Excellent programming skills (Java or Python)
• Excellent command of English
• Experience with machine learning and graphs
Adresse d’emploi :
Conservatoire National des Arts et Métiers Paris, 2 rue Conté, 75003
Document attaché : 202402231005_Internship_KGC_CNAM-list.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRISA / LITIS
Durée : 5 mois
Contact : laetitia.chapel@irisa.fr
Date limite de publication : 2024-03-01
Contexte :
For a decision-making system trained on data to be reliable, it must possess the ability to adjust its decisions based on di erences between the distribution ptrain(Xtrain; Ytrain) of training samples and that of test samples ptest(Xtest; Ytest). In case of distribution shift, deep-based-approaches may be overcon dent and tend to treat the given inputs as one of the previously seen situations leading to mislabelling. This underscores the challenges in detecting out-of-distribution (OOD) samples, where the test point x0 is marginally sampled from ptest(x0) = ptrain(x0), or recognizing that point x0 belongs to an unseen class (involving a new type of object in the scenes for instance). Additionally, given the multimodal nature of inputs and variations in sensor availability, samples may not be embedded into the
same space, posing further challenges related to incomparable spaces. Our approach envisions employing optimal transport theory to develop algorithms addressing out-of-distribution detection, aiming for a
robust optimal transport framework. Optimal transport (OT) has become a potent tool for computing distances (a.k.a. Wasserstein or
earth mover’s distances) between data distributions, facilitated by new computational schemes that make transport computations tractable.
Sujet :
The primary goal of the internship is to investigate the behavior of optimal transport (OT) in scenarios where distributions are tainted by outliers or out-of-distribution (OOD) samples and to formulate a robust OT framework. Existing studies have utilized OT in such contexts, employing a straightforward rule that identifies points significantly distant from the other distribution as outliers. While approaches
like the regularization path or OT profiles have been effective in selecting optimal regularization parameters, particularly using techniques like the elbow rule, they may fall short when dealing with points
that are OOD but situated “between” the two distributions.
Conversely, Monge-Kantorovich (MK) quantiles and ranks present an alternative. This method replaces the traditional “left-to-right” ordering of samples with a “center-outward” approach applicable in Rd.
The internship’s specific objectives include: i) examining how the placement of outliers influences the OT solution, ii) developing a robust OT formulation with statistical guarantees, leveraging MK quantiles,
and iii) implementing the solution in the POT toolbox.
Furthermore, the internship will explore the integration of partial-OT-based loss in deep learning approaches as a means to evaluate the proposed methods. Ensuring scalability will be a crucial aspect
of the method’s development. Additionally, investigations into adapting the approach for incomparable spaces will be undertaken.
Profil du candidat :
Master student
Formation et compétences requises :
Applicants are expected to be graduated in applied mathematics/statistics and/or
machine learning and show an excellent academic profile. Beyond, good programming skills are expected.
Adresse d’emploi :
Depending on the candidate:
– LITIS in Rouen
– IRISA in Rennes
Document attaché : 202401180908_OT for OOD – madics.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : LIRIS et ERIC
Durée : 4-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2024-03-01
Contexte :
Projet international LETITIA (Lac de donnéEs, expérimenTation, vIe, Terre, curatIon, explorAtion)
Sujet :
The project focuses on designing and creating a data lake for gathering and integrating (meta)data on data-driven experiments in life and earth sciences.
The integration and fusion of data and metadata in the fields of life and earth sciences calls for
the proposal of data and knowledge representations to structure the diverse information
collected and produced for/within an experimental framework. Data lakes appear to be a
relevant solution for managing and making available this diversity of data. Metadata models
need to be devised to connect the data, and appropriate organisation and exploration
mechanisms need to be devised that are relevant in the context of life and earth sciences.
The extraction of value through data-driven experiments in the life and earth sciences is
determined by two main elements. (1) First, the maintenance of metadata collecting the
conditions under which experiments are performed (quantitative perspective) to preserve the
memory of the experimental process of knowledge production and to enable understanding
and reproducibility. (2) Secondly, an open science perspective that can go beyond the sharing
of data and must consider the sharing of know-how, decision-making, elements of expertise,
project management and the people within projects who define the context in which
experiments are carried out (qualitative perspective).
Profil du candidat :
MSc in Computer/Data Science
Formation et compétences requises :
databases (data models, querying, distributed databases –
preferable), data processing techniques (preferable), good programming skills
Adresse d’emploi :
Genoveva Vargas-Solar, CNRS, LIRIS
genoveva.vargas-solar@cnrs.fr
Jérôme Darmont, U. Lumière Lyon 2, ERIC
jerome.darmont@univ-lyon2.fr
Document attaché : 202402221539_letitia-internship-position.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Equipe BdTln du LIFAT
Durée : 4 à 6 mois
Contact : youssef.oubelmouh@etu.univ-tours.fr
Date limite de publication : 2024-03-04
Contexte :
L’attrition des employés est un problème croissant dans les entreprises technologiques à l’échelle mondiale, et plus particulièrement au sein des entreprises informatiques/cabinets de conseil. La compréhension des tendances liées à l’attrition des employés est cruciale pour le développement de stratégies efficaces de gestion des ressources humaines. Cependant, les travaux récents dans le domaine de l’analyse de données ne prennent pas en compte la notion du temps et des durées dans l’étude de l’attrition des employés [1]. Pour mieux saisir l’aspect temporel de l’attrition, une méthode a été développée pour combiner les techniques d’exploration de motifs séquentiels dans les séquences d’événements avec l’analyse de survie [2]. Cette approche permet d’extraire les motifs qui modifient la courbe de survie par rapport à un contexte donné. Par exemple, le motif a une survie très différente de , indiquant ainsi que
Sujet :
L’objectif de ce stage est donc de développer des dashboards interactifs permettant une visualisation approfondie des motifs impactant la survie, facilitant ainsi la prise de décision en matière de rétention des employés pour les professionnels des ressources humaines.
Profil du candidat :
Cursus en informatique et science des données avec un goût pour la visualisation.
Formation et compétences requises :
Compétences requises : Bonnes connaissances en JavaScript, CSS, HTML. Connaissances en traitement de données, expérience souhaité avec des outils de visualisation de données, compétences en programmation (Python) appréciées.
Connaissance souhaitées : React, Chart.JS et/ou D3.JS
Adresse d’emploi :
3 place Jean Jaurès, 41000 blois
Document attaché : 202402011025_stage_Master2_dashboards_retention_employés.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIFAT EA 6300, Université de Tours
Durée : 4 to 6 months
Contact : nicolas.ragot@univ-tours.fr
Date limite de publication : 2024-03-04
Contexte :
This internship takes place in the JUNON Project (directed by the BRGM) which goal is to elaborate digital services through large scale digital twins in order to improve the monitoring, understanding and prediction of environmental resources evolution and phenomena, for a better management of natural resources.
Sujet :
The goal of this internship will be to analize data and to build prediction models about pollutants and greenhouse gases using meteorological data as well as measurements of pollutants observed in the past (other factors could also be included).
see: http://www.rfai.lifat.univ-tours.fr/internship-position-master-2-in-artificial-intelligence-machine-learning-data-analysis-for-time-series/
Profil du candidat :
Academic level equivalent to a Master 2 in progress or Engineer in its 5th year, in computer science
Formation et compétences requises :
– a good experience in data analysis and machine learning (in python) is required
– some knowledge and experiences in deep learning and associated tools will be highly considered
– some knowledge in time series analysis and forecasting will be highly considered
– curiosity and ability to communicate and share your progress and to make written reports
– ability to propose solutions
– autonomy and good organization skills
Adresse d’emploi :
LIFAT, 64 Avenue Jean Portalis, 37200 TOURS
Document attaché : 202402011448_Fiche de poste stage Junon.pdf
Offre en lien avec l’Action/le Réseau : DSChem/– — –
Laboratoire/Entreprise : Laboratoire de Génie Chimique
Durée : 6
Contact : rachid.ouaret@toulouse-inp.fr
Date limite de publication : 2024-03-04
Contexte :
La distribution des fluides est un enjeu majeur des réacteurs gaz-liquide, notamment pour les
réacteurs de structures fines et de type monolithe. En effet, dans ces réacteurs, composés de
canaux millimétriques parallèles, aucune redistribution au cœur du réacteur ne peut
contrebalancer les défauts d’injection pouvant impacter la conversion et la sélectivité des
réactions en présence. Pour faire face à ce problème, des distributeurs innovants, obtenus par
impression 3D, ont été brevetés au Laboratoire de Génie Chimique, mais leur validation
nécessite de pouvoir caractériser les écoulements dans un grand nombre de canaux
simultanément. Un capteur résistif innovant a été mis au point au LGC pour caractériser en
temps réel, sans visualisation, des écoulements gaz-liquide dans un grand nombre de canaux
millimétriques parallèles. Un traitement de signal spécifique a été développé, mais il nécessite de
connaître a priori le régime d’écoulement dans chaque canal interrogé, ce qui s’avère complexe
avec les méthodes de traitement du signal classique. Par ailleurs, les signaux de tension délivrés
par le capteur regorgent d’informations non encore exploitées, comme l’amplitude du signal ou
des variations périodiques secondaires du signal, qui, mises en perspective, peuvent permettre
d’identifier le régime d’écoulement. La caractérisation des régimes d’écoulement peut être
abordée par les modèles d’apprentissage automatique (machine learning) en mettant en œuvre les
méthodes de classification. Ces modèles, de plus en plus utilisés dans la littérature de spécialité, visent à identifier qualitativement les régimes d’écoulement et/ou quantitativement les débits ou
les taux de vide, à partir de données caractéristiques de l’écoulement [1] ou de données indirectes
issues des capteurs [2], et ce dans différents types de réacteurs gaz-liquide (voir la revue de Yann
et al. 2018 [3]). Face à ces possibilités, ce stage s’inscrit dans le cadre de l’utilisation des outils
de l’intelligence artificielle pour la caractérisation des écoulements confinés à bulles
Sujet :
Ce stage vise à développer des modèles utilisant l’intelligence artificielle pour compléter et
améliorer le traitement des informations issues d’un capteur résistif développé au LGC, afin
d’étendre sa gamme d’application et d’ainsi caractériser au mieux les écoulements et la
maldistribution dans des réacteurs structurés. Le stage s’inscrit dans le volet de modélisation par
les modèles d’apprentissage automatique et visera à identifier les critères d’entrée
(caractéristiques du signal à exploiter) et à évaluer les performances de différents modèles sur les
données recueillies. Ce stage vise à :
● identifier les paramètres d’entrée pertinents (caractéristiques du signal à extraire, ou
signal temporel complet) pour alimenter les modèle de l’apprentissage statistique. Ceci
nécessite de :
○ collaborer avec un autre stage relatif au volet collecte des données ;
○ tester les outils statistiques classiques permettant de hiérarchiser les variables
d’entrée selon leur importance.
● mettre en œuvre les modèle d’apprentissage pour la classification des régimes
d’écoulement.
● Prédire les régimes d’écoulement, le taux de vide et/ou la vitesse de bulles
ÉTAPES DU TRAVAIL ATTENDU
1. Synthèse bibliographique des publications abordant l’identification et la caractérisation
des régimes d’écoulement,
2. Élaboration d’une stratégie d’analyse innovante des données issues des capteurs pour
les ’écoulements gaz-liquide
3. Mise en œuvre des modèles de données (apprentissage statistique, …)
4. Rédaction d’un rapport récapitulatif
Profil du candidat :
Niveau master 1 ou 2 (2ᵉ année ou 3ᵉ année en cycle d’ingénieur)
● Connaissances approfondies en apprentissage automatique (Réseaux de Neurones, …)
avec une bonne maîtrise de la programmation (i.e. Python, R et/ou Matlab),
● Bases en science physique sont très appréciées.
● Maîtrise de l’anglais, motivation, persévérance, curiosité.
Formation et compétences requises :
Statistique appliquée,
Informatique
Traitement du signal
Adresse d’emploi :
Le stage se déroulera au Laboratoire de Génie Chimique (LGC) situé à TOULOUSE (31)
(https://lgc.cnrs.fr), pendant 6 mois, et sur un rythme hebdomadaire de 35h/semaine. La
gratification est de 4,35€ par heure de présence active. Le travail de stage sera directement
encadré par le LGC de Toulouse, et fera l’objet de réunions d’avancement hebdomadaires.
Document attaché : 202402011131_Offre_stage_projet_ETI_2024_vf.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire d’Informatique de Bourgogne (LIB)
Durée : 5-6 mois
Contact : eric.leclercq@u-bourgogne.fr
Date limite de publication : 2024-03-06
Contexte :
Dans les réseaux sociaux, la manipulation de l’information est une problématique pouvant avoir des conséquences néfastes importantes. Les stratégies de diffusion d’informations manipulées sont complexes, et peuvent avoir recours à la mise en oeuvre d’armées de robots ayant différents rôles dans le réseau. Par exemple, un groupe de robots peut avoir pour tâche de spammer certains messages ou mots clés afin de manipuler les tendances et de gagner une visibilité importante en peu de temps, d’autres robots peuvent avoir un profil évolué ainsi qu’une activité quotidienne, leur permettant de passer pour des utilisateurs légitimes et de donner plus de poids aux messages qu’ils pourraient diffuser dans certaines communautés. Toutefois, la détection de ces armées de robots est complexe, et l’évolution rapide de leur comportement et de leur organisation restreint les types d’algorithmes utilisables.
Le projet ANR Beelzebot est un projet interdisciplinaire regroupant des chercheur en informatique, en sciences de la communication et du langage. Il a pour objectif de définir des mécanismes pour détecter les armées de robots sur Twitter en se basant sur des méthodes non-supervisées, ainsi qu’à caractériser les activités de ces armées.
Sujet :
L’objectif du stage, dans le cadre du projet ANR Beelzebot, est de réaliser un textit{benchmark} des techniques de détection de robots existantes, afin d’en révéler les limites et de voir leur capacité à prendre en compte à différents jeux de données.
En plus des jeux de données publics, plusieurs jeux de données collectés sur Twitter sont à disposition, comme par exemple les discussions autour des élections présidentielles françaises de 2022 ou le COVID, contenant de plusieurs millions à plusieurs milliards de tweets. L’environnement matériel des serveurs de stockage et de traitement est opérationnel au Data Center Régional de l’UBFC.
Plus précisément, le stage consiste à réaliser un état de l’art pour identifier les méthodes de détection de robots exploitables (par exemple lorsque le code est déjà disponible), puis à établir un protocole expérimental permettant de comparer ces méthodes entre elles et enfin à réaliser les expériences correspondantes et mesurer les critères définis dans le protocole. Une attention particulière sera portée sur la reproductibilité de l’implémentation du protocole qui devra permettre de prendre en compte rapidement de nouvelles méthodes de détection ou de nouveaux jeux de données.
Ce travail constitue un travail préparatoire, qui pourra être poursuivi au cours d’une thèse financée par la projet ANR.
Profil du candidat :
étudiant en Master 2 avec spécialité informatique
Formation et compétences requises :
Formation Scientifique avec une solide base en informatique
Curiosité et rigueur scientifique
Compétences en gestion de données et programmation
Adresse d’emploi :
Université de Bourgogne
Laboratoire d’Informatique de Bourgogne
UFR Sciences et Techniques
9, Avenue Alain Savary
21078 Dijon
Document attaché : 202401300744_SujetStageBeelzebot.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : UHA – IRIMAS
Durée : 6 mois
Contact : laurent.moalic@uha.fr
Date limite de publication : 2024-03-06
Contexte :
Le développement de la mobilité électrique est plus que jamais au cœur des orientations stratégiques à travers le monde. Cette rupture avec les mobilités thermiques, pour être efficace et avoir un impact significatif sur l’environnement notamment, doit s’accompagner de la mise en place d’infrastructures de recharge à grande échelle. Il est donc primordial que l’implantation des bornes de recharge soit pertinente, en termes de positionnement des infrastructures et de dimensionnement.
Sujet :
L’objet de ce stage est de fournir une première étape vers un déploiement de bornes de recharge optimal.
Trois thèmes feront l’objet de ce stage :
• Il s’agira dans un premier temps d’identifier l’ensemble des données géographiques et socio-économiques susceptibles d’impacter le fonctionnement d’un réseau de bornes de recharge.
• Dans un deuxième temps, ce stage fera ressortir les corrélations existant entre les données caractérisant le territoire et le fonctionnement réel d’un réseau de recharge.
• Finalement, la mise en œuvre d’un algorithme d’apprentissage automatique visera à prédire le fonctionnement d’une borne de recharge d’après son implantation.
Profil du candidat :
• Le candidat doit être en master M2 ou cycle ingénieur en informatique ou en mathématiques appliquées.
• Des compétences en Systèmes d’Information Géographique (SIG) ou dans le domaine de la mobilité serait un plus.
Formation et compétences requises :
M2 ou cycle Ingénieur
Adresse d’emploi :
Mulhouse
Document attaché : 202401311007_SujetStageMaster1.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Centre d’épidémiologie et de santé publique des a
Durée : 4-6 mois
Contact : muriel.visani@univ-lr.fr
Date limite de publication : 2024-03-31
Contexte :
Voir le fichier ci-joint
Sujet :
Voir le fichier ci-joint
Profil du candidat :
Voir le fichier ci-joint
Formation et compétences requises :
Voir le fichier ci-joint
Adresse d’emploi :
Centre d’épidémiologie et de santé publique des armées (CESPA), Marseille.
Document attaché : 202312131521_InternshipBloodSmear-CESPA-final_compressed.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Cirad, Montpellier
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2024-03-31
Contexte :
Ce stage s’inscrit dans le contexte du projet IRC Agropolis “Upland rice”. Pour les plantes cultivées en conditions d’immersion (riz), le fonctionnement des parties inondées requiert la présence d’aérenchymes pour la circulation des gaz. Cependant la présence d’aérenchymes réduit les capacités de transport de l’eau. Le motif anatomique final de la racine résulte d’un compromis qui varie avec les variétés et les environnements de culture. Afin de mieux comprendre les déterminants de ce compromis, plusieurs campagnes d’observation ont été menées sur des panels de plantes. Des milliers de coupes de racines ont été observées en microscopie à épi-fluorescence (exemple : image en en-tête).
Sur ces coupes, les aérenchymes se distinguent des cellules par une géométrie atypique, avec des parois irrégulières, et un allongement prononcé dans le sens radial. Des premières analyses de ces structures ont été menées à l’aide d’un outil d’analyse semi-automatique, qui réalise la segmentation des cellules et laisse l’identification des structures complexes à la charge des experts biologistes. Le temps de traitement est très long, ce qui empêche de mener à bien l’étude des données disponibles (plusieurs milliers images) et de construire des conclusions d’intérêt agronomique.
Sujet :
L’objectif du stage est de développer un pipeline d’analyse d’images automatique pour la segmentation des aérenchymes et l’estimation de traits complexes : ratio aérenchymes/cortex, ratio stele/cortex, identification des assises cellulaires et des rayons. Dans ce but, le stagiaire aura la responsabilité de réaliser des expérimentations avec des outils de l’état de l’art (modèles dédiés plante et modèles “fondation”), et de concevoir une solution technique open-source qui sera mise à disposition via un démonstrateur.
Profil du candidat :
Master 2 ou école d’ingénieur. Ce stage est une opportunité accessible à des étudiants(e)s provenant d’une école en informatique, en modélisation mathématique, en analyse d’images, formés en deep learning. Le goût pour le travail en équipe à l’interface entre plusieurs disciplines (maths-info, microscopie, agro) sera nécessaire. Un intérêt scientifique pour l’intelligence artificielle appliquée à l’analyse d’images serait un plus.
Formation et compétences requises :
Le langage de programmation utilisé sera Python, en utilisant des outils de développement communautaire et de maintien logiciel (Github, Intégration Continue). Une connaissance préalable du fonctionnement des réseaux de neurones profonds (en particulier des réseaux convolutifs) est souhaitée, ainsi qu’une expérience avec une bibliothèque de Deep Learning (PyTorch, Keras, TensorFlow, …) et de Machine learning (Scikit-learn).
Adresse d’emploi :
Le stage aura lieu au Cirad de Montpellier, 389 Av. Agropolis, 34980 Montferrier-sur-Lez. La rémunération selon barème légal des stages sera de 600€ mensuel, avec accès à la restauration collective le midi.
Document attaché : 202312022235_Offre de stage M2 – Deep aerenchymes.pdf
