
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIP6 (Sorbonne Université / CNRS)
Durée : 6 months
Contact : lionel.tabourier@lip6.fr
Date limite de publication : 2023-05-30
Contexte :
PPI (protein-protein interaction) networks represent interactions between proteins within a living organism. PPI network maps are incomplete because checking the existence of each relationship demands specific experiments, it is therefore desirable to have means to select the most probable interactions. Recent works brought to light the fact that link prediction approaches are relevant to detect interactions between proteins.
Sujet :
The approaches in question are unsupervised, however there exist supervised methods which have been designed for analogous problems in other contexts. We think that it is possible to adapt such methods to the context of PPI networks. By defining adequate graph features – particularly specific graph motifs – in order to achieve the learning, it would be possible to improve significantly the predictive power of these methods. The purpose of the internship is to design and apply such prediction methods.
The developed methods will be trained and validated using several networks comprised of 5 000 – 18 000 proteins (nodes) establishing between 20 000 and more than 2 million experimentally validated interactions (edges) coming from reference PPI resources, namely the STRING database, the BioGRID, and the Human Reference Interactome.
Profil du candidat :
This internship is preferably directed at Master 2 students with a background in computer science or bioinformatics.
Formation et compétences requises :
Good coding skills are requested for the internship, knowledge of a widely-used language in learning, such as python, is preferable but not mandatory. An open-mind to interdisciplinary applications is certainly a plus.
Adresse d’emploi :
LIP6, 4 Place Jussieu, 75005 Paris
Document attaché : 202302081543_Stage_Link_Pred.pdf
Offre en lien avec l’Action/le Réseau : – — –/Innovation
Laboratoire/Entreprise : The candidate will be either located at CRAN, Nanc
Durée : up to 6 months
Contact : zniyed@univ-tln.fr
Date limite de publication : 2023-05-30
Contexte :
Many imaging applications rely on the acquisition, processing and analysis of 3D or 4D vectorial data pixels: this includes notably color imaging (red, blue and green channels) or polarimetric imaging (4D Stokes parameters at each pixel). Such multichannel data is often represented using quaternions – a generalization of complex numbers in four dimensions – in order to simplify expressions and leverage unique geometric and physical insights offered by this algebraic representation. Therefore, datasets of color or polarimetric images can be viewed as a collection of quaternion-valued matrices, which form multidimensional quaternion arrays – also called quaternion tensors.
Sujet :
The aim of this internship is to demonstrate the potential of quaternion tensor decompositions for learning features from databases of color and polarimetric images. Quaternion tensor decompositions have only been introduced recently [1]. They generalize usual tensor decompositions
[2] to the quaternion field. The candidate will take advantage of the algorithms proposed in [1]. He / she will focus on two main cases of uses of quaternion tensor decompositions (Canonical Polyadic and Tucker) to
1. learn features from a standard color image database (such as ImageNET)
2. perform source separation on polarimetric hyperspectral data
One key complementary objective will be to benchmark performances of quaternion tensor decompositions
against standard real-domain tensor decompositions.
Profil du candidat :
The candidate should have good writing and oral communication skills.
Formation et compétences requises :
He/she should be enrolled in a M1/M2R or engineer diploma in one or more of the following fields: signal and image processing, machine learning, applied mathematics.
Adresse d’emploi :
Depending on his/her preferences, the candidate will be either located at CRAN, Nancy or either at LIS, Seatech, Toulon.
Document attaché : 202302081818_projet.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRIMAS
Durée : 6 mois
Contact : thomas.josso-laurain@uha.fr
Date limite de publication : 2023-06-01
Contexte :
Le stage proposé s’inscrit dans le contexte actuel des véhicules autonomes. De nos jours, la perception de l’environnement autour du véhicule représente encore un verrou scientifique. Cette information est primordiale pour la planification de la trajectoire à suivre, et une erreur peut très vite coûter des vies. La perception de l’environnement peut se décomposer en deux tâches hiérarchiques : la détection des zones d’intérêt et l’analyse de la scène perçue. Ce stage se focalise sur l’analyse et l’interprétation de la scène. Une fois les zones d’intérêt détectées, il s’agira de définir le contour des potentiels obstacles (bounding boxes) ainsi que de définir la nature de ces obstacles (notamment leur caractère mobile ou non) et les caractériser (taille, vitesse…).
Avec l’augmentation du nombre de capteurs de différente nature (caméra RGB, caméra plénoptique, lidar 2D, lidar 3D, radar, etc.), il convient d’opérer une fusion de ces informations hétérogènes afin de tirer profit de ce que chaque source a à offrir. Cette fusion peut être réalisée par des approches basées sur des modèles exprimés selon différents formalismes : la fusion probabiliste [1] ou la fusion évidentielle [2].
Avec l’émergence des puissances de calcul et de l’intelligence artificielle, de nombreuses approches basées données ont été développées pour performer les tâches de perception [3], souvent d’après les informations issues d’une unique caméra RGB. D’un côté, certains travaux intègrent désormais le formalisme évidentiel à des réseaux mono-capteur [4] voire multi-capteurs. D’autres fusionnent les données au sein de réseaux de neurones selon différentes architectures [5].
L’objectif de ce stage est de développer des systèmes de perception basés sur les réseaux de neurones intégrant une couche de fusion de données évidentielle. Le cadre applicatif sera le véhicule autonome du laboratoire IRIMAS avec ses capteurs intégrés.
Sujet :
Le/la stagiaire aura pour objectifs de faire un état de l’art sur la fusion de données, et particulièrement l’approche évidentielle, appliquée à la perception des véhicules autonomes. En parallèle, les Réseaux de Neurones Convolutifs (CNN) utilisés dans ce même cadre applicatif de la classification d’obstacles, seront étudiés.
En s’inspirant du travail de [4], il s’agira de mettre en place une structure neuronale permettant la fusion de plusieurs capteurs avec l’introduction de la théorie évidentielle. Dans un premier temps, le réseau de neurones sera choisi en accord avec l’application. Puis la méthode de fusion (pré-fusion, post-fusion ou cross-fusion) sera discutée. Enfin, des couches du réseau seront spécialement conçues pour intégrer l’approche évidentielle. Le modèle sera entraîné sur des datasets publics ou internes au laboratoire. Les résultats de classification de ce réseau de neurones évidentiel multi-capteurs seront analysés. L’ensemble des travaux de recherche réalisé par le/la stagiaire donnera lieu à des publications scientifiques pour des conférences internationales et/ou des journaux à facteur d’impact.
Profil du candidat :
Etudiant-e en dernière année d’Ecole d’ingénieur ou en Master 2, de formation Automatique, Systèmes Embarqués, Electronique, Informatique.
Formation et compétences requises :
Des bonnes compétences en programmation sont attendues. Une expérience de système réel, ou la connaissance de la théorie évidentielle, seront des plus.
Adresse d’emploi :
L’intégralité du stage se déroulera à IRIMAS, au sein du Département ASI (Automatique Signal Image) et plus précisément dans l’équipe MIAM (Modélisation Identification Automatique et Mécanique) de l’Université de Haute Alsace, à Mulhouse (France). Ce stage est financé par l’ANR JCJC EviDeep.
Pour toute demande d’information supplémentaire ou pour candidater, merci d’envoyer CV, résultats de Master/ingénieur et lettre de motivation avant le 01/01/2023. Pour des raisons sanitaires, nous n’accepterons que des candidatures issues d’étudiant(e)s actuellement en études supérieurs sur le sol français.
Document attaché : 202211171434_Master_internship_AV_2022.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LaMcube et CRIStAL
Durée : 6 mois
Contact : philippe.preux@univ-lille.fr
Date limite de publication : 2023-08-31
Contexte :
Dans le cadre d’une collaboration entre l’UMR CRIStAL et l’UMR LaMcube à l’Uiversité de Lille, nous recherchons un stagiaire de M2 ou 3è année ingénieur pour réaliser un stage sur l’utilisation de l’apprentissage par renforcement au test mécanique de matériaux.
Sujet :
voir document attaché.
Profil du candidat :
M2 (ou ingénieur) informatique ou M2 (ou ingénieur) mécanique avec de fortes compétences en informatique.
Formation et compétences requises :
M2/ingénieur informatique
M2/ingénieur en mécanique
Adresse d’emploi :
Bâtiment Esprit
Cité Scientifique
Villeneuve d’Ascq
Document attaché : 202303211425_RL_intern_CRIStAL_LAMCUBE.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : SAMOVAR – Télécom SudParis
Durée : 6 mois
Contact : romerojulien34@gmail.com
Date limite de publication : 2023-09-02
Contexte :
Given a text, it is possible to extract from it knowledge in the form of subject-predicate-object triples, where all components of the triples can be found in the text. This is called Open Information Extraction (OpenIE). For example, from the sentence “The fish swims happily in the ocean”, we can extract the triple (fish, swims, in the ocean). By gathering many of these statements, we obtain an Open Knowledge Base (OpenKB), with no constraints on the subjects, the predicates, and the objects.
Then, this OpenKB could be used for question answering (QA). There have been many approaches that target QA over non-open KBs. These approaches vary from crafting query templates that, once filled in, will be used to query the KB, to neural models, where the goal is to represent the question and the possible answers as latent vectors, where the correct answer should be close in the embedding space to the question~cite{bordes2014question}. In this project, we will focus on neural models, particularly knowledge graph embeddings, i.e., continuous representations for the entities and relations that can generally capture relevant information about the graph’s structure.
The current way KB embeddings are computed raises two main challenges:
* Each entity and relation must be seen enough times during training so the system can learn relevant embeddings. The training is done taking edges information into account, so the entity or relation must be part of a sufficiently large number of edges.
* The textual representation of the verbal and noun phrases of the relations, subjects, and objects should be considered.
For example, a recent approach, MHGRN, computes embeddings by using a modified graph neural network architecture. This architecture, however, does not take into account the textual representation of relations.
A better approach is CARE, that relies on two main ideas. First, it clusters the subjects and objects and creates an unlabelled edge between entities in the same cluster. That partially reduces the problem of the entities connected to a small number of edges, by leveraging the connection with better connected entities. Then, it computes embeddings for the relations using GLOVE (word embeddings) and GRUs (recurrent neural networks). We believe that the approach in CARE could be improved by considering more modern neural architectures using message-passing algorithms and integrating the textual representation of predicates, objects, and subjects. In addition, we will investigate if the clustering step is necessary, as it can bring a bias for one important downstream application of KB embeddings: canonicalization, the task of finding a representative for a set of nodes or edges.
In this project, we will improve open KB embedding methods by:
* Exploring state-of-the-art neural architectures and language models.
* Integrating textual representations of the subject, predicate, and object.
* Investigating if clustering before embedding computation is necessary.
* Integrating embeddings into question-answering models.
Sujet :
Given a text, it is possible to extract from it knowledge in the form of subject-predicate-object triples, where all components of the triples can be found in the text. This is called Open Information Extraction (OpenIE). For example, from the sentence “The fish swims happily in the ocean”, we can extract the triple (fish, swims, in the ocean). By gathering many of these statements, we obtain an Open Knowledge Base (OpenKB), with no constraints on the subjects, the predicates, and the objects.
Then, this OpenKB could be used for question answering (QA). There have been many approaches that target QA over non-open KBs. These approaches vary from crafting query templates that, once filled in, will be used to query the KB, to neural models, where the goal is to represent the question and the possible answers as latent vectors, where the correct answer should be close in the embedding space to the question~cite{bordes2014question}. In this project, we will focus on neural models, particularly knowledge graph embeddings, i.e., continuous representations for the entities and relations that can generally capture relevant information about the graph’s structure.
The current way KB embeddings are computed raises two main challenges:
* Each entity and relation must be seen enough times during training so the system can learn relevant embeddings. The training is done taking edges information into account, so the entity or relation must be part of a sufficiently large number of edges.
* The textual representation of the verbal and noun phrases of the relations, subjects, and objects should be considered.
For example, a recent approach, MHGRN, computes embeddings by using a modified graph neural network architecture. This architecture, however, does not take into account the textual representation of relations.
A better approach is CARE, that relies on two main ideas. First, it clusters the subjects and objects and creates an unlabelled edge between entities in the same cluster. That partially reduces the problem of the entities connected to a small number of edges, by leveraging the connection with better connected entities. Then, it computes embeddings for the relations using GLOVE (word embeddings) and GRUs (recurrent neural networks). We believe that the approach in CARE could be improved by considering more modern neural architectures using message-passing algorithms and integrating the textual representation of predicates, objects, and subjects. In addition, we will investigate if the clustering step is necessary, as it can bring a bias for one important downstream application of KB embeddings: canonicalization, the task of finding a representative for a set of nodes or edges.
In this project, we will improve open KB embedding methods by:
* Exploring state-of-the-art neural architectures and language models.
* Integrating textual representations of the subject, predicate, and object.
* Investigating if clustering before embedding computation is necessary.
* Integrating embeddings into question-answering models.
Profil du candidat :
The intern should be involved in a master’s program and have a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.
Formation et compétences requises :
The intern should be involved in a master’s program and have a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.
Adresse d’emploi :
Palaiseau
Document attaché : 202302091340_internship_openie-1.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIRIS
Durée : 5-6 mois
Contact : hamida.seba@univ-lyon1.fr
Date limite de publication : 2023-11-13
Contexte :
Pour plusieurs applications du monde réel, identifier des motifs qui ne se conforment pas à une activité normale est une question fondamentale pour garantir une prestation de service correcte ainsi que la sécurité et la fiabilité du système [1]. C’est principalement le cas pour des applications de surveillance et de suivi telles que la vidéosurveillance, la surveillance médicale, la détection de logiciels malveillants, la détection de fraudes financières, etc. Un motif anormal est appelé anomalie ou valeur aberrante. Une anomalie est généralement définie comme un motif comportemental qui s’écarte significativement de la plupart des motifs comportementaux du système surveillé et apparaît dans une proportion significativement plus petite que celle des motifs normaux. Avec l’explosion des quantités de données à traiter pour ce genre d’applications, le recours aux modèles d’apprentissage et en particulier l’apprentissage profond est devenu inévitable dans ce domaine.
Sujet :
Durant ce stage, nous nous intéressons aux modèles d’apprentissage capables de traiter des données complexes multi-sources et hétérogènes sur les clients d’une entreprise de location d’ordinateurs personnels (MacBook & iPad) :
• données contrôlées communiqués par le client (nom, prénom, adresses (facturation, livraison), tel, mail)
• données informatique extraites de la connexion internet du client (IP)
• données bancaires
• données issues de blacklists
• données socio-démographiques issues de l’INSEE
Le but de l’analyse de ces données est de réaliser un profiling plus « fair » (sans critères socio-discriminants) de clients qui permettra de prévenir les défauts de paiement. L’approche proposée est la construction de graphes de connaissances ego-centriques [2] profilons (profilant ???) les clients et permettant de représenter toutes les informations les concernant. Ensuite, il s’agira de se baser sur cette représentation pour détecter toute anomalie qui peut engendrer un défaut de paiement. Cette représentation basée sur des graphes de connaissances nécessitera d’utiliser et/ou de concevoir des modèles d’apprentissage adaptés [3, 4]. Le stagiaire commencera par effectuer un état de l’art sur la problématique ainsi que sur les modèles d’apprentissage existants. Il mettra ensuite en place la solution la plus adaptée aux données considérées durant le stage.
Ce stage pourra se poursuivre avec une thèse CIFRE.
Profil du candidat :
Compétences avancées (niveau M2) en informatique (en particulier en apprentissage machine fortement souhaitées).
Formation et compétences requises :
Data science, machine learning
Adresse d’emploi :
LIRIS, Université Lyon 1
Document attaché : 202311131510_LIRISHOPLIZ Sujet de stage.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ERIC
Durée : 5-6 mois
Contact : mohamed-lamine.messai@univ-lyon2.fr
Date limite de publication : 2023-11-30
Contexte :
Calcul multipartie sécurisé (MPC), BI sécurisée
Sujet :
La sécurité des données est un sujet crucial dans la plupart des applications informatiques actuelles. Le projet ANR BI4people (https://eric.univ-lyon2.fr/bi4people/) vise à développer un système de business intelligence (BI) accessible à des utilisateurs novices. Un des enjeux importants de ce projet est de garantir la confidentialité des données utilisateurs. Le sujet du stage proposé s’inscrit dans ce cadre.
Une analyse du problème de la confidentialité des données a été réalisée au cours de la première partie de ce projet. Les cryptosystèmes homomorphes (Homomorphic encryption) permettant d’effectuer des calculs sur des données cryptées sont particulièrement adaptés à cette problématique. Une étude approfondie de ces outils et de leur implémentation a été réalisée [1].
L’objectif de ce stage est de proposer différents scenarii, de les analyser et de les implémenter en utilisant les cryptosystèmes homomorphes les plus adaptés. Plus précisément, vous serez impliqué(e) dans les activités suivantes :
1. Découverte des cryptosystèmes homomorphes et prise en main des bibliothèques analysées au début du projet [1].
2. Étude des protocoles de calcul multipartie sécurisé : Vous explorerez les différents protocoles de MPC, en vous concentrant sur leur applicabilité dans le contexte du projet BI4people [2].
3. Développement de scénarii de BI collaborative et construction de protocoles de calcul multi-parties pour les sécuriser [3].
4. Évaluation des performances et de la sécurité de ces protocoles en termes de temps de calcul, d’utilisation des ressources
5. Analyse de sécurité de ces protocoles pour évaluer les vulnérabilités potentielles et proposer des mesures d’amélioration.
6. Intégration dans le projet BI4people : Vous travaillerez en étroite collaboration avec les autres membres de l’équipe du projet BI4people, en participant aux réunions et en partageant les résultats et les avancées de votre recherche.
– Merci d’adresser, avant le 31 décembre 2023, votre candidature avec un CV, une lettre de motivation, ainsi que vos notes de l’année universitaire en cours et de l’année dernière à mohamed-lamine.messai@univ-lyon2.fr et gerald.gavin@univ-lyon1.fr
Références
[1] T. V. T Doan, M-L. Messai, G. Gavin & J. Darmont. A survey on implementations of homomorphic encryption schemes. The Journal of Supercomputing, 2023, p. 1-42.
[2] Y. Wu, X. Wang, W. Susilo, G. Yang, Z. L. Jiang, S. M. Yiu, & H. Wang. Generic server-aided secure multi-party computation in cloud computing. Computer Standards & Interfaces, 2022, vol. 79, p. 103552.
[3] Tran, H. Y.. Privacy-preserving schemes for electricity data analytics in smart grids. 2023. Thèse de doctorat. UNSW Sydney.
Profil du candidat :
Profil du/de la stagiaire : Compétences avancées (niveau M2) en informatique.
Formation et compétences requises :
sécurité informatique, cryptographie fortement souhaitées). Compétences en programmation (par exemple, Python).
Adresse d’emploi :
5 Av. Pierre Mendès France, 69500 Bron
Document attaché : 202310021456_Stage de Master 2 (5-6 mois).pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Hydrosciences Montpellier
Durée : 6 mois
Contact : sarah.valentin@cirad.fr
Date limite de publication : 2023-11-30
Contexte :
Ce stage s’inscrit dans le cadre et du projet CECC (Cycle de l’Eau et Changements Climatiques) en collaboration avec le projet TipHyc (Tipping points in the West African Hydrological
Cycle), portant sur les changement de régimes hydrologiques en Afrique de l’Ouest. Il s’agit de mobiliser des méthodes informatiques afin d’extraire des connaissances à partir de données textuelles.
Sujet :
Cette offre de stage vise à mobiliser des techniques de fouille de texte afin d’extraire des informations pertinentes à partir de gros volumes de données textuelles spécialisées (articles scientifiques et rapport techniques). Vous évaluerez des méthodes d’identification automatique de connaissances sur les changements d’occupation ou d’usage des sols et leurs processus en Afrique de l’Ouest. Vous analysez les résultats afin de comprendre la distribution statistique de ces connaissances. Le stage se déroulera sur une période de 6 mois, à compter de février 2024 au sein de l’UMR HSM (Hydrosciences Montpellier), sur le site de la faculté de Pharmacie.
Profil du candidat :
Master Informatique, Sciences des données, TALN
Formation et compétences requises :
– Formation en informatique,
– Bonne maîtrise du langage de programmation Python,
– Connaissances en fouille de données et/ou apprentissage automatique voir traitement automatique
du langage,
– Maîtrise de l’anglais écrit,
– Intérêt pour les applications socio-environnementales et le travail interdisciplinaire
Adresse d’emploi :
Hydrosciences
15 Av. Charles Flahault, 34093 Montpellier Cedex 05
Document attaché : 202310161420_stage_fouille_de_donnees_HSM_TETIS-1.pdf
Offre en lien avec l’Action/le Réseau : RoCED/– — –
Laboratoire/Entreprise : LISTIC (Annecy) or L2S (Paris)
Durée : 4-6 months
Contact : guillaume.ginolhac@univ-smb.fr
Date limite de publication : 2023-11-30
Contexte :
In machine learning problems, it is well known that it is unwise to apply classification algorithms directly to large-scale data because of the curse of high dimensionality. To solve this problem, a popular solution is to look for a new data space with a lower dimension, while keeping a good representation of the data. The most common tool is the simple PCA algorithm, which works very well in most applications. Nevertheless, this algorithm can fail, especially when the data is very complex and/or belongs to a large number of classes. Thanks to supervised approaches, new algorithms, known as auto-encoders, have been developed to solve this problem. Numerous architectures have been proposed in recent years, particularly for vector data. There are still architectures to be built, especially when the data are not vectors. In particular, this internship will focus on covariance matrices which have the property of being Symmetric Positive Definite (SPD). Covariance matrices combined with Riemannian geometry [Boumal, 2023] have enabled the development
of high-performance machine learning algorithms on EEG [Barachant et al., 2012] or remote sensing data [Collas et al., 2022]. Moreover, these algorithms have shown good robustness in the presence of labeling errors or shits between training and test data. The application of this internship concerns the analysis of time series from remote sensing data. These data obviously have the characteristics discussed above, in particular they often suffer from large datashifts between training and test (due to strong correlated noise, class variability, …). In addition, the various frameworks proposed in the literature have shown that covariance matrices are good features for classification. The work will focus on the following datasets [Rußwurm et al., 2020,
Sainte Fare Garnot et al., 2022].
Sujet :
Seminal work has been done to build a deep learning SPD architecture [Li et al., 2017, Huang and Gool, 2017] by developing specific layers for covariance matrices. These networks are based on various Riemannian geometry tools and have shown good performance in computer vision. With the help of these
articles, the first task of the internship will be to develop an SPD auto-encoder adapted to covariance matrices.
Our goal is then to develop new learning methods for studying multivariate image time series in remote sensing, more precisely multispectral images containing several frequencies. The main
objective of the application is to classify agricultural fields, which is practically impossible without temporal information, as shown in Fig. 1. More specifically, we will adapt the networks used
in [Rußwurm et al., 2020] by adding the developed auto-encoder, which should enable to maintain performances with a training set of reduced size. Finally, we will focus on the dataset [Sainte Fare Garnot et al., 2022], which contains time series
of optical and SAR images over the same period. Our goal will then be to adapt the previously developed approach to SAR RADAR data. Indeed, these data are very interesting in that they provide better periodicity and relevant information even at night or in the presence of clouds. However, the properties of SAR images are more complex than those of multispectral images, as they are much noisier and more difficult for non-specialists to analyze.
Profil du candidat :
Master/Engineering student with knowledge in statistics and machine learning (having followed courses on these topics is strongly advised). Good coding skills in Python.
Formation et compétences requises :
Master/Engineering student with knowledge in statistics and machine learning (having followed courses on these topics is strongly advised). Good coding skills in Python.
Adresse d’emploi :
L2S laboratory in CentraleSupelec, Paris and/or LISTIC laboratory in Univ. Savoie Mont-Blanc, Annecy.
Document attaché : 202310020838_Stage_Autoencodeur_SPD.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CEA
Durée : 6 mois
Contact : etienne.thevenot@cea.fr
Date limite de publication : 2023-11-30
Contexte :
La métabolomique par spectrométrie de masse (LC-MS) est une technologie puissante en santé pour découvrir de nouveaux marqueurs permettant de prédire la survenue d’une maladie ou la réponse à un traitement. Les données LC-MS, composées de deux dimensions (masse et temps de rétention des molécules), sont de grande taille, parcimonieuses et bruitées. Leur prétraitement (détection et quantification des signaux) est une étape clé. Les algorithmes existants (par transformée en ondelette continue dans les deux dimensions successivement [1]), génèrent de nombreux faux positifs et négatifs. Ces dernières années, l’apparition des approches d’apprentissage profond ouvre de nouvelles perspectives de traitement des données MS plus robustes directement à partir des données 2D [2].
[1] Tautenhahn,R. et al. (2008) Highly sensitive feature detection for high resolution LC/MS. BMC Bioinformatics, 9, 504.
[2] Skarysz et al. (2018) Convolutional neural networks for automated targeted analysis of raw gas chromatography-mass spectrometry data. International Joint Conference on Neural Networks (IJCNN).
Sujet :
L’objectif du stage est de développer de nouvelles architectures profondes pour la détection et la quantification de l’ensemble des signaux et motifs présents dans les données d’un échantillon biologique. La première partie (traitement du signal et des images) sera consacrée à la construction de la base d’entraînement pour étiqueter les signaux connus dans les données disponibles au laboratoire. Des approches de simulation réalistes seront mises en œuvre pour augmenter la base d’apprentissage. La seconde partie (apprentissage profond) portera sur le développement d’architectures multitâches pour la segmentation de nuages de points, la détermination de contours, et le regroupement de signaux associés (e.g. par des mécanismes d’attention). L’ensemble des algorithmes seront implémentés en Python et appliqués au traitement des données de cohortes cliniques.
Profil du candidat :
Nous recherchons un.e candidat.e avec un très bon dossier en mathématiques appliquées (traitement d’images, statistiques, informatique), et motivé.e par les applications multidisciplinaires (chimie, physique, biologie). Le master pourra se prolonger par une thèse.
Formation et compétences requises :
traitement d’images, deep learning
Adresse d’emploi :
Lieu du stage : Le stage s’effectuera au centre CEA de Saclay, dans l’équipe science des données métabolomiques (Unité Médicaments et Technologies pour la Santé ; https://odisce.github.io), en partenariat avec l’équipe imagerie génétique (NeuroSpin ; https://brainomics.org).
Durée du stage : 6 mois à partir de mars 2024
Date limite de candidature : 30 novembre 2023
Contact : Merci d’adresser votre candidature (CV détaillé, lettre de motivation, notes de licence et master et nom de deux référents) à :
Etienne Thévenot (etienne.thevenot@cea.fr)
Equipe sciences des données (https://odisce.github.io)
Unité Médicaments et Technologies pour la Santé
CEA, Centre de Saclay, F-91191 Gif sur Yvette, France
Document attaché : 202309211124_230914_stage_M2_cea_ai-ms_EThevenot.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : MaIAGE – INRAE et AgroParisTech Saclay
Durée : 6 mois
Contact : claire.nedellec@inrae.fr
Date limite de publication : 2023-12-07
Contexte :
Contacts : claire.nedellec@inrae.fr, vincent.guigue@agrosparistech.fr, nicolas.sauvion@inrae.fr
Les phytoplasmes sont des bactéries qui causent des maladies d’arbres fruitiers dont les impacts économiques sont très importants en Europe [Hadidi et al., 2011]. Ces bactéries pathogènes s’attaquent à différents types de plantes de la famille des rosacées (Prunus, pommiers et poiriers). Les bactéries peuvent être transmises d’une plante à l’autre par des insectes piqueurs suceurs, des psylles du genre Cacopsylla. Ces bactéries et leurs insectes vecteurs sont endémiques en Europe. Ils sont largement présents dans les vergers ainsi que dans les habitats sauvages, ce qui limite leur contrôle et, par conséquent l’endiguement des maladies dont ils sont responsables. Les psylles vecteurs sont aujourd’hui contrôlés principalement par des insecticides, mais l’évolution des pratiques agricoles pourraient être, voire sont déjà, la source de nouvelles émergences de maladies. En effet, la réduction de l’utilisation des pesticides en accord avec le plan EcoPhyto en France et les nouvelles réglementations européennes moins contraignantes en terme de surveillance facilite leur dissémination.
Les efforts de la recherche pour mieux comprendre la biologie et l’écologie des psylles vecteurs (ou potentiellement vecteurs) de phytoplasmes visent à proposer de nouveaux moyens d’anticipation et de contrôle du risque épidémiologique. Malgré ces travaux, la connaissance des interactions biologiques de ces bactéries, insectes et plantes est incomplète et mal établie, notamment en raison du très grand nombre de publications.
Le web a démultiplié les possibilités d’accès aux documents scientifiques y compris très anciens. L’extraction automatique d’informations contenues dans ce type de documents par des méthodes de TAL a fait ses preuves dans de nombreux domaines de la biologie, notamment l’extraction d’entités nommées, leur normalisation et leur mise en relation. Les progrès récents sont considérables grâce aux larges modèles de langue (LLMs) qui ont trouvé de nombreuses applications notamment dans le domaine biomédical. Le domaine de l’écologie, sujet de ce stage, soulève des questions d’intérêt pour la recherche en TAL. Tout d’abord, les interactions biologiques d’intérêt impliquent plusieurs participants, au moins un pathogène, un vecteur et une plante, l’extraction de relations n-aires est donc nécessaire. Les articles reprennent des informations publiées en les citant. Associer la source bibliographique (la référence) à l’information extraite est nécessaire pour caractériser l’information dans la perspective d’en estimer la pertinence.
Sujet :
Le projet de Master porte sur l’extraction automatique de relations biologiques à partir de documents. Le stage ciblera en priorité trois espèces particulières de psylles vecteurs de bactéries pathogènes d’arbres fruitiers. Ce travail s’inscrit dans le cadre plus large d’un projet de thèse, sur la qualité et la nouveauté d’informations épidémiologiques [Nédellec et al. 2024], pour laquelle des candidats étudiants sont également recherchés. Les événements représentant les interactions biologiques entre microbe, insecte, plante et leurs lieux et dates d’observation sont dénotés dans les textes scientifiques par des formulations complexes variables qui portent fréquemment sur plusieurs phrases. L’enjeu sera d’extraire ces événements (voir figure) par des méthodes d’apprentissage profond (deep learning) avec un nombre limité d’exemples produits manuellement.
Nous faisons l’hypothèse qu’exploiter la connaissance disponible dans les domaines spécialisés par des LLMs peut pallier le nombre réduit de données d’entraînement annotées. Il s’agit ici de la base de connaissance Global DataBase de l’EPPO et Psyl’list [Ouvrard, 2022]. La méthode KBPubMedBERT [Tang et al., 2023] pourra être une première solution à explorer, ainsi que des méthodes génératives [Xu et al., 2023], ou semi-supervisée [Genest et al., 2022]. La distance parfois élevée entre les arguments d’événements multiphrases dépasse les limites de modèles de langue (e.g. BERT [Devlin et al., 2019], SciBERT [Beltagy et al., 2019], BioBERT [Lee et al., 2020) et devra faire l’objet de propositions adaptées, par exemple de réseau neuronal de graphe (GNN) pour construire un graphe d’entités et capturer les interactions entre les entités à travers les phrases [Li et al. 2022].
Le rattachement aux événements extraits des sources bibliographiques à travers leur citation est un second objectif du stage. Le rattachement des entités et références a fait l’objet de travaux [Viswanathan et al. 2021]. Il s’agit ici de traiter le rattachement des références à des événements structurés.
**Programme**
La/le stagiaire réalisera un état de l’art des méthodes existantes d’extraction de relations n-aires et de citations. Il/Elle adaptera une de ces méthodes au sujet et proposera des extensions originales intégrées dans le workflow ESV. Robert Bossy (éq. Bibliome) formera et accompagnera la/le stagiaire dans l’utilisation d’AlvisNLP. Les prédictions seront évaluées par les méthodes standards du domaine (e.g. F-mesure, rappel, précision). Les entités de type citation feront l’objet d’un traitement particulier portant sur leur extraction et leur rattachement aux événements biologiques. Un article sera préparé en collaboration avec les co-encadrants en fonction des résultats obtenus.
**Ressources**
Seront mis à disposition les éléments nécessaires à la réalisation des objectifs du stage : (1) le workflow opérationnel ESV sur la plateforme AlvisNLP d’extraction d’information d’entités, de normalisation et d’extraction de relations binaires, (2) la base de connaissance Global DataBase de l’EPPO, (3) un corpus de documents non annoté d’où les informations sont à extraire, (4) le corpus EPOP (Epidemiomonitoring Of Plant) annoté manuellement. Les moyens de calcul GPU du méso-centre de l’Université Paris-Saclay seront utilisés (e.g. Lab.IA).
Profil du candidat :
– Expérience de deep learning
– Expérience en TAL et/ou utilisation de la bibliothèque HuggingFace
– Maîtrise de l’anglais ou français courant.
– Compétences techniques requises : Python et/ou Java
– Intérêt pour les applications en biologie et le travail interdisciplinaire.
Formation et compétences requises :
– Master 2 en INFORMATIQUE orienté Traitement Automatique des Langues et/ou Apprentissage automatique
Adresse d’emploi :
Equipe Bibliome, unité MaIAGE, INRAE, Jouy-en-Josas
Document attaché : 202312061614_Stage IEV.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire Informatique et Systèmes (LIS), Profes
Durée : 6 mois
Contact : patrice.bellot@univ-amu.fr
Date limite de publication : 2023-12-07
Contexte :
Les statistiques concernant l’équilibre des genres dans la recherche académique montrent que le pourcentage d’hommes et de femmes varie en fonction de la discipline concernée, et que dans les domaines dans lesquels les femmes sont traditionnellement minoritaires, les trajectoires de carrière des femmes sont en moyenne plus lentes que celles des hommes. La question de l’évaluation de la carrière et de la promotion repose en grande partie sur des critères de performance en termes de production scientifique. Se pose toutefois le défi d’évaluer l’originalité, la quantité, la qualité, et l’impact des recherches menées par une personne en particulier, que ce soit en termes d’impacts académique ou sociétal. Dans ce cadre, la disponibilité d’outils bibliométriques relativement faciles d’utilisation (logiciels dédiés, packages R et Python, outils fournis dans Google Scholar, Web of Knowledge, Altmetric) permet non seulement de calculer des critères usuels de performance (nombres d’articles, position, nombre de citations, « h-index ») et de visibilité en ligne (le nombre de consultations, de commentaires ou de partages), mais également des métriques propres aux analyses de réseaux complexes, reposant entre autres sur les listes de coauteurs, les adresses, les mots clés, les listes de référence. Des logiciels tels que Gargantext1 et VosViewer permettent d’explorer de tels réseaux de publications et d’auteurs au moyen de visualisations avancées.
Ceci ouvre donc la possibilité d’étudier plus finement où se jouent éventuellement des différences de performance et d’impact entre les genres. Par ailleurs, un des aspects peu étudiés des différences de genre est le contenu des articles publiés, qui permet cependant d’accéder à d’éventuelles différences de genre dans la production de connaissances, c’est-à-dire les méthodes utilisées, les organismes étudiés ou les lieux. Si ces caractéristiques diffèrent entre genre, et qu’elles influencent aussi l’impact des articles, alors, elles pourraient expliquer certaines des différences de performance bibliométriques et par suite, du déroulement de la carrière.
Sujet :
Résumé.
Le stage vise à identifier, à partir d’une analyse automatisée d’un corpus d’articles scientifiques issus de revues d’écologie, si le genre des auteurs impacte les méthodes, modèles, espèces et type d’écosystèmes étudiées, et les sites d’études. Dans un deuxième temps, la relation entre genre des auteurs, performance individuelle des auteurs, contenu et l’impact des articles sera aussi étudiée.
Sur le plan informatique, le stage combine des problématiques du traitement automatique des langues, de la recherche d’information et de la fouille de données : extraction d’information (notamment reconnaissance d’entités nommées et identification de mots-clés), représentations de documents et partitionnement à partir d’approches neuronales (modèles de thèmes de type BERTopic), analyse de graphes et détection de communautés.
Profil du candidat :
Master Informatique ou équivalent
Formation et compétences requises :
• Méthodes du traitement automatique des langues à base d’apprentissage machine pour l’extraction d’information et la classification automatique de textes (transformeurs, LDA, représentations vectorielles…)
• Intérêt pour les analyses bibliométriques et scientométriques
• Langage Python et bibliothèques spaCy, scikit-learn, Pandas et Keras ou PyTorch
Adresse d’emploi :
Le/la stagiaire réalisera son stage au LIS Marseille. Le/la stagiaire sera sous la responsabilité de Anne Loison, directrice de recherche au CNRS au LECA et de Patrice Bellot, professeur à l’université Aix-Marseille.
Des déplacements entre l’Université Aix-Marseille et l’université Savoie Mont-Blanc sont à prévoir (frais de déplacement et d’hébergement pris en charge).
Document attaché : 202312061355_stageMethodesObjectRechercheEcologieGenre.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Le Laboratoire d’Informatique, de Robotique et de
Durée : 6 mois (+ CDD 2 mois
Contact : alexandre.bazin@lirmm.fr
Date limite de publication : 2023-12-15
Contexte :
To ensure the success of the agroecological transition, farmers need to have access to knowledge about alternatives to conventional farming techniques. However, before a knowledge base (KB) can be used by farmers and scientific experts, it needs to be corrected of its anomalies.
Sujet :
The context of this internship is the Knomana KB [Silvie et al., 2021], which brings together 48,000 descriptions of pesticidal and antibiotic uses of plants, and aims to propose plant-based preparations to replace synthetic chemicals. Dictionaries are already available to correct values for its 31 data types. But, verifying data correction and consistency is too complex to be carried out manually. For example, an inconsistency between the pesticide plant, the protected system (e.g. corn crop), the bio-aggressor (e.g. insect) and the geographical location is enough to mislead a farmer. The method named Attribute Exploration (EA), developed by Formal Concept Analysis, can be used to detect and correct these anomalies [Saab et al., 2022]. EA expresses each piece of knowledge in the form of an implication rule, and identifies generalizations at different levels (e.g. all insects of genus X are controlled by plants of Family Y). The rules are presented to the experts, who validate or invalidate them in order to bring the BC into a coherent state.
The objective of the internship is to develop a software prototype for detecting and correcting anomalies in multidimensional and multirelational data. This prototype will enable to manipulate data and data types, then interact with the FCA4J library, for rule computation, and the RCAvizIR software, developed with the support of #Digitag (Master internships in 2022 and 2023) to present them in an order that facilitates correction work by experts.
The work will be conducted according to the design stages described by Sedlmair et al. 2012 (literature study, definition of the need in terms of a visual problem, proposal of a mock-up, development, deployment, validation).
* Michael Sedlmair, Miriah D. Meyer et Tamara Munzner. Design Study Methodology: Reflections from the Trenches and the Stacks. IEEE TVCG 18(12): 2431-2440, 2012.
Profil du candidat :
Student in Master studies (computer science or bioinformatics)
Formation et compétences requises :
Strong skills in programming and data analysis, with an interest for knowledge engineering, visual analytics, and to find alternatives to chemical pesticides and antibiotics in organic agriculture.
Adresse d’emploi :
The student will be integrated in the Web3 teams of LIRMM, in Montpellier, and will collaborate with researchers from Advance and Marel teams.
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2023-12-15
Contexte :
L’initiative Land Matrix (https://landmatrix.org) et son observatoire mondial des acquisitions de terres à grande échelle ont pour objectifs de créer une source fiable de données permettant d’alimenter les débats et de mettre en œuvre des actions éclairées sur les transactions foncières à grande échelle. La Land Matrix collecte des données sur les tentatives prévues, conclues et échouées visant à acquérir des terres au moyen d’achat, de location ou de concession à des fins de production agricole, d’extraction de bois, de finance du carbone, d’activités industrielles, de production d’énergie renouvelable, de conservation de la nature et de tourisme, dans les pays à revenus faibles ou intermédiaires.
Référence mondiale sur les phénomènes d’acquisitions de terres dans le monde académique, les données de la Land Matrix restent encore peu utilisées pour accompagner l’action publique malgré d’importants efforts pour que les données soient en accès libre. Nous faisons l’hypothèse que l’accès aux données et leur exploitation restent des freins importants à l’utilisation des informations contenues dans la base de la Land Matrix. En effet, une certaine expertise en informatique et une bonne connaissance des champs de variables sont nécessaires pour que l’utilisateur puisse accéder aux informations nécessaires.
Sujet :
L’objectif du stage est de simplifier l’accès aux données de la base Land Matrix en permettant son interrogation en langage naturel. Les récentes avancées en intelligence artificielle, dont bénéficient les modèles de langues de type OpenAI/ChatGPT ou meta/Llama-2, offrent de nouvelles opportunités pour convertir des questions, formulées en langage naturelle, en langage informatique (génération de code python et/ou SQL). Ces modèles généralistes nécessitent, cependant, d’être ajustés à la structure de données de la base Land Matrix afin de n’extraire que les données réellement attendues par les utilisateurs. Les stratégies d’ajustement sont un attendu de ce stage dont l’objectif final est de proposer un agent conversationnel (Chat bot) capable de générer les requêtes informatiques à partir d’une formulation en langage naturel. Une requête potentielle serait un croisement de filtres géographiques, filtres de types d’investisseurs et de filtres d’intentions d’investissements, par exemple : « j’aimerais savoir quelles banques soutiennent des investissements miniers (lithium) en Argentine ».
Compétences du candidat/e :
• Analyse des données (collecte, exploration, mise en lien)
• Programmation (préférablement Python)
• Capacité d’analyses, rédactionnelles et de synthèse
• Travail d’équipe
Informations complémentaires :
Durée de 6 mois, à partir de février 2024.
Le stage se déroulera au CIRAD, dans l’UMR TETIS (Territoire, Environnement, Télédétection et Information Spatiale), située dans les locaux de la Maison de la Télédétection à Montpellier.
Le stagiaire sera encadré par Rémi Decoupes (INRAE, UMR TETIS), Jérémy Bourgoin, Roberto Interdonato (CIRAD, UMR TETIS) et Marie Gradeler (ILC).
Financement :
Le stage est soutenu par le projet Land Matrix. La rémunération du stagiaire sera de l’ordre de 600 euros par mois.
Modalité de candidature :
Attention : cette proposition ne concerne que les stages d’étudiants sous convention avec une école ou une université : il ne s’agit pas d’une offre d’emploi.
Envoyer une lettre de motivation d’une page, précisant en outre la durée et période possible du stage, un CV détaillé, et un relevé des notes à : remy.decoupes@inrae.fr et jeremy.bourgoin@cirad.fr
Date limite pour l’envoi du dossier : 30 Novembre, 2023
Profil du candidat :
Compétences du candidat/e :
• Analyse des données (collecte, exploration, mise en lien)
• Programmation (préférablement Python)
• Capacité d’analyses, rédactionnelles et de synthèse
• Travail d’équipe
Formation et compétences requises :
Compétences du candidat/e :
• Analyse des données (collecte, exploration, mise en lien)
• Programmation (préférablement Python)
• Capacité d’analyses, rédactionnelles et de synthèse
• Travail d’équipe
Adresse d’emploi :
Maison de la Télédétection, 500 Rue Jean François Breton, 34090 Montpellier
Document attaché : 202311141527_stage.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2023-12-15
Contexte :
La sécurité alimentaire (SA) est un problème central dans de nombreuses régions du monde, comme en témoigne sa présence parmi les 17 objectifs de développement durable (ODD 2 – Faim zéro). Pour surveiller les situations d’insécurité alimentaire, plusieurs systèmes d’alerte précoce sont actifs aujourd’hui, tels que GIEWS (FAO) et FEWSNET (USAID). Ces systèmes utilisent un ensemble limité de types de données, i.e., données agroclimatiques provenant d’images satellites et indicateurs extraits d’enquêtes auprès des ménages sur les facteurs nutritionnels, économiques et liés à la production. De plus, une intervention humaine est souvent nécessaire pour combiner et résumer toutes les sources d’information.
Les recherches menées précédemment par TETIS ont montré que des données ouvertes hétérogènes, liées à différents niveaux à la sécurité alimentaire, peuvent être utilisées pour développer des méthodes d’apprentissage automatique capables de produire des indicateurs en lien direct avec la SA. L’idée est d’utiliser des données qui représentent des proxys pour les raisons multiples et interdépendantes à l’origine de ce phénomène. Quelques exemples peuvent être des rasters d’informations spatiales (i.e. cartes de distance aux infrastructures, aux marchés, etc.), information géographique bénévole (Open Street Map), données météorologiques (i.e. températures moyennes, cumuls de précipitations, etc.), indicateurs économiques et données textuelles issus des médias locaux [2,3].
Sujet :
L’objectif de ce stage est d’évaluer le framework développé à TETIS [1] et testé initialement sur le cas du Burkina Faso, sur différents pays d’Afrique, notamment Rwanda et Tanzanie. L’idée à la base du framework est d’exploiter des stratégies d’apprentissage automatique et profond de dernière génération qui peuvent faire face à des aspects critiques, tels qu’une grande hétérogénéité des données d’apprentissage, mis face à une quantité des données de vérité de terrain (scores de SA) limitée.
Dans un premier temps, le travail sera focalisé sur l’actualisation des sources d’un ensemble de données hétérogènes adaptées aux zones d’étude. Cela inclut la collecte et la mise en lien des données a différentes échelles et de nature différentes.
Une fois finalisée la base des donnés, l’étudiant s’occupera de tester le framework d’entraînement des modèles et l’évaluation des modèles d’estimation des indices de SA ainsi entraînés. Les résultats attendus sont soit quantitatifs (évaluation des performance du framework par rapport à des données de référence), soit qualitatifs (production des cartes d’insécurité alimentaire à l’échelle nationale).
[1] Hugo Deléglise, Roberto Interdonato, Agnès Bégué, Elodie Maître d’Hôtel, Maguelonne Teisseire, Mathieu Roche. Food security prediction from heterogeneous data combining machine and deep learning methods. Expert Syst. Appl. 190: 116189 (2022)
[2] Cheick Tidiane Ba, Chloé Choquet, Roberto Interdonato, Mathieu Roche. Explaining food security warning signals with YouTube transcriptions and local news articles. GoodIT 2022: 315-322
[3] Hugo Deléglise, Agnès Bégué, Roberto Interdonato, Elodie Maître d’Hôtel, Mathieu Roche, Maguelonne Teisseire. Mining News Articles Dealing with Food Security. ISMIS 2022: 63-73
Profil du candidat :
Analyse des données (collecte, exploration, mise en lien)
Programmation (préférablement Python)
Capacité d’analyses, rédactionnelles et de synthèse
Travail d’équipe
Formation et compétences requises :
Analyse des données (collecte, exploration, mise en lien)
Programmation (préférablement Python)
Capacité d’analyses, rédactionnelles et de synthèse
Travail d’équipe
Adresse d’emploi :
Maison de la télédétection, 500 Rue Jean François Breton, 34090 Montpellier
Document attaché : 202311091909_SujetStageM2.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : INRAE – Unité TSCF, équipe ROMEA
Durée : 6 mois
Contact : sandro.bimonte@inrae.fr
Date limite de publication : 2023-12-15
Contexte :
Pour accompagner la transition agroécologique, les robots ont un rôle essentiel à jouer dans le domaine de l’agriculture intelligente. Ils sont capables d’effectuer des opérations agricoles répétitives et précises sur une longue période avec un faible impact sur l’environnement.
Avec des équipements particuliers, et associés à des technologies d’acquisition et de traitement de données, les robots sont capables d’effectuer de manière autonome des tâches ciblées de manière efficace dans les champs.
De nombreux travaux de recherche portent sur l’agriculture intelligente. Dans le cadre du projet ISITE CAP2025, une architecture Big Data a été conçue pour le traitement des données temps réel issues des robots et des capteurs (avec Apache Kafka et Spark), ainsi qu’une base de données relationnelle pour stocker ces données.
Dans ce travail de stage, nous visons à mettre en place un lac de données (data lake) pour le stockage et l’exploration des données sources.
Sujet :
En particulier le travail consiste à :
étudier et comparer les travaux existants sur les lac de données données spatiales : stockage et exploration
implémenter le système de stockage des données (ex. Apache Hadoop HDFS ou PostGIS)
concevoir un modèle de métadonnées et implémenter un système de métadonnées
implémenter un système d’exploration des données (ex. Apache Atlas, Open Metadata, Geonetwork, etc.)
Profil du candidat :
Master 2 en informatique ou équivalent
Formation et compétences requises :
Architectures big data
Gestion de données
Adresse d’emploi :
INRAE, Campus des Cézeaux, Aubière
Document attaché : 202301111441_M2 datalake.pdf
Offre en lien avec l’Action/le Réseau : – — –/Innovation
Laboratoire/Entreprise : IGN
Durée : 6 mois
Contact : nicolas.gonthier@ign.fr
Date limite de publication : 2023-12-15
Contexte :
L’Institut national de l’information géographique et forestière (IGN) est un établissement public à caractère administratif placé sous la tutelle des ministères chargés de l’écologie et de la forêt. Sa vocation est de produire et diffuser des données (open data) et des représentations (cartes en ligne et papier, géovisualisation) de référence relatives à la connaissance du territoire national et des forêts françaises ainsi qu’à leur évolution.
Grâce à son école d’ingénieurs, l’ENSG-Géomatique, et à ses équipes de recherche pluridisciplinaires, l’institut cultive un potentiel d’innovation de haut niveau dans plusieurs domaines (géodésie, forêt, photogrammétrie, intelligence artificielle, analyse spatiale, visualisation 3D, etc.).
Au sein de la DSI, le Service Innovation, Maturation et Valorisation (SIMV) est chargé de la mise en œuvre du programme de R&D. Il doit assurer l’entretien et l’évolution des plateformes et équipements technologiques permettant de structurer le processus d’innovation et d’assurer l’interface entre l’enseignement, la recherche, et les développements à caractère plus opérationnel. Il est chargé de développer des prototypes, technologiques d’une part et produits et d’usages d’autre part, qui seront de nature à évaluer l’innovation et à décider de son éventuelle valorisation industrielle en interne ou en externe.
Au sein du SIMV, le Département Appui à l’Innovation (DAI) réalise des études et des prototypes permettant de valider la pertinence et la maturité des travaux de recherche. Le cas échéant, il monte en maturité des codes de recherche vers les souches de production via le développement de maquettes, la réalisation de tests et la rédaction de documentation.
Sujet :
Dans un contexte où la transition écologique est devenue un enjeu national et international, l’IGN s’est donné comme mission de cartographier le plus fréquemment possible l’anthropocène, autrement dit les évolutions et l’impact de l’activité humaine sur le territoire. Cela implique un suivi de l’artificialisation des sols, des zones agricoles, de la forêt, etc. Cela demande d’être capable de pouvoir mettre à jour plus régulièrement nos référentiels cartographiques. Le faire de façon complétement manuelle est un travail titanesque et l’apport de solutions automatiques est primordiale pour atteindre nos objectifs. Pour cela, le travail, qu’il soit manuel ou automatique, consiste à comparer deux images co-alignées spatialement, et de repérer les zones de changement qui ont une valeur sémantique au sens de nos nomenclatures métiers, de détourer ces zones et de mettre à jour nos référentiels cartographiques là où le territoire a changé.
La piste que nous souhaitons étudier pour accélérer le suivi du territoire, consiste à essayer de faciliter le travail pour l’opérateur dans le détourage des zones de changement. L’apparition de modèles de vision par ordinateur inspirés des LLM utilisant de la prompt-ingénierie [1] laisse penser que cela pourrait être transposable dans le cadre de la détection du changement. D’autant plus que des travaux de recherche très récents montrent d’excellents résultats dans l’exploitation de modèles de type “segment anything” pour la segmentation du changement [2]. Nous avons déjà conduit des tests avec le modèle “segment anything” sur nos images, mais dans le cas de la segmentation mono-date. Ici, le challenge sera de trouver les bonnes adaptations sur la partie prompt et décodeur afin qu’elles soient exploitables dans le cadre d’une paire d’images présentant un changement significatif pour l’IGN.
Les missions du stage :
Pour cette mission vous intégrerez une équipe projet dédiée à la détection du changement de 3 personnes actuellement, vous serez encadré par deux d’entre elles.
Dans un premier temps, le stage consistera à faire un état de l’art sur la prompt-ingénierie appliquée à la vision par ordinateur et de se mettre à jour sur les architectures siamois pour la détection du changement [4].
Il faudra ensuite implémenter avec pytorch un modèle inspiré de la littérature, il est fort probable en effet qu’il faille combiner des idées de deux ou quelques papiers de recherche dans le cadre de ce stage. On utilisera un ou deux jeux de données open data à des fins d’entraînement et de test.
Selon les avancées du stage, une intégration dans un SIG (système d’information géographique) ainsi que des tests en coordination avec les équipes de production pourraient être envisagés.
Bibliographie :
[1] : Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., … & Girshick, R. (2023). Segment anything. arXiv preprint arXiv:2304.02643.
[2] : Ding, L., Zhu, K., Peng, D., Tang, H., & Guo, H. (2023). Adapting Segment Anything Model for Change Detection in HR Remote Sensing Images. arXiv preprint arXiv:2309.01429.
[3] : Shafique, A., Cao, G., Khan, Z., Asad, M., & Aslam, M. (2022). Deep learning-based change detection in remote sensing images: A review. Remote Sensing, 14(4), 871.
[4] : Daudt, R. C., Le Saux, B., & Boulch, A. (2018). Fully convolutional siamese networks for change detection. In 2018 25th IEEE International Conference on Image Processing (ICIP) (pp. 4063-4067). IEEE.
[5] : Zheng, Z., Ma, A., Zhang, L., & Zhong, Y. (2021). Change is everywhere: Single-temporal supervised object change detection in remote sensing imagery. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 15193-15202).
Profil du candidat :
Formation Bac +5, spécialisation en apprentissage machine et vision par ordinateur.
Formation et compétences requises :
Connaissance et pratique de python et de la bibliothèque Pytorch. Le stage étant exigeant techniquement, il est préférable d’avoir déjà pratiqué Pytorch appliqué à de la computer vision, de savoir implémenter un réseau de convolution ou d’attention ‘from scratch’.
Savoir lire et exploiter des API python, car il vous sera probablement demandé d’exploiter des bibliothèques spécialisées dans la manipulation de données géographique.
Savoir mobiliser des résultats de recherche (recherche bibliographique, lecture et ré-implémentation de publications scientifiques…).
Bon niveau d’anglais lu (lecture d’articles).
Une expérience en manipulation de l’information géographique est un plus.
Adresse d’emploi :
IGN Saint-Mandé (94)
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIRIS
Durée : 6 mois
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2023-12-15
Contexte :
–
Sujet :
–
Profil du candidat :
–
Formation et compétences requises :
–
Adresse d’emploi :
–
Document attaché : 202310231316_sujet_stage_M2_being_miti.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIRIS
Durée : 6 mois
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2023-12-15
Contexte :
–
Sujet :
–
Profil du candidat :
–
Formation et compétences requises :
–
Adresse d’emploi :
–
Document attaché : 202310231313_sujet_stage_M2_ia3f.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : UR Hortsys et UMR AGAP Institut, CIRAD, Montpellie
Durée : 6 mois
Contact : frederic.boudon@cirad.fr
Date limite de publication : 2023-12-30
Contexte :
Chez de nombreuses espèces fruitières, il a été signalé que les relations source-puits affectent sur la
croissance des fruits. La quantité des assimilats carbonés synthétisés par les feuilles (les sources)
qui est fournie aux fruits (les puits) dépend de l’équilibre entre l’offre des sources et la demande des
puits. Chez le pêcher par exemple, la masse des fruits dépend non seulement des assimilats carbonés
produits par la photosynthèse des feuilles situées à proximité immédiate du fruit, mais aussi des
assimilats carbonés provenant de parties plus éloignées de l’arbre (Marini et Sowers, 1994). Chez le
manguier, de précédentes études suggèrent une autonomie partielle des charpentières et des
branches fruitières (Grechi et Normand, 2019), tandis que d’autres études suggèrent un échange de
carbone entre les différentes parties de l’arbre à un niveau global (Stassen et Janse van Vuuren,
1997). Cette étude a pour but d’évaluer comment les relations source-puits d’une échelle locale
(branche) à une échelle globale (arbre) affectent la croissance des fruits chez le manguier.
Étant donné les interactions entre les processus qui se produisent à différentes échelles, la
modélisation apparaît comme une approche méthodologique intégrative puissante pour aborder cette
question.
Une approche de modélisation sera développée et utilisée comme cadre d’intégration pour
analyser un ensemble de données acquises à différentes échelles. Ces données sont issues de
plusieurs expérimentations et mesures réalisées sur des manguiers (cv Cogshall) à la Réunion i) pour
quantifier les sources et puits de carbone de l’échelle locale des axes feuillés jusqu’à l’échelle
globale de l’arbre (topologie des branches et charpentières, caractérisation des axes feuillés et de
leur environnement lumineux, nombre et répartition des fruits dans l’arbre, croissance des fruits, etc) ;
ii) pour numériser l’architecture 3D de la partie aérienne d’un arbre adulte ; et iii) pour acquérir une
cartographie dynamique de la biomasse sèche et des sucres non structuraux dans les différents
compartiments d’arbres adultes au cours d’un cycle de production. Le cadre de modélisation
s’appuiera sur un modèle structure-fonction du manguier (V-Mango : Boudon et al 2020 ; Vaillant
et al., 2022) qui a été développé pour simuler le développement architectural de l’arbre et la production
de fruits. La version actuelle du modèle considère l’arbre comme un ensemble de branches fruitières
indépendantes. La modélisation de la croissance des fruits est basée sur un modèle d’allocation de
carbone paramétré à l’échelle individuelle des branches fruitières. En particulier, les échanges de
carbone des axes feuillés individualisés vers les fruits environnants utilisent une version simplifiée de
la fonction d’allocation basée sur la distance proposée dans des travaux antérieurs (Reyes et al.,
2020, Lescourret et al., 2011). Toutefois, ils restent limités à des échanges au sein de branches
fruitières indépendantes. Du point de vue de la modélisation, le défi consistera à définir un modèle multi-échelle de la structure de la plante et à formaliser les échanges de carbone à différentes
échelles (locale et globale). L’intensité des échanges dépendra de l’équilibre entre l’offre des sources
et la demande des puits, ainsi que des distances entre les organes. Pour cela, les méthodes
d’estimation des distances entre organes dans le graphe de l’arborescence seront adaptées pour
prendre en compte les informations multi-échelles.
L’approche intégrative s’appuyant sur V-Mango permettra d’étudier plus en profondeur les
processus liés au carbone, des axes feuillés à l’arbre entier, et de quantifier les effets des relations
source-puits, et d’autres facteurs structurels, environnementaux ou biotiques, sur l’hétérogénéité de
la masse des fruits à la récolte. L’intégration de ces connaissances et leur formalisation dans le
modèle V-Mango ouvrira un large éventail d’applications. En particulier, V-Mango sera mobilisé pour
quantifier in silico l’effet de certaines pratiques culturales ou de certains bio-agresseurs affectant les
sources ou les puits.
Sujet :
L’étudiant formalisera et étudiera les effets des relations source-puits d’une échelle locale (axes
feuillés, branche) à une échelle globale (arbre) sur la croissance des fruits en utilisant le modèle V-
Mango et les ensembles de données disponibles. V-Mango, basé sur Jupyter notebooks et Python,
est disponible sur un environnement de modélisation virtuel (vmango-lab ;
https ://github.com/fredboudon/vmango-lab) qui permet de travailler de manière distribuée et
collaborative. Plus spécifiquement, le travail de l’étudiant consistera en les tâches suivantes :
• Structuration des données pour les rendre facilement utilisables pour les applications de
modélisation. Les résultats expérimentaux et la description des architectures doivent être convertis
en une base de données structurelle et temporelle compatible avec une représentation multi-
échelle, en utilisant, par exemple, des graphes arborescents multi-échelles (MTG).
• Révision de la formalisation des processus liés au carbone de V-Mango :
– Extension de la fonction d’allocation basée sur la distance afin de prendre en compte les
relations multi-échelles pour l’allocation du carbone entre sources et puits.
– Optimisation du calcul des distances entre les organes en utilisant des relations multi-échelles.
– Intégration de nouveaux compartiments de réserve pour représenter les racines et le vieux bois.
• Recalibrage du modèle, en tenant compte du fait que le nombre d’organes, qui définissent les
compartiments pour la procédure d’allocation, peut varier au cours de la simulation.
• Analyse de sensibilité du comportement du modèle en utilisant des architectures de manguiers
observées et simulées :
– Évaluation de l’importance des différents paramètres du modèle.
– Quantification et comparaison des échanges de carbone à différentes échelles.
– Quantification des effets des relations source-puits, modifiés par des pratiques culturales ou
bio-agresseurs, sur la variabilité de la masse individuelle des fruits à la récolte.
Profil du candidat :
– Bonnes notions de modélisation et de programmation, et connaissance du langage Python
– Aptitude à travailler en équipe pluridisciplinaire (agronomes, informaticiens)
Formation et compétences requises :
– Niveau Master (Bac+5)
– Statisticien(ne)/informaticien(ne) avec un goût pour la biologie, ou agronome/éco-physiologiste
avec des connaissances solides en informatique et en statistiques
Adresse d’emploi :
Montpellier et la Réunion :
– Campus international de Baillarguet, 34398 Montpellier Cedex 5 France
– Station de Bassin-Plat BP 180 97455 Saint-Pierre cedex
Document attaché : 202310241137_Offre de stage Cirad 2024_Modélisation_FR.docx
