
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : MACLEAN/– — –
Laboratoire/Entreprise : LISTIC, University Savoie Mont-Blanc
Durée : 6 months
Contact : guillaume.ginolhac@univ-smb.fr
Date limite de publication : 2023-04-01
Contexte :
Domain Adaptation is a field of machine learning that consists of developing learning techniques with a different set of training and test data [Moreno-Torres et al., 2012]. This type of methods is
interesting because it allows either to strongly limit the training phase and thus achieve frugality, or to do supervised learning in domains with very little labeled data. A significant number of techniques are used to address this problem such as methods based on optimal transport [Courty et al., 2017]. On the other hand, Riemannian geometry has shown its interest in learning when the features used in classification are subject to constraints such as covariance matrices in EEG [Barachant et al., 2012]. Similarly, in a recent work, it has been shown that these mathematical tools are robust to transformations of the training data [Collas et al., 2022]. The performance loss is then very small if we
consider several features and their associated geometry.
Sujet :
We propose to apply more specifically the tools of Riemannian geometry to the problem of domain adaption. More particularly, we propose to study the interest of deep networks specific to covariance matrices and their associated layers. These networks are based on different Riemannian geometry tools and have shown good performances in computer vision. In particular, we will rely on the following papers [Li et al., 2017, Huang and Gool, 2017] proposing specific layers for covariance matrices. With the help of these papers, the work of the trainee will first consist in assessing the interest of these networks for domain adaptation.
Then we will develop new learning methods to study multivariate image time series in remote sensing. Specifically, we will adapt the networks used in [Rußwurm et al., 2020] by adding covariance matrix specific layers inspired by [Li et al., 2017, Huang and Gool, 2017]. The application goal is then to classify agricultural fields which is practically impossible without temporal information.
Finally, we will test the previously developed approaches on the dataset [pas, ] which contains time series of optical and SAR images over the same period. We will then be able to perform the learning phase on the optical images and measure the performance loss by applying our algorithms on the SAR data. Indeed, many optical data are labeled which is much rarer for SAR images because they are often a little noisier and a little more difficult to analyze for non-specialists. On the other hand, they are very interesting because they allow a better periodicity and give relevant information even at night or in the presence of clouds.
Profil du candidat :
Master/Engineering student with knowledge in statistics and machine learning (having followed courses on these topics is strongly advised). Good coding skills in Python.
Formation et compétences requises :
Master/Engineering student with knowledge in statistics and machine learning (having followed courses on these topics is strongly advised). Good coding skills in Python.
Adresse d’emploi :
LISTIC, Annecy, FRANCE
Document attaché : 202211071629_FrugalDomainAdaptationRADAR.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CIRAD, Equipe Phenomen
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2023-04-20
Contexte :
Le projet Sustain-Sahel (financement européen H2020) vise à évaluer l’effet des pratiques agro-forestières au Sahel afin de caractériser l’impact sur les cultures de la présence d’arbres. L’arbre et l’agro-foresterie sont considerés comme des leviers de la sécurité alimentaire face au changement climatique. Des séries temporelles d’imagerie aérienne de cultures agro-forestières ont été collectées par drone pour objectiver ces considérations. Ces images sont accompagnées de données tabulaires relevées sur le terrain (biomasse, surface foliaire, cycle annuel des variétés).
Sujet :
L’objectif du stage est d’entraîner des modèles convolutifs à séparer les sources (mauvaises herbes, cultures, arbres), pour modéliser la distribution spatio-temporelle de la végétation sur les parcelles cultivées en agro-foresterie. Dans ce but, le stagiaire aura la responsabilité de développer des outils automatiques d’analyse d’image et de modélisation. Il mobilisera des techniques de machine-learning, de deep learning et couplera les observations avec des modèles de mélange des cultures et de croissance des plantes.
Profil du candidat :
Master 2 ou école d’ingénieur. Ce stage est une opportunité accessible à des étudiant(e)s provenant d’une école en informatique, en modélisation mathématique, en analyse d’images. Le goût pour le travail en équipe à l’interface entre plusieurs disciplines (maths-info, écophysiologie, agro) sera nécessaire. Un interêt scientifique pour la modélisation des systèmes biologiques serait un plus.
Formation et compétences requises :
Le langage de programmation utilisé sera Python, en utilisant des outils de développement communautaire et de maintien logiciel (Github, Intégration Continue). Une connaissance préalable du fonctionnement des réseaux de neurones profonds (en particulier des réseaux convolutifs) est souhaitée. Une première expérience d’une bibliothèque de Deep Learning (PyTorch, Keras, TensorFlow, …) et de Machine learning (Scikit-learn) seraient un plus.
Adresse d’emploi :
Cirad Montpellier, 389 Av. Agropolis, 34980 Montferrier-sur-Lez.
Document attaché : 202211231203_Offre de stage M2 – Sustain Sahel.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CEA Grenoble
Durée : 6 mois
Contact : thomas.dalgaty@cea.fr
Date limite de publication : 2023-04-20
Contexte :
The candidate will develop graph neural networks for application to time-series data. In particular, there will be a focus on increasing the efficiency of the approach such that it is compatible with the energy and memory constraints of embedded systems.
Le candidat développera des réseaux neuronaux graphiques pour les appliquer à des séries de données temporelles. En particulier, il s’agira d’accroître l’efficacité de l’approche de manière à ce qu’elle soit compatible avec les contraintes d’énergie et de mémoire des systèmes embarqués.
Sujet :
Graph neural networks are an emerging method in artificial intelligence developed in order to apply deep learning techniques on graph structured data. Recently graph neural networks have been found to perform well in applications where images and video are represented as graphs and do so with impressive reductions in computational complexity and hardware requirements. The objective of this internship will be to apply and adapt these methods (under development in the LIIM laboratory) to time-series data (i.e., analogue signals recorded from sensors). In particular, the question of the how such as an algorithm can be adapted to run in real-time in an embedded system at the edge will be addressed. The M2 internship will be hosted by the LIIM laboratory, based at the Minatec campus in Grenoble. The start date is flexible, but expected to be in springtime 2023 and will last for 6 months. There is a possibility to follow-up the internship with a PhD for candidates that show promise. We are looking for a candidate with an interest in AI, embedded systems and electronic circuits as well as in doing upstream technological research. This is an advanced topic and the candidate will be required to develop their own ideas and research plan with the support of a team of three supervisors.
Les réseaux neuronaux graphiques sont une méthode émergente en intelligence artificielle, développée afin d’appliquer des techniques d’apprentissage profond sur des données structurées en graphes. Récemment, les réseaux de neurones graphiques se sont révélés performants dans des applications où les images et les vidéos sont représentées sous forme de graphes, et ce avec des réductions impressionnantes de la complexité de calcul et des exigences matérielles. L’objectif de ce stage sera d’appliquer et d’adapter ces méthodes (en cours de développement dans le laboratoire du LIIM) à des données de séries temporelles (c’est-à-dire des signaux analogiques enregistrés par des capteurs). En particulier, la question de savoir comment un tel algorithme peut être adapté pour fonctionner en temps réel dans un système embarqué à la périphérie sera abordée. Le stage de M2 sera accueilli par le laboratoire LIIM, basé sur le campus Minatec à Grenoble. La date de début est flexible, mais devrait être au printemps 2023 et durera 6 mois. Il y a une possibilité de suivre le stage avec un doctorat pour les candidats qui se montrent prometteurs. Nous recherchons un candidat ayant un intérêt pour l’IA, les systèmes embarqués et les circuits électroniques, ainsi que pour la recherche technologique en amont. Il s’agit d’un sujet avancé et le candidat devra développer ses propres idées et son plan de recherche avec le soutien d’une équipe de trois superviseurs.
Profil du candidat :
This is M2 internship for students following a degree in computer or electrical engineering.
Il s’agit d’un stage de M2 pour les étudiants suivant un diplôme en génie informatique ou électrique.
Formation et compétences requises :
This is M2 internship for students following a degree in computer or electrical engineering.
Il s’agit d’un stage de M2 pour les étudiants suivant un diplôme en génie informatique ou électrique.
Adresse d’emploi :
CEA Grenoble
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Equipe Phenomen / Cirad
Durée : 6 mois
Contact : christophe.pradal@inria.fr
Date limite de publication : 2023-04-20
Contexte :
Dans le cadre de la thèse de Cyrille Midingoyi et de l’initiative international AMEI (Agriculture Model Exchange Initiative), nous avons récemment développé le système de transformation de modèles,
Crop2ML (Crop Modelling Meta Language) (Midingoyi et al., 2020 ; 2021). Crop2ML permet la réutilisation et l’échange de composants de modèles entre plateformes de modélisation internationales (STICS, DSSAT, SimPlace, BioMA, APSIM et OpenAlea).
Ce système ouvert et transparent représente un changement important pour la communauté scientifique. Il permet de développer des composants de modèles en respectant les principes FAIR de la science ouverte (Findable, Accessible, Interoperable, Reusable).
Au sein de l’équipe Phenomen, nous avons plusieurs modèles de plante (Ecomeristem), et de cultures (Samara) qui pourraient être intégrer au sein de cette plateforme. Cependant avant que cela ne soit possible, il y a un besoin de recodage, notamment du modèle Samara, pour pouvoir faciliter sa modularisation et sa prise en main pour les chercheurs de l’équipe (France, Sénégal, Cambodge, Madagascar).
Samara est un modèle de culture qui simule la croissance et le développement d’une culture á l’échelle de la parcelle. La particularité de ce modèle repose sur l’inclusion explicite de la morphologie de la plante. Ainsi, la croissance des plantes et des organes n’est pas seulement limitée par l’assimilation du carbone (source ou offre), mais aussi par sa demande, qui correspond à la capacité des puits accumulée pour la croissance et la respiration au cours d’une journée donnée. Samara a été développé, il y a une quinzaine d’année, d’abord sous delphi, puis retraduit sur C++. Il y a maintenant un besoin de renouveau dans le code.
Sujet :
L’objectif de ce stage sera de retranscrire le code C++ de samara en code intégrable dans la plateforme Crop2ML.
Activité 1. Retranscrire le code C++ de samara en du code lisible pour tous, documenté et intégrable dans Crop2ML (CyML proche de Python).
Activité 2. Travailler sur la modularisation de Samara, via la mise en place d’un schéma conceptuel des différents processus modélisés du modèle.
Activité 3. Concevoir un environnement de modélisation utilisant Crop2ML permettant à des agronomes et éco-physiologistes non informaticiens de faire évoluer les sous-modèles.
Activité 4. Simulation et/ou optimisation du modèle à partir de données existantes et formation/transfert de la méthode auprès des utilisateurs.
Profil du candidat :
Ingénieur informaticien ou ingénieur agronome avec une aptitude á coder
Formation et compétences requises :
– Coder en Python et R. Connaissances en C++ utiles.
– Esprit logique et connaissance ou aptitude á comprendre les processus de croissance et développement de la plante.
– Capacité à interagir avec différentes disciplines, et instituts
Adresse d’emploi :
CIRAD Campus de Lavalette – Avenue Agropolis Montpellier
Document attaché : 202211232110_offre-stage-samara.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : SAMOVAR – Télécom SudParis
Durée : 6 mois
Contact : julien.romero@telecom-sudparis.eu
Date limite de publication : 2023-04-30
Contexte :
Job recommendation is the task of associating candidates with jobs. This can be useful for candidates who would like to find to best possible jobs, for companies that want to find the rarest talents in the vast pool of candidates, but also for independent recruiters who need to be as precise as possible when they send a resume to a company.
In this internship, you will work on a new dataset for job recommendations. Its particularity is that it contains much additional information about candidates and jobs we can represent as a graph. Besides, it is very sensitive to the cold start problem: We have many new candidates and new jobs, and it restricts a lot of the algorithms we can use.
If we consider video recommendations on Youtube, an average viewer watches many videos, and each video is viewed many times. Therefore, when recommending new videos to a specific user, we can look at what other similar viewers watched and recommend the most relevant video. This is the principle of collaborative filtering. In our case, our users are likely to get a job and never come back. Likewise, jobs are associated with one person, and then, we are done with it. Therefore, we need to exploit extra information to make the recommendation.
For our dataset, we can represent our pool of candidates and jobs with a heterogeneous graph, connecting candidates and jobs, but also additional node types like skills, cities, or employment types. Because we have this expressive representation, we must adapt the existing algorithms. During the internship, we will see how graph neural networks can be used to make recommendations, and we will propose a new architecture to solve our specific problem.
The goal of this internship will be to publish a paper at an international conference. The intern will work together with a Ph.D. student.
Sujet :
The intern will start with a study of the state-of-the-art methods for recommendation centered on graphs. First, they will get familiar with the traditional datasets and the primary baselines. Then, they will implement our new models and compare them with the previous works.
Profil du candidat :
The intern should be involved in a master’s program and have a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.
Formation et compétences requises :
The intern should be involved in a master’s program and have a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.
Adresse d’emploi :
The internship will take place at Telecom SudParis at Palaiseau. The intern will join the computer science department. The internship is paid and will last six months.
If you are interested, please send us your resume, a transcript of your grades, and a cover letter (in French or English).
Document attaché : 202303081609_internship_job_recommandation.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : SAMOVAR – Télécom SudParis
Durée : 6 mois
Contact : julien.romero@telecom-sudparis.eu
Date limite de publication : 2023-04-30
Contexte :
Given a text, it is possible to extract from it knowledge in the form of subject-predicate-object triples, where all components of the triples can be found in the text. This is called Open Information Extraction (OpenIE). For example, from the sentence “The fish swims happily in the ocean”, we can extract the triple (fish, swims, in the ocean). By gathering many of these statements, we obtain an Open Knowledge Base (OpenKB), with no constraints on the subjects, the predicates, and the objects.
Then, this OpenKB could be used for question answering (QA). There have been many approaches that target QA over non-open KBs. These approaches vary from crafting query templates that, once filled in, will be used to query the KB, to neural models, where the goal is to represent the question and the possible answers as latent vectors, where the correct answer should be close in the embedding space to the question. In this project, we will focus on neural models, particularly knowledge graph embeddings, i.e., continuous representations for the entities and relations that can generally capture relevant information about the graph’s structure.
The current way KB embeddings are computed raises two main challenges:
* Each entity and relation must be seen enough times during training so the system can learn relevant embeddings. The training is done taking edges information into account, so the entity or relation must be part of a sufficiently large number of edges.
* The textual representation of the verbal and noun phrases of the relations, subjects, and objects should be considered.
For example, a recent approach, MHGRN, computes embeddings by using a modified graph neural network architecture. This architecture, however, does not take into account the textual representation of relations.
A better approach is CARE, that relies on two main ideas. First, it clusters the subjects and objects and creates an unlabelled edge between entities in the same cluster. That partially reduces the problem of the entities connected to a small number of edges, by leveraging the connection with better connected entities. Then, it computes embeddings for the relations using GLOVE (word embeddings) and GRUs (recurrent neural networks). We believe that the approach in CARE could be improved by considering more modern neural architectures using message-passing algorithms and integrating the textual representation of predicates, objects, and subjects. In addition, we will investigate if the clustering step is necessary, as it can bring a bias for one important downstream application of KB embeddings: canonicalization, the task of finding a representative for a set of nodes or edges.
In this project, we will improve open KB embedding methods by:
* Exploring state-of-the-art neural architectures and language models.
* Integrating textual representations of the subject, predicate, and object.
* Investigating if clustering before embedding computation is necessary.
* Integrating embeddings into question-answering models.
Sujet :
The intern will start with a study of the state-of-the-art methods for OpenIE. First, they will get familiar with the traditional datasets and the primary baselines. Then, they will implement our new models and compare them with the previous works.
Profil du candidat :
The intern should be involved in a master’s program and have a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.
Formation et compétences requises :
The intern should be involved in a master’s program and have a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.
Adresse d’emploi :
The internship will take place at Telecom SudParis at Palaiseau and will be a collaboration with INRIA Saclay. The intern will join the computer science department. The internship is paid and will last six months.
If you are interested, please send us your resume, a transcript of your grades, and a cover letter (in French or English).
Document attaché : 202303081615_internship_openie.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Greyc/Skriners
Durée : 6 mois
Contact : albrecht_zimmermann@gmx.net
Date limite de publication : 2023-04-30
Contexte :
L’utilisation de méthodes informatiques pour analyser les données sportives donne aux praticiens (entraîneurs, agents, athlètes eux-mêmes) des outils puissants pour prendre des décisions plus objectives lorsqu’il s’agit d’une variété de questions qui se posent dans le sport
professionnel.
La société Skriners propose déjà un outil d’aide à la décision pour l’acquisition ou le remplacement de joueurs, basé sur des statistiques sophistiquées dérivées d’enregistrements vidéo de matchs. Skriners est un logiciel SaaS destiné aux professionnels du sport, qui leur permet de comparer, recommander et gérer des joueurs en fonction de critères statistiques.
Grâce à sa base de données complète, Skriners peut également aider à dénicher des talents prometteurs. Le logiciel propose également une fonctionnalité de gestion d’effectifs. Cette aide à la décision se limite pour l’instant aux joueurs individuels, sans tenir compte des coéquipiers ni des informations éventuelles sur les adversaires.
À long terme, l’outil doit être enrichi pour suggérer automatiquement des compositions d’équipe, sur la base des joueurs disponibles, de la stratégie de match envisagée, des informations sur l’équipe adverse, etc. Cela nécessitera de prendre en compte les synergies entre les
joueurs, ainsi que les performances de certains joueurs dans des systèmes défensifs ou offensifs donnés.
Sujet :
Le travail à effectuer dans le cadre de ce stage jettera les bases de cette recherche future, en explorant si et comment les travaux existants sur la chimie des équipes [1], le contexte de la performance des joueurs [2], et l’identification automatique des formations tactiques [3] peuvent être appliqués aux données actuellement disponibles à Skriners. Sur la base de cette évaluation, le stagiaire commencera à implémenter et à appliquer ces techniques aux données afin d’obtenir des statistiques supplémentaires, ou identifiera la manière dont les données et/ou
les méthodes doivent être adaptées.
[1] Bransen, Lotte, and Jan Van Haaren. “Player chemistry: Striving for a perfectly balanced soccer team.” arXiv preprint arXiv:2003.01712 (2020).
[2] Bransen, Lotte, Pieter Robberechts, Jesse Davis, Tom Decroos, Jan Van Haaren, Angel Ric, Sam Robertson, and David Sumpter. “How does context affect player performance in football?.” (2020).
[3] Bialkowski, A., Lucey, P., Carr, P., Yue, Y., Sridharan, S. and Matthews, I., 2014, December. Large-scale analysis of soccer matches using spatiotemporal tracking data. In 2014 IEEE international conference on data mining (pp. 725-730). IEEE.
Objectifs
– Évaluer l’applicabilité des méthodes existantes aux données disponibles à Skriners
– Évaluer les besoins et les sources possibles de données supplémentaires
Activités
– Se familiariser avec les données dont dispose Skriners
– Se familiariser avec les travaux existants dans la littérature
– Identifier s’il existe des données qui seraient nécessaires mais qui sont actuellement manquantes
– Implémenter et appliquer les méthodes existantes aux données, en générant des statistiques supplémentaires
– Identifier des sources de données supplémentaires
Profil du candidat :
Étudiant en INFORMATIQUE ou en STATPS.
Les candidats sont encouragés à postuler dès que possible.
Formation et compétences requises :
Des connaissances en programmation, ainsi qu’en apprentissage automatique/exploitation de données ou en statistiques sont nécessaires.
Adresse d’emploi :
GREYC CNRS UMR 6072
Team CODAG – Contraintes, Ontologies, Data mining, Annotations, Graphes
Université de Caen Normandie
14000 Caen, France
Skriners
38 rue de Metz
92000 Nanterre
Document attaché : 202303291007_sujet de stage Skriners.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIP6 (Sorbonne Université / CNRS)
Durée : 6 months
Contact : lionel.tabourier@lip6.fr
Date limite de publication : 2023-05-30
Contexte :
PPI (protein-protein interaction) networks represent interactions between proteins within a living organism. PPI network maps are incomplete because checking the existence of each relationship demands specific experiments, it is therefore desirable to have means to select the most probable interactions. Recent works brought to light the fact that link prediction approaches are relevant to detect interactions between proteins.
Sujet :
The approaches in question are unsupervised, however there exist supervised methods which have been designed for analogous problems in other contexts. We think that it is possible to adapt such methods to the context of PPI networks. By defining adequate graph features – particularly specific graph motifs – in order to achieve the learning, it would be possible to improve significantly the predictive power of these methods. The purpose of the internship is to design and apply such prediction methods.
The developed methods will be trained and validated using several networks comprised of 5 000 – 18 000 proteins (nodes) establishing between 20 000 and more than 2 million experimentally validated interactions (edges) coming from reference PPI resources, namely the STRING database, the BioGRID, and the Human Reference Interactome.
Profil du candidat :
This internship is preferably directed at Master 2 students with a background in computer science or bioinformatics.
Formation et compétences requises :
Good coding skills are requested for the internship, knowledge of a widely-used language in learning, such as python, is preferable but not mandatory. An open-mind to interdisciplinary applications is certainly a plus.
Adresse d’emploi :
LIP6, 4 Place Jussieu, 75005 Paris
Document attaché : 202302081543_Stage_Link_Pred.pdf
Offre en lien avec l’Action/le Réseau : – — –/Innovation
Laboratoire/Entreprise : The candidate will be either located at CRAN, Nanc
Durée : up to 6 months
Contact : zniyed@univ-tln.fr
Date limite de publication : 2023-05-30
Contexte :
Many imaging applications rely on the acquisition, processing and analysis of 3D or 4D vectorial data pixels: this includes notably color imaging (red, blue and green channels) or polarimetric imaging (4D Stokes parameters at each pixel). Such multichannel data is often represented using quaternions – a generalization of complex numbers in four dimensions – in order to simplify expressions and leverage unique geometric and physical insights offered by this algebraic representation. Therefore, datasets of color or polarimetric images can be viewed as a collection of quaternion-valued matrices, which form multidimensional quaternion arrays – also called quaternion tensors.
Sujet :
The aim of this internship is to demonstrate the potential of quaternion tensor decompositions for learning features from databases of color and polarimetric images. Quaternion tensor decompositions have only been introduced recently [1]. They generalize usual tensor decompositions
[2] to the quaternion field. The candidate will take advantage of the algorithms proposed in [1]. He / she will focus on two main cases of uses of quaternion tensor decompositions (Canonical Polyadic and Tucker) to
1. learn features from a standard color image database (such as ImageNET)
2. perform source separation on polarimetric hyperspectral data
One key complementary objective will be to benchmark performances of quaternion tensor decompositions
against standard real-domain tensor decompositions.
Profil du candidat :
The candidate should have good writing and oral communication skills.
Formation et compétences requises :
He/she should be enrolled in a M1/M2R or engineer diploma in one or more of the following fields: signal and image processing, machine learning, applied mathematics.
Adresse d’emploi :
Depending on his/her preferences, the candidate will be either located at CRAN, Nancy or either at LIS, Seatech, Toulon.
Document attaché : 202302081818_projet.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRIMAS
Durée : 6 mois
Contact : thomas.josso-laurain@uha.fr
Date limite de publication : 2023-06-01
Contexte :
Le stage proposé s’inscrit dans le contexte actuel des véhicules autonomes. De nos jours, la perception de l’environnement autour du véhicule représente encore un verrou scientifique. Cette information est primordiale pour la planification de la trajectoire à suivre, et une erreur peut très vite coûter des vies. La perception de l’environnement peut se décomposer en deux tâches hiérarchiques : la détection des zones d’intérêt et l’analyse de la scène perçue. Ce stage se focalise sur l’analyse et l’interprétation de la scène. Une fois les zones d’intérêt détectées, il s’agira de définir le contour des potentiels obstacles (bounding boxes) ainsi que de définir la nature de ces obstacles (notamment leur caractère mobile ou non) et les caractériser (taille, vitesse…).
Avec l’augmentation du nombre de capteurs de différente nature (caméra RGB, caméra plénoptique, lidar 2D, lidar 3D, radar, etc.), il convient d’opérer une fusion de ces informations hétérogènes afin de tirer profit de ce que chaque source a à offrir. Cette fusion peut être réalisée par des approches basées sur des modèles exprimés selon différents formalismes : la fusion probabiliste [1] ou la fusion évidentielle [2].
Avec l’émergence des puissances de calcul et de l’intelligence artificielle, de nombreuses approches basées données ont été développées pour performer les tâches de perception [3], souvent d’après les informations issues d’une unique caméra RGB. D’un côté, certains travaux intègrent désormais le formalisme évidentiel à des réseaux mono-capteur [4] voire multi-capteurs. D’autres fusionnent les données au sein de réseaux de neurones selon différentes architectures [5].
L’objectif de ce stage est de développer des systèmes de perception basés sur les réseaux de neurones intégrant une couche de fusion de données évidentielle. Le cadre applicatif sera le véhicule autonome du laboratoire IRIMAS avec ses capteurs intégrés.
Sujet :
Le/la stagiaire aura pour objectifs de faire un état de l’art sur la fusion de données, et particulièrement l’approche évidentielle, appliquée à la perception des véhicules autonomes. En parallèle, les Réseaux de Neurones Convolutifs (CNN) utilisés dans ce même cadre applicatif de la classification d’obstacles, seront étudiés.
En s’inspirant du travail de [4], il s’agira de mettre en place une structure neuronale permettant la fusion de plusieurs capteurs avec l’introduction de la théorie évidentielle. Dans un premier temps, le réseau de neurones sera choisi en accord avec l’application. Puis la méthode de fusion (pré-fusion, post-fusion ou cross-fusion) sera discutée. Enfin, des couches du réseau seront spécialement conçues pour intégrer l’approche évidentielle. Le modèle sera entraîné sur des datasets publics ou internes au laboratoire. Les résultats de classification de ce réseau de neurones évidentiel multi-capteurs seront analysés. L’ensemble des travaux de recherche réalisé par le/la stagiaire donnera lieu à des publications scientifiques pour des conférences internationales et/ou des journaux à facteur d’impact.
Profil du candidat :
Etudiant-e en dernière année d’Ecole d’ingénieur ou en Master 2, de formation Automatique, Systèmes Embarqués, Electronique, Informatique.
Formation et compétences requises :
Des bonnes compétences en programmation sont attendues. Une expérience de système réel, ou la connaissance de la théorie évidentielle, seront des plus.
Adresse d’emploi :
L’intégralité du stage se déroulera à IRIMAS, au sein du Département ASI (Automatique Signal Image) et plus précisément dans l’équipe MIAM (Modélisation Identification Automatique et Mécanique) de l’Université de Haute Alsace, à Mulhouse (France). Ce stage est financé par l’ANR JCJC EviDeep.
Pour toute demande d’information supplémentaire ou pour candidater, merci d’envoyer CV, résultats de Master/ingénieur et lettre de motivation avant le 01/01/2023. Pour des raisons sanitaires, nous n’accepterons que des candidatures issues d’étudiant(e)s actuellement en études supérieurs sur le sol français.
Document attaché : 202211171434_Master_internship_AV_2022.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LaMcube et CRIStAL
Durée : 6 mois
Contact : philippe.preux@univ-lille.fr
Date limite de publication : 2023-08-31
Contexte :
Dans le cadre d’une collaboration entre l’UMR CRIStAL et l’UMR LaMcube à l’Uiversité de Lille, nous recherchons un stagiaire de M2 ou 3è année ingénieur pour réaliser un stage sur l’utilisation de l’apprentissage par renforcement au test mécanique de matériaux.
Sujet :
voir document attaché.
Profil du candidat :
M2 (ou ingénieur) informatique ou M2 (ou ingénieur) mécanique avec de fortes compétences en informatique.
Formation et compétences requises :
M2/ingénieur informatique
M2/ingénieur en mécanique
Adresse d’emploi :
Bâtiment Esprit
Cité Scientifique
Villeneuve d’Ascq
Document attaché : 202303211425_RL_intern_CRIStAL_LAMCUBE.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : SAMOVAR – Télécom SudParis
Durée : 6 mois
Contact : romerojulien34@gmail.com
Date limite de publication : 2023-09-02
Contexte :
Given a text, it is possible to extract from it knowledge in the form of subject-predicate-object triples, where all components of the triples can be found in the text. This is called Open Information Extraction (OpenIE). For example, from the sentence “The fish swims happily in the ocean”, we can extract the triple (fish, swims, in the ocean). By gathering many of these statements, we obtain an Open Knowledge Base (OpenKB), with no constraints on the subjects, the predicates, and the objects.
Then, this OpenKB could be used for question answering (QA). There have been many approaches that target QA over non-open KBs. These approaches vary from crafting query templates that, once filled in, will be used to query the KB, to neural models, where the goal is to represent the question and the possible answers as latent vectors, where the correct answer should be close in the embedding space to the question~cite{bordes2014question}. In this project, we will focus on neural models, particularly knowledge graph embeddings, i.e., continuous representations for the entities and relations that can generally capture relevant information about the graph’s structure.
The current way KB embeddings are computed raises two main challenges:
* Each entity and relation must be seen enough times during training so the system can learn relevant embeddings. The training is done taking edges information into account, so the entity or relation must be part of a sufficiently large number of edges.
* The textual representation of the verbal and noun phrases of the relations, subjects, and objects should be considered.
For example, a recent approach, MHGRN, computes embeddings by using a modified graph neural network architecture. This architecture, however, does not take into account the textual representation of relations.
A better approach is CARE, that relies on two main ideas. First, it clusters the subjects and objects and creates an unlabelled edge between entities in the same cluster. That partially reduces the problem of the entities connected to a small number of edges, by leveraging the connection with better connected entities. Then, it computes embeddings for the relations using GLOVE (word embeddings) and GRUs (recurrent neural networks). We believe that the approach in CARE could be improved by considering more modern neural architectures using message-passing algorithms and integrating the textual representation of predicates, objects, and subjects. In addition, we will investigate if the clustering step is necessary, as it can bring a bias for one important downstream application of KB embeddings: canonicalization, the task of finding a representative for a set of nodes or edges.
In this project, we will improve open KB embedding methods by:
* Exploring state-of-the-art neural architectures and language models.
* Integrating textual representations of the subject, predicate, and object.
* Investigating if clustering before embedding computation is necessary.
* Integrating embeddings into question-answering models.
Sujet :
Given a text, it is possible to extract from it knowledge in the form of subject-predicate-object triples, where all components of the triples can be found in the text. This is called Open Information Extraction (OpenIE). For example, from the sentence “The fish swims happily in the ocean”, we can extract the triple (fish, swims, in the ocean). By gathering many of these statements, we obtain an Open Knowledge Base (OpenKB), with no constraints on the subjects, the predicates, and the objects.
Then, this OpenKB could be used for question answering (QA). There have been many approaches that target QA over non-open KBs. These approaches vary from crafting query templates that, once filled in, will be used to query the KB, to neural models, where the goal is to represent the question and the possible answers as latent vectors, where the correct answer should be close in the embedding space to the question~cite{bordes2014question}. In this project, we will focus on neural models, particularly knowledge graph embeddings, i.e., continuous representations for the entities and relations that can generally capture relevant information about the graph’s structure.
The current way KB embeddings are computed raises two main challenges:
* Each entity and relation must be seen enough times during training so the system can learn relevant embeddings. The training is done taking edges information into account, so the entity or relation must be part of a sufficiently large number of edges.
* The textual representation of the verbal and noun phrases of the relations, subjects, and objects should be considered.
For example, a recent approach, MHGRN, computes embeddings by using a modified graph neural network architecture. This architecture, however, does not take into account the textual representation of relations.
A better approach is CARE, that relies on two main ideas. First, it clusters the subjects and objects and creates an unlabelled edge between entities in the same cluster. That partially reduces the problem of the entities connected to a small number of edges, by leveraging the connection with better connected entities. Then, it computes embeddings for the relations using GLOVE (word embeddings) and GRUs (recurrent neural networks). We believe that the approach in CARE could be improved by considering more modern neural architectures using message-passing algorithms and integrating the textual representation of predicates, objects, and subjects. In addition, we will investigate if the clustering step is necessary, as it can bring a bias for one important downstream application of KB embeddings: canonicalization, the task of finding a representative for a set of nodes or edges.
In this project, we will improve open KB embedding methods by:
* Exploring state-of-the-art neural architectures and language models.
* Integrating textual representations of the subject, predicate, and object.
* Investigating if clustering before embedding computation is necessary.
* Integrating embeddings into question-answering models.
Profil du candidat :
The intern should be involved in a master’s program and have a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.
Formation et compétences requises :
The intern should be involved in a master’s program and have a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.
Adresse d’emploi :
Palaiseau
Document attaché : 202302091340_internship_openie-1.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIRIS
Durée : 5-6 mois
Contact : hamida.seba@univ-lyon1.fr
Date limite de publication : 2023-11-13
Contexte :
Pour plusieurs applications du monde réel, identifier des motifs qui ne se conforment pas à une activité normale est une question fondamentale pour garantir une prestation de service correcte ainsi que la sécurité et la fiabilité du système [1]. C’est principalement le cas pour des applications de surveillance et de suivi telles que la vidéosurveillance, la surveillance médicale, la détection de logiciels malveillants, la détection de fraudes financières, etc. Un motif anormal est appelé anomalie ou valeur aberrante. Une anomalie est généralement définie comme un motif comportemental qui s’écarte significativement de la plupart des motifs comportementaux du système surveillé et apparaît dans une proportion significativement plus petite que celle des motifs normaux. Avec l’explosion des quantités de données à traiter pour ce genre d’applications, le recours aux modèles d’apprentissage et en particulier l’apprentissage profond est devenu inévitable dans ce domaine.
Sujet :
Durant ce stage, nous nous intéressons aux modèles d’apprentissage capables de traiter des données complexes multi-sources et hétérogènes sur les clients d’une entreprise de location d’ordinateurs personnels (MacBook & iPad) :
• données contrôlées communiqués par le client (nom, prénom, adresses (facturation, livraison), tel, mail)
• données informatique extraites de la connexion internet du client (IP)
• données bancaires
• données issues de blacklists
• données socio-démographiques issues de l’INSEE
Le but de l’analyse de ces données est de réaliser un profiling plus « fair » (sans critères socio-discriminants) de clients qui permettra de prévenir les défauts de paiement. L’approche proposée est la construction de graphes de connaissances ego-centriques [2] profilons (profilant ???) les clients et permettant de représenter toutes les informations les concernant. Ensuite, il s’agira de se baser sur cette représentation pour détecter toute anomalie qui peut engendrer un défaut de paiement. Cette représentation basée sur des graphes de connaissances nécessitera d’utiliser et/ou de concevoir des modèles d’apprentissage adaptés [3, 4]. Le stagiaire commencera par effectuer un état de l’art sur la problématique ainsi que sur les modèles d’apprentissage existants. Il mettra ensuite en place la solution la plus adaptée aux données considérées durant le stage.
Ce stage pourra se poursuivre avec une thèse CIFRE.
Profil du candidat :
Compétences avancées (niveau M2) en informatique (en particulier en apprentissage machine fortement souhaitées).
Formation et compétences requises :
Data science, machine learning
Adresse d’emploi :
LIRIS, Université Lyon 1
Document attaché : 202311131510_LIRISHOPLIZ Sujet de stage.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ERIC
Durée : 5-6 mois
Contact : mohamed-lamine.messai@univ-lyon2.fr
Date limite de publication : 2023-11-30
Contexte :
Calcul multipartie sécurisé (MPC), BI sécurisée
Sujet :
La sécurité des données est un sujet crucial dans la plupart des applications informatiques actuelles. Le projet ANR BI4people (https://eric.univ-lyon2.fr/bi4people/) vise à développer un système de business intelligence (BI) accessible à des utilisateurs novices. Un des enjeux importants de ce projet est de garantir la confidentialité des données utilisateurs. Le sujet du stage proposé s’inscrit dans ce cadre.
Une analyse du problème de la confidentialité des données a été réalisée au cours de la première partie de ce projet. Les cryptosystèmes homomorphes (Homomorphic encryption) permettant d’effectuer des calculs sur des données cryptées sont particulièrement adaptés à cette problématique. Une étude approfondie de ces outils et de leur implémentation a été réalisée [1].
L’objectif de ce stage est de proposer différents scenarii, de les analyser et de les implémenter en utilisant les cryptosystèmes homomorphes les plus adaptés. Plus précisément, vous serez impliqué(e) dans les activités suivantes :
1. Découverte des cryptosystèmes homomorphes et prise en main des bibliothèques analysées au début du projet [1].
2. Étude des protocoles de calcul multipartie sécurisé : Vous explorerez les différents protocoles de MPC, en vous concentrant sur leur applicabilité dans le contexte du projet BI4people [2].
3. Développement de scénarii de BI collaborative et construction de protocoles de calcul multi-parties pour les sécuriser [3].
4. Évaluation des performances et de la sécurité de ces protocoles en termes de temps de calcul, d’utilisation des ressources
5. Analyse de sécurité de ces protocoles pour évaluer les vulnérabilités potentielles et proposer des mesures d’amélioration.
6. Intégration dans le projet BI4people : Vous travaillerez en étroite collaboration avec les autres membres de l’équipe du projet BI4people, en participant aux réunions et en partageant les résultats et les avancées de votre recherche.
– Merci d’adresser, avant le 31 décembre 2023, votre candidature avec un CV, une lettre de motivation, ainsi que vos notes de l’année universitaire en cours et de l’année dernière à mohamed-lamine.messai@univ-lyon2.fr et gerald.gavin@univ-lyon1.fr
Références
[1] T. V. T Doan, M-L. Messai, G. Gavin & J. Darmont. A survey on implementations of homomorphic encryption schemes. The Journal of Supercomputing, 2023, p. 1-42.
[2] Y. Wu, X. Wang, W. Susilo, G. Yang, Z. L. Jiang, S. M. Yiu, & H. Wang. Generic server-aided secure multi-party computation in cloud computing. Computer Standards & Interfaces, 2022, vol. 79, p. 103552.
[3] Tran, H. Y.. Privacy-preserving schemes for electricity data analytics in smart grids. 2023. Thèse de doctorat. UNSW Sydney.
Profil du candidat :
Profil du/de la stagiaire : Compétences avancées (niveau M2) en informatique.
Formation et compétences requises :
sécurité informatique, cryptographie fortement souhaitées). Compétences en programmation (par exemple, Python).
Adresse d’emploi :
5 Av. Pierre Mendès France, 69500 Bron
Document attaché : 202310021456_Stage de Master 2 (5-6 mois).pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Hydrosciences Montpellier
Durée : 6 mois
Contact : sarah.valentin@cirad.fr
Date limite de publication : 2023-11-30
Contexte :
Ce stage s’inscrit dans le cadre et du projet CECC (Cycle de l’Eau et Changements Climatiques) en collaboration avec le projet TipHyc (Tipping points in the West African Hydrological
Cycle), portant sur les changement de régimes hydrologiques en Afrique de l’Ouest. Il s’agit de mobiliser des méthodes informatiques afin d’extraire des connaissances à partir de données textuelles.
Sujet :
Cette offre de stage vise à mobiliser des techniques de fouille de texte afin d’extraire des informations pertinentes à partir de gros volumes de données textuelles spécialisées (articles scientifiques et rapport techniques). Vous évaluerez des méthodes d’identification automatique de connaissances sur les changements d’occupation ou d’usage des sols et leurs processus en Afrique de l’Ouest. Vous analysez les résultats afin de comprendre la distribution statistique de ces connaissances. Le stage se déroulera sur une période de 6 mois, à compter de février 2024 au sein de l’UMR HSM (Hydrosciences Montpellier), sur le site de la faculté de Pharmacie.
Profil du candidat :
Master Informatique, Sciences des données, TALN
Formation et compétences requises :
– Formation en informatique,
– Bonne maîtrise du langage de programmation Python,
– Connaissances en fouille de données et/ou apprentissage automatique voir traitement automatique
du langage,
– Maîtrise de l’anglais écrit,
– Intérêt pour les applications socio-environnementales et le travail interdisciplinaire
Adresse d’emploi :
Hydrosciences
15 Av. Charles Flahault, 34093 Montpellier Cedex 05
Document attaché : 202310161420_stage_fouille_de_donnees_HSM_TETIS-1.pdf
Offre en lien avec l’Action/le Réseau : RoCED/– — –
Laboratoire/Entreprise : LISTIC (Annecy) or L2S (Paris)
Durée : 4-6 months
Contact : guillaume.ginolhac@univ-smb.fr
Date limite de publication : 2023-11-30
Contexte :
In machine learning problems, it is well known that it is unwise to apply classification algorithms directly to large-scale data because of the curse of high dimensionality. To solve this problem, a popular solution is to look for a new data space with a lower dimension, while keeping a good representation of the data. The most common tool is the simple PCA algorithm, which works very well in most applications. Nevertheless, this algorithm can fail, especially when the data is very complex and/or belongs to a large number of classes. Thanks to supervised approaches, new algorithms, known as auto-encoders, have been developed to solve this problem. Numerous architectures have been proposed in recent years, particularly for vector data. There are still architectures to be built, especially when the data are not vectors. In particular, this internship will focus on covariance matrices which have the property of being Symmetric Positive Definite (SPD). Covariance matrices combined with Riemannian geometry [Boumal, 2023] have enabled the development
of high-performance machine learning algorithms on EEG [Barachant et al., 2012] or remote sensing data [Collas et al., 2022]. Moreover, these algorithms have shown good robustness in the presence of labeling errors or shits between training and test data. The application of this internship concerns the analysis of time series from remote sensing data. These data obviously have the characteristics discussed above, in particular they often suffer from large datashifts between training and test (due to strong correlated noise, class variability, …). In addition, the various frameworks proposed in the literature have shown that covariance matrices are good features for classification. The work will focus on the following datasets [Rußwurm et al., 2020,
Sainte Fare Garnot et al., 2022].
Sujet :
Seminal work has been done to build a deep learning SPD architecture [Li et al., 2017, Huang and Gool, 2017] by developing specific layers for covariance matrices. These networks are based on various Riemannian geometry tools and have shown good performance in computer vision. With the help of these
articles, the first task of the internship will be to develop an SPD auto-encoder adapted to covariance matrices.
Our goal is then to develop new learning methods for studying multivariate image time series in remote sensing, more precisely multispectral images containing several frequencies. The main
objective of the application is to classify agricultural fields, which is practically impossible without temporal information, as shown in Fig. 1. More specifically, we will adapt the networks used
in [Rußwurm et al., 2020] by adding the developed auto-encoder, which should enable to maintain performances with a training set of reduced size. Finally, we will focus on the dataset [Sainte Fare Garnot et al., 2022], which contains time series
of optical and SAR images over the same period. Our goal will then be to adapt the previously developed approach to SAR RADAR data. Indeed, these data are very interesting in that they provide better periodicity and relevant information even at night or in the presence of clouds. However, the properties of SAR images are more complex than those of multispectral images, as they are much noisier and more difficult for non-specialists to analyze.
Profil du candidat :
Master/Engineering student with knowledge in statistics and machine learning (having followed courses on these topics is strongly advised). Good coding skills in Python.
Formation et compétences requises :
Master/Engineering student with knowledge in statistics and machine learning (having followed courses on these topics is strongly advised). Good coding skills in Python.
Adresse d’emploi :
L2S laboratory in CentraleSupelec, Paris and/or LISTIC laboratory in Univ. Savoie Mont-Blanc, Annecy.
Document attaché : 202310020838_Stage_Autoencodeur_SPD.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CEA
Durée : 6 mois
Contact : etienne.thevenot@cea.fr
Date limite de publication : 2023-11-30
Contexte :
La métabolomique par spectrométrie de masse (LC-MS) est une technologie puissante en santé pour découvrir de nouveaux marqueurs permettant de prédire la survenue d’une maladie ou la réponse à un traitement. Les données LC-MS, composées de deux dimensions (masse et temps de rétention des molécules), sont de grande taille, parcimonieuses et bruitées. Leur prétraitement (détection et quantification des signaux) est une étape clé. Les algorithmes existants (par transformée en ondelette continue dans les deux dimensions successivement [1]), génèrent de nombreux faux positifs et négatifs. Ces dernières années, l’apparition des approches d’apprentissage profond ouvre de nouvelles perspectives de traitement des données MS plus robustes directement à partir des données 2D [2].
[1] Tautenhahn,R. et al. (2008) Highly sensitive feature detection for high resolution LC/MS. BMC Bioinformatics, 9, 504.
[2] Skarysz et al. (2018) Convolutional neural networks for automated targeted analysis of raw gas chromatography-mass spectrometry data. International Joint Conference on Neural Networks (IJCNN).
Sujet :
L’objectif du stage est de développer de nouvelles architectures profondes pour la détection et la quantification de l’ensemble des signaux et motifs présents dans les données d’un échantillon biologique. La première partie (traitement du signal et des images) sera consacrée à la construction de la base d’entraînement pour étiqueter les signaux connus dans les données disponibles au laboratoire. Des approches de simulation réalistes seront mises en œuvre pour augmenter la base d’apprentissage. La seconde partie (apprentissage profond) portera sur le développement d’architectures multitâches pour la segmentation de nuages de points, la détermination de contours, et le regroupement de signaux associés (e.g. par des mécanismes d’attention). L’ensemble des algorithmes seront implémentés en Python et appliqués au traitement des données de cohortes cliniques.
Profil du candidat :
Nous recherchons un.e candidat.e avec un très bon dossier en mathématiques appliquées (traitement d’images, statistiques, informatique), et motivé.e par les applications multidisciplinaires (chimie, physique, biologie). Le master pourra se prolonger par une thèse.
Formation et compétences requises :
traitement d’images, deep learning
Adresse d’emploi :
Lieu du stage : Le stage s’effectuera au centre CEA de Saclay, dans l’équipe science des données métabolomiques (Unité Médicaments et Technologies pour la Santé ; https://odisce.github.io), en partenariat avec l’équipe imagerie génétique (NeuroSpin ; https://brainomics.org).
Durée du stage : 6 mois à partir de mars 2024
Date limite de candidature : 30 novembre 2023
Contact : Merci d’adresser votre candidature (CV détaillé, lettre de motivation, notes de licence et master et nom de deux référents) à :
Etienne Thévenot (etienne.thevenot@cea.fr)
Equipe sciences des données (https://odisce.github.io)
Unité Médicaments et Technologies pour la Santé
CEA, Centre de Saclay, F-91191 Gif sur Yvette, France
Document attaché : 202309211124_230914_stage_M2_cea_ai-ms_EThevenot.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : MaIAGE – INRAE et AgroParisTech Saclay
Durée : 6 mois
Contact : claire.nedellec@inrae.fr
Date limite de publication : 2023-12-07
Contexte :
Contacts : claire.nedellec@inrae.fr, vincent.guigue@agrosparistech.fr, nicolas.sauvion@inrae.fr
Les phytoplasmes sont des bactéries qui causent des maladies d’arbres fruitiers dont les impacts économiques sont très importants en Europe [Hadidi et al., 2011]. Ces bactéries pathogènes s’attaquent à différents types de plantes de la famille des rosacées (Prunus, pommiers et poiriers). Les bactéries peuvent être transmises d’une plante à l’autre par des insectes piqueurs suceurs, des psylles du genre Cacopsylla. Ces bactéries et leurs insectes vecteurs sont endémiques en Europe. Ils sont largement présents dans les vergers ainsi que dans les habitats sauvages, ce qui limite leur contrôle et, par conséquent l’endiguement des maladies dont ils sont responsables. Les psylles vecteurs sont aujourd’hui contrôlés principalement par des insecticides, mais l’évolution des pratiques agricoles pourraient être, voire sont déjà, la source de nouvelles émergences de maladies. En effet, la réduction de l’utilisation des pesticides en accord avec le plan EcoPhyto en France et les nouvelles réglementations européennes moins contraignantes en terme de surveillance facilite leur dissémination.
Les efforts de la recherche pour mieux comprendre la biologie et l’écologie des psylles vecteurs (ou potentiellement vecteurs) de phytoplasmes visent à proposer de nouveaux moyens d’anticipation et de contrôle du risque épidémiologique. Malgré ces travaux, la connaissance des interactions biologiques de ces bactéries, insectes et plantes est incomplète et mal établie, notamment en raison du très grand nombre de publications.
Le web a démultiplié les possibilités d’accès aux documents scientifiques y compris très anciens. L’extraction automatique d’informations contenues dans ce type de documents par des méthodes de TAL a fait ses preuves dans de nombreux domaines de la biologie, notamment l’extraction d’entités nommées, leur normalisation et leur mise en relation. Les progrès récents sont considérables grâce aux larges modèles de langue (LLMs) qui ont trouvé de nombreuses applications notamment dans le domaine biomédical. Le domaine de l’écologie, sujet de ce stage, soulève des questions d’intérêt pour la recherche en TAL. Tout d’abord, les interactions biologiques d’intérêt impliquent plusieurs participants, au moins un pathogène, un vecteur et une plante, l’extraction de relations n-aires est donc nécessaire. Les articles reprennent des informations publiées en les citant. Associer la source bibliographique (la référence) à l’information extraite est nécessaire pour caractériser l’information dans la perspective d’en estimer la pertinence.
Sujet :
Le projet de Master porte sur l’extraction automatique de relations biologiques à partir de documents. Le stage ciblera en priorité trois espèces particulières de psylles vecteurs de bactéries pathogènes d’arbres fruitiers. Ce travail s’inscrit dans le cadre plus large d’un projet de thèse, sur la qualité et la nouveauté d’informations épidémiologiques [Nédellec et al. 2024], pour laquelle des candidats étudiants sont également recherchés. Les événements représentant les interactions biologiques entre microbe, insecte, plante et leurs lieux et dates d’observation sont dénotés dans les textes scientifiques par des formulations complexes variables qui portent fréquemment sur plusieurs phrases. L’enjeu sera d’extraire ces événements (voir figure) par des méthodes d’apprentissage profond (deep learning) avec un nombre limité d’exemples produits manuellement.
Nous faisons l’hypothèse qu’exploiter la connaissance disponible dans les domaines spécialisés par des LLMs peut pallier le nombre réduit de données d’entraînement annotées. Il s’agit ici de la base de connaissance Global DataBase de l’EPPO et Psyl’list [Ouvrard, 2022]. La méthode KBPubMedBERT [Tang et al., 2023] pourra être une première solution à explorer, ainsi que des méthodes génératives [Xu et al., 2023], ou semi-supervisée [Genest et al., 2022]. La distance parfois élevée entre les arguments d’événements multiphrases dépasse les limites de modèles de langue (e.g. BERT [Devlin et al., 2019], SciBERT [Beltagy et al., 2019], BioBERT [Lee et al., 2020) et devra faire l’objet de propositions adaptées, par exemple de réseau neuronal de graphe (GNN) pour construire un graphe d’entités et capturer les interactions entre les entités à travers les phrases [Li et al. 2022].
Le rattachement aux événements extraits des sources bibliographiques à travers leur citation est un second objectif du stage. Le rattachement des entités et références a fait l’objet de travaux [Viswanathan et al. 2021]. Il s’agit ici de traiter le rattachement des références à des événements structurés.
**Programme**
La/le stagiaire réalisera un état de l’art des méthodes existantes d’extraction de relations n-aires et de citations. Il/Elle adaptera une de ces méthodes au sujet et proposera des extensions originales intégrées dans le workflow ESV. Robert Bossy (éq. Bibliome) formera et accompagnera la/le stagiaire dans l’utilisation d’AlvisNLP. Les prédictions seront évaluées par les méthodes standards du domaine (e.g. F-mesure, rappel, précision). Les entités de type citation feront l’objet d’un traitement particulier portant sur leur extraction et leur rattachement aux événements biologiques. Un article sera préparé en collaboration avec les co-encadrants en fonction des résultats obtenus.
**Ressources**
Seront mis à disposition les éléments nécessaires à la réalisation des objectifs du stage : (1) le workflow opérationnel ESV sur la plateforme AlvisNLP d’extraction d’information d’entités, de normalisation et d’extraction de relations binaires, (2) la base de connaissance Global DataBase de l’EPPO, (3) un corpus de documents non annoté d’où les informations sont à extraire, (4) le corpus EPOP (Epidemiomonitoring Of Plant) annoté manuellement. Les moyens de calcul GPU du méso-centre de l’Université Paris-Saclay seront utilisés (e.g. Lab.IA).
Profil du candidat :
– Expérience de deep learning
– Expérience en TAL et/ou utilisation de la bibliothèque HuggingFace
– Maîtrise de l’anglais ou français courant.
– Compétences techniques requises : Python et/ou Java
– Intérêt pour les applications en biologie et le travail interdisciplinaire.
Formation et compétences requises :
– Master 2 en INFORMATIQUE orienté Traitement Automatique des Langues et/ou Apprentissage automatique
Adresse d’emploi :
Equipe Bibliome, unité MaIAGE, INRAE, Jouy-en-Josas
Document attaché : 202312061614_Stage IEV.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire Informatique et Systèmes (LIS), Profes
Durée : 6 mois
Contact : patrice.bellot@univ-amu.fr
Date limite de publication : 2023-12-07
Contexte :
Les statistiques concernant l’équilibre des genres dans la recherche académique montrent que le pourcentage d’hommes et de femmes varie en fonction de la discipline concernée, et que dans les domaines dans lesquels les femmes sont traditionnellement minoritaires, les trajectoires de carrière des femmes sont en moyenne plus lentes que celles des hommes. La question de l’évaluation de la carrière et de la promotion repose en grande partie sur des critères de performance en termes de production scientifique. Se pose toutefois le défi d’évaluer l’originalité, la quantité, la qualité, et l’impact des recherches menées par une personne en particulier, que ce soit en termes d’impacts académique ou sociétal. Dans ce cadre, la disponibilité d’outils bibliométriques relativement faciles d’utilisation (logiciels dédiés, packages R et Python, outils fournis dans Google Scholar, Web of Knowledge, Altmetric) permet non seulement de calculer des critères usuels de performance (nombres d’articles, position, nombre de citations, « h-index ») et de visibilité en ligne (le nombre de consultations, de commentaires ou de partages), mais également des métriques propres aux analyses de réseaux complexes, reposant entre autres sur les listes de coauteurs, les adresses, les mots clés, les listes de référence. Des logiciels tels que Gargantext1 et VosViewer permettent d’explorer de tels réseaux de publications et d’auteurs au moyen de visualisations avancées.
Ceci ouvre donc la possibilité d’étudier plus finement où se jouent éventuellement des différences de performance et d’impact entre les genres. Par ailleurs, un des aspects peu étudiés des différences de genre est le contenu des articles publiés, qui permet cependant d’accéder à d’éventuelles différences de genre dans la production de connaissances, c’est-à-dire les méthodes utilisées, les organismes étudiés ou les lieux. Si ces caractéristiques diffèrent entre genre, et qu’elles influencent aussi l’impact des articles, alors, elles pourraient expliquer certaines des différences de performance bibliométriques et par suite, du déroulement de la carrière.
Sujet :
Résumé.
Le stage vise à identifier, à partir d’une analyse automatisée d’un corpus d’articles scientifiques issus de revues d’écologie, si le genre des auteurs impacte les méthodes, modèles, espèces et type d’écosystèmes étudiées, et les sites d’études. Dans un deuxième temps, la relation entre genre des auteurs, performance individuelle des auteurs, contenu et l’impact des articles sera aussi étudiée.
Sur le plan informatique, le stage combine des problématiques du traitement automatique des langues, de la recherche d’information et de la fouille de données : extraction d’information (notamment reconnaissance d’entités nommées et identification de mots-clés), représentations de documents et partitionnement à partir d’approches neuronales (modèles de thèmes de type BERTopic), analyse de graphes et détection de communautés.
Profil du candidat :
Master Informatique ou équivalent
Formation et compétences requises :
• Méthodes du traitement automatique des langues à base d’apprentissage machine pour l’extraction d’information et la classification automatique de textes (transformeurs, LDA, représentations vectorielles…)
• Intérêt pour les analyses bibliométriques et scientométriques
• Langage Python et bibliothèques spaCy, scikit-learn, Pandas et Keras ou PyTorch
Adresse d’emploi :
Le/la stagiaire réalisera son stage au LIS Marseille. Le/la stagiaire sera sous la responsabilité de Anne Loison, directrice de recherche au CNRS au LECA et de Patrice Bellot, professeur à l’université Aix-Marseille.
Des déplacements entre l’Université Aix-Marseille et l’université Savoie Mont-Blanc sont à prévoir (frais de déplacement et d’hébergement pris en charge).
Document attaché : 202312061355_stageMethodesObjectRechercheEcologieGenre.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Le Laboratoire d’Informatique, de Robotique et de
Durée : 6 mois (+ CDD 2 mois
Contact : alexandre.bazin@lirmm.fr
Date limite de publication : 2023-12-15
Contexte :
To ensure the success of the agroecological transition, farmers need to have access to knowledge about alternatives to conventional farming techniques. However, before a knowledge base (KB) can be used by farmers and scientific experts, it needs to be corrected of its anomalies.
Sujet :
The context of this internship is the Knomana KB [Silvie et al., 2021], which brings together 48,000 descriptions of pesticidal and antibiotic uses of plants, and aims to propose plant-based preparations to replace synthetic chemicals. Dictionaries are already available to correct values for its 31 data types. But, verifying data correction and consistency is too complex to be carried out manually. For example, an inconsistency between the pesticide plant, the protected system (e.g. corn crop), the bio-aggressor (e.g. insect) and the geographical location is enough to mislead a farmer. The method named Attribute Exploration (EA), developed by Formal Concept Analysis, can be used to detect and correct these anomalies [Saab et al., 2022]. EA expresses each piece of knowledge in the form of an implication rule, and identifies generalizations at different levels (e.g. all insects of genus X are controlled by plants of Family Y). The rules are presented to the experts, who validate or invalidate them in order to bring the BC into a coherent state.
The objective of the internship is to develop a software prototype for detecting and correcting anomalies in multidimensional and multirelational data. This prototype will enable to manipulate data and data types, then interact with the FCA4J library, for rule computation, and the RCAvizIR software, developed with the support of #Digitag (Master internships in 2022 and 2023) to present them in an order that facilitates correction work by experts.
The work will be conducted according to the design stages described by Sedlmair et al. 2012 (literature study, definition of the need in terms of a visual problem, proposal of a mock-up, development, deployment, validation).
* Michael Sedlmair, Miriah D. Meyer et Tamara Munzner. Design Study Methodology: Reflections from the Trenches and the Stacks. IEEE TVCG 18(12): 2431-2440, 2012.
Profil du candidat :
Student in Master studies (computer science or bioinformatics)
Formation et compétences requises :
Strong skills in programming and data analysis, with an interest for knowledge engineering, visual analytics, and to find alternatives to chemical pesticides and antibiotics in organic agriculture.
Adresse d’emploi :
The student will be integrated in the Web3 teams of LIRMM, in Montpellier, and will collaborate with researchers from Advance and Marel teams.
