Présentation Générale

 



           
Huitième édition du Symposium MaDICS

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Une Session Poster sera spécialement consacrée aux jeunes chercheuses et jeunes chercheurs souhaitant présenter leurs travaux en analyse et gestion de données et dans les domaines interdisciplinaires autour de la Science des Données. Cette session sera également l’occasion d’échanger avec des collègues académiques et des acteurs industriels sur les thématiques de recherche présentées.

Dates importantes :

  • Soumission de posters : au plus tard le 23 mars 2026
  • Retour : 9 avril 2026
  • Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Mar
6
Mon
2023
Explainable deep learning for Mild Cognitive Impairment detection with MR spectroscopy data
Mar 6 – Mar 7 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : XLIM, university of Poitiers
Durée : 5/6 months
Contact : olfa.ben.ahmed@univ-poitiers.fr
Date limite de publication : 2023-03-06

Contexte :
Alzheimer’s Disease (AD) is the most comment form of dementia. Neuroimaging data is an integral part of the clinical assessment providing a way for clinicians to detect brain abnormalities for AD diagnosis. Patients with AD suffer from the cognitive decline that leads to brain neurons and synaptic loss (i.e., memory loss, difficulty with problem-solving, etc.). Although there is currently no cure for AD, there are available medications that can slow down disease progression and improve the patient lifestyle. Recent studies on bio-markers research have demonstrated that the AD pathology is now suspected to start a long time before the manifestation of the clinical symptoms and even before brain damage. Hence, diagnosis of AD at earlier stages is of great clinical importance so that cognitive functions would be improved by medications and the spread of the disease would be prevented. Mild Cognitive Impairment (MCI) is an intermediary stage condition between healthy people and AD.
Detecting MCI subjects provide a potential window for early AD detection. However, MCI subjects’ detection remain a challenging clinical problem as it lies on a spectrum between NC and manifest AD. Therefore, identifying efficient bio-markers for early AD stages detection helps in establishing diagnosis and treatment strategies without delay. Over the last decades, imaging bio makers derived from anatomical Structural with machine learning techniques has been widely studied to assess brain atrophy for AD detection and prediction [1]. In addition to structural changes, metabolic changes in some brain regions could be a good biomarker for early AD detection [2]. However, the structural brain atrophy is not detectable at an early stage of the disease (namely for Mild Cognitive Impairment (MCI) and Mild Alzheimer’s Disease (MAD). Indeed, potential biological bio-markers have been proved their ability to early detect brain abnormalities related to AD before brain structural damage and clinical manifestation. Magnetic Resonance Spectroscopy (MRS) is a non-invasive technique providing a complementary approach to brain metabolism in vivo, during conventional MRI examination. MRS provides biological information of brain tissues at the molecular level allowing detecting brain abnormalities while MRI remains normal.

Sujet :
The goal of this internship is to:
• develop new deep learning based models for spectroscopy data classification for early AD detection, namely the MCI class detection.
• propose and implement a method for 1D Class Activation Map (CAM) generation for the 1D spectroscopy data for model interpretation. This task will the of a recently achieved work in our team [3]. The obtained 1D CAM should highlight the contributions of different MRS metabolites in the classification tasks. Data used in this internship are provided by CHU of Poitiers. In addition to the on MRS data, this data set contains multi-modal data of patients affected by different stages of AD (healthy elderly subjects, Mild Cognitive Impairment (MCI) and AD subjects)
Possibility to continue with a PhD proposal (starting in September/October 2023) in Artificial intelligence for medical images analysis

Location : XLIM (Site de Futuroscope), university of Poitiers in collaboration with the CHU of Poitiers
Tentative start date February/march 2023

Profil du candidat :
• Master 2 in computer vision, image processing, machine learning or any related field

Application : Send CV + transcripts and 2 reference letters to olfa.ben.ahmed@univ-poitiers.fr

Formation et compétences requises :
• Strong programming skills in python and deep learning frameworks (TensorFlow, pytorch)

Adresse d’emploi :
Location : XLIM (Site de Futuroscope), university of Poitiers in collaboration with the CHU of Poitiers

Prototypage d’une librairie Python pour l’extraction d’information
Mar 6 – Mar 7 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Unité MaIAGE, INRAE, Université Paris-Saclay
Durée : 4-6 mois
Contact : arnaud.ferre@inrae.fr
Date limite de publication : 2023-03-06

Contexte :
L’extraction d’information est le domaine du Traitement Automatique des Langues Naturelles visant à extraire et à structurer automatiquement des informations contenues dans de grandes quantités de textes. Une extraction commence classiquement par une tâche de reconnaissance d’entité, puis peut être suivie par une tâche de normalisation d’entité (parfois nommée “entity linking/disambiguation” ou “concept normalization”) et/ou par une tâche d’extraction de relation.

L’équipe Bibliome de l’unité de recherche MaIAGE de INRAE/Université Paris-Saclay est spécialisée dans la recherche méthodologique en extraction d’information, notamment en domaines spécialisés. Elle développe également des solutions d’extraction pour des applications finalisées appliquées au domaine des sciences du vivant.

Encadrants : Arnaud Ferré et Louise Deléger

Sujet :
Aujourd’hui, la grande majorité des méthodes d’extraction sont codées en langage Python. Bien que commencent à apparaître certaines librairies standards pour le traitement automatique des langues naturelles et qui contiennent leurs structures de données (ex : Stanza [1] ou spaCy [2]), celles-ci ne représentent souvent pas suffisamment les objets manipulés spécifiquement en extraction d’information. Par exemple, elles ne contiennent pas de classes explicites nommées “mention” ou “concept”, basiques en normalisation d’entité, et bien qu’il existe une classe plus abstraite capable de représenter en particulier une mention, celle-ci ne peut pas être définie comme discontinue (ex : le groupe nominal “liver and pancreatic cancer” contient deux mentions distinctes dont la mention d’intérêt “liver cancer”, laquelle ne peut être représentée de façon discontinue). En conséquence, la plupart des chercheurs qui développent de nouvelles méthodes s’appuient encore sur des structures ad hoc adaptées à leurs tâches, mais peu partageables et posant même des questions en termes de reproductibilité.

Nous faisons l’hypothèse qu’une librairie standard définissant une structure de données plus spécifique, c’est-à-dire plus proche des besoins des méthodologistes en extraction d’information, permettrait une meilleure reproductibilité, une facilité de prise en main, et un gain de temps de développement et d’intégration des méthodes.

La/le stagiaire devra développer un prototype de librairie Python définissant des classes d’objets adaptées aux besoins des méthodologistes pour les tâches de reconnaissance et normalisation d’entité. Un premier travail de comparaison avec au moins une des librairies standards devra être mené. Si cela est pertinent, la librairie pourra être développée comme une extension d’une de ces librairies standards. Des méthodes de reconnaissance et de normalisation et des jeux de données d’évaluation seront mis à disposition pour permettre de mettre en place un cadre de développement expérimental. Ce travail passera par le développement de parseurs qui iront parcourir, analyser et extraire les éléments des fichiers de jeux de données (de différents formats) pour les instancier dans un programme grâce aux structures de la librairie développée. Dans un second temps, ce travail pourra être dérivé à l’extraction de relation.

Le stagiaire aura accès à un ordinateur fixe, aux serveurs de calculs du laboratoire, et, au besoin, à des infrastructures de calcul haute performance (ex : Lab-IA).

[1] Qi, Peng, et al. “Stanza: A Python Natural Language Processing Toolkit for Many Human Languages.” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. 2020.
[2] Honnibal, Matthew, and Ines Montani. “spaCy 2: Natural language understanding with Bloom embeddings, convolutional neural networks and incremental parsing.” To appear 7.1 (2017): 411-420.

Profil du candidat :
Etre formé(e) ou expérimenté(e) en traitement automatique des langues naturelles ou plus particulièrement en extraction d’information.

Autonome en programmation Python, notamment orientée objet.

Formation et compétences requises :
Master 2 / dernière année d’école d’ingénieur en informatique, linguistique ou TAL. Ouvert à d‘autres spécialités (ex : bioinformatique) selon expérience.

Adresse d’emploi :
Centre de recherche INRAE de Jouy-en-Josas (78)

Vers un modèle explicable pour la détection d’infox sur des données médicales basée sur des méthodes d’apprentissage profond
Mar 6 – Mar 7 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ICube, université de Strasbourg
Durée : 5-6 mois
Contact : stella@unistra.fr
Date limite de publication : 2023-03-06

Contexte :
Ce stage s’inscrit dans le cadre du projet DEEPISH (Deep lEarning ExPlainabilIty through Symbolic approacHes) mené au sein des équipes SDC (Science des Données et Connaissances) et CSTB (Systèmes Complexes et Bioinformatique Translationnelle) du laboratoire ICube. Ce projet a pour objectif de proposer un modèle général reposant sur des techniques de raisonnement symbolique, permettant d’expliquer les décisions de systèmes basés sur un apprentissage profond.

Sujet :
Ce travail de stage consiste à proposer une méthode de détection d’informations fallacieuses ou infox (“fake news”) issues de données médicales collectées sur internet. La détection se fera au moyen de méthodes de classification de textes, reposant sur des modèles de langue pré-entraînés à l’aide de grandes quantités de données textuelles ou modèles de “transformers” de type “BERT”. La détection devra s’accompagner d’un modèle d’explicabilité basé sur une conceptualisation des données extraites.

Profil du candidat :
Autonome, curieux, ayant un goût pour la modélisation de concepts, et pour la mise en œuvre de techniques d’apprentissage profond.
Bonne aptitude à la communication et aux échanges d’idées.

Formation et compétences requises :
En Master deuxième année ou d’un niveau équivalent dans une école d’ingénieurs, le ou la candidat.e devra avoir suivi une filière d’informatique orientée en science des données ou en intelligence artificielle. Il ou elle devra avoir une bonne maîtrise :
– des mécanismes de base de l’apprentissage profond (librairies TensorFlow, Keras, etc.),
– du langage Python.
– des méthodes de traitement automatique des langues (NLP),
– du raisonnement symbolique et de la modélisation de connaissances (règles logiques, ontologies, etc.).

Adresse d’emploi :
ICube UMR 7357 – Laboratoire des sciences de l’ingénieur, de l’informatique et de l’imagerie
300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex

Document attaché : 202212051544_Sujet DEEPISH M2 2023.pdf

Mar
20
Mon
2023
Classification d’image par apprentissage actif
Mar 20 – Mar 21 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire de Mathématiques et Applications
Durée : 4 mois
Contact : farida.enikeeva@math.univ-poitiers.fr
Date limite de publication : 2023-03-20

Contexte :
La classification d’image est un problème classique de l’apprentissage supervisé. La qualité de décision prise par un algorithme d’apprentissage supervisé dépend beaucoup de la base d’apprentissage utilisée notamment du volume de données labelisées. Très souvent il est coûteux de constituer une base d’apprentissage solide, comme dans le domaine médical ou industriel présentant notamment une classe peu représentée. Dans ce cas il est quasiment impossible d’avoir un nombre suffisant d’observations dans la classe rare, et de plus, les classes de la base d’apprentissage seront très déséquilibrées. C’est donc important de savoir comment construire la base d’apprentissage en minimisant à la fois le coût et le taux d’erreur de classification. Nous proposons dans ce projet d’utiliser les méthodes d’apprentissage actif (active learning) pour pouvoir améliorer la qualité de classification en utilisant une base d’apprentissage de taille optimale. Plus précisément, on dispose d’une base relativement petite d’images étiquetées. On a l’accès à la décision d’un expert qui peut valider une ou plusieurs étiquettes d’images données et on peut donc améliorer les décisions de l’algorithme. Le travail de l’expert représente le coût de la construction de la base d’apprentissage. A chaque étape de l’algorithme, en fonction des décisions de l’expert on ajoute de nouvelles images à la base d’apprentissage et on choisit quelles images montrer à l’expert à l’étape suivante. Cette dernière est choisie en fonction d’une certaine mesure de proximité entre les images et doit améliorer la qualité de la décision et de la base à l’étape suivante, en améliorant l’algorithme de décision.

Sujet :
L’objectif de ce stage est de tester des méthodes d’apprentissage actif dans le contexte de la classification d’image. Il y a plusieurs questions à aborder, comme par exemple, le choix des descripteurs, la mesure de proximité entre les images et la classification multi-label. Ce stage sera financé par un projet commun entre l’Institut XLIM, l’entreprise Einden et le LabCom DAMIALab.

Profil du candidat :
Niveau master d’une école d’ingénieur ou université en mathématiques appliquées

Formation et compétences requises :
Expérience en modélisation, apprentissage statistique et analyse d’image numérique. Maîtrise de Python ou Matlab.

Adresse d’emploi :
Laboratoire de Mathématiques et Applications, Université de Poitiers

Document attaché : 202302221247_Stage_LMA_XLIM_Poitiers2023.pdf

Mar
30
Thu
2023
A hybrid approach to the explainability of artificial intelligence algorithms for personalised health care
Mar 30 – Mar 31 all-day

Offre en lien avec l’Action/le Réseau : HELP/Doctorants

Laboratoire/Entreprise : LIASD, université Paris 8
Durée : 6 mois
Contact : n.mellouli@iut.univ-paris8.fr
Date limite de publication : 2023-03-30

Contexte :
Over the past decade, there has been active research into healthcare services and their technological advancements. In particular, the Internet of Things (IoT) has demonstrated its potential to connect numerous medical devices, sensors, and healthcare professionals to provide high-quality medical services in remote locations. This trend was greatly enhanced during the COVID-19 outbreak. The result is an increase in patient safety, a decrease in healthcare spending, an increase in accessibility of healthcare services, and an increase in the operational efficiency of the healthcare sector. However, all these benefits are not without negative consequences for patients and even for healthcare workers. Indeed, artificial intelligence is increasingly being integrated into diagnostic systems, taking advantage of the availability of big data.

Sujet :
Over the past decade, there has been active research into healthcare services and their technological advancements. In particular, the Internet of Things (IoT) has demonstrated its potential to connect numerous medical devices, sensors, and healthcare professionals to provide high-quality medical services in remote locations. This trend was greatly enhanced during the COVID-19 outbreak. The result is an increase in patient safety, a decrease in healthcare spending, an increase in accessibility of healthcare services, and an increase in the operational efficiency of the healthcare sector. However, all these benefits are not without negative consequences for patients and even for healthcare workers. Indeed, artificial intelligence is increasingly being integrated into diagnostic systems, taking advantage of the availability of big data. Deep Learning (DL) applied to medical images for the diagnosis of cancer, and other diseases has led to black-box diagnostics systems with astounding results in terms of accuracy that often surpass those by expert clinicians. However, to be used for effective decision support in a perhaps stressed situation, a black-box oracle answer positive/negative is not enough; some explanation is needed. Abduction and Argumentation are two forms of inference where conclusions are drawn according to an underlying theory. Typically, abduction aims to draw an explanation for a set of observations, while argumentation aims to give reasons, or arguments, that support a conclusion against other conflicting conclusions. Abduction is sometimes described as “deduction in reverse”, whereby given a rule “A follows from B” and the observed result “A”, we infer that the condition “B” of the rule (may) hold. More generally, in the context of a logic-based setting, given a set of sentences representing a theory T that models a medical diagnosis domain of interest, and a sentence representing an observation O, abduction returns a set of sentences representing an abductive explanation H for O. The distinguishing feature of this project is to design and develop such tools in a collaborative design (CD) process together with medical staff experienced in the diagnosis and who represents the final users of this technology.
The main research question of this internship is how to link abduction and formal argumentation theory with learning-based approaches to address the aforementioned problem. Indeed, reasoning and learning play a complementary role in decision-making: learning produces the knowledge taken for granted when reasoning, whereas systematic reasoning draws inferences that provide the inductive bias that is assumed as given when learning. Hence, the main goal of the internship is to exploit the synergy between learning and reasoning, especially abduction and argumentation, to enhance learning-based processes.

Profil du candidat :
The internship duration is six months (“stage fin d’études”). The starting date must be before the end of March 2023, preferably at the beginning of the month. We are looking for a candidate interested in this topic with a background in artificial intelligence, knowledge representation and reasoning, formal logic, deep learning, and human-computer interaction.

Formation et compétences requises :
Master’s in Computer Science, Master’s in Data Science

Adresse d’emploi :
140, rue de la nouvelle France
93100 Montreuil,

Document attaché : 202301021626_SujetStage2023-NN-IV-EID.pdf

Deep learning et inférence sur CPU
Mar 30 – Mar 31 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : IRISA
Durée : 6 mois
Contact : sebastien.lefevre@irisa.fr
Date limite de publication : 2023-03-30

Contexte :
Voir plus de détails : https://www-obelix.irisa.fr/files/2022/12/internship_burnel.pdf

Sujet :
Evaluation de performance de réseaux de neurones profonds en cas d’inférence sur CPU

Profil du candidat :
Expertise en programmation et deep learning

Formation et compétences requises :
Master ou diplôme d’ingénieur

Adresse d’emploi :
IRISA Vannes, équipe OBELIX

Mar
31
Fri
2023
Benchmarking Hierarchical Reinforcement Learning algorithms in robotic simulation
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ENSTA Paris, Computer Science and System Engineeri
Durée : 6 months
Contact : sao-mai.nguyen@ensta-paris.fr
Date limite de publication : 2023-03-31

Contexte :
Fully autonomous robots have the potential to impact real-life applications, like assisting elderly people. Autonomous robots must deal with uncertain and continuously changing environments, where it is not possible to program the robot tasks. Instead, the robot must continuously learn new tasks and how to perform more complex tasks combining simpler ones (i.e., a task hierarchy). This problem is called lifelong learning of hierarchical tasks [5]. Hierarchical Reinforcement Learning (HRL) is a recent approach for learning to solve long and complex tasks by decomposing them into simpler subtasks. HRL could be regarded as an extension of the standard Reinforcement Learning (RL) setting as it features high-level agents selecting subtasks to perform and low-level agents learning actions or policies to achieve them.

Sujet :
This internship studies the applications of Hierarchical Reinforcement Learning methods in robotics: Deploying autonomous robots in real world environments typically introduces multiple difficulties among which is the size of the observable space and the length of the required tasks. 

Reinforcement Learning typically helps agents solve decision making problems by autonomously discovering successful behaviours and learning them. But these methods are known to struggle with long and complex tasks. Hierarchical Reinforcement Learning extend this paradigm to decompose these problems into easier subproblems with High-level agents determining which subtasks need to be accomplished, and Low-level agent learning to achieve them.

During this internship, the intern will :

• Get acquainted with the state of art in Hierarchical Reinforcement Learning including the most notable algorithms [1, 2, 3], the challenges they solve and their limitations.
• Reimplement some of these approaches and validate their results in robotics simulated environments such as iGibson [4].
• Establish an experimental comparison of these methods with respect to some research hypothesis.
The intern is expected to also collaborate with a PhD student whose work is closely related to this topic.

References:
[1] Nachum, O.; Gu, S.; Lee, H.; and Levine, S. 2018. Data- Efficient Hierarchical Reinforcement Learning. In Bengio, S.; Wallach, H. M.; Larochelle, H.; Grauman, K.; Cesa- Bianchi, N.; and Garnett, R., eds., Advances in Neural Infor- mation Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS 2018, December 3-8, 2018, Montre ́al, Canada, 3307–3317.
[2] Kulkarni, T. D.; Narasimhan, K.; Saeedi, A.; and Tenen- baum, J. 2016. Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation. In Lee, D.; Sugiyama, M.; Luxburg, U.; Guyon, I.; and Garnett, R., eds., Advances in Neural Information Processing Systems, volume 29. Curran Associates, Inc.
[3] Vezhnevets, A. S.; Osindero, S.; Schaul, T.; Heess, N.; Jaderberg, M.; Silver, D.; and Kavukcuoglu, K. 2017. FeU- dal Networks for Hierarchical Reinforcement Learning. CoRR, abs/1703.01161.
[4] Chengshu Li, Fei Xia, Roberto Mart ́ın-Mart ́ın, Michael Lingelbach, Sanjana Srivastava, Bokui Shen, Kent Vainio, Cem Gokmen, Gokul Dharan, Tanish Jain, Andrey Kurenkov, C. Karen Liu, Hyowon Gweon, Jiajun Wu, Li Fei-Fei, and Silvio Savarese. igibson 2.0: Object-centric simulation for robot learning of everyday household tasks, 2021. URL https://arxiv.org/abs/2108.0327
[5] Nguyen, S. M., Duminy, N., Manoury, A., Duhaut, D., and Buche, C. (2021). Robots Learn Increasingly Complex Tasks with Intrinsic Motivation and Automatic Curriculum Learning. KI – Künstliche Intelligenz, 35(81-90).

Profil du candidat :
The intern should be enrolled in a master program (either M1 or M2) in Computer Science or Robotics.

Formation et compétences requises :
The students should have a prior knowledge (e.g., followed some course) in machine learning, deep learning, and reinforcement learning, and be motivated to complete a research-focused internship.

Adresse d’emploi :
ENSTA Paris, Computer Science and System Engineering Department

Document attaché : 202302021426_internshipHierarchicalRL.pdf

Integrating Human Demonstrations in Hierarchical Reinforcement Learning
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ENSTA Paris, Computer Science and System Engineeri
Durée : 6 months
Contact : sao-mai.nguyen@ensta-paris.fr
Date limite de publication : 2023-03-31

Contexte :
Fully autonomous robots have the potential to impact real-life applications, like assisting elderly people. Autonomous robots must deal with uncertain and continuously changing environments, where it is not possible to program the robot tasks. Instead, the robot must continuously learn new tasks and how to perform more complex tasks combining simpler ones (i.e., a task hierarchy). This problem is called lifelong learning of hierarchical tasks.

Sujet :
Hierarchical Reinforcement Learning (HRL) is a recent approach for learning to solve long and complex tasks by decomposing them into simpler subtasks. HRL could be regarded as an extension of the standard Reinforcement Learning (RL) setting as it features high-level agents selecting subtasks to perform and low-level agents learning actions or policies to achieve them. We recently proposed a HRL algorithm, GARA (Goal Abstraction via Reachability Analysis), that aims to learn an abstract model of the subgoals of the hierarchical task.
However, HRL can still be limited when faced with the states with high dimension and the real-world open-ended environment. Introducing a human teacher to Reinforcement Learning algorithms has been shown to bootstrap the learning performance. Moreover, active imitation learners such as in [1] have shown that they can strategically choose the most useful questions to ask to a human teacher : they can choose, who, when, what and whom to ask for demonstrations [2,3].
This internship’s goal is to explore how active imitation can improve the algorithm GARA. The intuition in this context is that human demonstrations can be used to determine the structure of the task (ie. which subtasks need to be achieved) as well as determining a planning strategy to solve it (ie. the order of achieving subtasks).
During this internship we will :
• Study the relevant state-of-art and make a research hypothesis about the
usefulness of introducing human demonstrations into the considered HRL
algorithm.
• Design and implement a component to learn from human demonstrations in
GARA.
• Conduct an experimental evaluation to assess the research hypothesis.
The intern is expected to also collaborate with a PhD student whose work is closely related to this topic.

Profil du candidat :
The intern should be enrolled in a master program (either M1 or M2) in Computer Science or Robotics.

Formation et compétences requises :
The students should have a prior knowledge (e.g., followed some course) in machine learning, deep learning, and reinforcement learning, and be motivated to complete a research-focused internship.

Adresse d’emploi :
ENSTA Paris, Computer Science and System Engineering Department

Document attaché : 202302021428_internshipActiveImitationLearning.pdf

Stage M1 ou M2 informatique en Learning analytics
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : EducAction/– — –

Laboratoire/Entreprise : LIFAT
Durée : 6 mois
Contact : sabine.barrat@univ-tours.fr
Date limite de publication : 2023-03-31

Contexte :
Le stagiaire sera intégré au laboratoire d’informatique de
l’Université de Tours (LIFAT), dans l’équipe RFAI (Reconnaissance des
Formes et Analyses d’Images). Le stage sera co-encadré par Gilles Tétart,
sociologue (Equipe Cost, laboratoire CITERES). Le stage est financé par le
RTR DIAMS (Réseau Thématique de Recherche Données, Intelligence
Artificielle, Modélisation et Simulation).

Sujet :
« Learning analytics : l’Intelligence Artificielle appliquée à l’identification
d’apprenants en situation de décrochage »

L’augmentation du nombre d’étudiants dans l’enseignement supérieur ces dernières années et la crise sanitaire ont accéléré le développement de l’enseignement à distance ou hybride. La conséquence “positive” directe est l’augmentation massive de données / traces numériques accumulées par les apprenants dans leur environnement numérique d’apprentissage. A contrario, ce mode d’enseignement, de par la conception des cours et/ou des comportements des apprenants, augmente les difficultés d’apprentissage de certains, pouvant aller jusqu’à leur décrochage.

L’objectif du stage est l’analyse des données / traces numériques pour :
– Détecter les potentiels apprenants décrocheurs, établir des profils
sociographiques et/ou des caractéristiques récurrentes.
– Identifier les causes possibles de décrochage, analyser les effets de
contexte et les déterminants structuraux du décrochage.
– Comparer les éléments d’analyse recueillis à la littérature scientifique
existante sur la question du décrochage/échec scolaire.
– Proposer automatiquement des solutions de remédiation adaptées aux
profils des apprenants (ressources pour accompagner les apprenants en
difficulté, envoi de messages de motivation automatisés, …)
Pour répondre à ces besoins, une piste à explorer est l’utilisation de
classificateurs (apprentissage automatique) de types prédictifs et
explicatifs.

Profil du candidat :
Qualifications souhaitées : M1 ou M2 en cours dans le domaine de
l’informatique avec un intérêt pour les questions d’inégalités sociales en
lien avec la réussite scolaire/universitaire. Une connaissance/expérience
de l’apprentissage automatique et des outils associés est un plus.

Formation et compétences requises :
Qualités relationnelles, ouverture et curiosité afin de dialoguer et
comprendre les interlocuteurs de différents domaine (informatique et
sociologie)
· Sens de l’initiative et force de proposition
· Sens de l’organisation, autonomie
· Capacité à faire du reporting

Adresse d’emploi :
LIFAT
64 avenue Jean Portalis
37200 TOURS

Document attaché : 202302161824_Fiche_poste_stage_RTR_DIAMS.pdf

Stage M2 : Amélioration des images sous-marines
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIS, UMR 7020
Durée : 6 mois
Contact : tpnguyen@univ-tln.fr
Date limite de publication : 2023-03-31

Contexte :
Stage de fin d’études de M2

Sujet :
Sujet de stage : Amélioration des images sous-marines

La perception dans un milieu sous-marin est un double enjeu à la fois civil et militaire. L’exploration du milieu sous-marin est une tâche cruciale pour différents acteurs tels que la Marine Nationale, l’océanographie, les groupes pétroliers, etc. Par exemple, la connaissance des fonds marins joue un rôle important pour déployer des sous-marins et des navires. Étudier des données visuelles prises par des caméras sous-marines est une tâche difficile. Ce défi vient des problématiques suivantes. Tout d’abord, les images sous- marines sont bruitées à cause du manque de la lumière dans la phase d’acquisition. De plus, cette condition amène également au contraste faible, ainsi que des effets de diffusion de la lumière dans ces images. De l’autre côté, l’absorption de la lumière dans l’eau est différente en fonction de la longueur d’onde, par conséquent la variation d’illumination et de couleur est forte dans ce type d’images. En effet, la lumière visible dont les longueurs d’onde sont plus longues est fortement absorbée par l’eau. Cela fait varier les couleurs des poissons en fonction de la distance et de la profondeur par rapport à la caméra. En outre, due à l’interface lentille/air/eau, la distorsion d’images est aussi une problématique des images sous-marines par rapport aux images classiques. C’est pour cela que la détection et la reconnaissance des objets dans des images sous-marines sont plus difficiles que celles des images populaires, car ces facteurs rendent les algorithmes classiques de détection et de classification inefficaces parce qu’ils ne sont pas conçus pour gérer de telles difficultés. L’objectif de ce stage est d’étudier des méthodes d’apprentissage profond [1, 2, 3, 4,
5, 6] pour proposer une méthode d’amélioration des images sous-marines avant d’utiliser des méthodes classiques de la vision par ordinateur pour les autres tâches.
Références
[1] Sharma, P.K., Bisht, I., Sur, A. : Wavelength-based attributed deep neural network for underwater image restoration (2021)
[2] Islam, M.J., Xia, Y., Sattar, J. : Fast underwater image enhancement for improved visual perception. IEEE Robotics and Automation Letters (RA-L) 5(2) (2020) 3227– 3234
[3] Li, C., Guo, C., Ren, W., Cong, R., Hou, J., Kwong, S., Tao, D. : An underwater image enhancement benchmark dataset and beyond. IEEE Transactions on Image Processing 29 (2020) 4376–4389
[4] Riba, E., Mishkin, D., andE. Rublee, D.P., Bradski, G. : Kornia : an open source diffe- rentiable computer vision library for pytorch. In : Winter Conference on Applications of Computer Vision. (2020)
[5] Islam, M.J., Edge, C., Xiao, Y., Luo, P., Mehtaz, M., Morse, C., Enan, S.S., Sat- tar, J. : Semantic Segmentation of Underwater Imagery : Dataset and Benchmark. In : IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), IEEE/RSJ (2020)
[6] Cao, Z., Hidalgo Martinez, G., Simon, T., Wei, S., Sheikh, Y.A. : Openpose : Realtime multi-person 2d pose estimation using part affinity fields. IEEE Transactions on Pattern Analysis and Machine Intelligence (2019)

Profil du candidat :
Étudiants en M2R ou en école d’ingénieur avec une majeure en traitement d’image, en apprentissage automatique ou en intelligence artificielle.

Formation et compétences requises :
De bonnes compétences en programmation python sont requises. La connaissance des frameworks de deep learning est un plus souhaitable. Le candidat doit avoir de bonnes capacités rédactionnelles et de communication orale.

Adresse d’emploi :
Laboratoire LIS, Bâtiment X, l’avenue de l’université, 83130, La Garde.
Pour postuler le stage, merci d’envoyer le CV et relevé de notes M2 à tpnguyen@univ-tln.fr

Document attaché : 202211221746_StageM2_2023.pdf

Utilisation des méthodes machine learning sur les données hospitalières de la pharmacie clinique pour l’identification automatique des erreurs de prescriptions médicamenteuses
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : SESSTIM, Faculté des Sciences Médicales et Paraméd
Durée : 5-6 mois
Contact : jean-charles.dufour@univ-amu.fr
Date limite de publication : 2023-03-31

Contexte :
Le Service transversal de Pharmacie Clinique et Soins Pharmaceutiques de l’APHM en collaboration avec le service BioSTIC de l’APHM et le SESSTIM (Unité Mixte de Recherche UMR1252 labélisée par l’Inserm, l’IRD et Aix-Marseille Université) cherche à améliorer la sécurité et la pertinence des ordonnances médicamenteuses via une analyse pharmaceutique détaillée, automatisée et systématisée. Pour cela l’utilisation de méthodes de Machine Learning sont envisagées.
Pour réaliser l’analyse des données, implémenter et évaluer les méthodes de Machine Learning un stage de 5 à 6 mois est proposé avec une gratification financière pour un(e) étudiant(e) niveau ingénieur ou master 2 en science des données ou intelligence artificiel. Le stage est à pourvoir dès février-mars 2023.

Sujet :
Il s’agit de contribuer à l’optimisation des prescriptions médicamenteuse. Le stage porte sur l’implémentation et l’évaluation de différentes méthodes de Machine Learning en utilisant des données de vie réelle (prescription hospitalière) de la pharmacie clinique. Le principe est d’évaluer et d’appliquer un ensemble de méthodes d’IA afin de faciliter et optimiser l’analyse automatisée des ordonnances médicamenteuses dans le contexte hospitalier.
Mission du stagiaire : Nettoyer et analyser les données. Rechercher et identifier des méthodes d’IA applicables sur ces données. Implémenter les méthodes, entrainer les modèles, sélectionner les modèles les plus performants. Documenter les développements réalisés.

Profil du candidat :
Capacité d’analyse et de synthèse, forte autonomie et esprit d’initiative, connaissances du métier de la santé appréciée, capacité de travailler en mode projet : rendre compte des avancements des travaux et communication des résultats, bonne communication à l’oral et à l’écrit (Français et/ou Anglais).

Formation et compétences requises :
Bonnes connaissances en machine learning et notamment algorithmes supervisés (SVM, Random Forest, Arbre de décision, Réseaux de neurones,…). Maîtrise d’environnement python.

Adresse d’emploi :
Faculté des sciences médicales et paramédicales, Marseille

Document attaché : 202210281005_Proposition-Stage-SESSTIM-PharmacoClin-ML-octobre2022.pdf

Apr
1
Sat
2023
Benchmarking de middleware pour le Big Data
Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 4 à 6 mois
Contact : asma.dhaouadi@univ-smb.fr
Date limite de publication : 2023-04-01

Contexte :
Le sujet de ce stage se situe dans le cadre d’un projet de recherche visant à proposer une approche de modélisation personnalisable d’un pipeline Big Data pour l’acquisition, le traitement et le stockage de données pour une analyse future. En effet, de nos jours les sources et les types de données se multiplient au sein de l’entreprise : fichiers plats, données opérationnelles, nouveaux services internet, différents réseaux sociaux, nouvelles applications de l’internet des objets (IOT), etc. Cette révolution informationnelle a généré une grande masse de données, dite « Big Data ». Le Big Data est caractérisé par le grand « volume » de données collectées par l’entreprise, la « variété » de ces données, qui peuvent être structurées, semi-structurées ou non structurées et aussi par la fréquence de l’arrivée des données « vitesse » qui devrait être prise en considération. Pour faire face aux challenges de Big Data une bonne variété de technologies dédiées est apparue, tels que l’écosystème d’Hadoop (HDFS, Map Reduce, Yarn, etc), Flink, Kafka, Elasticserach, Kibana, etc. Dans la littérature de différentes solutions architecturales Big Data ont été proposées. Dans ces architectures se trouvent une ou plusieurs technologies pour répondre à un besoin spécifique. Par ailleurs, le choix de ces technologies n’est pas toujours suffisamment justifié.

Sujet :
L’objectif de ce stage sera le déploiement de trois différentes architectures Big Data pour l’extraction, le traitement, le chargement (ETL) des données. Dans chacune de ces architectures, l’étudiant teste le déploiement des technologies selon des critères à définir (RAM, réseau, stockage, etc). L’étudiant est appelé aussi à étudier la compatibilité entre les technologies mises en œuvre au sein d’une même architecture. De plus, tout au long du stage, il serait utile de prendre note de tous les problèmes rencontrés, en particulier celle de configuration et de préciser comment sont-ils surmontés. À la fin du stage, l’étudiant est appelé à synthétiser toutes les étapes menées et relever les résultats du travail de benchmarking.

Pour la mise en œuvre des architectures proposées le candidat pourra avoir accès durant la période du stage à la plateforme MUST, mésocentre de stockage et de calcul scientifique mutualisée ouverte sur la grille de recherche européenne utilisée par les chercheurs des différents laboratoires de l’USMB ainsi qu’a des machines de calcul internes au laboratoire.

Profil du candidat :
BUT, L3, M1 ou M2 recherche
Ingénieur année 1, 2 ou 3

Formation et compétences requises :
– Connaissance et compréhension des phases d’acquisition, de traitement, de stockage de données.
– Connaissances relativement bonnes de l’écosystème Hadoop et d’autres technologies : Redis, Spark, etc.
– Configuration des technologies Big Data.
– Comprendre, analyser et rédiger des documents scientifiques et techniques.

Adresse d’emploi :
LISTIC – Laboratoire d’Informatique, Systèmes, Traitement de l’Information et de la Connaissance
Annecy-le-Vieux, France

Document attaché : 202211251032_SUJET_STAGE_M2-FI5_2022-2023_LISTIC FINAL.pdf

Data pipelines in the cloud: elastic execution with dynamic parallelism
Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : LIP6/Sorbonne Université et SAP France
Durée : 6 mois
Contact : bernd.amann@lip6.fr
Date limite de publication : 2023-04-01

Contexte :
Nowadays, institutions and companies manage their data with a wide variety of applications which were not designed to communicate with each other. On the other hand, there is a very strong need to design new data management and analysis services that will add value to the data that is there. Since it is practically impossible to migrate all applications and their data into an integrated system, the current solution is to build analytic data pipelines to facilitate the data flow between operations that perform complex processing, including collecting data from multiple sources, transforming it, generating AI models through learning, and storing it in multiple destinations. In practice, a data pipeline can contain hundreds of operations, and it can evolve repeatedly by being populated with new operations or new data. Thus, with the increasing number of pipelines to be designed and deployed, it is crucial to dispose of high level data pipeline definition languages, tools to deploy and control the execution of data pipelines and efficient solutions to optimize the execution of complex operations on large volumes of data.

In this context, SAP has developed the SAP Data Intelligence (DI) software for the automatic con- figuration and deployment of data pipelines. These pipelines use a flow-based programming model [3]. Each pipeline operation corresponds to a program (Python, node.JS, …) or a call to an external API (e.g., Spark job) that is deployed using an adapted Docker [2] image/container. Kubernetes services provide deployment and orchestration of these images on hyperscaler platforms like AWS, Google Cloud, Azure etc.

A performance problem arises at large scale when a pipeline contains long operations processing massive data. A first solution was designed in the context of an SAP/LIP6 internship to parallelize operators [4]. In this solution, the way to consume/produce data is described using data sorting and partitioning functions. This allows the data to be partitioned and distributed to process operators in parallel. The principle of the method is to first define the properties of a “divide and conquer” mapping in the JSON configuration of an operator. These properties allow to automatically transform a DI pipeline into a new parallelized DI pipeline with several replicas (identical copies) of the initial operator, each running in parallel on different parts of the operator’s input data. A “dispatch” operator is injected into the data pipeline to split the input data stream into different partitions and a “collect” operator is injected to aggregate the output of the replicas into a single output. The replicas are aggregated into a single output data stream. The first experiments show that this parallelization solution allows improving the performance of data pipelines, but does not allow obtaining optimal performance in real environments, which need to estimate and to dynamically adapt the operator replication/data parallelization degree in relation to the volumes of data exchanged, the calculations performed and the available resources.

Sujet :
The objective of this internship is to propose new methods to facilitate and optimize the deployment and execution of parallelized data pipelines. This raises several scientific and technical challenges:

• Estimating the replication degree: How many replicas should be deployed for each operation to be processed in parallel? To answer this question, we need to estimate the benefit of parallel processing as a function of the number of replicas, the amount of data to be processed and the CPU consumption of an operation. This benefit must also be related to the cost of using the machines running data pipelines in the cloud, in order to determine an optimal number of replicas for a certain budget.

• Elastic deployment: How can we adapt the number of replicas to dynamic changes in available resources and associated costs? This demands for new solutions to allow the number of replicas (degree of parallelism) of an operator to be dynamically changed without interrupting the pipeline.

Internship goals and tasks

Internship #1. The goal of the first internship is to evaluate the performance of the parallelization method on different types of stateful operators by varying the CPU load of the operator, the size of the operators state, and the size of the messages dispatched to the replicas. The evaluation will be run on a Kubernetes cluster deployed on a hyperscaler platform. Through this evaluation, we expect to learn the configuration parameters that provide the greatest parallelization benefit and some suggestions for improving the parallelization method.

Tasks:

• Propose a model to estimate the overhead incurred by adding operations that partition data and distribute it to replicas in the pipeline.

• Design a method to observe the execution of the pipeline and detect an overload (underload) situation.

• Determine the new degree of parallelism that will improve pipeline performance.

Internship #2. The goal of the second internship is to implement dynamic dispatch and collect operators which automatically adapt to the scaling up or down of the number of replicas of a parallelized operator. For the dispatch operator, the strategy must guarantee that no message is lost in case of scaling down. For the collect operator, the strategy must guarantee that all messages produced by the replicas are properly collected and possibly re-ordered in case of scaling up.

Tasks:

• Design a technical solution to dynamically change the number of running operator replicas and adapting the dispatch and collect operators.

• Conduct experiments using data pipeline examples to check the validity of the implemented strategies and measure their possible overhead.

The solutions will be deployed in the SAP DI environment. Comparative experiments will be implemented on the Spark parallel computing platform. For this, a solution will be designed to transform the pipeline description (written with Data Intelligence syntax) into a Spark pipeline [1] (pyspark syntax).

References

[1] Michael Armbrust, Reynold S. Xin, Cheng Lian, Yin Huai, Davies Liu, Joseph K. Bradley, Xiangrui Meng, Tomer Kaftan, Michael J. Franklin, Ali Ghodsi, and Matei Zaharia. Spark SQL: relational data processing in spark. In ACM SIGMOD International Conference on Management of Data, pages 1383–1394, 2015.

[2] David Bernstein. Containers and cloud: From lxc to docker to kubernetes. IEEE Cloud Computing, 1(3):81–84, 2014.

[3] Tanmaya Mahapatra. High-level graphical programming for big data applications. Master’s thesis, Technische Universität München (TUM), 2019.

[4] Ludgy Vestris. Scaling up stateful and order preserving operators in DI data pipelines. Master’s thesis, CNAM, SAP – LIP6, 2022.

Profil du candidat :
The candidate should have excellent experience in algorithmic and programming (Python, Java) and advanced knowledge of optimization and parallelization techniques (query optimization, data parallelism, map-reduce, ….) and some technical knowledge of Docker/Kubernetes is also helpful. To apply, you should send to the three co-supervisors (see email above), a CV and the grades of the last three semesters of study.

Formation et compétences requises :
Dernière année de Master ou d’École d’ingénieur

Adresse d’emploi :
• SAP France (Levallois-Perret)
• Equipe Bases de Données du LIP6 (Paris): http://www-bd.lip6.fr/

Document attaché : 202212021339_Stage_LIP6_SAP_2023-3.pdf

Internship proposal: Domain Adaptation by using Riemannian Geometry for Remote Sensing Data
Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : LISTIC, University Savoie Mont-Blanc
Durée : 6 months
Contact : guillaume.ginolhac@univ-smb.fr
Date limite de publication : 2023-04-01

Contexte :
Domain Adaptation is a field of machine learning that consists of developing learning techniques with a different set of training and test data [Moreno-Torres et al., 2012]. This type of methods is
interesting because it allows either to strongly limit the training phase and thus achieve frugality, or to do supervised learning in domains with very little labeled data. A significant number of techniques are used to address this problem such as methods based on optimal transport [Courty et al., 2017]. On the other hand, Riemannian geometry has shown its interest in learning when the features used in classification are subject to constraints such as covariance matrices in EEG [Barachant et al., 2012]. Similarly, in a recent work, it has been shown that these mathematical tools are robust to transformations of the training data [Collas et al., 2022]. The performance loss is then very small if we
consider several features and their associated geometry.

Sujet :
We propose to apply more specifically the tools of Riemannian geometry to the problem of domain adaption. More particularly, we propose to study the interest of deep networks specific to covariance matrices and their associated layers. These networks are based on different Riemannian geometry tools and have shown good performances in computer vision. In particular, we will rely on the following papers [Li et al., 2017, Huang and Gool, 2017] proposing specific layers for covariance matrices. With the help of these papers, the work of the trainee will first consist in assessing the interest of these networks for domain adaptation.

Then we will develop new learning methods to study multivariate image time series in remote sensing. Specifically, we will adapt the networks used in [Rußwurm et al., 2020] by adding covariance matrix specific layers inspired by [Li et al., 2017, Huang and Gool, 2017]. The application goal is then to classify agricultural fields which is practically impossible without temporal information.

Finally, we will test the previously developed approaches on the dataset [pas, ] which contains time series of optical and SAR images over the same period. We will then be able to perform the learning phase on the optical images and measure the performance loss by applying our algorithms on the SAR data. Indeed, many optical data are labeled which is much rarer for SAR images because they are often a little noisier and a little more difficult to analyze for non-specialists. On the other hand, they are very interesting because they allow a better periodicity and give relevant information even at night or in the presence of clouds.

Profil du candidat :
Master/Engineering student with knowledge in statistics and machine learning (having followed courses on these topics is strongly advised). Good coding skills in Python.

Formation et compétences requises :
Master/Engineering student with knowledge in statistics and machine learning (having followed courses on these topics is strongly advised). Good coding skills in Python.

Adresse d’emploi :
LISTIC, Annecy, FRANCE

Document attaché : 202211071629_FrugalDomainAdaptationRADAR.pdf

Apr
20
Thu
2023
Deep learning en analyse d’images aéroportées pour la modélisation de cultures résilientes au Sahel
Apr 20 – Apr 21 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD, Equipe Phenomen
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2023-04-20

Contexte :
Le projet Sustain-Sahel (financement européen H2020) vise à évaluer l’effet des pratiques agro-forestières au Sahel afin de caractériser l’impact sur les cultures de la présence d’arbres. L’arbre et l’agro-foresterie sont considerés comme des leviers de la sécurité alimentaire face au changement climatique. Des séries temporelles d’imagerie aérienne de cultures agro-forestières ont été collectées par drone pour objectiver ces considérations. Ces images sont accompagnées de données tabulaires relevées sur le terrain (biomasse, surface foliaire, cycle annuel des variétés).

Sujet :
L’objectif du stage est d’entraîner des modèles convolutifs à séparer les sources (mauvaises herbes, cultures, arbres), pour modéliser la distribution spatio-temporelle de la végétation sur les parcelles cultivées en agro-foresterie. Dans ce but, le stagiaire aura la responsabilité de développer des outils automatiques d’analyse d’image et de modélisation. Il mobilisera des techniques de machine-learning, de deep learning et couplera les observations avec des modèles de mélange des cultures et de croissance des plantes.

Profil du candidat :
Master 2 ou école d’ingénieur. Ce stage est une opportunité accessible à des étudiant(e)s provenant d’une école en informatique, en modélisation mathématique, en analyse d’images. Le goût pour le travail en équipe à l’interface entre plusieurs disciplines (maths-info, écophysiologie, agro) sera nécessaire. Un interêt scientifique pour la modélisation des systèmes biologiques serait un plus.

Formation et compétences requises :
Le langage de programmation utilisé sera Python, en utilisant des outils de développement communautaire et de maintien logiciel (Github, Intégration Continue). Une connaissance préalable du fonctionnement des réseaux de neurones profonds (en particulier des réseaux convolutifs) est souhaitée. Une première expérience d’une bibliothèque de Deep Learning (PyTorch, Keras, TensorFlow, …) et de Machine learning (Scikit-learn) seraient un plus.

Adresse d’emploi :
Cirad Montpellier, 389 Av. Agropolis, 34980 Montferrier-sur-Lez.

Document attaché : 202211231203_Offre de stage M2 – Sustain Sahel.pdf

Development of efficient graph neural networks for time-series data H/F
Apr 20 – Apr 21 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CEA Grenoble
Durée : 6 mois
Contact : thomas.dalgaty@cea.fr
Date limite de publication : 2023-04-20

Contexte :
The candidate will develop graph neural networks for application to time-series data. In particular, there will be a focus on increasing the efficiency of the approach such that it is compatible with the energy and memory constraints of embedded systems.

Le candidat développera des réseaux neuronaux graphiques pour les appliquer à des séries de données temporelles. En particulier, il s’agira d’accroître l’efficacité de l’approche de manière à ce qu’elle soit compatible avec les contraintes d’énergie et de mémoire des systèmes embarqués.

Sujet :
Graph neural networks are an emerging method in artificial intelligence developed in order to apply deep learning techniques on graph structured data. Recently graph neural networks have been found to perform well in applications where images and video are represented as graphs and do so with impressive reductions in computational complexity and hardware requirements. The objective of this internship will be to apply and adapt these methods (under development in the LIIM laboratory) to time-series data (i.e., analogue signals recorded from sensors). In particular, the question of the how such as an algorithm can be adapted to run in real-time in an embedded system at the edge will be addressed. The M2 internship will be hosted by the LIIM laboratory, based at the Minatec campus in Grenoble. The start date is flexible, but expected to be in springtime 2023 and will last for 6 months. There is a possibility to follow-up the internship with a PhD for candidates that show promise. We are looking for a candidate with an interest in AI, embedded systems and electronic circuits as well as in doing upstream technological research. This is an advanced topic and the candidate will be required to develop their own ideas and research plan with the support of a team of three supervisors.

Les réseaux neuronaux graphiques sont une méthode émergente en intelligence artificielle, développée afin d’appliquer des techniques d’apprentissage profond sur des données structurées en graphes. Récemment, les réseaux de neurones graphiques se sont révélés performants dans des applications où les images et les vidéos sont représentées sous forme de graphes, et ce avec des réductions impressionnantes de la complexité de calcul et des exigences matérielles. L’objectif de ce stage sera d’appliquer et d’adapter ces méthodes (en cours de développement dans le laboratoire du LIIM) à des données de séries temporelles (c’est-à-dire des signaux analogiques enregistrés par des capteurs). En particulier, la question de savoir comment un tel algorithme peut être adapté pour fonctionner en temps réel dans un système embarqué à la périphérie sera abordée. Le stage de M2 sera accueilli par le laboratoire LIIM, basé sur le campus Minatec à Grenoble. La date de début est flexible, mais devrait être au printemps 2023 et durera 6 mois. Il y a une possibilité de suivre le stage avec un doctorat pour les candidats qui se montrent prometteurs. Nous recherchons un candidat ayant un intérêt pour l’IA, les systèmes embarqués et les circuits électroniques, ainsi que pour la recherche technologique en amont. Il s’agit d’un sujet avancé et le candidat devra développer ses propres idées et son plan de recherche avec le soutien d’une équipe de trois superviseurs.

Profil du candidat :
This is M2 internship for students following a degree in computer or electrical engineering.

Il s’agit d’un stage de M2 pour les étudiants suivant un diplôme en génie informatique ou électrique.

Formation et compétences requises :
This is M2 internship for students following a degree in computer or electrical engineering.

Il s’agit d’un stage de M2 pour les étudiants suivant un diplôme en génie informatique ou électrique.

Adresse d’emploi :
CEA Grenoble

Modularisation du modèle de culture Samara
Apr 20 – Apr 21 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Equipe Phenomen / Cirad
Durée : 6 mois
Contact : christophe.pradal@inria.fr
Date limite de publication : 2023-04-20

Contexte :
Dans le cadre de la thèse de Cyrille Midingoyi et de l’initiative international AMEI (Agriculture Model Exchange Initiative), nous avons récemment développé le système de transformation de modèles,
Crop2ML (Crop Modelling Meta Language) (Midingoyi et al., 2020 ; 2021). Crop2ML permet la réutilisation et l’échange de composants de modèles entre plateformes de modélisation internationales (STICS, DSSAT, SimPlace, BioMA, APSIM et OpenAlea).
Ce système ouvert et transparent représente un changement important pour la communauté scientifique. Il permet de développer des composants de modèles en respectant les principes FAIR de la science ouverte (Findable, Accessible, Interoperable, Reusable).

Au sein de l’équipe Phenomen, nous avons plusieurs modèles de plante (Ecomeristem), et de cultures (Samara) qui pourraient être intégrer au sein de cette plateforme. Cependant avant que cela ne soit possible, il y a un besoin de recodage, notamment du modèle Samara, pour pouvoir faciliter sa modularisation et sa prise en main pour les chercheurs de l’équipe (France, Sénégal, Cambodge, Madagascar).

Samara est un modèle de culture qui simule la croissance et le développement d’une culture á l’échelle de la parcelle. La particularité de ce modèle repose sur l’inclusion explicite de la morphologie de la plante. Ainsi, la croissance des plantes et des organes n’est pas seulement limitée par l’assimilation du carbone (source ou offre), mais aussi par sa demande, qui correspond à la capacité des puits accumulée pour la croissance et la respiration au cours d’une journée donnée. Samara a été développé, il y a une quinzaine d’année, d’abord sous delphi, puis retraduit sur C++. Il y a maintenant un besoin de renouveau dans le code.

Sujet :
L’objectif de ce stage sera de retranscrire le code C++ de samara en code intégrable dans la plateforme Crop2ML.

Activité 1. Retranscrire le code C++ de samara en du code lisible pour tous, documenté et intégrable dans Crop2ML (CyML proche de Python).

Activité 2. Travailler sur la modularisation de Samara, via la mise en place d’un schéma conceptuel des différents processus modélisés du modèle.

Activité 3. Concevoir un environnement de modélisation utilisant Crop2ML permettant à des agronomes et éco-physiologistes non informaticiens de faire évoluer les sous-modèles.

Activité 4. Simulation et/ou optimisation du modèle à partir de données existantes et formation/transfert de la méthode auprès des utilisateurs.

Profil du candidat :
Ingénieur informaticien ou ingénieur agronome avec une aptitude á coder

Formation et compétences requises :
– Coder en Python et R. Connaissances en C++ utiles.
– Esprit logique et connaissance ou aptitude á comprendre les processus de croissance et développement de la plante.
– Capacité à interagir avec différentes disciplines, et instituts

Adresse d’emploi :
CIRAD Campus de Lavalette – Avenue Agropolis Montpellier

Document attaché : 202211232110_offre-stage-samara.pdf

Apr
30
Sun
2023
Job Recommendation From A Heterogeneous Graph
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : SAMOVAR – Télécom SudParis
Durée : 6 mois
Contact : julien.romero@telecom-sudparis.eu
Date limite de publication : 2023-04-30

Contexte :
Job recommendation is the task of associating candidates with jobs. This can be useful for candidates who would like to find to best possible jobs, for companies that want to find the rarest talents in the vast pool of candidates, but also for independent recruiters who need to be as precise as possible when they send a resume to a company.

In this internship, you will work on a new dataset for job recommendations. Its particularity is that it contains much additional information about candidates and jobs we can represent as a graph. Besides, it is very sensitive to the cold start problem: We have many new candidates and new jobs, and it restricts a lot of the algorithms we can use.

If we consider video recommendations on Youtube, an average viewer watches many videos, and each video is viewed many times. Therefore, when recommending new videos to a specific user, we can look at what other similar viewers watched and recommend the most relevant video. This is the principle of collaborative filtering. In our case, our users are likely to get a job and never come back. Likewise, jobs are associated with one person, and then, we are done with it. Therefore, we need to exploit extra information to make the recommendation.

For our dataset, we can represent our pool of candidates and jobs with a heterogeneous graph, connecting candidates and jobs, but also additional node types like skills, cities, or employment types. Because we have this expressive representation, we must adapt the existing algorithms. During the internship, we will see how graph neural networks can be used to make recommendations, and we will propose a new architecture to solve our specific problem.

The goal of this internship will be to publish a paper at an international conference. The intern will work together with a Ph.D. student.

Sujet :
The intern will start with a study of the state-of-the-art methods for recommendation centered on graphs. First, they will get familiar with the traditional datasets and the primary baselines. Then, they will implement our new models and compare them with the previous works.

Profil du candidat :
The intern should be involved in a master’s program and have a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.

Formation et compétences requises :
The intern should be involved in a master’s program and have a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.

Adresse d’emploi :
The internship will take place at Telecom SudParis at Palaiseau. The intern will join the computer science department. The internship is paid and will last six months.

If you are interested, please send us your resume, a transcript of your grades, and a cover letter (in French or English).

Document attaché : 202303081609_internship_job_recommandation.pdf

Question Answering With Open Knowledge Bases
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : SAMOVAR – Télécom SudParis
Durée : 6 mois
Contact : julien.romero@telecom-sudparis.eu
Date limite de publication : 2023-04-30

Contexte :
Given a text, it is possible to extract from it knowledge in the form of subject-predicate-object triples, where all components of the triples can be found in the text. This is called Open Information Extraction (OpenIE). For example, from the sentence “The fish swims happily in the ocean”, we can extract the triple (fish, swims, in the ocean). By gathering many of these statements, we obtain an Open Knowledge Base (OpenKB), with no constraints on the subjects, the predicates, and the objects.

Then, this OpenKB could be used for question answering (QA). There have been many approaches that target QA over non-open KBs. These approaches vary from crafting query templates that, once filled in, will be used to query the KB, to neural models, where the goal is to represent the question and the possible answers as latent vectors, where the correct answer should be close in the embedding space to the question. In this project, we will focus on neural models, particularly knowledge graph embeddings, i.e., continuous representations for the entities and relations that can generally capture relevant information about the graph’s structure.

The current way KB embeddings are computed raises two main challenges:
* Each entity and relation must be seen enough times during training so the system can learn relevant embeddings. The training is done taking edges information into account, so the entity or relation must be part of a sufficiently large number of edges.
* The textual representation of the verbal and noun phrases of the relations, subjects, and objects should be considered.

For example, a recent approach, MHGRN, computes embeddings by using a modified graph neural network architecture. This architecture, however, does not take into account the textual representation of relations.
A better approach is CARE, that relies on two main ideas. First, it clusters the subjects and objects and creates an unlabelled edge between entities in the same cluster. That partially reduces the problem of the entities connected to a small number of edges, by leveraging the connection with better connected entities. Then, it computes embeddings for the relations using GLOVE (word embeddings) and GRUs (recurrent neural networks). We believe that the approach in CARE could be improved by considering more modern neural architectures using message-passing algorithms and integrating the textual representation of predicates, objects, and subjects. In addition, we will investigate if the clustering step is necessary, as it can bring a bias for one important downstream application of KB embeddings: canonicalization, the task of finding a representative for a set of nodes or edges.

In this project, we will improve open KB embedding methods by:
* Exploring state-of-the-art neural architectures and language models.
* Integrating textual representations of the subject, predicate, and object.
* Investigating if clustering before embedding computation is necessary.
* Integrating embeddings into question-answering models.

Sujet :
The intern will start with a study of the state-of-the-art methods for OpenIE. First, they will get familiar with the traditional datasets and the primary baselines. Then, they will implement our new models and compare them with the previous works.

Profil du candidat :
The intern should be involved in a master’s program and have a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.

Formation et compétences requises :
The intern should be involved in a master’s program and have a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.

Adresse d’emploi :
The internship will take place at Telecom SudParis at Palaiseau and will be a collaboration with INRIA Saclay. The intern will join the computer science department. The internship is paid and will last six months.

If you are interested, please send us your resume, a transcript of your grades, and a cover letter (in French or English).

Document attaché : 202303081615_internship_openie.pdf

Vers la prédiction des compositions d’équipe optimales
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Greyc/Skriners
Durée : 6 mois
Contact : albrecht_zimmermann@gmx.net
Date limite de publication : 2023-04-30

Contexte :
L’utilisation de méthodes informatiques pour analyser les données sportives donne aux praticiens (entraîneurs, agents, athlètes eux-mêmes) des outils puissants pour prendre des décisions plus objectives lorsqu’il s’agit d’une variété de questions qui se posent dans le sport
professionnel.
La société Skriners propose déjà un outil d’aide à la décision pour l’acquisition ou le remplacement de joueurs, basé sur des statistiques sophistiquées dérivées d’enregistrements vidéo de matchs. Skriners est un logiciel SaaS destiné aux professionnels du sport, qui leur permet de comparer, recommander et gérer des joueurs en fonction de critères statistiques.
Grâce à sa base de données complète, Skriners peut également aider à dénicher des talents prometteurs. Le logiciel propose également une fonctionnalité de gestion d’effectifs. Cette aide à la décision se limite pour l’instant aux joueurs individuels, sans tenir compte des coéquipiers ni des informations éventuelles sur les adversaires.
À long terme, l’outil doit être enrichi pour suggérer automatiquement des compositions d’équipe, sur la base des joueurs disponibles, de la stratégie de match envisagée, des informations sur l’équipe adverse, etc. Cela nécessitera de prendre en compte les synergies entre les
joueurs, ainsi que les performances de certains joueurs dans des systèmes défensifs ou offensifs donnés.

Sujet :
Le travail à effectuer dans le cadre de ce stage jettera les bases de cette recherche future, en explorant si et comment les travaux existants sur la chimie des équipes [1], le contexte de la performance des joueurs [2], et l’identification automatique des formations tactiques [3] peuvent être appliqués aux données actuellement disponibles à Skriners. Sur la base de cette évaluation, le stagiaire commencera à implémenter et à appliquer ces techniques aux données afin d’obtenir des statistiques supplémentaires, ou identifiera la manière dont les données et/ou
les méthodes doivent être adaptées.

[1] Bransen, Lotte, and Jan Van Haaren. “Player chemistry: Striving for a perfectly balanced soccer team.” arXiv preprint arXiv:2003.01712 (2020).
[2] Bransen, Lotte, Pieter Robberechts, Jesse Davis, Tom Decroos, Jan Van Haaren, Angel Ric, Sam Robertson, and David Sumpter. “How does context affect player performance in football?.” (2020).
[3] Bialkowski, A., Lucey, P., Carr, P., Yue, Y., Sridharan, S. and Matthews, I., 2014, December. Large-scale analysis of soccer matches using spatiotemporal tracking data. In 2014 IEEE international conference on data mining (pp. 725-730). IEEE.

Objectifs
– Évaluer l’applicabilité des méthodes existantes aux données disponibles à Skriners
– Évaluer les besoins et les sources possibles de données supplémentaires
Activités
– Se familiariser avec les données dont dispose Skriners
– Se familiariser avec les travaux existants dans la littérature
– Identifier s’il existe des données qui seraient nécessaires mais qui sont actuellement manquantes
– Implémenter et appliquer les méthodes existantes aux données, en générant des statistiques supplémentaires
– Identifier des sources de données supplémentaires

Profil du candidat :
Étudiant en INFORMATIQUE ou en STATPS.
Les candidats sont encouragés à postuler dès que possible.

Formation et compétences requises :
Des connaissances en programmation, ainsi qu’en apprentissage automatique/exploitation de données ou en statistiques sont nécessaires.

Adresse d’emploi :
GREYC CNRS UMR 6072
Team CODAG – Contraintes, Ontologies, Data mining, Annotations, Graphes
Université de Caen Normandie
14000 Caen, France

Skriners
38 rue de Metz
92000 Nanterre

Document attaché : 202303291007_sujet de stage Skriners.pdf