MaDICS

Scene flow estimation for the measurement of growth induced plant movements

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube, Université de Strasbourg, CNRS
Durée : 6 mois
Contact : remi.allegre@unistra.fr
Date limite de publication : 2023-02-28

Contexte :
Le sujet proposé s’inscrit dans le contexte d’un projet de recherche de l’équipe Informatique Géométrique et Graphique du laboratoire ICube (Université de Strasbourg, CNRS) et de biophysiciens de l’Université Paris Diderot et de l’ENS Lyon. Le projet concerne l’étude des mouvements de croissance de plantes à partir de séquences de photographies prises depuis plusieurs points de vue.

Sujet :
Le sujet de stage porte sur l’estimation du flux optique et du flux de scène à partir à partir de séquences de photographies de plantes en croissance, en utilisant des approches par apprentissage profond.

Le sujet détaillé est disponible (en anglais) en suivant le lien ci-dessous :
https://igg.unistra.fr/People/allegre/Sujets/2022-2023-SuiviPlantes_Stage_M2_EN.pdf

Profil du candidat :
Un niveau M2 ou dernière année d’école d’ingénieur en informatique est requis, avec des connaissances de base en vision par ordinateur ou traitement d’images, ainsi qu’en apprentissage automatique.

Une ouverture vers le domaine d’application en biophysique est nécessaire pour pouvoir échanger avec les experts de la croissance des plantes.

Formation et compétences requises :
Un niveau M2 ou dernière année d’école d’ingénieur en informatique est requis, avec des connaissances de base en vision par ordinateur ou traitement d’images, ainsi qu’en apprentissage automatique.

Adresse d’emploi :
Le stage se déroulera dans les locaux de l’équipe Informatique Géométrique et Graphique du laboratoire ICube, situés sur le campus d’Illkirch, à proximité de Strasbourg (300 bd Sébastien Brant, 67412 Illkirch).

Categories: Stages

Wed

Approche hybride pour la détection de rançongiciels

Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Da Vinci Research Center(DVRC)
Durée : 6 mois
Contact : christophe.rodrigues@devinci.fr
Date limite de publication : 2023-03-01

Contexte :
L’utilisation de l’intelligence artificielle (IA) pour la cybersécurité ou plus spécifiquement pour la détection des logiciels malveillants est devenue un sujet de premier plan. Dans ce contexte, l’entreprise SitInCloud a développé Owlyshield, un des meilleurs modèles IA sur le marché pour la détection des rançongiciels, en disposant de plus de 115000 exécutables pour l’entraînement, un modèle avec plus de 3 millions(?)de paramètres et un taux de précision de 97%. Cependant, les logiciels malveillants ne cessent d’évoluer avec des techniques de plus en plus sophistiquées afin de déjouer les systèmes de détection.

Sujet :
L’objectif de ce stage est d’améliorer l’approche hybride qui combine l’analyse statique et l’analyse dynamique du code pour avoir des modèles plus fiables. L’analyse statique se base actuellement sur i) des caractéristiques extraites d’exécutables comme le nombre de sections, leurs tailles, les entropies, etc. et ii) des images qui représentent des exécutables.
Des biais existent sur les images utilisées pour les réseaux neuronaux convolutifs (CNN) car les exécutables de maliciels sont généralement plus petits et compressés. Quant à l’analyse comportemental ou dynamique, nous souhaitons extraire plus d’informations des séries temporelles, ce qui permettra une meilleure analyse du temps d’exécution du code. Enfin, une pondération des décisions statiques et dynamiques devrait être faite en fonction de la quantité de données comportementales disponibles.

Profil du candidat :
Candidat à l’aise avec le développement logiciel et intéressé par les techniques d’apprentissage profond.
Intéressé par la recherche en informatique, ce stage peut se poursuivre en thèse avec le partenariat de l’entreprise (SitInCloud).

Formation et compétences requises :
Deep Learning, Cybersécurité, Python, Rust, Analyse de programme

Adresse d’emploi :
Paris La Défense

Document attaché : 202301231103_SujetStageM2ApprocheHybrideDetectionRancongiciels.pdf

Categories: Stages

Navigation dans les règles d’implication multidimensionnelles pour l’aide à la décision en santé animale et végétale (agroécologie)

Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRMM/CIRAD
Durée : 6 mois
Contact : marianne.huchard@lirmm.fr
Date limite de publication : 2023-03-01

Contexte :
Le stage est réalisé dans le cadre de l’Institut de convergence # Digitag (https://www.hdigitag.fr/fr/).

Pour un producteur agricole, décider d’une pratique impose de considérer celles mises en place afin d’éviter de perturber l’équilibre du système. Il doit donc connaître la diversité des situations culturales. Par exemple, la littérature présente diverses solutions à base de plantes pour contrôler l’infestation d’une culture agricole par une population de bioagresseurs. Choisir une solution qui la repousserait peut la faire migrer vers une culture avoisinante peu attaquée. En comportant plus de 48000 descriptions d’utilisation de plantes à effet pesticide et antibiotique, la base Knomana [Silvie et al., 2021] peut permettre ce choix. Les plateformes logicielles RCAviz [Muller et al. 2022] et RCAvizIR permettent de naviguer dans cette base dont les connaissances ont été classées par l’Analyse de Concepts Relationnels. De façon à représenter fidèlement les données en plusieurs dimensions et faciliter leur interprétation par le producteur agricole, une solution consiste à les exprimer sous forme de règles d’implication multidimensionnelles, une méthode nouvelle issue de l’Analyse de Concepts Formels. Pour une relation ternaire connectant des bioagresseurs, des plantes qui les contrôlent et des cultures protégées, cette méthode permet par exemple d’énoncer les connaissances sous la forme « quand Bioag1 est contrôlé par plant1 sur culture1, alors Bioag1 est également contrôlé par plant2 sur culture1, et par plant3 sur culture2 ».

Sujet :
L’objectif du stage est de développer une approche et un prototype logiciel de visualisation de connaissances, exprimées sous forme de règles d’implication multidimensionnelles. Ces règles sont produites par un algorithme implémenté en Python. Nous développerons également une stratégie de présentation des règles à l’utilisateur incluant ses centres d’intérêt et d’après la sémantique du contenu des règles.

Profil du candidat :
Personne intéressée par l’ingénierie des connaissances, l’analyse visuelle (visual analytics) et à trouver des solutions alternatives aux pesticides et antibiotiques de synthèse pour l’agriculture biologique.

Formation et compétences requises :
Etudiante ou étudiant de Master 2 (informatique ou bioinformatique) ayant des compétences solides en programmation et en analyse de données.

Adresse d’emploi :
LIRMM, 161, rue Ada, 34095 Montpellier Cedex 05

Document attaché : 202210200644_SujetStage2022_2023.pdf

Categories: Stages

Representation of physical quantities on the Semantic Web

Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIMOS at Institut Henri Fayol, Mines Saint-Étienne
Durée : 5 mois
Contact : antoine.zimmermann@emse.fr
Date limite de publication : 2023-03-01

Contexte :
Physical quantities form an important part of what is represented in scientific data, medical data, industry data, open data, and to some extent, various private data.

Whether it is distances, speeds, payloads in transportation, concentrations, masses, moles in chemistry, powers, intensities, voltages in the energy sector, dimensions of furniture, weights, heights of people, durations, and many others in health, there is a need to represent physical quantities, to store them, to process them, and to exchange them between information systems, potentially on a global scale, often on the Internet and via the Web.

Sujet :
In this internship, we seek to precisely define a way to unambiguously represent physical quantities for the Web of Data. More precisely, we will study the proposals made to encode physical quantities in the standard data model of the Semantic Web, RDF. We will be particularly interested in the use of a data type dedicated to this encoding, probably adapted from the proposal of Lefrançois & Zimmermann (2018) based on the UCUM standard.

Having established a rigorous definition of the data type (possibly its variants, if relevant), we will focus on implementing a module that can read/write and process physical quantities and their operations within the RDF data manipulation APIs, for the management, querying and reasoning with knowledge graphs containing physical quantities.

The ambition is that, on the one hand, the specification will become in a few years a de facto standard, before perhaps becoming a de jure standard; and that, on the other hand, the implementation will be the reference allowing to compare the compliance levels of other future implementations.

This study should lead to the publication of a scientific paper in a high impact scientific journal.

References
1. Maxime Lefrançois and Antoine Zimmermann (2018). The Unified Code for Units of Measure in RDF: cdt:ucum and other UCUM Datatypes. In The Semantic Web: ESWC 2018 Satellite Events – ESWC 2018 Satellite Events, Heraklion, Crete, Greece, June 3-7, 2018, Revised Selected Papers, volume 11155 of the Lecture Notes in Computer Science, pp196–201, Springer.
2. Gunther Shadow and Clement J. McDonald. The Unified Code for Units of Measure. Technical report, Regenstrief Institute, Inc, November 21 2017.

Complete description available at https://www.emse.fr/~zimmermann/Teaching/SemWeb/Internship/

Profil du candidat :
Interested in the definition of specifications and their implementation.
Interested in research activities.

Formation et compétences requises :
Master 2 in computer science
Knowledge of Semantic Web technologies
Java programming
Preferably good writing skills

Adresse d’emploi :
École des mines de Saint-Étienne, bâtiment espace Fauriel, 29 rue Ponchardier, Saint-Étienne. https://www.openstreetmap.org/node/2794933485

Categories: Stages

Mon

Analyse de données hétérogènes pour améliorer la prédiction d’indices de sécurité alimentaire

Mar 6 – Mar 7 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : simon.madec@cirad.fr
Date limite de publication : 2023-03-06

Contexte :
Ce stage de Master s’inscrit dans le cadre du projet SCOSSA du programme TOSCA du CNES et dans la thématique générale de la sécurité alimentaire en Afrique de l’Ouest considérée comme l’un des enjeux majeurs de développement de la région.

Dans ce contexte, des données recueillies au travers d’enquêtes ménage représentent aujourd’hui une source d’informations fondamentales pour calculer les indicateurs de sécurité alimentaire qui sont ensuite utilisés en routine par différentes organisations. Ces indicateurs sont particulièrement difficiles à mettre en place dans les zones de conflit où les enquêtes ne peuvent se dérouler normalement.

Des études récentes se sont intéressées à l’estimation de ces indices à partir de données géospatiales et hétérogènes, en proposant des méthodes fondées sur l’utilisation des techniques avancées de science des données, et plus précisément d’apprentissage automatique et profond [1]. Ces approches permettent d’expliquer une part de la variation de la consommation alimentaire insuffisante et peut surpasser un modèle utilisant la prévalence comme estimation.

Des limitations existent encore et concernent notamment l’explicabilité des modèles (apprentissage par machine) ainsi que les performances et la validation de ces modèles face à des situations inédites : régions concernées par des conflits armés, périodes de crises économiques/inflation.

Sujet :
Au sein de l’UMR TETIS et en lien avec les équipes MISCA et ATTOS, l’objectif de ce stage est d’améliorer la performance des modèles d’apprentissage qui permettent d’estimer les indicateurs de consommation alimentaire.

Une première tâche sera la collecte et la mise en lien de données hétérogènes d’ordre économique et en lien avec les situations de conflits dans les régions d’intérêts [2].

Une deuxième étape sera d’analyser les résultats de simulation pour différentes entrées (données statique et non statique, d’ordre agronomique/ météorologique / économique…).

Des tests seront aussi réalisés sur d’autres régions / avec des données issues de nouvelles enquêtes [3].

[1] Deléglise, Hugo, et al. “Food security prediction from heterogeneous data combining machine and deep learning methods.” Expert Systems with Applications 190 (2022): 116189.

[2] Andree, Bo Pieter Johannes. “Estimating Food Price Inflation from Partial Surveys.” World Bank, Washington, DC (2021).

[3] https://microdata.worldbank.org/index.php/catalog/3768#metadata-version

Profil du candidat :
Compétences du candidat/e :

Connaissances/goût pour la programmation

Intérêt pour l’analyse de données

Rigueur scientifique

Curiosité et ouverture d’esprit

Capacité d’analyses, rédactionnelles et de synthèse

Informations complémentaires :

Durée de 6 mois, à partir de février 2023

Le stage se déroulera au CIRAD, dans l’UMR TETIS (Territoire, Environnement, Télédétection et Information Spatiale), située dans les locaux de la Maison de la Télédétection à Montpellier.

Encadrement

Simon Madec / Roberto Interdonato

Envoyer un CV et une lettre de motivation avant le 31/12/2022 à : simon.madec@cirad.fr

Formation et compétences requises :
Compétences du candidat/e :

Connaissances/goût pour la programmation

Intérêt pour l’analyse de données

Rigueur scientifique

Curiosité et ouverture d’esprit

Capacité d’analyses, rédactionnelles et de synthèse

Adresse d’emploi :
Maison de la Télédetection, 500 Rue Jean François Breton, 34090, Montpellier

Document attaché : 202212051459_Document.pdf

Categories: Stages

Explainable deep learning for Mild Cognitive Impairment detection with MR spectroscopy data

Mar 6 – Mar 7 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : XLIM, university of Poitiers
Durée : 5/6 months
Contact : olfa.ben.ahmed@univ-poitiers.fr
Date limite de publication : 2023-03-06

Contexte :
Alzheimer’s Disease (AD) is the most comment form of dementia. Neuroimaging data is an integral part of the clinical assessment providing a way for clinicians to detect brain abnormalities for AD diagnosis. Patients with AD suffer from the cognitive decline that leads to brain neurons and synaptic loss (i.e., memory loss, difficulty with problem-solving, etc.). Although there is currently no cure for AD, there are available medications that can slow down disease progression and improve the patient lifestyle. Recent studies on bio-markers research have demonstrated that the AD pathology is now suspected to start a long time before the manifestation of the clinical symptoms and even before brain damage. Hence, diagnosis of AD at earlier stages is of great clinical importance so that cognitive functions would be improved by medications and the spread of the disease would be prevented. Mild Cognitive Impairment (MCI) is an intermediary stage condition between healthy people and AD.
Detecting MCI subjects provide a potential window for early AD detection. However, MCI subjects’ detection remain a challenging clinical problem as it lies on a spectrum between NC and manifest AD. Therefore, identifying efficient bio-markers for early AD stages detection helps in establishing diagnosis and treatment strategies without delay. Over the last decades, imaging bio makers derived from anatomical Structural with machine learning techniques has been widely studied to assess brain atrophy for AD detection and prediction [1]. In addition to structural changes, metabolic changes in some brain regions could be a good biomarker for early AD detection [2]. However, the structural brain atrophy is not detectable at an early stage of the disease (namely for Mild Cognitive Impairment (MCI) and Mild Alzheimer’s Disease (MAD). Indeed, potential biological bio-markers have been proved their ability to early detect brain abnormalities related to AD before brain structural damage and clinical manifestation. Magnetic Resonance Spectroscopy (MRS) is a non-invasive technique providing a complementary approach to brain metabolism in vivo, during conventional MRI examination. MRS provides biological information of brain tissues at the molecular level allowing detecting brain abnormalities while MRI remains normal.

Sujet :
The goal of this internship is to:
• develop new deep learning based models for spectroscopy data classification for early AD detection, namely the MCI class detection.
• propose and implement a method for 1D Class Activation Map (CAM) generation for the 1D spectroscopy data for model interpretation. This task will the of a recently achieved work in our team [3]. The obtained 1D CAM should highlight the contributions of different MRS metabolites in the classification tasks. Data used in this internship are provided by CHU of Poitiers. In addition to the on MRS data, this data set contains multi-modal data of patients affected by different stages of AD (healthy elderly subjects, Mild Cognitive Impairment (MCI) and AD subjects)
Possibility to continue with a PhD proposal (starting in September/October 2023) in Artificial intelligence for medical images analysis

Location : XLIM (Site de Futuroscope), university of Poitiers in collaboration with the CHU of Poitiers
Tentative start date February/march 2023

Profil du candidat :
• Master 2 in computer vision, image processing, machine learning or any related field

Application : Send CV + transcripts and 2 reference letters to olfa.ben.ahmed@univ-poitiers.fr

Formation et compétences requises :
• Strong programming skills in python and deep learning frameworks (TensorFlow, pytorch)

Adresse d’emploi :
Location : XLIM (Site de Futuroscope), university of Poitiers in collaboration with the CHU of Poitiers

Categories: Stages

Prototypage d’une librairie Python pour l’extraction d’information

Mar 6 – Mar 7 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Unité MaIAGE, INRAE, Université Paris-Saclay
Durée : 4-6 mois
Contact : arnaud.ferre@inrae.fr
Date limite de publication : 2023-03-06

Contexte :
L’extraction d’information est le domaine du Traitement Automatique des Langues Naturelles visant à extraire et à structurer automatiquement des informations contenues dans de grandes quantités de textes. Une extraction commence classiquement par une tâche de reconnaissance d’entité, puis peut être suivie par une tâche de normalisation d’entité (parfois nommée “entity linking/disambiguation” ou “concept normalization”) et/ou par une tâche d’extraction de relation.

L’équipe Bibliome de l’unité de recherche MaIAGE de INRAE/Université Paris-Saclay est spécialisée dans la recherche méthodologique en extraction d’information, notamment en domaines spécialisés. Elle développe également des solutions d’extraction pour des applications finalisées appliquées au domaine des sciences du vivant.

Encadrants : Arnaud Ferré et Louise Deléger

Sujet :
Aujourd’hui, la grande majorité des méthodes d’extraction sont codées en langage Python. Bien que commencent à apparaître certaines librairies standards pour le traitement automatique des langues naturelles et qui contiennent leurs structures de données (ex : Stanza [1] ou spaCy [2]), celles-ci ne représentent souvent pas suffisamment les objets manipulés spécifiquement en extraction d’information. Par exemple, elles ne contiennent pas de classes explicites nommées “mention” ou “concept”, basiques en normalisation d’entité, et bien qu’il existe une classe plus abstraite capable de représenter en particulier une mention, celle-ci ne peut pas être définie comme discontinue (ex : le groupe nominal “liver and pancreatic cancer” contient deux mentions distinctes dont la mention d’intérêt “liver cancer”, laquelle ne peut être représentée de façon discontinue). En conséquence, la plupart des chercheurs qui développent de nouvelles méthodes s’appuient encore sur des structures ad hoc adaptées à leurs tâches, mais peu partageables et posant même des questions en termes de reproductibilité.

Nous faisons l’hypothèse qu’une librairie standard définissant une structure de données plus spécifique, c’est-à-dire plus proche des besoins des méthodologistes en extraction d’information, permettrait une meilleure reproductibilité, une facilité de prise en main, et un gain de temps de développement et d’intégration des méthodes.

La/le stagiaire devra développer un prototype de librairie Python définissant des classes d’objets adaptées aux besoins des méthodologistes pour les tâches de reconnaissance et normalisation d’entité. Un premier travail de comparaison avec au moins une des librairies standards devra être mené. Si cela est pertinent, la librairie pourra être développée comme une extension d’une de ces librairies standards. Des méthodes de reconnaissance et de normalisation et des jeux de données d’évaluation seront mis à disposition pour permettre de mettre en place un cadre de développement expérimental. Ce travail passera par le développement de parseurs qui iront parcourir, analyser et extraire les éléments des fichiers de jeux de données (de différents formats) pour les instancier dans un programme grâce aux structures de la librairie développée. Dans un second temps, ce travail pourra être dérivé à l’extraction de relation.

Le stagiaire aura accès à un ordinateur fixe, aux serveurs de calculs du laboratoire, et, au besoin, à des infrastructures de calcul haute performance (ex : Lab-IA).

[1] Qi, Peng, et al. “Stanza: A Python Natural Language Processing Toolkit for Many Human Languages.” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. 2020.
[2] Honnibal, Matthew, and Ines Montani. “spaCy 2: Natural language understanding with Bloom embeddings, convolutional neural networks and incremental parsing.” To appear 7.1 (2017): 411-420.

Profil du candidat :
Etre formé(e) ou expérimenté(e) en traitement automatique des langues naturelles ou plus particulièrement en extraction d’information.

Autonome en programmation Python, notamment orientée objet.

Formation et compétences requises :
Master 2 / dernière année d’école d’ingénieur en informatique, linguistique ou TAL. Ouvert à d‘autres spécialités (ex : bioinformatique) selon expérience.

Adresse d’emploi :
Centre de recherche INRAE de Jouy-en-Josas (78)

Categories: Stages

Vers un modèle explicable pour la détection d’infox sur des données médicales basée sur des méthodes d’apprentissage profond

Mar 6 – Mar 7 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ICube, université de Strasbourg
Durée : 5-6 mois
Contact : stella@unistra.fr
Date limite de publication : 2023-03-06

Contexte :
Ce stage s’inscrit dans le cadre du projet DEEPISH (Deep lEarning ExPlainabilIty through Symbolic approacHes) mené au sein des équipes SDC (Science des Données et Connaissances) et CSTB (Systèmes Complexes et Bioinformatique Translationnelle) du laboratoire ICube. Ce projet a pour objectif de proposer un modèle général reposant sur des techniques de raisonnement symbolique, permettant d’expliquer les décisions de systèmes basés sur un apprentissage profond.

Sujet :
Ce travail de stage consiste à proposer une méthode de détection d’informations fallacieuses ou infox (“fake news”) issues de données médicales collectées sur internet. La détection se fera au moyen de méthodes de classification de textes, reposant sur des modèles de langue pré-entraînés à l’aide de grandes quantités de données textuelles ou modèles de “transformers” de type “BERT”. La détection devra s’accompagner d’un modèle d’explicabilité basé sur une conceptualisation des données extraites.

Profil du candidat :
Autonome, curieux, ayant un goût pour la modélisation de concepts, et pour la mise en œuvre de techniques d’apprentissage profond.
Bonne aptitude à la communication et aux échanges d’idées.

Formation et compétences requises :
En Master deuxième année ou d’un niveau équivalent dans une école d’ingénieurs, le ou la candidat.e devra avoir suivi une filière d’informatique orientée en science des données ou en intelligence artificielle. Il ou elle devra avoir une bonne maîtrise :
– des mécanismes de base de l’apprentissage profond (librairies TensorFlow, Keras, etc.),
– du langage Python.
– des méthodes de traitement automatique des langues (NLP),
– du raisonnement symbolique et de la modélisation de connaissances (règles logiques, ontologies, etc.).

Adresse d’emploi :
ICube UMR 7357 – Laboratoire des sciences de l’ingénieur, de l’informatique et de l’imagerie
300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex

Document attaché : 202212051544_Sujet DEEPISH M2 2023.pdf

Categories: Stages

Mon

Classification d’image par apprentissage actif

Mar 20 – Mar 21 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire de Mathématiques et Applications
Durée : 4 mois
Contact : farida.enikeeva@math.univ-poitiers.fr
Date limite de publication : 2023-03-20

Contexte :
La classification d’image est un problème classique de l’apprentissage supervisé. La qualité de décision prise par un algorithme d’apprentissage supervisé dépend beaucoup de la base d’apprentissage utilisée notamment du volume de données labelisées. Très souvent il est coûteux de constituer une base d’apprentissage solide, comme dans le domaine médical ou industriel présentant notamment une classe peu représentée. Dans ce cas il est quasiment impossible d’avoir un nombre suffisant d’observations dans la classe rare, et de plus, les classes de la base d’apprentissage seront très déséquilibrées. C’est donc important de savoir comment construire la base d’apprentissage en minimisant à la fois le coût et le taux d’erreur de classification. Nous proposons dans ce projet d’utiliser les méthodes d’apprentissage actif (active learning) pour pouvoir améliorer la qualité de classification en utilisant une base d’apprentissage de taille optimale. Plus précisément, on dispose d’une base relativement petite d’images étiquetées. On a l’accès à la décision d’un expert qui peut valider une ou plusieurs étiquettes d’images données et on peut donc améliorer les décisions de l’algorithme. Le travail de l’expert représente le coût de la construction de la base d’apprentissage. A chaque étape de l’algorithme, en fonction des décisions de l’expert on ajoute de nouvelles images à la base d’apprentissage et on choisit quelles images montrer à l’expert à l’étape suivante. Cette dernière est choisie en fonction d’une certaine mesure de proximité entre les images et doit améliorer la qualité de la décision et de la base à l’étape suivante, en améliorant l’algorithme de décision.

Sujet :
L’objectif de ce stage est de tester des méthodes d’apprentissage actif dans le contexte de la classification d’image. Il y a plusieurs questions à aborder, comme par exemple, le choix des descripteurs, la mesure de proximité entre les images et la classification multi-label. Ce stage sera financé par un projet commun entre l’Institut XLIM, l’entreprise Einden et le LabCom DAMIALab.

Profil du candidat :
Niveau master d’une école d’ingénieur ou université en mathématiques appliquées

Formation et compétences requises :
Expérience en modélisation, apprentissage statistique et analyse d’image numérique. Maîtrise de Python ou Matlab.

Adresse d’emploi :
Laboratoire de Mathématiques et Applications, Université de Poitiers

Document attaché : 202302221247_Stage_LMA_XLIM_Poitiers2023.pdf

Categories: Stages

Thu

A hybrid approach to the explainability of artificial intelligence algorithms for personalised health care

Mar 30 – Mar 31 all-day

Offre en lien avec l’Action/le Réseau : HELP/Doctorants

Laboratoire/Entreprise : LIASD, université Paris 8
Durée : 6 mois
Contact : n.mellouli@iut.univ-paris8.fr
Date limite de publication : 2023-03-30

Contexte :
Over the past decade, there has been active research into healthcare services and their technological advancements. In particular, the Internet of Things (IoT) has demonstrated its potential to connect numerous medical devices, sensors, and healthcare professionals to provide high-quality medical services in remote locations. This trend was greatly enhanced during the COVID-19 outbreak. The result is an increase in patient safety, a decrease in healthcare spending, an increase in accessibility of healthcare services, and an increase in the operational efficiency of the healthcare sector. However, all these benefits are not without negative consequences for patients and even for healthcare workers. Indeed, artificial intelligence is increasingly being integrated into diagnostic systems, taking advantage of the availability of big data.

Sujet :
Over the past decade, there has been active research into healthcare services and their technological advancements. In particular, the Internet of Things (IoT) has demonstrated its potential to connect numerous medical devices, sensors, and healthcare professionals to provide high-quality medical services in remote locations. This trend was greatly enhanced during the COVID-19 outbreak. The result is an increase in patient safety, a decrease in healthcare spending, an increase in accessibility of healthcare services, and an increase in the operational efficiency of the healthcare sector. However, all these benefits are not without negative consequences for patients and even for healthcare workers. Indeed, artificial intelligence is increasingly being integrated into diagnostic systems, taking advantage of the availability of big data. Deep Learning (DL) applied to medical images for the diagnosis of cancer, and other diseases has led to black-box diagnostics systems with astounding results in terms of accuracy that often surpass those by expert clinicians. However, to be used for effective decision support in a perhaps stressed situation, a black-box oracle answer positive/negative is not enough; some explanation is needed. Abduction and Argumentation are two forms of inference where conclusions are drawn according to an underlying theory. Typically, abduction aims to draw an explanation for a set of observations, while argumentation aims to give reasons, or arguments, that support a conclusion against other conflicting conclusions. Abduction is sometimes described as “deduction in reverse”, whereby given a rule “A follows from B” and the observed result “A”, we infer that the condition “B” of the rule (may) hold. More generally, in the context of a logic-based setting, given a set of sentences representing a theory T that models a medical diagnosis domain of interest, and a sentence representing an observation O, abduction returns a set of sentences representing an abductive explanation H for O. The distinguishing feature of this project is to design and develop such tools in a collaborative design (CD) process together with medical staff experienced in the diagnosis and who represents the final users of this technology.
The main research question of this internship is how to link abduction and formal argumentation theory with learning-based approaches to address the aforementioned problem. Indeed, reasoning and learning play a complementary role in decision-making: learning produces the knowledge taken for granted when reasoning, whereas systematic reasoning draws inferences that provide the inductive bias that is assumed as given when learning. Hence, the main goal of the internship is to exploit the synergy between learning and reasoning, especially abduction and argumentation, to enhance learning-based processes.

Profil du candidat :
The internship duration is six months (“stage fin d’études”). The starting date must be before the end of March 2023, preferably at the beginning of the month. We are looking for a candidate interested in this topic with a background in artificial intelligence, knowledge representation and reasoning, formal logic, deep learning, and human-computer interaction.

Formation et compétences requises :
Master’s in Computer Science, Master’s in Data Science

Adresse d’emploi :
140, rue de la nouvelle France
93100 Montreuil,

Document attaché : 202301021626_SujetStage2023-NN-IV-EID.pdf

Categories: Stages

Deep learning et inférence sur CPU

Mar 30 – Mar 31 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : IRISA
Durée : 6 mois
Contact : sebastien.lefevre@irisa.fr
Date limite de publication : 2023-03-30

Contexte :
Voir plus de détails : https://www-obelix.irisa.fr/files/2022/12/internship_burnel.pdf

Sujet :
Evaluation de performance de réseaux de neurones profonds en cas d’inférence sur CPU

Profil du candidat :
Expertise en programmation et deep learning

Formation et compétences requises :
Master ou diplôme d’ingénieur

Adresse d’emploi :
IRISA Vannes, équipe OBELIX

Categories: Stages

Fri

Benchmarking Hierarchical Reinforcement Learning algorithms in robotic simulation

Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ENSTA Paris, Computer Science and System Engineeri
Durée : 6 months
Contact : sao-mai.nguyen@ensta-paris.fr
Date limite de publication : 2023-03-31

Contexte :
Fully autonomous robots have the potential to impact real-life applications, like assisting elderly people. Autonomous robots must deal with uncertain and continuously changing environments, where it is not possible to program the robot tasks. Instead, the robot must continuously learn new tasks and how to perform more complex tasks combining simpler ones (i.e., a task hierarchy). This problem is called lifelong learning of hierarchical tasks [5]. Hierarchical Reinforcement Learning (HRL) is a recent approach for learning to solve long and complex tasks by decomposing them into simpler subtasks. HRL could be regarded as an extension of the standard Reinforcement Learning (RL) setting as it features high-level agents selecting subtasks to perform and low-level agents learning actions or policies to achieve them.

Sujet :
This internship studies the applications of Hierarchical Reinforcement Learning methods in robotics: Deploying autonomous robots in real world environments typically introduces multiple difficulties among which is the size of the observable space and the length of the required tasks.  
Reinforcement Learning typically helps agents solve decision making problems by autonomously discovering successful behaviours and learning them. But these methods are known to struggle with long and complex tasks. Hierarchical Reinforcement Learning extend this paradigm to decompose these problems into easier subproblems with High-level agents determining which subtasks need to be accomplished, and Low-level agent learning to achieve them. 
During this internship, the intern will : 
• Get acquainted with the state of art in Hierarchical Reinforcement Learning including the most notable algorithms [1, 2, 3], the challenges they solve and their limitations.
• Reimplement some of these approaches and validate their results in robotics simulated environments such as iGibson [4].
• Establish an experimental comparison of these methods with respect to some research hypothesis.
The intern is expected to also collaborate with a PhD student whose work is closely related to this topic.

References:
[1] Nachum, O.; Gu, S.; Lee, H.; and Levine, S. 2018. Data- Efficient Hierarchical Reinforcement Learning. In Bengio, S.; Wallach, H. M.; Larochelle, H.; Grauman, K.; Cesa- Bianchi, N.; and Garnett, R., eds., Advances in Neural Infor- mation Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS 2018, December 3-8, 2018, Montre ́al, Canada, 3307–3317.
[2] Kulkarni, T. D.; Narasimhan, K.; Saeedi, A.; and Tenen- baum, J. 2016. Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation. In Lee, D.; Sugiyama, M.; Luxburg, U.; Guyon, I.; and Garnett, R., eds., Advances in Neural Information Processing Systems, volume 29. Curran Associates, Inc.
[3] Vezhnevets, A. S.; Osindero, S.; Schaul, T.; Heess, N.; Jaderberg, M.; Silver, D.; and Kavukcuoglu, K. 2017. FeU- dal Networks for Hierarchical Reinforcement Learning. CoRR, abs/1703.01161.
[4] Chengshu Li, Fei Xia, Roberto Mart ́ın-Mart ́ın, Michael Lingelbach, Sanjana Srivastava, Bokui Shen, Kent Vainio, Cem Gokmen, Gokul Dharan, Tanish Jain, Andrey Kurenkov, C. Karen Liu, Hyowon Gweon, Jiajun Wu, Li Fei-Fei, and Silvio Savarese. igibson 2.0: Object-centric simulation for robot learning of everyday household tasks, 2021. URL https://arxiv.org/abs/2108.0327
[5] Nguyen, S. M., Duminy, N., Manoury, A., Duhaut, D., and Buche, C. (2021). Robots Learn Increasingly Complex Tasks with Intrinsic Motivation and Automatic Curriculum Learning. KI – Künstliche Intelligenz, 35(81-90).

Profil du candidat :
The intern should be enrolled in a master program (either M1 or M2) in Computer Science or Robotics.

Formation et compétences requises :
The students should have a prior knowledge (e.g., followed some course) in machine learning, deep learning, and reinforcement learning, and be motivated to complete a research-focused internship.

Adresse d’emploi :
ENSTA Paris, Computer Science and System Engineering Department

Document attaché : 202302021426_internshipHierarchicalRL.pdf

Categories: Stages

Integrating Human Demonstrations in Hierarchical Reinforcement Learning

Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ENSTA Paris, Computer Science and System Engineeri
Durée : 6 months
Contact : sao-mai.nguyen@ensta-paris.fr
Date limite de publication : 2023-03-31

Sujet :
Hierarchical Reinforcement Learning (HRL) is a recent approach for learning to solve long and complex tasks by decomposing them into simpler subtasks. HRL could be regarded as an extension of the standard Reinforcement Learning (RL) setting as it features high-level agents selecting subtasks to perform and low-level agents learning actions or policies to achieve them. We recently proposed a HRL algorithm, GARA (Goal Abstraction via Reachability Analysis), that aims to learn an abstract model of the subgoals of the hierarchical task.
However, HRL can still be limited when faced with the states with high dimension and the real-world open-ended environment. Introducing a human teacher to Reinforcement Learning algorithms has been shown to bootstrap the learning performance. Moreover, active imitation learners such as in [1] have shown that they can strategically choose the most useful questions to ask to a human teacher : they can choose, who, when, what and whom to ask for demonstrations [2,3].
This internship’s goal is to explore how active imitation can improve the algorithm GARA. The intuition in this context is that human demonstrations can be used to determine the structure of the task (ie. which subtasks need to be achieved) as well as determining a planning strategy to solve it (ie. the order of achieving subtasks).
During this internship we will :
• Study the relevant state-of-art and make a research hypothesis about the
usefulness of introducing human demonstrations into the considered HRL
algorithm.
• Design and implement a component to learn from human demonstrations in
GARA.
• Conduct an experimental evaluation to assess the research hypothesis.
The intern is expected to also collaborate with a PhD student whose work is closely related to this topic.

Profil du candidat :
The intern should be enrolled in a master program (either M1 or M2) in Computer Science or Robotics.

Adresse d’emploi :
ENSTA Paris, Computer Science and System Engineering Department

Document attaché : 202302021428_internshipActiveImitationLearning.pdf

Categories: Stages

Stage M1 ou M2 informatique en Learning analytics

Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : EducAction/– — –

Laboratoire/Entreprise : LIFAT
Durée : 6 mois
Contact : sabine.barrat@univ-tours.fr
Date limite de publication : 2023-03-31

Contexte :
Le stagiaire sera intégré au laboratoire d’informatique de
l’Université de Tours (LIFAT), dans l’équipe RFAI (Reconnaissance des
Formes et Analyses d’Images). Le stage sera co-encadré par Gilles Tétart,
sociologue (Equipe Cost, laboratoire CITERES). Le stage est financé par le
RTR DIAMS (Réseau Thématique de Recherche Données, Intelligence
Artificielle, Modélisation et Simulation).

Sujet :
« Learning analytics : l’Intelligence Artificielle appliquée à l’identification
d’apprenants en situation de décrochage »

L’augmentation du nombre d’étudiants dans l’enseignement supérieur ces dernières années et la crise sanitaire ont accéléré le développement de l’enseignement à distance ou hybride. La conséquence “positive” directe est l’augmentation massive de données / traces numériques accumulées par les apprenants dans leur environnement numérique d’apprentissage. A contrario, ce mode d’enseignement, de par la conception des cours et/ou des comportements des apprenants, augmente les difficultés d’apprentissage de certains, pouvant aller jusqu’à leur décrochage.

L’objectif du stage est l’analyse des données / traces numériques pour :
– Détecter les potentiels apprenants décrocheurs, établir des profils
sociographiques et/ou des caractéristiques récurrentes.
– Identifier les causes possibles de décrochage, analyser les effets de
contexte et les déterminants structuraux du décrochage.
– Comparer les éléments d’analyse recueillis à la littérature scientifique
existante sur la question du décrochage/échec scolaire.
– Proposer automatiquement des solutions de remédiation adaptées aux
profils des apprenants (ressources pour accompagner les apprenants en
difficulté, envoi de messages de motivation automatisés, …)
Pour répondre à ces besoins, une piste à explorer est l’utilisation de
classificateurs (apprentissage automatique) de types prédictifs et
explicatifs.

Profil du candidat :
Qualifications souhaitées : M1 ou M2 en cours dans le domaine de
l’informatique avec un intérêt pour les questions d’inégalités sociales en
lien avec la réussite scolaire/universitaire. Une connaissance/expérience
de l’apprentissage automatique et des outils associés est un plus.

Formation et compétences requises :
Qualités relationnelles, ouverture et curiosité afin de dialoguer et
comprendre les interlocuteurs de différents domaine (informatique et
sociologie)
· Sens de l’initiative et force de proposition
· Sens de l’organisation, autonomie
· Capacité à faire du reporting

Adresse d’emploi :
LIFAT
64 avenue Jean Portalis
37200 TOURS

Document attaché : 202302161824_Fiche_poste_stage_RTR_DIAMS.pdf

Categories: Stages

Stage M2 : Amélioration des images sous-marines

Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIS, UMR 7020
Durée : 6 mois
Contact : tpnguyen@univ-tln.fr
Date limite de publication : 2023-03-31

Contexte :
Stage de fin d’études de M2

Sujet :
Sujet de stage : Amélioration des images sous-marines

La perception dans un milieu sous-marin est un double enjeu à la fois civil et militaire. L’exploration du milieu sous-marin est une tâche cruciale pour différents acteurs tels que la Marine Nationale, l’océanographie, les groupes pétroliers, etc. Par exemple, la connaissance des fonds marins joue un rôle important pour déployer des sous-marins et des navires. Étudier des données visuelles prises par des caméras sous-marines est une tâche difficile. Ce défi vient des problématiques suivantes. Tout d’abord, les images sous- marines sont bruitées à cause du manque de la lumière dans la phase d’acquisition. De plus, cette condition amène également au contraste faible, ainsi que des effets de diffusion de la lumière dans ces images. De l’autre côté, l’absorption de la lumière dans l’eau est différente en fonction de la longueur d’onde, par conséquent la variation d’illumination et de couleur est forte dans ce type d’images. En effet, la lumière visible dont les longueurs d’onde sont plus longues est fortement absorbée par l’eau. Cela fait varier les couleurs des poissons en fonction de la distance et de la profondeur par rapport à la caméra. En outre, due à l’interface lentille/air/eau, la distorsion d’images est aussi une problématique des images sous-marines par rapport aux images classiques. C’est pour cela que la détection et la reconnaissance des objets dans des images sous-marines sont plus difficiles que celles des images populaires, car ces facteurs rendent les algorithmes classiques de détection et de classification inefficaces parce qu’ils ne sont pas conçus pour gérer de telles difficultés. L’objectif de ce stage est d’étudier des méthodes d’apprentissage profond [1, 2, 3, 4,
5, 6] pour proposer une méthode d’amélioration des images sous-marines avant d’utiliser des méthodes classiques de la vision par ordinateur pour les autres tâches.
Références
[1] Sharma, P.K., Bisht, I., Sur, A. : Wavelength-based attributed deep neural network for underwater image restoration (2021)
[2] Islam, M.J., Xia, Y., Sattar, J. : Fast underwater image enhancement for improved visual perception. IEEE Robotics and Automation Letters (RA-L) 5(2) (2020) 3227– 3234
[3] Li, C., Guo, C., Ren, W., Cong, R., Hou, J., Kwong, S., Tao, D. : An underwater image enhancement benchmark dataset and beyond. IEEE Transactions on Image Processing 29 (2020) 4376–4389
[4] Riba, E., Mishkin, D., andE. Rublee, D.P., Bradski, G. : Kornia : an open source diffe- rentiable computer vision library for pytorch. In : Winter Conference on Applications of Computer Vision. (2020)
[5] Islam, M.J., Edge, C., Xiao, Y., Luo, P., Mehtaz, M., Morse, C., Enan, S.S., Sat- tar, J. : Semantic Segmentation of Underwater Imagery : Dataset and Benchmark. In : IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), IEEE/RSJ (2020)
[6] Cao, Z., Hidalgo Martinez, G., Simon, T., Wei, S., Sheikh, Y.A. : Openpose : Realtime multi-person 2d pose estimation using part affinity fields. IEEE Transactions on Pattern Analysis and Machine Intelligence (2019)

Profil du candidat :
Étudiants en M2R ou en école d’ingénieur avec une majeure en traitement d’image, en apprentissage automatique ou en intelligence artificielle.

Formation et compétences requises :
De bonnes compétences en programmation python sont requises. La connaissance des frameworks de deep learning est un plus souhaitable. Le candidat doit avoir de bonnes capacités rédactionnelles et de communication orale.

Adresse d’emploi :
Laboratoire LIS, Bâtiment X, l’avenue de l’université, 83130, La Garde.
Pour postuler le stage, merci d’envoyer le CV et relevé de notes M2 à tpnguyen@univ-tln.fr

Document attaché : 202211221746_StageM2_2023.pdf

Categories: Stages

Utilisation des méthodes machine learning sur les données hospitalières de la pharmacie clinique pour l’identification automatique des erreurs de prescriptions médicamenteuses

Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : SESSTIM, Faculté des Sciences Médicales et Paraméd
Durée : 5-6 mois
Contact : jean-charles.dufour@univ-amu.fr
Date limite de publication : 2023-03-31

Contexte :
Le Service transversal de Pharmacie Clinique et Soins Pharmaceutiques de l’APHM en collaboration avec le service BioSTIC de l’APHM et le SESSTIM (Unité Mixte de Recherche UMR1252 labélisée par l’Inserm, l’IRD et Aix-Marseille Université) cherche à améliorer la sécurité et la pertinence des ordonnances médicamenteuses via une analyse pharmaceutique détaillée, automatisée et systématisée. Pour cela l’utilisation de méthodes de Machine Learning sont envisagées.
Pour réaliser l’analyse des données, implémenter et évaluer les méthodes de Machine Learning un stage de 5 à 6 mois est proposé avec une gratification financière pour un(e) étudiant(e) niveau ingénieur ou master 2 en science des données ou intelligence artificiel. Le stage est à pourvoir dès février-mars 2023.

Sujet :
Il s’agit de contribuer à l’optimisation des prescriptions médicamenteuse. Le stage porte sur l’implémentation et l’évaluation de différentes méthodes de Machine Learning en utilisant des données de vie réelle (prescription hospitalière) de la pharmacie clinique. Le principe est d’évaluer et d’appliquer un ensemble de méthodes d’IA afin de faciliter et optimiser l’analyse automatisée des ordonnances médicamenteuses dans le contexte hospitalier.
Mission du stagiaire : Nettoyer et analyser les données. Rechercher et identifier des méthodes d’IA applicables sur ces données. Implémenter les méthodes, entrainer les modèles, sélectionner les modèles les plus performants. Documenter les développements réalisés.

Profil du candidat :
Capacité d’analyse et de synthèse, forte autonomie et esprit d’initiative, connaissances du métier de la santé appréciée, capacité de travailler en mode projet : rendre compte des avancements des travaux et communication des résultats, bonne communication à l’oral et à l’écrit (Français et/ou Anglais).

Formation et compétences requises :
Bonnes connaissances en machine learning et notamment algorithmes supervisés (SVM, Random Forest, Arbre de décision, Réseaux de neurones,…). Maîtrise d’environnement python.

Adresse d’emploi :
Faculté des sciences médicales et paramédicales, Marseille

Document attaché : 202210281005_Proposition-Stage-SESSTIM-PharmacoClin-ML-octobre2022.pdf

Categories: Stages

Apr

Sat

Benchmarking de middleware pour le Big Data

Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 4 à 6 mois
Contact : asma.dhaouadi@univ-smb.fr
Date limite de publication : 2023-04-01

Contexte :
Le sujet de ce stage se situe dans le cadre d’un projet de recherche visant à proposer une approche de modélisation personnalisable d’un pipeline Big Data pour l’acquisition, le traitement et le stockage de données pour une analyse future. En effet, de nos jours les sources et les types de données se multiplient au sein de l’entreprise : fichiers plats, données opérationnelles, nouveaux services internet, différents réseaux sociaux, nouvelles applications de l’internet des objets (IOT), etc. Cette révolution informationnelle a généré une grande masse de données, dite « Big Data ». Le Big Data est caractérisé par le grand « volume » de données collectées par l’entreprise, la « variété » de ces données, qui peuvent être structurées, semi-structurées ou non structurées et aussi par la fréquence de l’arrivée des données « vitesse » qui devrait être prise en considération. Pour faire face aux challenges de Big Data une bonne variété de technologies dédiées est apparue, tels que l’écosystème d’Hadoop (HDFS, Map Reduce, Yarn, etc), Flink, Kafka, Elasticserach, Kibana, etc. Dans la littérature de différentes solutions architecturales Big Data ont été proposées. Dans ces architectures se trouvent une ou plusieurs technologies pour répondre à un besoin spécifique. Par ailleurs, le choix de ces technologies n’est pas toujours suffisamment justifié.

Sujet :
L’objectif de ce stage sera le déploiement de trois différentes architectures Big Data pour l’extraction, le traitement, le chargement (ETL) des données. Dans chacune de ces architectures, l’étudiant teste le déploiement des technologies selon des critères à définir (RAM, réseau, stockage, etc). L’étudiant est appelé aussi à étudier la compatibilité entre les technologies mises en œuvre au sein d’une même architecture. De plus, tout au long du stage, il serait utile de prendre note de tous les problèmes rencontrés, en particulier celle de configuration et de préciser comment sont-ils surmontés. À la fin du stage, l’étudiant est appelé à synthétiser toutes les étapes menées et relever les résultats du travail de benchmarking.

Pour la mise en œuvre des architectures proposées le candidat pourra avoir accès durant la période du stage à la plateforme MUST, mésocentre de stockage et de calcul scientifique mutualisée ouverte sur la grille de recherche européenne utilisée par les chercheurs des différents laboratoires de l’USMB ainsi qu’a des machines de calcul internes au laboratoire.

Profil du candidat :
BUT, L3, M1 ou M2 recherche
Ingénieur année 1, 2 ou 3

Formation et compétences requises :
– Connaissance et compréhension des phases d’acquisition, de traitement, de stockage de données.
– Connaissances relativement bonnes de l’écosystème Hadoop et d’autres technologies : Redis, Spark, etc.
– Configuration des technologies Big Data.
– Comprendre, analyser et rédiger des documents scientifiques et techniques.

Adresse d’emploi :
LISTIC – Laboratoire d’Informatique, Systèmes, Traitement de l’Information et de la Connaissance
Annecy-le-Vieux, France

Document attaché : 202211251032_SUJET_STAGE_M2-FI5_2022-2023_LISTIC FINAL.pdf

Categories: Stages

Data pipelines in the cloud: elastic execution with dynamic parallelism

Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : LIP6/Sorbonne Université et SAP France
Durée : 6 mois
Contact : bernd.amann@lip6.fr
Date limite de publication : 2023-04-01

Contexte :
Nowadays, institutions and companies manage their data with a wide variety of applications which were not designed to communicate with each other. On the other hand, there is a very strong need to design new data management and analysis services that will add value to the data that is there. Since it is practically impossible to migrate all applications and their data into an integrated system, the current solution is to build analytic data pipelines to facilitate the data flow between operations that perform complex processing, including collecting data from multiple sources, transforming it, generating AI models through learning, and storing it in multiple destinations. In practice, a data pipeline can contain hundreds of operations, and it can evolve repeatedly by being populated with new operations or new data. Thus, with the increasing number of pipelines to be designed and deployed, it is crucial to dispose of high level data pipeline definition languages, tools to deploy and control the execution of data pipelines and efficient solutions to optimize the execution of complex operations on large volumes of data.

In this context, SAP has developed the SAP Data Intelligence (DI) software for the automatic con- figuration and deployment of data pipelines. These pipelines use a flow-based programming model [3]. Each pipeline operation corresponds to a program (Python, node.JS, …) or a call to an external API (e.g., Spark job) that is deployed using an adapted Docker [2] image/container. Kubernetes services provide deployment and orchestration of these images on hyperscaler platforms like AWS, Google Cloud, Azure etc.

A performance problem arises at large scale when a pipeline contains long operations processing massive data. A first solution was designed in the context of an SAP/LIP6 internship to parallelize operators [4]. In this solution, the way to consume/produce data is described using data sorting and partitioning functions. This allows the data to be partitioned and distributed to process operators in parallel. The principle of the method is to first define the properties of a “divide and conquer” mapping in the JSON configuration of an operator. These properties allow to automatically transform a DI pipeline into a new parallelized DI pipeline with several replicas (identical copies) of the initial operator, each running in parallel on different parts of the operator’s input data. A “dispatch” operator is injected into the data pipeline to split the input data stream into different partitions and a “collect” operator is injected to aggregate the output of the replicas into a single output. The replicas are aggregated into a single output data stream. The first experiments show that this parallelization solution allows improving the performance of data pipelines, but does not allow obtaining optimal performance in real environments, which need to estimate and to dynamically adapt the operator replication/data parallelization degree in relation to the volumes of data exchanged, the calculations performed and the available resources.

Sujet :
The objective of this internship is to propose new methods to facilitate and optimize the deployment and execution of parallelized data pipelines. This raises several scientific and technical challenges:

• Estimating the replication degree: How many replicas should be deployed for each operation to be processed in parallel? To answer this question, we need to estimate the benefit of parallel processing as a function of the number of replicas, the amount of data to be processed and the CPU consumption of an operation. This benefit must also be related to the cost of using the machines running data pipelines in the cloud, in order to determine an optimal number of replicas for a certain budget.

• Elastic deployment: How can we adapt the number of replicas to dynamic changes in available resources and associated costs? This demands for new solutions to allow the number of replicas (degree of parallelism) of an operator to be dynamically changed without interrupting the pipeline.

Internship goals and tasks

Internship #1. The goal of the first internship is to evaluate the performance of the parallelization method on different types of stateful operators by varying the CPU load of the operator, the size of the operators state, and the size of the messages dispatched to the replicas. The evaluation will be run on a Kubernetes cluster deployed on a hyperscaler platform. Through this evaluation, we expect to learn the configuration parameters that provide the greatest parallelization benefit and some suggestions for improving the parallelization method.

Tasks:

• Propose a model to estimate the overhead incurred by adding operations that partition data and distribute it to replicas in the pipeline.

• Design a method to observe the execution of the pipeline and detect an overload (underload) situation.

• Determine the new degree of parallelism that will improve pipeline performance.

Internship #2. The goal of the second internship is to implement dynamic dispatch and collect operators which automatically adapt to the scaling up or down of the number of replicas of a parallelized operator. For the dispatch operator, the strategy must guarantee that no message is lost in case of scaling down. For the collect operator, the strategy must guarantee that all messages produced by the replicas are properly collected and possibly re-ordered in case of scaling up.

Tasks:

• Design a technical solution to dynamically change the number of running operator replicas and adapting the dispatch and collect operators.

• Conduct experiments using data pipeline examples to check the validity of the implemented strategies and measure their possible overhead.

The solutions will be deployed in the SAP DI environment. Comparative experiments will be implemented on the Spark parallel computing platform. For this, a solution will be designed to transform the pipeline description (written with Data Intelligence syntax) into a Spark pipeline [1] (pyspark syntax).

References

[1] Michael Armbrust, Reynold S. Xin, Cheng Lian, Yin Huai, Davies Liu, Joseph K. Bradley, Xiangrui Meng, Tomer Kaftan, Michael J. Franklin, Ali Ghodsi, and Matei Zaharia. Spark SQL: relational data processing in spark. In ACM SIGMOD International Conference on Management of Data, pages 1383–1394, 2015.

[2] David Bernstein. Containers and cloud: From lxc to docker to kubernetes. IEEE Cloud Computing, 1(3):81–84, 2014.

[3] Tanmaya Mahapatra. High-level graphical programming for big data applications. Master’s thesis, Technische Universität München (TUM), 2019.

[4] Ludgy Vestris. Scaling up stateful and order preserving operators in DI data pipelines. Master’s thesis, CNAM, SAP – LIP6, 2022.

Profil du candidat :
The candidate should have excellent experience in algorithmic and programming (Python, Java) and advanced knowledge of optimization and parallelization techniques (query optimization, data parallelism, map-reduce, ….) and some technical knowledge of Docker/Kubernetes is also helpful. To apply, you should send to the three co-supervisors (see email above), a CV and the grades of the last three semesters of study.

Formation et compétences requises :
Dernière année de Master ou d’École d’ingénieur

Adresse d’emploi :
• SAP France (Levallois-Perret)
• Equipe Bases de Données du LIP6 (Paris): http://www-bd.lip6.fr/

Document attaché : 202212021339_Stage_LIP6_SAP_2023-3.pdf

Categories: Stages

Internship proposal: Domain Adaptation by using Riemannian Geometry for Remote Sensing Data

Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : LISTIC, University Savoie Mont-Blanc
Durée : 6 months
Contact : guillaume.ginolhac@univ-smb.fr
Date limite de publication : 2023-04-01

Contexte :
Domain Adaptation is a field of machine learning that consists of developing learning techniques with a different set of training and test data [Moreno-Torres et al., 2012]. This type of methods is
interesting because it allows either to strongly limit the training phase and thus achieve frugality, or to do supervised learning in domains with very little labeled data. A significant number of techniques are used to address this problem such as methods based on optimal transport [Courty et al., 2017]. On the other hand, Riemannian geometry has shown its interest in learning when the features used in classification are subject to constraints such as covariance matrices in EEG [Barachant et al., 2012]. Similarly, in a recent work, it has been shown that these mathematical tools are robust to transformations of the training data [Collas et al., 2022]. The performance loss is then very small if we
consider several features and their associated geometry.

Sujet :
We propose to apply more specifically the tools of Riemannian geometry to the problem of domain adaption. More particularly, we propose to study the interest of deep networks specific to covariance matrices and their associated layers. These networks are based on different Riemannian geometry tools and have shown good performances in computer vision. In particular, we will rely on the following papers [Li et al., 2017, Huang and Gool, 2017] proposing specific layers for covariance matrices. With the help of these papers, the work of the trainee will first consist in assessing the interest of these networks for domain adaptation.

Then we will develop new learning methods to study multivariate image time series in remote sensing. Specifically, we will adapt the networks used in [Rußwurm et al., 2020] by adding covariance matrix specific layers inspired by [Li et al., 2017, Huang and Gool, 2017]. The application goal is then to classify agricultural fields which is practically impossible without temporal information.

Finally, we will test the previously developed approaches on the dataset [pas, ] which contains time series of optical and SAR images over the same period. We will then be able to perform the learning phase on the optical images and measure the performance loss by applying our algorithms on the SAR data. Indeed, many optical data are labeled which is much rarer for SAR images because they are often a little noisier and a little more difficult to analyze for non-specialists. On the other hand, they are very interesting because they allow a better periodicity and give relevant information even at night or in the presence of clouds.

Profil du candidat :
Master/Engineering student with knowledge in statistics and machine learning (having followed courses on these topics is strongly advised). Good coding skills in Python.

Formation et compétences requises :
Master/Engineering student with knowledge in statistics and machine learning (having followed courses on these topics is strongly advised). Good coding skills in Python.

Adresse d’emploi :
LISTIC, Annecy, FRANCE

Document attaché : 202211071629_FrugalDomainAdaptationRADAR.pdf

Categories: Stages

Apr

Thu

Deep learning en analyse d’images aéroportées pour la modélisation de cultures résilientes au Sahel