
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LISTIC – Laboratoire d’Informatique, Systèmes, Tr
Durée : 4-6 mois
Contact : faiza.loukil@univ-smb.fr
Date limite de publication : 2023-02-28
Contexte :
L’énergie éolienne s’est développée rapidement ces dernières années et plusieurs solutions de prévision de la production des parcs éoliens basées sur l’apprentissage automatique apparaissent. Bien que ces modèles de prévision (Dione, 2018) (Aksoy, 2021) soient prometteurs, certains défis subsistent dans leur développement, notamment en matière de la perte de contrôle des données utilisées dans l’entraînement, de l’algorithme d’apprentissage automatique et de la
faible pertinence du modèle à cause de son caractère trop général.
Sujet :
L’apprentissage distribué, un paradigme de l’apprentissage automatique qui tend à s’imposer pour répondre aux problématiques de confidentialité des données et de décentralisation des calculs pour améliorer les performances, augmenter la précision et s’adapter à des données de masse. Il réduit les erreurs commises par la machine et aide les individus à prendre des décisions et des analyses éclairées à partir de grandes quantités de données. Ainsi, l’objectif de ce projet est la proposition d’un modèle d’apprentissage distribué pour la prévision de la production éolienne à l’aide d’un croisement entre des données de production provenant de parcs éoliens en France et des données de prévisions météorologiques.
Ce projet consiste à, dans un premier temps, étudier les solutions de prévision de la production éolienne par apprentissage automatique. Puis, dans un second temps, il vise à proposer une solution d’apprentissage distribué et comparer ses performances avec les solutions existantes. Les travaux qui porteront sur l’apprentissage distribué et les résultats issus de ce projet auront vocation à être le
plus générique possible de manière à pouvoir être réutilisés dans d’autres cas d’applications avec des données issus d’autres projets au sein du LISTIC.
Objectifs du stage :
1. L’étudiant.e étudiera l’état de l’art sur les solutions de prévision de la production éolienne par apprentissage automatique classique, en général et par apprentissage distribué, en particulier.
2. Il.elle développera une solution basée sur l’apprentissage distribué en s’appuyant sur des données de référence provenant de parcs éoliens situés en France.
3. Il.elle réalisera une analyse des performances du modèle proposé et une comparaison avec les solutions existantes. La valorisation des résultats obtenus fera l’objet d’une publication dans une conférence
internationale.
Références.
(Aksoy, 2021) Aksoy, B. &. (2021). Estimation of Wind Turbine Energy Production Value by Using Machine Learning Algorithms and Development of Implementation Program. Energy Sources, Part A: Recovery, Utilization, and Environmental Effects, 692-704.
(Dione, 2018) Dione, M. &.-L. (2018). Short-Term Forecast of Wind Turbine Production with Machine Learning Methods: Direct and Indirect Approach. International Conference on Time Series and Forecasting, 301-315.
Profil du candidat :
Connaissance en ingénierie des données et particulièrement en apprentissage distribué sont nécessaires.
Formation et compétences requises :
Master 2ème année / Ingénieur 5ème année.
Adresse d’emploi :
LISTIC – Polytech Annecy-Chambéry, Annecy-le-Vieux, France
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CREATIS
Durée : 6 mois
Contact : michael.sdika@creatis.insa-lyon.fr
Date limite de publication : 2023-02-28
Contexte :
Contexte scientifique Dans le cadre d’une collaboration entre les laboratoire Ampère et CREATIS, nous
developpons un simulateur de chirurgie qui permettra l’apprentissage d’un geste à la fois courant et critique:
la ponction ventriculaire. Pour créer des patients virtuels pour le simulateur, nous devons repositionner
l’IRM d’un sujet quelconque sur l’IRM du sujet utilisé pour créer le crâne physique du simulateur (figure
1). Il faudra donc faire correspondre exactement les crânes des deux sujets tout en préservant l’anatomie du
patient virtuel.
Le recalage d’image est un outil permettant d’aligner des images entre elles. Par example sur la figure
2, elle permet de positionner, d’orienter voire de déformer les cerveaux des trois images de droite pour les
replacer dans le système de coordonnées de l’image de gauche. C’est souvent une étape préliminaire essentielle
pour l’étude de pathologie cérébrale basée sur l’imagerie.
Les outils classique de recalage sont souvent basée sur des approches itérative d’optimisation mathématique.
Ces méthodes donnent généralement de bons résultats mais peuvent parfois échouer. Pour palier à ce manque
de robustesse, de plus en plus de méthodes actuelles se basent sur des approches par pprentissage profond
[Boveiri].
Sujet :
Objectifs L’objectif du stage est d’abord de de mettre en place et d’entraı̂ner un réseau de neurones
permettant faire le recalage linéaire d’une image de cerveau sur un espace de référence standard. L’objectif
principale sera que l’estimation soit la plus robuste possible mais aussi que le réseau soit léger. On se basera
sur les résultats obtenus lors d’un stage précédent au cours duquel on se restreignait à des transformations
2D.
On devra ensuite faire la correspondance des crânes par un recalage déformable préservant l’anatomie du
patient. On pourra comparer ici les approches classique et par apprentissage.
Données: plusieurs jeux de données d’imagerie cérébrales publiques impliquant différentes pathologies,
protocoles d’acquisition et modalités sont déjà utilisés dans l’équipe et seront utilisés pour le stage. Une
solide procédure d’augmentation de données permettra d’améliorer encore la robustesse de notre méthode.
Profil du candidat :
Profil du Candidat Le candidat recruté devra avoir une formation dans un des domaines suivants et de
bonnes connaissances dans les deux autres:
• Deep learning
• Traitement d’images
• Mathématiques appliquées
Il devra aussi avoir de solides compétences en développement logiciel en pytorch et être en mesure
d’implémenter les méthodes proposées.
Merci d’envoyer vos candidatures avec CV, lettre de motivation, relevés de notes, lettres de recomman-
dation à michael.sdika[at]creatis.insa-lyon.fr.
Formation et compétences requises :
Profil du Candidat Le candidat recruté devra avoir une formation dans un des domaines suivants et de
bonnes connaissances dans les deux autres:
• Deep learnin)
• Traitement d’images
• Mathématiques appliquées
Il devra aussi avoir de solides compétences en développement logiciel en pytorch et être en mesure
d’implémenter les méthodes proposées.
Merci d’envoyer vos candidatures avec CV, lettre de motivation, relevés de notes, lettres de recomman-
dation à michael.sdika[at]creatis.insa-lyon.fr.
Adresse d’emploi :
Campus de la Doua, Villeurbanne
Document attaché : 202210221945_internship-registration-2023.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ICube, Université de Strasbourg, CNRS
Durée : 6 mois
Contact : remi.allegre@unistra.fr
Date limite de publication : 2023-02-28
Contexte :
Le sujet proposé s’inscrit dans le contexte d’un projet de recherche de l’équipe Informatique Géométrique et Graphique du laboratoire ICube (Université de Strasbourg, CNRS) et de biophysiciens de l’Université Paris Diderot et de l’ENS Lyon. Le projet concerne l’étude des mouvements de croissance de plantes à partir de séquences de photographies prises depuis plusieurs points de vue.
Sujet :
Le sujet de stage porte sur l’estimation du flux optique et du flux de scène à partir à partir de séquences de photographies de plantes en croissance, en utilisant des approches par apprentissage profond.
Le sujet détaillé est disponible (en anglais) en suivant le lien ci-dessous :
https://igg.unistra.fr/People/allegre/Sujets/2022-2023-SuiviPlantes_Stage_M2_EN.pdf
Profil du candidat :
Un niveau M2 ou dernière année d’école d’ingénieur en informatique est requis, avec des connaissances de base en vision par ordinateur ou traitement d’images, ainsi qu’en apprentissage automatique.
Une ouverture vers le domaine d’application en biophysique est nécessaire pour pouvoir échanger avec les experts de la croissance des plantes.
Formation et compétences requises :
Un niveau M2 ou dernière année d’école d’ingénieur en informatique est requis, avec des connaissances de base en vision par ordinateur ou traitement d’images, ainsi qu’en apprentissage automatique.
Adresse d’emploi :
Le stage se déroulera dans les locaux de l’équipe Informatique Géométrique et Graphique du laboratoire ICube, situés sur le campus d’Illkirch, à proximité de Strasbourg (300 bd Sébastien Brant, 67412 Illkirch).
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Da Vinci Research Center(DVRC)
Durée : 6 mois
Contact : christophe.rodrigues@devinci.fr
Date limite de publication : 2023-03-01
Contexte :
L’utilisation de l’intelligence artificielle (IA) pour la cybersécurité ou plus spécifiquement pour la détection des logiciels malveillants est devenue un sujet de premier plan. Dans ce contexte, l’entreprise SitInCloud a développé Owlyshield, un des meilleurs modèles IA sur le marché pour la détection des rançongiciels, en disposant de plus de 115000 exécutables pour l’entraînement, un modèle avec plus de 3 millions(?)de paramètres et un taux de précision de 97%. Cependant, les logiciels malveillants ne cessent d’évoluer avec des techniques de plus en plus sophistiquées afin de déjouer les systèmes de détection.
Sujet :
L’objectif de ce stage est d’améliorer l’approche hybride qui combine l’analyse statique et l’analyse dynamique du code pour avoir des modèles plus fiables. L’analyse statique se base actuellement sur i) des caractéristiques extraites d’exécutables comme le nombre de sections, leurs tailles, les entropies, etc. et ii) des images qui représentent des exécutables.
Des biais existent sur les images utilisées pour les réseaux neuronaux convolutifs (CNN) car les exécutables de maliciels sont généralement plus petits et compressés. Quant à l’analyse comportemental ou dynamique, nous souhaitons extraire plus d’informations des séries temporelles, ce qui permettra une meilleure analyse du temps d’exécution du code. Enfin, une pondération des décisions statiques et dynamiques devrait être faite en fonction de la quantité de données comportementales disponibles.
Profil du candidat :
Candidat à l’aise avec le développement logiciel et intéressé par les techniques d’apprentissage profond.
Intéressé par la recherche en informatique, ce stage peut se poursuivre en thèse avec le partenariat de l’entreprise (SitInCloud).
Formation et compétences requises :
Deep Learning, Cybersécurité, Python, Rust, Analyse de programme
Adresse d’emploi :
Paris La Défense
Document attaché : 202301231103_SujetStageM2ApprocheHybrideDetectionRancongiciels.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIRMM/CIRAD
Durée : 6 mois
Contact : marianne.huchard@lirmm.fr
Date limite de publication : 2023-03-01
Contexte :
Le stage est réalisé dans le cadre de l’Institut de convergence # Digitag (https://www.hdigitag.fr/fr/).
Pour un producteur agricole, décider d’une pratique impose de considérer celles mises en place afin d’éviter de perturber l’équilibre du système. Il doit donc connaître la diversité des situations culturales. Par exemple, la littérature présente diverses solutions à base de plantes pour contrôler l’infestation d’une culture agricole par une population de bioagresseurs. Choisir une solution qui la repousserait peut la faire migrer vers une culture avoisinante peu attaquée. En comportant plus de 48000 descriptions d’utilisation de plantes à effet pesticide et antibiotique, la base Knomana [Silvie et al., 2021] peut permettre ce choix. Les plateformes logicielles RCAviz [Muller et al. 2022] et RCAvizIR permettent de naviguer dans cette base dont les connaissances ont été classées par l’Analyse de Concepts Relationnels. De façon à représenter fidèlement les données en plusieurs dimensions et faciliter leur interprétation par le producteur agricole, une solution consiste à les exprimer sous forme de règles d’implication multidimensionnelles, une méthode nouvelle issue de l’Analyse de Concepts Formels. Pour une relation ternaire connectant des bioagresseurs, des plantes qui les contrôlent et des cultures protégées, cette méthode permet par exemple d’énoncer les connaissances sous la forme « quand Bioag1 est contrôlé par plant1 sur culture1, alors Bioag1 est également contrôlé par plant2 sur culture1, et par plant3 sur culture2 ».
Sujet :
L’objectif du stage est de développer une approche et un prototype logiciel de visualisation de connaissances, exprimées sous forme de règles d’implication multidimensionnelles. Ces règles sont produites par un algorithme implémenté en Python. Nous développerons également une stratégie de présentation des règles à l’utilisateur incluant ses centres d’intérêt et d’après la sémantique du contenu des règles.
Profil du candidat :
Personne intéressée par l’ingénierie des connaissances, l’analyse visuelle (visual analytics) et à trouver des solutions alternatives aux pesticides et antibiotiques de synthèse pour l’agriculture biologique.
Formation et compétences requises :
Etudiante ou étudiant de Master 2 (informatique ou bioinformatique) ayant des compétences solides en programmation et en analyse de données.
Adresse d’emploi :
LIRMM, 161, rue Ada, 34095 Montpellier Cedex 05
Document attaché : 202210200644_SujetStage2022_2023.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIMOS at Institut Henri Fayol, Mines Saint-Étienne
Durée : 5 mois
Contact : antoine.zimmermann@emse.fr
Date limite de publication : 2023-03-01
Contexte :
Physical quantities form an important part of what is represented in scientific data, medical data, industry data, open data, and to some extent, various private data.
Whether it is distances, speeds, payloads in transportation, concentrations, masses, moles in chemistry, powers, intensities, voltages in the energy sector, dimensions of furniture, weights, heights of people, durations, and many others in health, there is a need to represent physical quantities, to store them, to process them, and to exchange them between information systems, potentially on a global scale, often on the Internet and via the Web.
Sujet :
In this internship, we seek to precisely define a way to unambiguously represent physical quantities for the Web of Data. More precisely, we will study the proposals made to encode physical quantities in the standard data model of the Semantic Web, RDF. We will be particularly interested in the use of a data type dedicated to this encoding, probably adapted from the proposal of Lefrançois & Zimmermann (2018) based on the UCUM standard.
Having established a rigorous definition of the data type (possibly its variants, if relevant), we will focus on implementing a module that can read/write and process physical quantities and their operations within the RDF data manipulation APIs, for the management, querying and reasoning with knowledge graphs containing physical quantities.
The ambition is that, on the one hand, the specification will become in a few years a de facto standard, before perhaps becoming a de jure standard; and that, on the other hand, the implementation will be the reference allowing to compare the compliance levels of other future implementations.
This study should lead to the publication of a scientific paper in a high impact scientific journal.
References
1. Maxime Lefrançois and Antoine Zimmermann (2018). The Unified Code for Units of Measure in RDF: cdt:ucum and other UCUM Datatypes. In The Semantic Web: ESWC 2018 Satellite Events – ESWC 2018 Satellite Events, Heraklion, Crete, Greece, June 3-7, 2018, Revised Selected Papers, volume 11155 of the Lecture Notes in Computer Science, pp196–201, Springer.
2. Gunther Shadow and Clement J. McDonald. The Unified Code for Units of Measure. Technical report, Regenstrief Institute, Inc, November 21 2017.
Complete description available at https://www.emse.fr/~zimmermann/Teaching/SemWeb/Internship/
Profil du candidat :
Interested in the definition of specifications and their implementation.
Interested in research activities.
Formation et compétences requises :
Master 2 in computer science
Knowledge of Semantic Web technologies
Java programming
Preferably good writing skills
Adresse d’emploi :
École des mines de Saint-Étienne, bâtiment espace Fauriel, 29 rue Ponchardier, Saint-Étienne. https://www.openstreetmap.org/node/2794933485
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : simon.madec@cirad.fr
Date limite de publication : 2023-03-06
Contexte :
Ce stage de Master s’inscrit dans le cadre du projet SCOSSA du programme TOSCA du CNES et dans la thématique générale de la sécurité alimentaire en Afrique de l’Ouest considérée comme l’un des enjeux majeurs de développement de la région.
Dans ce contexte, des données recueillies au travers d’enquêtes ménage représentent aujourd’hui une source d’informations fondamentales pour calculer les indicateurs de sécurité alimentaire qui sont ensuite utilisés en routine par différentes organisations. Ces indicateurs sont particulièrement difficiles à mettre en place dans les zones de conflit où les enquêtes ne peuvent se dérouler normalement.
Des études récentes se sont intéressées à l’estimation de ces indices à partir de données géospatiales et hétérogènes, en proposant des méthodes fondées sur l’utilisation des techniques avancées de science des données, et plus précisément d’apprentissage automatique et profond [1]. Ces approches permettent d’expliquer une part de la variation de la consommation alimentaire insuffisante et peut surpasser un modèle utilisant la prévalence comme estimation.
Des limitations existent encore et concernent notamment l’explicabilité des modèles (apprentissage par machine) ainsi que les performances et la validation de ces modèles face à des situations inédites : régions concernées par des conflits armés, périodes de crises économiques/inflation.
Sujet :
Au sein de l’UMR TETIS et en lien avec les équipes MISCA et ATTOS, l’objectif de ce stage est d’améliorer la performance des modèles d’apprentissage qui permettent d’estimer les indicateurs de consommation alimentaire.
Une première tâche sera la collecte et la mise en lien de données hétérogènes d’ordre économique et en lien avec les situations de conflits dans les régions d’intérêts [2].
Une deuxième étape sera d’analyser les résultats de simulation pour différentes entrées (données statique et non statique, d’ordre agronomique/ météorologique / économique…).
Des tests seront aussi réalisés sur d’autres régions / avec des données issues de nouvelles enquêtes [3].
[1] Deléglise, Hugo, et al. “Food security prediction from heterogeneous data combining machine and deep learning methods.” Expert Systems with Applications 190 (2022): 116189.
[2] Andree, Bo Pieter Johannes. “Estimating Food Price Inflation from Partial Surveys.” World Bank, Washington, DC (2021).
[3] https://microdata.worldbank.org/index.php/catalog/3768#metadata-version
Profil du candidat :
Compétences du candidat/e :
Connaissances/goût pour la programmation
Intérêt pour l’analyse de données
Rigueur scientifique
Curiosité et ouverture d’esprit
Capacité d’analyses, rédactionnelles et de synthèse
Informations complémentaires :
Durée de 6 mois, à partir de février 2023
Le stage se déroulera au CIRAD, dans l’UMR TETIS (Territoire, Environnement, Télédétection et Information Spatiale), située dans les locaux de la Maison de la Télédétection à Montpellier.
Encadrement
Simon Madec / Roberto Interdonato
Envoyer un CV et une lettre de motivation avant le 31/12/2022 à : simon.madec@cirad.fr
Formation et compétences requises :
Compétences du candidat/e :
Connaissances/goût pour la programmation
Intérêt pour l’analyse de données
Rigueur scientifique
Curiosité et ouverture d’esprit
Capacité d’analyses, rédactionnelles et de synthèse
Adresse d’emploi :
Maison de la Télédetection, 500 Rue Jean François Breton, 34090, Montpellier
Document attaché : 202212051459_Document.pdf
Offre en lien avec l’Action/le Réseau : – — –/Innovation
Laboratoire/Entreprise : XLIM, university of Poitiers
Durée : 5/6 months
Contact : olfa.ben.ahmed@univ-poitiers.fr
Date limite de publication : 2023-03-06
Contexte :
Alzheimer’s Disease (AD) is the most comment form of dementia. Neuroimaging data is an integral part of the clinical assessment providing a way for clinicians to detect brain abnormalities for AD diagnosis. Patients with AD suffer from the cognitive decline that leads to brain neurons and synaptic loss (i.e., memory loss, difficulty with problem-solving, etc.). Although there is currently no cure for AD, there are available medications that can slow down disease progression and improve the patient lifestyle. Recent studies on bio-markers research have demonstrated that the AD pathology is now suspected to start a long time before the manifestation of the clinical symptoms and even before brain damage. Hence, diagnosis of AD at earlier stages is of great clinical importance so that cognitive functions would be improved by medications and the spread of the disease would be prevented. Mild Cognitive Impairment (MCI) is an intermediary stage condition between healthy people and AD.
Detecting MCI subjects provide a potential window for early AD detection. However, MCI subjects’ detection remain a challenging clinical problem as it lies on a spectrum between NC and manifest AD. Therefore, identifying efficient bio-markers for early AD stages detection helps in establishing diagnosis and treatment strategies without delay. Over the last decades, imaging bio makers derived from anatomical Structural with machine learning techniques has been widely studied to assess brain atrophy for AD detection and prediction [1]. In addition to structural changes, metabolic changes in some brain regions could be a good biomarker for early AD detection [2]. However, the structural brain atrophy is not detectable at an early stage of the disease (namely for Mild Cognitive Impairment (MCI) and Mild Alzheimer’s Disease (MAD). Indeed, potential biological bio-markers have been proved their ability to early detect brain abnormalities related to AD before brain structural damage and clinical manifestation. Magnetic Resonance Spectroscopy (MRS) is a non-invasive technique providing a complementary approach to brain metabolism in vivo, during conventional MRI examination. MRS provides biological information of brain tissues at the molecular level allowing detecting brain abnormalities while MRI remains normal.
Sujet :
The goal of this internship is to:
• develop new deep learning based models for spectroscopy data classification for early AD detection, namely the MCI class detection.
• propose and implement a method for 1D Class Activation Map (CAM) generation for the 1D spectroscopy data for model interpretation. This task will the of a recently achieved work in our team [3]. The obtained 1D CAM should highlight the contributions of different MRS metabolites in the classification tasks. Data used in this internship are provided by CHU of Poitiers. In addition to the on MRS data, this data set contains multi-modal data of patients affected by different stages of AD (healthy elderly subjects, Mild Cognitive Impairment (MCI) and AD subjects)
Possibility to continue with a PhD proposal (starting in September/October 2023) in Artificial intelligence for medical images analysis
Location : XLIM (Site de Futuroscope), university of Poitiers in collaboration with the CHU of Poitiers
Tentative start date February/march 2023
Profil du candidat :
• Master 2 in computer vision, image processing, machine learning or any related field
Application : Send CV + transcripts and 2 reference letters to olfa.ben.ahmed@univ-poitiers.fr
Formation et compétences requises :
• Strong programming skills in python and deep learning frameworks (TensorFlow, pytorch)
Adresse d’emploi :
Location : XLIM (Site de Futuroscope), university of Poitiers in collaboration with the CHU of Poitiers
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Unité MaIAGE, INRAE, Université Paris-Saclay
Durée : 4-6 mois
Contact : arnaud.ferre@inrae.fr
Date limite de publication : 2023-03-06
Contexte :
L’extraction d’information est le domaine du Traitement Automatique des Langues Naturelles visant à extraire et à structurer automatiquement des informations contenues dans de grandes quantités de textes. Une extraction commence classiquement par une tâche de reconnaissance d’entité, puis peut être suivie par une tâche de normalisation d’entité (parfois nommée “entity linking/disambiguation” ou “concept normalization”) et/ou par une tâche d’extraction de relation.
L’équipe Bibliome de l’unité de recherche MaIAGE de INRAE/Université Paris-Saclay est spécialisée dans la recherche méthodologique en extraction d’information, notamment en domaines spécialisés. Elle développe également des solutions d’extraction pour des applications finalisées appliquées au domaine des sciences du vivant.
Encadrants : Arnaud Ferré et Louise Deléger
Sujet :
Aujourd’hui, la grande majorité des méthodes d’extraction sont codées en langage Python. Bien que commencent à apparaître certaines librairies standards pour le traitement automatique des langues naturelles et qui contiennent leurs structures de données (ex : Stanza [1] ou spaCy [2]), celles-ci ne représentent souvent pas suffisamment les objets manipulés spécifiquement en extraction d’information. Par exemple, elles ne contiennent pas de classes explicites nommées “mention” ou “concept”, basiques en normalisation d’entité, et bien qu’il existe une classe plus abstraite capable de représenter en particulier une mention, celle-ci ne peut pas être définie comme discontinue (ex : le groupe nominal “liver and pancreatic cancer” contient deux mentions distinctes dont la mention d’intérêt “liver cancer”, laquelle ne peut être représentée de façon discontinue). En conséquence, la plupart des chercheurs qui développent de nouvelles méthodes s’appuient encore sur des structures ad hoc adaptées à leurs tâches, mais peu partageables et posant même des questions en termes de reproductibilité.
Nous faisons l’hypothèse qu’une librairie standard définissant une structure de données plus spécifique, c’est-à-dire plus proche des besoins des méthodologistes en extraction d’information, permettrait une meilleure reproductibilité, une facilité de prise en main, et un gain de temps de développement et d’intégration des méthodes.
La/le stagiaire devra développer un prototype de librairie Python définissant des classes d’objets adaptées aux besoins des méthodologistes pour les tâches de reconnaissance et normalisation d’entité. Un premier travail de comparaison avec au moins une des librairies standards devra être mené. Si cela est pertinent, la librairie pourra être développée comme une extension d’une de ces librairies standards. Des méthodes de reconnaissance et de normalisation et des jeux de données d’évaluation seront mis à disposition pour permettre de mettre en place un cadre de développement expérimental. Ce travail passera par le développement de parseurs qui iront parcourir, analyser et extraire les éléments des fichiers de jeux de données (de différents formats) pour les instancier dans un programme grâce aux structures de la librairie développée. Dans un second temps, ce travail pourra être dérivé à l’extraction de relation.
Le stagiaire aura accès à un ordinateur fixe, aux serveurs de calculs du laboratoire, et, au besoin, à des infrastructures de calcul haute performance (ex : Lab-IA).
[1] Qi, Peng, et al. “Stanza: A Python Natural Language Processing Toolkit for Many Human Languages.” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. 2020.
[2] Honnibal, Matthew, and Ines Montani. “spaCy 2: Natural language understanding with Bloom embeddings, convolutional neural networks and incremental parsing.” To appear 7.1 (2017): 411-420.
Profil du candidat :
Etre formé(e) ou expérimenté(e) en traitement automatique des langues naturelles ou plus particulièrement en extraction d’information.
Autonome en programmation Python, notamment orientée objet.
Formation et compétences requises :
Master 2 / dernière année d’école d’ingénieur en informatique, linguistique ou TAL. Ouvert à d‘autres spécialités (ex : bioinformatique) selon expérience.
Adresse d’emploi :
Centre de recherche INRAE de Jouy-en-Josas (78)
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire ICube, université de Strasbourg
Durée : 5-6 mois
Contact : stella@unistra.fr
Date limite de publication : 2023-03-06
Contexte :
Ce stage s’inscrit dans le cadre du projet DEEPISH (Deep lEarning ExPlainabilIty through Symbolic approacHes) mené au sein des équipes SDC (Science des Données et Connaissances) et CSTB (Systèmes Complexes et Bioinformatique Translationnelle) du laboratoire ICube. Ce projet a pour objectif de proposer un modèle général reposant sur des techniques de raisonnement symbolique, permettant d’expliquer les décisions de systèmes basés sur un apprentissage profond.
Sujet :
Ce travail de stage consiste à proposer une méthode de détection d’informations fallacieuses ou infox (“fake news”) issues de données médicales collectées sur internet. La détection se fera au moyen de méthodes de classification de textes, reposant sur des modèles de langue pré-entraînés à l’aide de grandes quantités de données textuelles ou modèles de “transformers” de type “BERT”. La détection devra s’accompagner d’un modèle d’explicabilité basé sur une conceptualisation des données extraites.
Profil du candidat :
Autonome, curieux, ayant un goût pour la modélisation de concepts, et pour la mise en œuvre de techniques d’apprentissage profond.
Bonne aptitude à la communication et aux échanges d’idées.
Formation et compétences requises :
En Master deuxième année ou d’un niveau équivalent dans une école d’ingénieurs, le ou la candidat.e devra avoir suivi une filière d’informatique orientée en science des données ou en intelligence artificielle. Il ou elle devra avoir une bonne maîtrise :
– des mécanismes de base de l’apprentissage profond (librairies TensorFlow, Keras, etc.),
– du langage Python.
– des méthodes de traitement automatique des langues (NLP),
– du raisonnement symbolique et de la modélisation de connaissances (règles logiques, ontologies, etc.).
Adresse d’emploi :
ICube UMR 7357 – Laboratoire des sciences de l’ingénieur, de l’informatique et de l’imagerie
300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex
Document attaché : 202212051544_Sujet DEEPISH M2 2023.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire de Mathématiques et Applications
Durée : 4 mois
Contact : farida.enikeeva@math.univ-poitiers.fr
Date limite de publication : 2023-03-20
Contexte :
La classification d’image est un problème classique de l’apprentissage supervisé. La qualité de décision prise par un algorithme d’apprentissage supervisé dépend beaucoup de la base d’apprentissage utilisée notamment du volume de données labelisées. Très souvent il est coûteux de constituer une base d’apprentissage solide, comme dans le domaine médical ou industriel présentant notamment une classe peu représentée. Dans ce cas il est quasiment impossible d’avoir un nombre suffisant d’observations dans la classe rare, et de plus, les classes de la base d’apprentissage seront très déséquilibrées. C’est donc important de savoir comment construire la base d’apprentissage en minimisant à la fois le coût et le taux d’erreur de classification. Nous proposons dans ce projet d’utiliser les méthodes d’apprentissage actif (active learning) pour pouvoir améliorer la qualité de classification en utilisant une base d’apprentissage de taille optimale. Plus précisément, on dispose d’une base relativement petite d’images étiquetées. On a l’accès à la décision d’un expert qui peut valider une ou plusieurs étiquettes d’images données et on peut donc améliorer les décisions de l’algorithme. Le travail de l’expert représente le coût de la construction de la base d’apprentissage. A chaque étape de l’algorithme, en fonction des décisions de l’expert on ajoute de nouvelles images à la base d’apprentissage et on choisit quelles images montrer à l’expert à l’étape suivante. Cette dernière est choisie en fonction d’une certaine mesure de proximité entre les images et doit améliorer la qualité de la décision et de la base à l’étape suivante, en améliorant l’algorithme de décision.
Sujet :
L’objectif de ce stage est de tester des méthodes d’apprentissage actif dans le contexte de la classification d’image. Il y a plusieurs questions à aborder, comme par exemple, le choix des descripteurs, la mesure de proximité entre les images et la classification multi-label. Ce stage sera financé par un projet commun entre l’Institut XLIM, l’entreprise Einden et le LabCom DAMIALab.
Profil du candidat :
Niveau master d’une école d’ingénieur ou université en mathématiques appliquées
Formation et compétences requises :
Expérience en modélisation, apprentissage statistique et analyse d’image numérique. Maîtrise de Python ou Matlab.
Adresse d’emploi :
Laboratoire de Mathématiques et Applications, Université de Poitiers
Document attaché : 202302221247_Stage_LMA_XLIM_Poitiers2023.pdf
Offre en lien avec l’Action/le Réseau : HELP/Doctorants
Laboratoire/Entreprise : LIASD, université Paris 8
Durée : 6 mois
Contact : n.mellouli@iut.univ-paris8.fr
Date limite de publication : 2023-03-30
Contexte :
Over the past decade, there has been active research into healthcare services and their technological advancements. In particular, the Internet of Things (IoT) has demonstrated its potential to connect numerous medical devices, sensors, and healthcare professionals to provide high-quality medical services in remote locations. This trend was greatly enhanced during the COVID-19 outbreak. The result is an increase in patient safety, a decrease in healthcare spending, an increase in accessibility of healthcare services, and an increase in the operational efficiency of the healthcare sector. However, all these benefits are not without negative consequences for patients and even for healthcare workers. Indeed, artificial intelligence is increasingly being integrated into diagnostic systems, taking advantage of the availability of big data.
Sujet :
Over the past decade, there has been active research into healthcare services and their technological advancements. In particular, the Internet of Things (IoT) has demonstrated its potential to connect numerous medical devices, sensors, and healthcare professionals to provide high-quality medical services in remote locations. This trend was greatly enhanced during the COVID-19 outbreak. The result is an increase in patient safety, a decrease in healthcare spending, an increase in accessibility of healthcare services, and an increase in the operational efficiency of the healthcare sector. However, all these benefits are not without negative consequences for patients and even for healthcare workers. Indeed, artificial intelligence is increasingly being integrated into diagnostic systems, taking advantage of the availability of big data. Deep Learning (DL) applied to medical images for the diagnosis of cancer, and other diseases has led to black-box diagnostics systems with astounding results in terms of accuracy that often surpass those by expert clinicians. However, to be used for effective decision support in a perhaps stressed situation, a black-box oracle answer positive/negative is not enough; some explanation is needed. Abduction and Argumentation are two forms of inference where conclusions are drawn according to an underlying theory. Typically, abduction aims to draw an explanation for a set of observations, while argumentation aims to give reasons, or arguments, that support a conclusion against other conflicting conclusions. Abduction is sometimes described as “deduction in reverse”, whereby given a rule “A follows from B” and the observed result “A”, we infer that the condition “B” of the rule (may) hold. More generally, in the context of a logic-based setting, given a set of sentences representing a theory T that models a medical diagnosis domain of interest, and a sentence representing an observation O, abduction returns a set of sentences representing an abductive explanation H for O. The distinguishing feature of this project is to design and develop such tools in a collaborative design (CD) process together with medical staff experienced in the diagnosis and who represents the final users of this technology.
The main research question of this internship is how to link abduction and formal argumentation theory with learning-based approaches to address the aforementioned problem. Indeed, reasoning and learning play a complementary role in decision-making: learning produces the knowledge taken for granted when reasoning, whereas systematic reasoning draws inferences that provide the inductive bias that is assumed as given when learning. Hence, the main goal of the internship is to exploit the synergy between learning and reasoning, especially abduction and argumentation, to enhance learning-based processes.
Profil du candidat :
The internship duration is six months (“stage fin d’études”). The starting date must be before the end of March 2023, preferably at the beginning of the month. We are looking for a candidate interested in this topic with a background in artificial intelligence, knowledge representation and reasoning, formal logic, deep learning, and human-computer interaction.
Formation et compétences requises :
Master’s in Computer Science, Master’s in Data Science
Adresse d’emploi :
140, rue de la nouvelle France
93100 Montreuil,
Document attaché : 202301021626_SujetStage2023-NN-IV-EID.pdf
Offre en lien avec l’Action/le Réseau : MACLEAN/– — –
Laboratoire/Entreprise : IRISA
Durée : 6 mois
Contact : sebastien.lefevre@irisa.fr
Date limite de publication : 2023-03-30
Contexte :
Voir plus de détails : https://www-obelix.irisa.fr/files/2022/12/internship_burnel.pdf
Sujet :
Evaluation de performance de réseaux de neurones profonds en cas d’inférence sur CPU
Profil du candidat :
Expertise en programmation et deep learning
Formation et compétences requises :
Master ou diplôme d’ingénieur
Adresse d’emploi :
IRISA Vannes, équipe OBELIX
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ENSTA Paris, Computer Science and System Engineeri
Durée : 6 months
Contact : sao-mai.nguyen@ensta-paris.fr
Date limite de publication : 2023-03-31
Contexte :
Fully autonomous robots have the potential to impact real-life applications, like assisting elderly people. Autonomous robots must deal with uncertain and continuously changing environments, where it is not possible to program the robot tasks. Instead, the robot must continuously learn new tasks and how to perform more complex tasks combining simpler ones (i.e., a task hierarchy). This problem is called lifelong learning of hierarchical tasks [5]. Hierarchical Reinforcement Learning (HRL) is a recent approach for learning to solve long and complex tasks by decomposing them into simpler subtasks. HRL could be regarded as an extension of the standard Reinforcement Learning (RL) setting as it features high-level agents selecting subtasks to perform and low-level agents learning actions or policies to achieve them.
Sujet :
This internship studies the applications of Hierarchical Reinforcement Learning methods in robotics: Deploying autonomous robots in real world environments typically introduces multiple difficulties among which is the size of the observable space and the length of the required tasks.
Reinforcement Learning typically helps agents solve decision making problems by autonomously discovering successful behaviours and learning them. But these methods are known to struggle with long and complex tasks. Hierarchical Reinforcement Learning extend this paradigm to decompose these problems into easier subproblems with High-level agents determining which subtasks need to be accomplished, and Low-level agent learning to achieve them.
During this internship, the intern will :
• Get acquainted with the state of art in Hierarchical Reinforcement Learning including the most notable algorithms [1, 2, 3], the challenges they solve and their limitations.
• Reimplement some of these approaches and validate their results in robotics simulated environments such as iGibson [4].
• Establish an experimental comparison of these methods with respect to some research hypothesis.
The intern is expected to also collaborate with a PhD student whose work is closely related to this topic.
References:
[1] Nachum, O.; Gu, S.; Lee, H.; and Levine, S. 2018. Data- Efficient Hierarchical Reinforcement Learning. In Bengio, S.; Wallach, H. M.; Larochelle, H.; Grauman, K.; Cesa- Bianchi, N.; and Garnett, R., eds., Advances in Neural Infor- mation Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS 2018, December 3-8, 2018, Montre ́al, Canada, 3307–3317.
[2] Kulkarni, T. D.; Narasimhan, K.; Saeedi, A.; and Tenen- baum, J. 2016. Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation. In Lee, D.; Sugiyama, M.; Luxburg, U.; Guyon, I.; and Garnett, R., eds., Advances in Neural Information Processing Systems, volume 29. Curran Associates, Inc.
[3] Vezhnevets, A. S.; Osindero, S.; Schaul, T.; Heess, N.; Jaderberg, M.; Silver, D.; and Kavukcuoglu, K. 2017. FeU- dal Networks for Hierarchical Reinforcement Learning. CoRR, abs/1703.01161.
[4] Chengshu Li, Fei Xia, Roberto Mart ́ın-Mart ́ın, Michael Lingelbach, Sanjana Srivastava, Bokui Shen, Kent Vainio, Cem Gokmen, Gokul Dharan, Tanish Jain, Andrey Kurenkov, C. Karen Liu, Hyowon Gweon, Jiajun Wu, Li Fei-Fei, and Silvio Savarese. igibson 2.0: Object-centric simulation for robot learning of everyday household tasks, 2021. URL https://arxiv.org/abs/2108.0327
[5] Nguyen, S. M., Duminy, N., Manoury, A., Duhaut, D., and Buche, C. (2021). Robots Learn Increasingly Complex Tasks with Intrinsic Motivation and Automatic Curriculum Learning. KI – Künstliche Intelligenz, 35(81-90).
Profil du candidat :
The intern should be enrolled in a master program (either M1 or M2) in Computer Science or Robotics.
Formation et compétences requises :
The students should have a prior knowledge (e.g., followed some course) in machine learning, deep learning, and reinforcement learning, and be motivated to complete a research-focused internship.
Adresse d’emploi :
ENSTA Paris, Computer Science and System Engineering Department
Document attaché : 202302021426_internshipHierarchicalRL.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ENSTA Paris, Computer Science and System Engineeri
Durée : 6 months
Contact : sao-mai.nguyen@ensta-paris.fr
Date limite de publication : 2023-03-31
Contexte :
Fully autonomous robots have the potential to impact real-life applications, like assisting elderly people. Autonomous robots must deal with uncertain and continuously changing environments, where it is not possible to program the robot tasks. Instead, the robot must continuously learn new tasks and how to perform more complex tasks combining simpler ones (i.e., a task hierarchy). This problem is called lifelong learning of hierarchical tasks.
Sujet :
Hierarchical Reinforcement Learning (HRL) is a recent approach for learning to solve long and complex tasks by decomposing them into simpler subtasks. HRL could be regarded as an extension of the standard Reinforcement Learning (RL) setting as it features high-level agents selecting subtasks to perform and low-level agents learning actions or policies to achieve them. We recently proposed a HRL algorithm, GARA (Goal Abstraction via Reachability Analysis), that aims to learn an abstract model of the subgoals of the hierarchical task.
However, HRL can still be limited when faced with the states with high dimension and the real-world open-ended environment. Introducing a human teacher to Reinforcement Learning algorithms has been shown to bootstrap the learning performance. Moreover, active imitation learners such as in [1] have shown that they can strategically choose the most useful questions to ask to a human teacher : they can choose, who, when, what and whom to ask for demonstrations [2,3].
This internship’s goal is to explore how active imitation can improve the algorithm GARA. The intuition in this context is that human demonstrations can be used to determine the structure of the task (ie. which subtasks need to be achieved) as well as determining a planning strategy to solve it (ie. the order of achieving subtasks).
During this internship we will :
• Study the relevant state-of-art and make a research hypothesis about the
usefulness of introducing human demonstrations into the considered HRL
algorithm.
• Design and implement a component to learn from human demonstrations in
GARA.
• Conduct an experimental evaluation to assess the research hypothesis.
The intern is expected to also collaborate with a PhD student whose work is closely related to this topic.
Profil du candidat :
The intern should be enrolled in a master program (either M1 or M2) in Computer Science or Robotics.
Formation et compétences requises :
The students should have a prior knowledge (e.g., followed some course) in machine learning, deep learning, and reinforcement learning, and be motivated to complete a research-focused internship.
Adresse d’emploi :
ENSTA Paris, Computer Science and System Engineering Department
Document attaché : 202302021428_internshipActiveImitationLearning.pdf
Offre en lien avec l’Action/le Réseau : EducAction/– — –
Laboratoire/Entreprise : LIFAT
Durée : 6 mois
Contact : sabine.barrat@univ-tours.fr
Date limite de publication : 2023-03-31
Contexte :
Le stagiaire sera intégré au laboratoire d’informatique de
l’Université de Tours (LIFAT), dans l’équipe RFAI (Reconnaissance des
Formes et Analyses d’Images). Le stage sera co-encadré par Gilles Tétart,
sociologue (Equipe Cost, laboratoire CITERES). Le stage est financé par le
RTR DIAMS (Réseau Thématique de Recherche Données, Intelligence
Artificielle, Modélisation et Simulation).
Sujet :
« Learning analytics : l’Intelligence Artificielle appliquée à l’identification
d’apprenants en situation de décrochage »
L’augmentation du nombre d’étudiants dans l’enseignement supérieur ces dernières années et la crise sanitaire ont accéléré le développement de l’enseignement à distance ou hybride. La conséquence “positive” directe est l’augmentation massive de données / traces numériques accumulées par les apprenants dans leur environnement numérique d’apprentissage. A contrario, ce mode d’enseignement, de par la conception des cours et/ou des comportements des apprenants, augmente les difficultés d’apprentissage de certains, pouvant aller jusqu’à leur décrochage.
L’objectif du stage est l’analyse des données / traces numériques pour :
– Détecter les potentiels apprenants décrocheurs, établir des profils
sociographiques et/ou des caractéristiques récurrentes.
– Identifier les causes possibles de décrochage, analyser les effets de
contexte et les déterminants structuraux du décrochage.
– Comparer les éléments d’analyse recueillis à la littérature scientifique
existante sur la question du décrochage/échec scolaire.
– Proposer automatiquement des solutions de remédiation adaptées aux
profils des apprenants (ressources pour accompagner les apprenants en
difficulté, envoi de messages de motivation automatisés, …)
Pour répondre à ces besoins, une piste à explorer est l’utilisation de
classificateurs (apprentissage automatique) de types prédictifs et
explicatifs.
Profil du candidat :
Qualifications souhaitées : M1 ou M2 en cours dans le domaine de
l’informatique avec un intérêt pour les questions d’inégalités sociales en
lien avec la réussite scolaire/universitaire. Une connaissance/expérience
de l’apprentissage automatique et des outils associés est un plus.
Formation et compétences requises :
Qualités relationnelles, ouverture et curiosité afin de dialoguer et
comprendre les interlocuteurs de différents domaine (informatique et
sociologie)
· Sens de l’initiative et force de proposition
· Sens de l’organisation, autonomie
· Capacité à faire du reporting
Adresse d’emploi :
LIFAT
64 avenue Jean Portalis
37200 TOURS
Document attaché : 202302161824_Fiche_poste_stage_RTR_DIAMS.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIS, UMR 7020
Durée : 6 mois
Contact : tpnguyen@univ-tln.fr
Date limite de publication : 2023-03-31
Contexte :
Stage de fin d’études de M2
Sujet :
Sujet de stage : Amélioration des images sous-marines
La perception dans un milieu sous-marin est un double enjeu à la fois civil et militaire. L’exploration du milieu sous-marin est une tâche cruciale pour différents acteurs tels que la Marine Nationale, l’océanographie, les groupes pétroliers, etc. Par exemple, la connaissance des fonds marins joue un rôle important pour déployer des sous-marins et des navires. Étudier des données visuelles prises par des caméras sous-marines est une tâche difficile. Ce défi vient des problématiques suivantes. Tout d’abord, les images sous- marines sont bruitées à cause du manque de la lumière dans la phase d’acquisition. De plus, cette condition amène également au contraste faible, ainsi que des effets de diffusion de la lumière dans ces images. De l’autre côté, l’absorption de la lumière dans l’eau est différente en fonction de la longueur d’onde, par conséquent la variation d’illumination et de couleur est forte dans ce type d’images. En effet, la lumière visible dont les longueurs d’onde sont plus longues est fortement absorbée par l’eau. Cela fait varier les couleurs des poissons en fonction de la distance et de la profondeur par rapport à la caméra. En outre, due à l’interface lentille/air/eau, la distorsion d’images est aussi une problématique des images sous-marines par rapport aux images classiques. C’est pour cela que la détection et la reconnaissance des objets dans des images sous-marines sont plus difficiles que celles des images populaires, car ces facteurs rendent les algorithmes classiques de détection et de classification inefficaces parce qu’ils ne sont pas conçus pour gérer de telles difficultés. L’objectif de ce stage est d’étudier des méthodes d’apprentissage profond [1, 2, 3, 4,
5, 6] pour proposer une méthode d’amélioration des images sous-marines avant d’utiliser des méthodes classiques de la vision par ordinateur pour les autres tâches.
Références
[1] Sharma, P.K., Bisht, I., Sur, A. : Wavelength-based attributed deep neural network for underwater image restoration (2021)
[2] Islam, M.J., Xia, Y., Sattar, J. : Fast underwater image enhancement for improved visual perception. IEEE Robotics and Automation Letters (RA-L) 5(2) (2020) 3227– 3234
[3] Li, C., Guo, C., Ren, W., Cong, R., Hou, J., Kwong, S., Tao, D. : An underwater image enhancement benchmark dataset and beyond. IEEE Transactions on Image Processing 29 (2020) 4376–4389
[4] Riba, E., Mishkin, D., andE. Rublee, D.P., Bradski, G. : Kornia : an open source diffe- rentiable computer vision library for pytorch. In : Winter Conference on Applications of Computer Vision. (2020)
[5] Islam, M.J., Edge, C., Xiao, Y., Luo, P., Mehtaz, M., Morse, C., Enan, S.S., Sat- tar, J. : Semantic Segmentation of Underwater Imagery : Dataset and Benchmark. In : IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), IEEE/RSJ (2020)
[6] Cao, Z., Hidalgo Martinez, G., Simon, T., Wei, S., Sheikh, Y.A. : Openpose : Realtime multi-person 2d pose estimation using part affinity fields. IEEE Transactions on Pattern Analysis and Machine Intelligence (2019)
Profil du candidat :
Étudiants en M2R ou en école d’ingénieur avec une majeure en traitement d’image, en apprentissage automatique ou en intelligence artificielle.
Formation et compétences requises :
De bonnes compétences en programmation python sont requises. La connaissance des frameworks de deep learning est un plus souhaitable. Le candidat doit avoir de bonnes capacités rédactionnelles et de communication orale.
Adresse d’emploi :
Laboratoire LIS, Bâtiment X, l’avenue de l’université, 83130, La Garde.
Pour postuler le stage, merci d’envoyer le CV et relevé de notes M2 à tpnguyen@univ-tln.fr
Document attaché : 202211221746_StageM2_2023.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : SESSTIM, Faculté des Sciences Médicales et Paraméd
Durée : 5-6 mois
Contact : jean-charles.dufour@univ-amu.fr
Date limite de publication : 2023-03-31
Contexte :
Le Service transversal de Pharmacie Clinique et Soins Pharmaceutiques de l’APHM en collaboration avec le service BioSTIC de l’APHM et le SESSTIM (Unité Mixte de Recherche UMR1252 labélisée par l’Inserm, l’IRD et Aix-Marseille Université) cherche à améliorer la sécurité et la pertinence des ordonnances médicamenteuses via une analyse pharmaceutique détaillée, automatisée et systématisée. Pour cela l’utilisation de méthodes de Machine Learning sont envisagées.
Pour réaliser l’analyse des données, implémenter et évaluer les méthodes de Machine Learning un stage de 5 à 6 mois est proposé avec une gratification financière pour un(e) étudiant(e) niveau ingénieur ou master 2 en science des données ou intelligence artificiel. Le stage est à pourvoir dès février-mars 2023.
Sujet :
Il s’agit de contribuer à l’optimisation des prescriptions médicamenteuse. Le stage porte sur l’implémentation et l’évaluation de différentes méthodes de Machine Learning en utilisant des données de vie réelle (prescription hospitalière) de la pharmacie clinique. Le principe est d’évaluer et d’appliquer un ensemble de méthodes d’IA afin de faciliter et optimiser l’analyse automatisée des ordonnances médicamenteuses dans le contexte hospitalier.
Mission du stagiaire : Nettoyer et analyser les données. Rechercher et identifier des méthodes d’IA applicables sur ces données. Implémenter les méthodes, entrainer les modèles, sélectionner les modèles les plus performants. Documenter les développements réalisés.
Profil du candidat :
Capacité d’analyse et de synthèse, forte autonomie et esprit d’initiative, connaissances du métier de la santé appréciée, capacité de travailler en mode projet : rendre compte des avancements des travaux et communication des résultats, bonne communication à l’oral et à l’écrit (Français et/ou Anglais).
Formation et compétences requises :
Bonnes connaissances en machine learning et notamment algorithmes supervisés (SVM, Random Forest, Arbre de décision, Réseaux de neurones,…). Maîtrise d’environnement python.
Adresse d’emploi :
Faculté des sciences médicales et paramédicales, Marseille
Document attaché : 202210281005_Proposition-Stage-SESSTIM-PharmacoClin-ML-octobre2022.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LISTIC
Durée : 4 à 6 mois
Contact : asma.dhaouadi@univ-smb.fr
Date limite de publication : 2023-04-01
Contexte :
Le sujet de ce stage se situe dans le cadre d’un projet de recherche visant à proposer une approche de modélisation personnalisable d’un pipeline Big Data pour l’acquisition, le traitement et le stockage de données pour une analyse future. En effet, de nos jours les sources et les types de données se multiplient au sein de l’entreprise : fichiers plats, données opérationnelles, nouveaux services internet, différents réseaux sociaux, nouvelles applications de l’internet des objets (IOT), etc. Cette révolution informationnelle a généré une grande masse de données, dite « Big Data ». Le Big Data est caractérisé par le grand « volume » de données collectées par l’entreprise, la « variété » de ces données, qui peuvent être structurées, semi-structurées ou non structurées et aussi par la fréquence de l’arrivée des données « vitesse » qui devrait être prise en considération. Pour faire face aux challenges de Big Data une bonne variété de technologies dédiées est apparue, tels que l’écosystème d’Hadoop (HDFS, Map Reduce, Yarn, etc), Flink, Kafka, Elasticserach, Kibana, etc. Dans la littérature de différentes solutions architecturales Big Data ont été proposées. Dans ces architectures se trouvent une ou plusieurs technologies pour répondre à un besoin spécifique. Par ailleurs, le choix de ces technologies n’est pas toujours suffisamment justifié.
Sujet :
L’objectif de ce stage sera le déploiement de trois différentes architectures Big Data pour l’extraction, le traitement, le chargement (ETL) des données. Dans chacune de ces architectures, l’étudiant teste le déploiement des technologies selon des critères à définir (RAM, réseau, stockage, etc). L’étudiant est appelé aussi à étudier la compatibilité entre les technologies mises en œuvre au sein d’une même architecture. De plus, tout au long du stage, il serait utile de prendre note de tous les problèmes rencontrés, en particulier celle de configuration et de préciser comment sont-ils surmontés. À la fin du stage, l’étudiant est appelé à synthétiser toutes les étapes menées et relever les résultats du travail de benchmarking.
Pour la mise en œuvre des architectures proposées le candidat pourra avoir accès durant la période du stage à la plateforme MUST, mésocentre de stockage et de calcul scientifique mutualisée ouverte sur la grille de recherche européenne utilisée par les chercheurs des différents laboratoires de l’USMB ainsi qu’a des machines de calcul internes au laboratoire.
Profil du candidat :
BUT, L3, M1 ou M2 recherche
Ingénieur année 1, 2 ou 3
Formation et compétences requises :
– Connaissance et compréhension des phases d’acquisition, de traitement, de stockage de données.
– Connaissances relativement bonnes de l’écosystème Hadoop et d’autres technologies : Redis, Spark, etc.
– Configuration des technologies Big Data.
– Comprendre, analyser et rédiger des documents scientifiques et techniques.
Adresse d’emploi :
LISTIC – Laboratoire d’Informatique, Systèmes, Traitement de l’Information et de la Connaissance
Annecy-le-Vieux, France
Document attaché : 202211251032_SUJET_STAGE_M2-FI5_2022-2023_LISTIC FINAL.pdf
Offre en lien avec l’Action/le Réseau : – — –/Innovation
Laboratoire/Entreprise : LIP6/Sorbonne Université et SAP France
Durée : 6 mois
Contact : bernd.amann@lip6.fr
Date limite de publication : 2023-04-01
Contexte :
Nowadays, institutions and companies manage their data with a wide variety of applications which were not designed to communicate with each other. On the other hand, there is a very strong need to design new data management and analysis services that will add value to the data that is there. Since it is practically impossible to migrate all applications and their data into an integrated system, the current solution is to build analytic data pipelines to facilitate the data flow between operations that perform complex processing, including collecting data from multiple sources, transforming it, generating AI models through learning, and storing it in multiple destinations. In practice, a data pipeline can contain hundreds of operations, and it can evolve repeatedly by being populated with new operations or new data. Thus, with the increasing number of pipelines to be designed and deployed, it is crucial to dispose of high level data pipeline definition languages, tools to deploy and control the execution of data pipelines and efficient solutions to optimize the execution of complex operations on large volumes of data.
In this context, SAP has developed the SAP Data Intelligence (DI) software for the automatic con- figuration and deployment of data pipelines. These pipelines use a flow-based programming model [3]. Each pipeline operation corresponds to a program (Python, node.JS, …) or a call to an external API (e.g., Spark job) that is deployed using an adapted Docker [2] image/container. Kubernetes services provide deployment and orchestration of these images on hyperscaler platforms like AWS, Google Cloud, Azure etc.
A performance problem arises at large scale when a pipeline contains long operations processing massive data. A first solution was designed in the context of an SAP/LIP6 internship to parallelize operators [4]. In this solution, the way to consume/produce data is described using data sorting and partitioning functions. This allows the data to be partitioned and distributed to process operators in parallel. The principle of the method is to first define the properties of a “divide and conquer” mapping in the JSON configuration of an operator. These properties allow to automatically transform a DI pipeline into a new parallelized DI pipeline with several replicas (identical copies) of the initial operator, each running in parallel on different parts of the operator’s input data. A “dispatch” operator is injected into the data pipeline to split the input data stream into different partitions and a “collect” operator is injected to aggregate the output of the replicas into a single output. The replicas are aggregated into a single output data stream. The first experiments show that this parallelization solution allows improving the performance of data pipelines, but does not allow obtaining optimal performance in real environments, which need to estimate and to dynamically adapt the operator replication/data parallelization degree in relation to the volumes of data exchanged, the calculations performed and the available resources.
Sujet :
The objective of this internship is to propose new methods to facilitate and optimize the deployment and execution of parallelized data pipelines. This raises several scientific and technical challenges:
• Estimating the replication degree: How many replicas should be deployed for each operation to be processed in parallel? To answer this question, we need to estimate the benefit of parallel processing as a function of the number of replicas, the amount of data to be processed and the CPU consumption of an operation. This benefit must also be related to the cost of using the machines running data pipelines in the cloud, in order to determine an optimal number of replicas for a certain budget.
• Elastic deployment: How can we adapt the number of replicas to dynamic changes in available resources and associated costs? This demands for new solutions to allow the number of replicas (degree of parallelism) of an operator to be dynamically changed without interrupting the pipeline.
Internship goals and tasks
Internship #1. The goal of the first internship is to evaluate the performance of the parallelization method on different types of stateful operators by varying the CPU load of the operator, the size of the operators state, and the size of the messages dispatched to the replicas. The evaluation will be run on a Kubernetes cluster deployed on a hyperscaler platform. Through this evaluation, we expect to learn the configuration parameters that provide the greatest parallelization benefit and some suggestions for improving the parallelization method.
Tasks:
• Propose a model to estimate the overhead incurred by adding operations that partition data and distribute it to replicas in the pipeline.
• Design a method to observe the execution of the pipeline and detect an overload (underload) situation.
• Determine the new degree of parallelism that will improve pipeline performance.
Internship #2. The goal of the second internship is to implement dynamic dispatch and collect operators which automatically adapt to the scaling up or down of the number of replicas of a parallelized operator. For the dispatch operator, the strategy must guarantee that no message is lost in case of scaling down. For the collect operator, the strategy must guarantee that all messages produced by the replicas are properly collected and possibly re-ordered in case of scaling up.
Tasks:
• Design a technical solution to dynamically change the number of running operator replicas and adapting the dispatch and collect operators.
• Conduct experiments using data pipeline examples to check the validity of the implemented strategies and measure their possible overhead.
The solutions will be deployed in the SAP DI environment. Comparative experiments will be implemented on the Spark parallel computing platform. For this, a solution will be designed to transform the pipeline description (written with Data Intelligence syntax) into a Spark pipeline [1] (pyspark syntax).
References
[1] Michael Armbrust, Reynold S. Xin, Cheng Lian, Yin Huai, Davies Liu, Joseph K. Bradley, Xiangrui Meng, Tomer Kaftan, Michael J. Franklin, Ali Ghodsi, and Matei Zaharia. Spark SQL: relational data processing in spark. In ACM SIGMOD International Conference on Management of Data, pages 1383–1394, 2015.
[2] David Bernstein. Containers and cloud: From lxc to docker to kubernetes. IEEE Cloud Computing, 1(3):81–84, 2014.
[3] Tanmaya Mahapatra. High-level graphical programming for big data applications. Master’s thesis, Technische Universität München (TUM), 2019.
[4] Ludgy Vestris. Scaling up stateful and order preserving operators in DI data pipelines. Master’s thesis, CNAM, SAP – LIP6, 2022.
Profil du candidat :
The candidate should have excellent experience in algorithmic and programming (Python, Java) and advanced knowledge of optimization and parallelization techniques (query optimization, data parallelism, map-reduce, ….) and some technical knowledge of Docker/Kubernetes is also helpful. To apply, you should send to the three co-supervisors (see email above), a CV and the grades of the last three semesters of study.
Formation et compétences requises :
Dernière année de Master ou d’École d’ingénieur
Adresse d’emploi :
• SAP France (Levallois-Perret)
• Equipe Bases de Données du LIP6 (Paris): http://www-bd.lip6.fr/
Document attaché : 202212021339_Stage_LIP6_SAP_2023-3.pdf
