Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Jan
26
Fri
2024
Développement et évaluation d’une descente d’échelle statistique des prévisions météorologiques sur la Réunion avec des méthodes de deep learning
Jan 26 – Jan 27 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre National de Recherches Météorologiques
Durée : 6 mois
Contact : laure.raynaud@meteo.fr
Date limite de publication : 2024-01-26

Contexte :
Les prévisions météorologiques opérationnelles sur les domaines Outre-Mer ont vu leur résolution spatiale augmenter de 2.5km à 1.3km à l’été 2022. Cette évolution a permis d’améliorer la performance des prévisions, en particulier pour les événements à enjeux tels que les cyclones tropicaux et les fortes pluies. Des résolutions hectométriques permettraient de gagner encore en réalisme, en particulier sur l’île de la Réunion dont le relief est complexe. Néanmoins, le coût des prévisions à des résolutions de quelques centaines de mètres ne permet pas d’envisager leur utilisation opérationnelle avant plusieurs années.

Une alternative moins coûteuse à cette descente d’échelle dynamique est la descente d’échelle statistique. L’objectif est d’apprendre une relation statistique entre les prévisions basse résolution (par exemple 2.5km ou 1.3km) et les prévisions haute résolution (par exemple 500m). Les méthodes de descente d’échelle les plus classiques reposent sur des interpolations simples ou des approches de régression linéaire. Récemment, plusieurs études ont montré que des méthodes d’apprentissage profond tels que les réseaux de neurones convolutifs offrent des perspectives intéressantes pour la descente d’échelle (Vandal et al., 2018; Baño-Medina et al., 2019, Leinonen et al., 2020; Höhlein et al. 2020, Sha et al., 2020).

Sujet :
L’objectif du travail proposé est de développer une descente d’échelle à 500m des prévisions sur la Réunion, par apprentissage profond, et pour des variables de temps sensible telles que la température, le vent et les précipitations. Un premier stage en 2023 a permis de mettre en place les jeux de données et d’évaluer deux architectures : un réseau convolutif simple de type U-Net et un modèle de diffusion. Les premiers résultats sont encourageants et plusieurs pistes d’approfondissement et d’amélioration sont envisagées, qui feront l’objet du présent stage, parmi lesquelles :
1. l’intégration de contraintes physiques dans les réseaux
2. l’amélioration des modèles de diffusion et de leur coût d’inférence : des variantes telles que les modèles implicites (Song et al., 2021), la diffusion latente ou la distillation progressive (Salimans et Ho, 2022) pourront être implémentées
3. la descente d’échelle stochastique, au travers de la génération d’ensembles de prévisions
4. la descente d’échelle pour les précipitations.

Profil du candidat :
Le stage requiert un réel intérêt pour la prévision du temps. De bonnes compétences en statistiques également sont attendues. Le langage de programmation utilisé sera Python. Une connaissance préalable du fonctionnement des réseaux de neurones profonds (en particulier des réseaux convolutifs) est souhaitée. Une première expérience d’une bibliothèque de Deep Learning (PyTorch, TensorFlow, …) serait un plus.

Formation et compétences requises :
Ecole d’ingénieur ou M2.

Adresse d’emploi :
CNRM, Toulouse.

Document attaché : 202310251324_Fiche-proposition-PFE_IENM_IA500m_2024.pdf

Jan
30
Tue
2024
Postdoctoral Position – Systems Biology of Neuronal Vulnerability in Neurodegenerative Diseases, Paris, France
Jan 30 – Jan 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Brain-C Lab, Institute of Biology Paris-Seine (IBP
Durée : 2 years (CDD)
Contact : christian.neri@inserm.fr
Date limite de publication : 2024-01-30

Contexte :
Brain-C Lab, Institute of Biology Paris-Seine (IBPS), Paris

see http://www.ibps.upmc.fr/en/research/biological-adaptation-and-ageing/brainc)

Research on neurodegenerative disease mechanisms and targets

Sujet :
the project addresses outstanding questions about the temporal and molecular dynamic of neurodegenerative disorders and define new therapeutic rationales for early-stage intervention in these disorders. The successful applicant will use BioGemix —our machine learning platform for biological precision in leveraging complex omics data— to analyze omics data (e.g., epigenomic data, transcriptomic data) obtained in models of amyotrophic lateral sclerosis (ALS) and compare resulting models to computational models of neurodegenerative disorders such as Huntington’s disease (HD). In addition to using existing approaches (feature selection, network inference, shape analysis), the successful applicant will also have the possibility to develop innovative machine-learning approaches for modeling and simulating gene regulatory networks and for optimal target selection, in collaboration with mathematicians and bioinformaticians inside and outside the team. This position is a unique opportunity to further develop expertise and skills in a multidisciplinary team and network of direct collaborators that cover systems modeling, cellular neurobiology and preclinical/clinical research.

Profil du candidat :
The candidates are expected to be highly-qualified and to have strong collaborative skills and commitment to team work along with strong ability to work independently, and to have track record of expertise & writing papers as demonstrated by publications and pre-prints. The position is full time and on site, and candidates should have less than 5 years of postdoctoral experience and a strong interest for research in biology.

Formation et compétences requises :
Candidates should hold a Ph.D. in Informatics/Bioinformatics or Mathematics or Probability & Statistics or Physics. Candidates that hold a diploma from high-profile Engineer Schools (e.g. Ecole Polytechnique, Supelec, Centrale, EPFL, ETZ) are welcome to apply.

• Demonstrated experience and autonomy in probability and statistics for the analysis of complex datasets (probabilistic models, R)
• Good autonomy in machine programming (at least one of the following languages: Python, C/C++, Java).
• Skills in database management or web technologies (javascript, Php) are desirable but not mandatory.
• Knowledge of genome sciences and omics technologies will be a plus.

Adresse d’emploi :
IBPS, Campus de Jussieu
9 Quai St Bernard
75005 Paris – France

RESEAUX DE NEURONES GUIDES PAR LA PHYSIQUE pour l’ETUDE D’UNE CHRONIQUE PIEZOMETRIQUE
Jan 30 – Jan 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Aprona et UMR ITES, Strasbourg
Durée : 6 mois
Contact : fahs@unistra.fr
Date limite de publication : 2024-01-30

Contexte :
L’APRONA (Association pour la Protection de la Nappe Phréatique de la plaine d’Alsace – www.aprona.net/), a pour principales missions la surveillance qualitative et quantitative de la nappe d’alsace et des aquifères du Sundgau. Elle assure ainsi la gestion des réseaux d’observation des eaux souterraines, la collecte et l’exploitation des données ainsi que leur diffusion et leur communication.

La nappe d’Alsace, partie intégrante du réservoir aquifère le plus important d’Europe, constitue un patrimoine naturel et un enjeu économique majeur pour l’alimentation en eau potable, en eau d’irrigation et en eau industrielle. Les échanges eaux superficielles – eaux souterraines, très fréquents, sont la caractéristique principale de ce hydro-système unique par sa taille. Les fluctuations de niveau, plus ou moins importantes suivant l’endroit et les types d’événements qui en sont la cause, ne sont pas sans conséquence sur le milieu naturel et les activités humaines : assèchement des zones humides, remontées d’eau dans les caves et les parkings souterrains, incidences sur l’importance et la propagation des pollutions.

Sujet :
Face à ces enjeux accentués par les impacts du changement climatique1, comment prédire efficacement la réaction de la nappe afin de mieux faire face aux situations de crises (crue et sècheresse) ?
Connaissant les facteurs responsables de l’évolution de la recharge2 des nappes, plusieurs approches modélisation sont alors possibles. Avec les progrès dans le domaine de développement des cartes graphiques (GPU), les réseaux de neurones d’apprentissage profond émergent comme une nouvelle technique pour la modélisation avec d’excellents résultats dans de nombreux domaines et applications scientifiques. Un intérêt particulier est porté actuellement à l’utilisation de ces techniques pour la gestion des ressources en eaux souterraines. Cependant, dans contexte, la mise en œuvre des réseaux de neurones est limitée par la disponibilité et la qualité des données. Très récemment (en 2019), une nouvelle classe des réseaux de neurones a fait son apparition pour pallier ce problème. Dans cette classe, connue sous le nom PINNs (Physics Informed Neural Networks), l’apprentissage du réseau est guidé par les lois physiques et peut se faire d’une façon efficace même avec peu de données. L’intégration des lois physiques dans l’apprentissage des réseaux permet de les rendre plus fiables pour la prédiction des effets des changements climatiques, où les modèles basés uniquement sur les données peuvent être moins fiables dans des conditions différentes de celles observées. Les PINNs sont prometteurs dans différentes applications scientifiques. Leur application dans le domaine de la gestion des eaux souterraines est actuellement l’un des défis de la communauté scientifique. Ceci représente l’objectif principal de ce stage.
Une formation spécifique est prévue pour faciliter l’accès vers cette méthode.

La méthodologie du stage repose sur les trois tâches suivantes :
1. Formation
a. Synthèse bibliographique (analyse des documents fournis)
b. Compréhension des processus physiques et des modèles mathématiques
c. Prise en main des outils (PINNs, Python et modèle éléments finis)
2. Modèle PINNS (cas synthétique)
a. Construction d’un modèle PINNs sans données pour l’écoulement souterrain en nappe libre
b. Vérification du modèle par comparaison à un modèle éléments finis
3. Cas réel (échange nappe et cours d’eau)
a. Construction d’un modèle PINNs pour un cas réel impliquant des processus d’échange nappe-rivière et utilisation des données d’observation avec les PINNs.
b. Evaluation de la fiabilité des prédictions du modèle PINNs.
c. Evaluation de l’intérêt d’utiliser PINNs par rapport à un modèle de réseaux de neurones standard.

Profil du candidat :
Master 2 ou 3ème année d’école d’ingénieur dans les domaines suivants : Mathématiques appliquées (méthodes numériques, statistiques, probabilités) ; Sciences des données ; Mécanique des fluides ; Physique ; Sciences de la terre et de l’environnement.

Formation et compétences requises :
– Des connaissances en Python sont impératives. Une volonté de développer ces compétences est indispensable.
– Capacité à travailler en groupe ; Bonne aptitude à la communication interpersonnelle ; Assimilation de nouvelles connaissances.

Adresse d’emploi :
Le stage aura lieu dans l’Institut Terre et Environnement de Strasbourg (ITES : https://ites.unistra.fr/).
Le stagiaire sera encadré par un hydrogéologue (APRONA) et par François Lehmann et Marwan Fahs enseignant-chercheurs à ITES

Document attaché : 202311191633_FICHE_STAGE_2024_ITES.PDF

Study Engineer Position – Bioinformatics & systems modeling for neurodegenerative disease research, Paris, France
Jan 30 – Jan 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Brain-C Lab, Institute of Biology Paris-Seine (IBP
Durée : 2 years (CDD)
Contact : christian.neri@inserm.fr
Date limite de publication : 2024-01-30

Contexte :
Research on neurodegenerative disease mechanisms and targets

Sujet :
A two-year position is immediately available in the Brain-C Lab in Paris for a bioinformatician at the Study Engineer (IE) level (post-master position). The selected candidate will work with a team of mathematicians, bioinformaticians, and neurobiologists on modeling time- and cell-resolved omics data to built computational models of molecular pathogenesis in neurodegenerative diseases such as amyotrophic lateral sclerosis (ALS), integrate data from other diseases such as Huntington’s disease (HD) and disseminate data via online platforms. The selected candidate will use BioGemix, our post-omics machine learning platform and related databases. This position is a unique opportunity to further develop expertise and skills in a multidisciplinary team and network of direct collaborators that cover systems modeling, database development, and cellular neurobiology for breakthrough in neurodegenerative disease research.

Profil du candidat :
The candidates should hold a Master in Biofinformatics or a Master in Informatics and they should have no more than 3-4 years of post-master experience. The position is full time, on site, and candidates should have strong collaborative skills and commitment to team work along with strong ability to work independently in addition to strong interest for research.

Interested candidates should apply immediately by sending a letter of motivation, a full CV, and the names and emails of two-three references to christian.neri@inserm.fr and lucile.megret@sorbonne-universite.fr

Formation et compétences requises :
• Programming autonomy on at least one of the following languages: python, R, C / C ++.
• Good knowledge of basic web technologies: PHP, MySQL, JavaScript, jQuery.
• Fluency in using Ubuntu.
• Hands-on experience with in house server maintenance (Backup, shared space, and webserver).
• Scientific English essential
• Skills in data visualization will be a plus.
• Experience working with NGS data and performing respective bioinformatic pipelines in order to process sequencing data will be a plus.
• Basic knowledge in statistics and machine learning are desirable but not mandatory.

Adresse d’emploi :
IBPS, Campus de Jussieu
9 Quai St Bernard
75005 Paris – France

Jan
31
Wed
2024
Analyse topologique de mouvements de grains dans une séquence d’images 3D
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : GREYC
Durée : 6 mois
Contact : nicolas.passat@univ-reims.fr
Date limite de publication : 2024-01-31

Contexte :
cf. https://kenmochi.users.greyc.fr/tmp/sujetStageM2_2024_YK-NP.pdf

Sujet :
cf. https://kenmochi.users.greyc.fr/tmp/sujetStageM2_2024_YK-NP.pdf

Profil du candidat :
cf. https://kenmochi.users.greyc.fr/tmp/sujetStageM2_2024_YK-NP.pdf

Formation et compétences requises :
cf. https://kenmochi.users.greyc.fr/tmp/sujetStageM2_2024_YK-NP.pdf

Adresse d’emploi :
Caen

Conception et implémentation d’un lac de données de robotique agricole
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : INRAE-Univ Clermont Auvergne
Durée : 5-6 mois
Contact : sandro.bimonte@inraefr
Date limite de publication : 2024-01-31

Contexte :
Pour accompagner la transition agroécologique, les robots ont un rôle essentiel à jouer dans le domaine de l’agriculture intelligente. Ils sont capables d’effectuer des opérations agricoles répétitives et précises sur une longue période avec un faible impact sur l’environnement.

Avec des équipements particuliers, et associés à des technologies d’acquisition et de traitement de données, les robots sont capables d’effectuer de manière autonome des tâches ciblées de manière efficace dans les champs.

De nombreux travaux de recherche portent sur l’agriculture intelligente. Dans le cadre du projet ISITE CAP2025, deux projets se sont intéressés à la gestion de données de l’agriculture. Le premier a réalisé une architecture Big Data pour le traitement des données des robots et des capteurs (avec Apache Kafka et Spark), ainsi qu’une base de données relationnelle pour stocker ces données. Le deuxième de type lac de données, le CEBA (Cloud Environnemental au Bénéfice de l’Auvergne), s’est intéressé à la collecte, l’ingestion et la restitution des données issues de capteurs bas débit en utilisant la pile Elastic et des bases de données relationnelles manipulant des données semi-structurée, sans fonctionnalité d’analyse.

Sujet :
Dans ce travail de stage, nous visons à mettre en place, dans le CEBA, un lac de données (data lake) complet (intégrant les outils des deux projets précédents) pour le stockage et l’exploration des données sources.

En particulier le travail consiste à :

– étudier et comparer les travaux existants sur les lacs de données spatiales : stockage et exploration

– caractériser les flux et implémenter un système d’ingestion (kafka, redpanda…)

– implémenter le système de stockage des données (ex. Apache Hadoop HDFS ou PostGIS)

– concevoir un modèle de métadonnées et implémenter un système de métadonnées

– implémenter un système d’exploration des données (ex. Apache Atlas, Open Metadata, Geonetwork, etc.)

Profil du candidat :
Master 2

Formation et compétences requises :
Outil Big Data (Hadoop, S3, Kafka)
Programmation: Java, Python, Spark
SQL, NoSQL

Adresse d’emploi :
Campus Cezeaux, Aubiere

Document attaché : 202401131652_sujetBigData.pdf

Construction et validation statistique de modèles dédiés à la génération de traces d’événements associées à des séries temporelles multivariées. Application au cas d’une cohorte de patients ayant subi une chirurgie avec anesthésie générale.
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N
Durée : 6 mois
Contact : hugo.boisaubert@univ-nantes.fr
Date limite de publication : 2024-01-31

Contexte :
Ce stage s’inscrit dans le cadre d’une collaboration à l’interface entre numérique et santé, avec Le Laboratoire Expérimental de SImulation en Médecine Intensive (LE SiMU) de Nantes Université. Le SiMU permet notamment de se perfectionner dans la gestion de situations critiques en anesthésie. Il intervient sur simulateurs de patients haute-fidélité( mannequins), avec immersion des acteurs en formation dans une équipe médicale humaine pleine-échelle interprofessionnelle. Dans le but d’améliorer la sécurité et la qualité des soins per-opératoires, les formateurs du SiMU souhaitent varier la diversité des scénarios à proposer aux internes en anesthésie et infirmiers anesthésistes, en formation initiale, ainsi qu’aux praticiens plus expérimentés, en formation continue.

Pour varier les scénarios, il est proposé à terme d’automatiser la génération de scénarios réalistes desimulation, en s’appuyant sur tout ou partie de la base de profils anesthésiques enregistrés par le CHU de Nantes depuis 2004 (500 000 profils anesthésiques). Dans cette modalité assistée par le numérique, la personne qui suit la formation (interne ou infirmier), fait partie de l’équipe médicale. Les autres membres de l’équipe médicale sont simulés très simplement (icônes réalisant des actions et émettant des
informations, sur l’écran de l’ordinateur assigné à l’apprenant). De cette innovation est attendu un accès potentiel à une grande variété de scénarios réalistes de simulation de cas d’anesthésie. Servir cet objectif
de formation répond également à terme au besoin d’anticipation par prédiction de risque, inhérent au paradigme de la médecine personnalisée, en pleine émergence.

Les CHU ont obligation légale d’enregistrer toutes les données relatives aux interventions chirurgicales.

Parmi ces dernières, figurent les profils anesthésiques des patients. Un profil anesthésique est constitué d’une trace d’événements et d’une série temporelle multivariée. La trace d’événements est la séquence
horodatée des actions de l’équipe médicale (e.g., administration d’un anesthésique). Les actions déterminent l’évolution des paramètres physiologiques du patient. La série temporelle multivariée
correspond à un ensemble de séries temporelles univariées qui décrivent chacune l’évolution d’un paramètre physiologique du patient (e.g., fréquence cardiaque).

Sujet :
L’accès aux données médicales est particulièrement contraint en raison du cadre réglementaire qui s’applique à ce type de données. Un générateur de données réaliste a donc été développé au sein de l’équipe DUKe du LS2N, grâce à l’expertise des partenaires du SiMU / CHU de Nantes.

Le premier objectif de ce stage est de tester sur ce type de données, les modèles et méthodes élaborés par la collaboration LS2N / LE SiMU / CHU de Nantes.

Une approche par expertise, utilisant l’expertise des soignants en anesthésie, sera utilisée pour construire un modèle du déroulement d’une chirurgie choisie. Ce modèle se présentera sous la forme d’une grammaire formelle. Cette grammaire servira ensuite de guide pour l’adaptation du générateur de données réalistes à la chirurgie choisie, ainsi que pour la construction de la représentation synthétique évoquée ci-dessous.

Pour générer un simulateur de scénarios réactifs, deux axes de recherche ont été explorés au sein de l’équipe DUKe du LS2N. Ils portent respectivement sur une approche de data mining / raisonnement à
base de cas, et une approche machine learning (modèle de Markov à changements de régimes et autorégressif). Les travaux du stage exploreront la première catégorie d’approche, centrée sur la
construction d’une représentation synthétique des scénarios observés sur une cohorte de patients.

Le but des travaux est d’utiliser les données de santé issues des profils anesthésiques observés dans une cohorte de patients, pour construire des scénarios réactifs. Il faut pouvoir intégrer dans une seule structure de données l’ensemble des éléments nécessaires pour jouer les scénarios.

Des travaux récents de l’équipe DUKe, dont la publication est à venir, ont amené à faire émerger une nouvelle représentation de connaissances pour des données complexes, comme le sont les profils anesthésiques. Cette représentation appelée représentation synthétique associe de manière novatrice · les différentes séquences d’actions médicales d’une cohorte de patients (ayant subi la même chirurgie), sous la forme d’un graphe orienté,
· des séries temporelles multivariées consensus, associées à chaque intervalle de temps séparant deux actions médicales successives.

La représentation synthétique des traces d’actions médicales d’une cohorte de patients peut être le support utilisé pour générer des scénarios réactifs. En effet, ce type de représentation contient tous les
éléments pour contrôler l’évolution d’un patient numérique soumis à des actions médicales

Dans le cadre de ce stage, le/la stagiaire aura à produire une représentation synthétique pour la chirurgie prise en compte. La grammaire formelle construite sera utilisée pour construire
la représentation synthétique. La ou les représentations synthétiques produites seront testées et évaluées statistiquement afin de
mesurer la similarité des scénarios générés aux scénarios observés.

Par ailleurs, grâce à leur caractère synthétique, ces représentations peuvent représenter des opportunités de réponse aux problématiques d’anonymisation de jeux de données complexes, multivariées et
interdépendantes, comme c’est le cas des profils anesthésiques.

Le stage pourra éventuellement explorer les opportunités que représentent les représentations synthétiques pour la production de jeux de donnés réalistes anonymisées.

Profil du candidat :
Profil Master Bioinformatique / Statistique avec compétences en programmation ou Master Informatique, avec un intérêt marqué pour les travaux en collaboration avec des professionnels de santé et des informaticiens/bioinformaticiens.

Formation et compétences requises :
Intérêt pour la gestion de données médicales et l’anonymisation
de données. Rigueur en programmation et capacité à générer de la documentation, avec usage des outils standard (Git, Doctest, Sphinx). Des compétences en bases de données (SQL, pour la curation de données,
éventuellement) sont attendues et une expérience en calcul intensif (ordonnanceur, parallélisation) sera appréciée. Capacités à rendre compte de son travail régulièrement.

Adresse d’emploi :
LS2N – Site Faculté des Sciences et des Techniques
Campus Lombarderie
2 chemin de la houssinière
44300 Nantes

Document attaché : 202311252322_sujet_2023_2024_bdlbs_m2_repres_synth_23_11_24_thur_14h12-1.pdf

Continuous queries over trajectory robots data
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : INRAE
Durée : 5-6 mois
Contact : sandro.bimonte@inrae.fr
Date limite de publication : 2024-01-31

Contexte :
Autonomous robots move on plots to perform technical tasks such as mechanical weeding. They are programmed to perform these tasks by minimizing movement on plots, via trajectories planned, while avoiding potential fixed obstacles (such as a root or a pole) or mobile (human, animals, or vehicle) requiring a deviation to the trajectory predefined. Therefore, robots are the main sources of a trajectory data stream. This stream needs to be continuously queried in order to identify patterns and outliers. For example, every second the farmer could be interested to know if a possible collision among robots will happen. This kind of queries are implemented by Data Stream Management Systems (DSMSs). To the best of our knowledge, DSMSs have not been benchmarked for querying robot data, yet.

Sujet :
In this project we will study the existing open source DSMSs that can be integrated with our supervision system LambdAgrIoT [1].

The study is conducted over two features, namely: querying capabilities and performance. Then, the best solution will be integrated into LambdAgrIoT.

Work plan
Analysis of existing work on trajectory stream querying (Spark Streaming, Flink, etc.)
Benchmark existing DSMSs
Integration in the LambdAgrIoT system of the chosen solution
Implement the web interface to visualize the results

Profil du candidat :
Master 2

Formation et compétences requises :
Skills: SQL, Java, Web programming, DSMSs (Spark Streaming, Flink, etc.) (optional), Kafka (optional), Grafana (optional)

Adresse d’emploi :
Aubiere, Campus Cezaux

Document attaché : 202401141146_Stage M2_ Continuous queries over trajectory robots data (1).pdf

Generative Model for multivariate time series. Application on aircraft engine
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : DAVID Lab – UVSQ – Versailles
Durée : 6 mois
Contact : mustapha.lebbah@uvsq.fr
Date limite de publication : 2024-01-31

Contexte :
In this research internship, we aim to test the feasibility of a modern neural methodology based on the generative model, which has been successfully applied to text/image processing. The field of video generation technology has seen significant advancements, with modern models capable of producing highly realistic videos [1, 4, 5]. Drawing an analogy to this, studying the life cycle of an aircraft engine can be viewed similarly to creating a video. In this analogy, each frame represents a distinct flight undertaken by the aircraft, during which multiple continuous parameters forming multivariate time series data. Each multivariate time series can be compared to a frame in a video, reflecting the dynamic states of the aircraft engine during the respective flight.

Sujet :
The aim of this research internship is to strengthen collaboration with Safran.

-Study the current state of the art in deep generative model and multivariate time series,
-By sequentially analyzing this collection of parameters flight after flight, akin to stringing together video frames, we can create a detailed and comprehensive depiction of the aircraft engine’s life cycle, allowing for the identification of behavioral patterns, anomalies and providing predictive insights into the engine’s performance and longevity.
-Based on previous studies [2, 3], implement one or more algorithms/architectures. The results obtained during the internship may lead to contributions to open-source software, or even a scientific publication, depending on the intern’s skills and motivation.

Profil du candidat :
End of engineering degree, M1/M2 in data science, statistics, artificial intelligence, or computer science. Excellent understanding of machine learning basics, particularly deep learning models. Excellent programming skills, especially with tensorflow/keras.

Formation et compétences requises :
End of engineering degree, M1/M2 in data science, statistics, artificial intelligence, or computer science. Excellent understanding of machine learning basics, particularly deep learning models. Excellent programming skills, especially with tensorflow/keras.

Adresse d’emploi :
The internship will be in the DAVID Lab at the University of Versailles

Document attaché : 202312150838_DAVID-UVSQ-Research_Internship_GenerativeMTS.pdf

Geovisualization of big data for the supervision of agricultural autonomous robots
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : TSCF, INRAE
Durée : 5-6 mois
Contact : sandro.bimonte@inrae.fr
Date limite de publication : 2024-01-31

Contexte :
The main goal of agro-ecology is to provide new practices that respect the environment and grant good farming production. Internet of Things (IoT) and robots play an important role in this context. Indeed sensors are able to provide accurate pedo-climatic data and robots can be employed for repetitive and accurate agricultural tasks during a long period. Moreover, robots are usually supported by electrified engines and they are light, reducing the impact of soil compaction. Nowadays robots are arriving in farms, where several types of machines exist and cohabit: tractors and robots of different types. The main task of farmers and agricultural stakeholders is moving more and more towards managing this equipment and analyzing agronomic and economic data by means of Farm Management Information Systems (FMSIs). Existing FMSIs lack tools dedicated to the monitoring of fleets of diverse robots, which represents an important barrier to the growth of the usage of robots in the field and therefore of the agro-ecology development. Therefore, the need of a system being able to monitor the behavior of the robots in the field in real-time appears. TSCF, INRAE Clermont Ferrand have proposed an architecture (called LambAgrIoT) for robots monitoring and scheduling, based on a complex Big Data architecture (i.e. Lambda architecture) [1]. This architecture allows an effective management of real-time and historical data issued from sensors and robots. Although LambAgrIoT presents an effective data management framework for the storage and analysis of IoT and robotic agricultural data, the Stream Layer, which in in charge of managing real-time data, is supported by a simple web based client that do not allow an awareness monitoring of the on-going execution of the agricultural practice.

Data used by this system is BIG DATA. In particular the are are: (1) complex spatio-temporal data (e.g., robot trajectories, meteorological data); (2) stream data (e.g., from sensors deployed in fields), multimedia data (e.g., video, images) (3) historical data (e.g., warehoused data). These data are also acquired at different spatial and temporal scales (such as plot and city, second and hour). In order to take benefit from these data in such a supervision system, an ad-hoc geovisualization of these data must be provided

Sujet :
The main goal of this project is to define a data-driven geovisualization method that allows for an effective situation awareness of the fleet of robots supervision. Since data are too much, complex and at different temporal and spatial scales a new geovisualization method must be proposed in order to show to the end user “only” data that are relevant for his/her supervision task at the right moment. This means that the system must automatically propose the visualization method based on the real time data. To achieve this goal, a set of indicators/rules must be defined in order to choose the right geovisualization, and for each of them the most appropriate semiology must be used. Therefore, indicators/rules and data must be able to be presented to the user as a set of aggregated data in a dynamic and interactive way.

Planned work

Study existing work on geovisualization in the context of agricultural robots

Define the indicators/rules for changing visualization

Define the most appropriate geovisualization for each ‘state”

Study the Superob supervision system developed by INRAE [1]

Implement the proposal in SuperRob

Write the M2 report

Profil du candidat :
Master 2

Formation et compétences requises :
Web Development (HTML, CSS, JavaScript)

Wep mapping (Mapbox, Deck GL, etc.)

Adresse d’emploi :
9 Avenue Blaise Pascal, Aubiere

Document attaché : 202401131554_stageM2GeoVis (1).pdf

Internship in data science, (Bio)Mathematics and Modelling applied to ‘sport and diabetes’ physiology
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : laboratoire URePSSS, Université de Lille
Durée : 6 mois
Contact : elsa.heyman@univ-lille.fr
Date limite de publication : 2024-01-31

Contexte :
In type 1 diabetes (T1D), physical activity is an essential component of the treatment plan because of its
recognised beneficial effects on numerous health parameters. Nevertheless, T1D individuals often have
a level of physical activity that falls short of international recommendations. The main obstacles to
physical activity are fear of hypoglycaemia and diabetes imbalance. Depending on the intensity, duration,
method and timing of the last insulin injection, physical activity can have a hypo- or hyperglycaemic
effect. Faced with this situation, it is difficult for T1D sports practitioners to anticipate appropriate
adaptations to their insulin and/or diet: at present, recommendations as to the adaptations to be made
according to the characteristics of the exercise remain very vague due to the lack of studies carried out
under real-life conditions (glucose monitoring sensors).
The overall aim of the project is to improve the accuracy of algorithms for predicting variations in blood
sugar levels as a function of physical activity, using data recorded by sensors worn in everyday life,
taking into account diet, insulin administered (e.g., from insulin pumps), etc.

Sujet :
The sensors (accelerometer, continuous glucose monitoring systems, insulin pumps, etc) worn by the
patients living with T1D generate a large amount of temporal data each day. This data needs to be
processed and analysed automatically to produce simple indicators that are useful to patients, and to
enable research teams to base their predictive models on it. Codes for calculating indices of glycaemic
excursions (e.g., time spent at different thresholds of hypoglycaemia or hyperglycaemia, glycaemic
variability, i.e., rapid variations towards high and low glycaemia levels, etc.) have already been developed
to process data from glucose sensors. These codes are also designed to create a formatted database for
each patient, enabling a number of simple indicators to be displayed and calculated. These codes were
then put into an intuitive web interface for researchers and doctors.
The main objective of the internship will be to explore machine learning methods in order to improve
the algorithms and statistical models for prediction of hypo and hyperglycaemic risk around physical
activity (considering their temporal dynamics).

Profil du candidat :
o In-depth knowledge of data science
o In-depth knowledge of the main supervised and unsupervised learning models
o Strong skills in R or, failing that, in Python for data science
o Fluent reading of English
o Autonomy, rigor, reliability
o Ability to listen and communicate with the scientific community
o Ability to present work orally and in writing

Formation et compétences requises :
master in data science.

Adresse d’emploi :
The internship will be located at the University of Lille, within the URePSSS laboratory
(Multidisciplinary Sport, Health and Society Research Unit, ULR 7369) under the supervision of Prof.
Elsa Heyman and Dr. Pierre Morel, in close collaboration with Prof. Philippe Preux of the CRISTAL
laboratory (UMR 9189, IT, Signal and Automation Research Centre). Regular videoconference meetings
will be organised with a collaborator from the University of Rennes (Joris Heyman) and Montreal (Rémi
Rabasa-Lhoret).

Document attaché : 202311281455_FicheStageURePSSS_Anglais_URePSSS_CRISTAL.pdf

Jumeau numérique de patient sous anesthésie. Exploration et évaluation d’approches par Deep Learning.
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire des Sciences du Numérique de Nantes (L
Durée : 6 mois
Contact : christine.sinoquet@univ-nantes.fr
Date limite de publication : 2024-01-31

Contexte :
Ce stage s’inscrit dans le cadre d’une collaboration à l’interface entre numérique et santé, avec Le Laboratoire Expérimental de SImulation en Médecine Intensive (LE SiMU) de l’Université de Nantes. Le SiMU permet notamment de se perfectionner dans la gestion de situations critiques en anesthésie. Il intervient sur simulateurs de patients haute-fidélité (mannequins), avec immersion des acteurs en formation dans une équipe médicale humaine pleine-échelle interprofessionnelle.

Dans le but d’améliorer la sécurité et la qualité des soins peropératoires, les formateurs du SiMU souhaitent varier la diversité des scénarios à proposer aux internes en anesthésie et infirmiers anesthésistes, en formation initiale, ainsi qu’ aux praticiens plus expérimentés, en formation continue. Pour varier les scénarios, il est proposé à terme d’automatiser la génération de scénarios réalistes de simulation, en s’appuyant sur tout ou partie de la base de profils anesthésiques enregistrés par le CHU de Nantes depuis 2004 (500 000 profils anesthésiques). Dans cette modalité assistée par le numérique, la personne qui suit la formation (interne ou infirmier), fait partie de l’équipe médicale. Les autres membres de l’équipe médicale sont simulés très simplement (icônes réalisant des actions et émettant des informations, sur l’écran de l’ordinateur assigné à l’apprenant). De cette innovation est attendu un accès potentiel à une grande variété de scénarios réalistes de simulation de cas d’anesthésie. Servir cet objectif de formation répond également à terme au besoin d’anticipation par prédiction, inhérent au paradigme de la médecine personnalisée, en pleine émergence.

Pour atteindre cet objectif, deux axes de recherche ont été explorés au sein de l’équipe DUKe du LS2N. Ils portent respectivement sur une approche de data mining / raisonnement à base de cas, et une approche machine learning (modèle de Markov autorégressif à changements de régimes). Les travaux du stage exploreront une troisième catégorie d’approche, centrée sur les modèles neuronaux profonds.

Les CHU ont obligation légale d’enregistrer toutes les données relatives aux interventions chirurgicales. Parmi ces dernières, figurent les profils anesthésiques des patients. Un profil anesthésique est constitué d’une trace d’événements et d’une série temporelle multivariée. La trace d’événements est la séquence horodatée des actions réalisées par l’équipe médicale (e.g., administration d’un anesthésique) pendant la chirurgie. Les actions orchestrent l’évolution des paramètres physiologiques du patient. La série temporelle multivariée correspond à un ensemble de séries temporelles univariées qui décrivent chacune l’évolution d’un paramètre physiologique du patient (e.g., fréquence cardiaque).

Sujet :
Dans le cadre de ce stage, nous ramenons le problème à un problème de prédiction de série temporelle. L’apprentissage d’un réseau de neurones profond à partir des séries temporelles des profils anesthésiques permettra cette prédiction.
Il existe un nombre assez limité de revues de l’état de l’art récentes qui soient consacrées au Deep Learning, lorsqu’il est utilisé pour la prédiction de séries temporelles ([LZ2020] https://arxiv.org/pdf/2004.13408.pdf ; [SGM2020] https://arxiv.org/abs/1911.13288 ; [THS2020] http://doi.org/10.1089/big.2020.0159).

Dans le domaine de la prédiction pour les séries temporelles comme dans d’autres domaines, l’émergence de modèles de réseaux de neurones compétitifs a rapidement relégué les Perceptrons Multi-Couches (Multilayer Perceptrons, MLPs) au second plan.

Les Réseaux de Neurones Récurrents (Recurrent neural networks, RNNs) ont été conçus pour pouvoir traiter des données séquentielles. Un RNN réalise la même tâche à chaque pas de temps : la séquence (x1 , x2 , · · · , xt , xt+1 · · · ) correspondant à la série temporelle est fournie au RNN, élément par élément (pas de temps par pas de temps). La prédiction de séries temporelles via l’utilisation d’un RNN est un problème qui donne lieu à des recherches actives (voir par exemple [CC2016] dans le domaine des finances).

Les Réseaux de Neurones Récurrents à Mémoire Court et Long Terme (Long Short-Term Memory networks, LSTMs) représentent la sous-catégorie la plus utilisée des RNN. En effet, leur capacité à capturer les dépendances à long terme leur assure de meilleures performances en prédiction que celles des RNN. Les LSTM ont été utilisés pour la prédiction de séries temporelles dans de nombreux domaines, comme par exemple la prédiction du coût de l’électricité [PLL2018] ou la prédiction d’énergie renouvelable [GHS2016].

Les Réseaux de Neurones Convolutifs (Convolutional Neural Networks, CNNs) sont une classe particulière de réseaux de neurones artificiels, capable de préserver les dépendances spatiales existant au sein des données, en n’autorisant que très peu de connexions entre les couches successives du réseau. Le terme Réseaux de Neurones Convolutifs Temporels (Temporal Convolutional Networks, TCNs) a été introduit récemment [BKK2018]. De très nombreux travaux sur l’utilisation de CNN pour la prédiction de séries temporelles ont été publiés, comme dans le domaine de la prédiction de demande en énergie [AE2017]. Des modèles hybrides ont été proposés, qui combinent des couches CNN et LSTM, ou bien connectent les sorties d’un CNN aux entrées d’un CNN, ou encore proposent une intégration de modèles par combinaison des sorties obtenues d’un CNN et d’un LSTM exploités en parallèle. Par exemple, cette dernière approche a été appliquée pour la prédiction dans les domaines de l’énergie, de la météorologie et des finances [SZL2019].

Les modèles Seq2Seq (Encoder-Decoders, Transformers) sont conçus pour transformer une séquence fournie en entrée en une deuxième séquence obtenue en sortie. Une utilisation emblématique des Transformers est la traduction, en traitement du langage naturel. Les Transformers ont été récemment utilisés pour la prédiction de séries temporelles (voir par exemple [N2019]).

Les auto-encodeurs (AutoEncoders, AEs) constituent une sous-catégorie particulière des encodeurs-décodeurs. Ce type de modèle a notamment été combiné avec d’autres modèles, comme les LSTM, pour la prédiction de séries temporelles (voir par exemple [BYR2017]).

Références bibliographiques

[AE2017] Almalaq, A. and Edwards, G. (2017) A review of deep learning methods applied on load forecasting, 16th
International Conference on Machine Learning and Applications (ICMLA), 511-516.

[BKK2018] Bai, S. and Kolter, J. Z. and Koltun, V. (2018) An empirical evaluation of generic convolutional and recurrent networks for sequence modeling, arXiv:1803.01271.

[BYR2017] Bao, W. and Yue, J. and Rao, Y (2017) A deep learning framework for financial time series using stacked autoencoders and long-short term memory, PLOS ONE, 12(7):e0180944.

[CC2016] Chandra, R. and Chand, S. (2016) Evaluation of co-evolutionary neural network architectures for time series prediction with mobile application in finance, Applied Soft Computing, 49:462-473.

[GHS2016] Gensler, A. and Henze, J. and Sick, B. and Raabe, N. (2016) Deep learning for solar power forecasting – an approach using AutoEncoder and LSTM neural networks, International Conference on Systems, Man, and Cybernetics (SMC), 2858-2865.

[LZ2020] Lim, B. and Zohren, S. (2020) Time series forecasting with deep learning: a survey, https://arxiv.org/abs/2004.13408-review.

[N2019] Nino, S. (2019) Transformers and time series forecasting, Princeton University, USA, thèse.

[PLL2018] Peng, L. and Liu, S. and Liu, R. and Wang, L. (2018) Effective long short-term memory with differential evolution algorithm for electricity price prediction, Energy, 162:1301-1314.

[SZL2019] Shen, Z. and Zhang, Y. and Lu, J. and Xu, J. and Xiao, G. (2019) A novel time series forecasting model with deep learning, Neurocomputing, 396(5):302-313.

[THS2020] Torres, J. F. and Hadjout, D. and Sebaa, A. and Martínez-Álvarez, F. and Troncoso, Al. (2020) Deep learning for time series forecasting: a survey. Big Data, ahead of print, http://doi.org/10.1089/big.2020. 0159

Profil du candidat :
Profil Master 2 Bioinformatique ou Master 2 Informatique, avec un intérêt marqué pour les travaux en collaboration avec des médecins anesthésistes, infirmiers anesthésistes, infirmiers de bloc opératoire et des informaticiens/bioinformaticiens ; intérêt marqué pour l’intelligence artificielle et le Deep Learning. Un stage de Master 1 dans un domaine proche du sujet représente un plus.

Formation et compétences requises :
Profil Master 2 Bioinformatique ou Master 2 Informatique,
– Capacité à réaliser des recherches sur Internet pour identifier des codes éprouvés permettant de servir de base aux solutions proposées
– Goût prononcé pour la programmation, aisance en programmation, rigueur dans la programmation
– Capacité à documenter du code
– Capacité à rendre compte de l’avancement de ses travaux, capacité au reporting (hebdomadaire)

Adresse d’emploi :
Stage en présentiel
LS2N
Faculté des Sciences et des Techniques
2 rue de la Houssinière
44322 Nantes Cedex

Document attaché : 202311281534_stage_m2_bioinfo_deep_learning_pred_serie_temporelle_context_seq_events_2023_24_23_11_09_thur.pdf

Knowledge Graph-based Modeling of Dynamic Vulnerability Data and Organizational Knowledge for Cybersecurity Enhancement
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ERIC
Durée : 6 mois
Contact : mohamed-lamine.messai@univ-lyon2.fr
Date limite de publication : 2024-01-31

Contexte :
Knowledge Graphs & Cybersecurity

Sujet :
In the era of increasing cyber threats, it is crucial for organizations to have a comprehensive understanding of their vulnerabilities and the interconnectedness of their digital assets. This research internship aims to explore the potential of knowledge graphs [1] in the field of cybersecurity by developing a dynamic vulnerability data model (e.g., CVE) integrated with an organizational knowledge graph representing network architecture, host operating systems, software versions (e.g., web server version, libraries, database server version), and more. The ultimate goal is to empower organizations to gain insights into threat dependencies and enhance their cybersecurity measures [2]. Additionally, we aim to investigate the construction of digital twins using knowledge graphs to provide a visual and conceptual representation of an organization’s cyber environment [3].
Objectives of this internship :
• Knowledge Graph Modeling: Design and develop a knowledge graph schema that incorporates dynamic vulnerability data (e.g., CVEs) and organizational information (network architecture, software versions, etc.).
• Data Integration: Establish mechanisms to extract, transform, and load vulnerability data and organizational information into the knowledge graph.
Page 2 sur 2
• Dependency Analysis: Analyze the knowledge graph to identify and visualize the dependencies and relationships between vulnerabilities and organizational assets, enabling a better understanding of threat landscapes.
• Digital Twin Construction: Investigate the utilization of knowledge graphs to construct digital twins that mimic the behavior and interactions within an organization’s cyber ecosystem, providing a simulated environment for testing security strategies and evaluating risk scenarios.
• Machine Learning: propose knowledge graph embedding to detect vulnerabilities and attacks [4, 5, 6].
• Implementation and tests

Profil du candidat :
Master 2 student (or equivalent).

Formation et compétences requises :
The candidate must have advanced skills (M2 level) in computer science (data science, machine learning and notions of graph theory and computer security are highly desirable).

Adresse d’emploi :
ERIC Laboratory, Porte des Alpes Campus, Bron.

Document attaché : 202309071410_Internship-FIL-ROMANCE-1.pdf

Méthodes de fusion de données multispectrales à de multiples résolutions et à données manquantes. Application aux images Sentinel-2 et Sentinel-3
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISIC
Durée : 6 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2024-01-31

Contexte :
Ce stage s’inscrit dans le cadre des activités conjointes des laboratoires LISIC (UR 4491, Calais) — plus particulièrement les activités de l’équipe SPeciFI dans l’antenne de Saint-Omer du LISIC — et LOG (UMR 8187, Wimereux) — plus particulièrement les activités de l’équipe TELHYD du LOG — autour de l’imagerie satellitaire pour l’observation marine côtière, dans le cadre de la Structure Fédérative de Recherche og{}Campus de la Merfg~ et du projet TOSCA OSYNICO financé par le CNES. En particulier, dans le cadre de ces projets initiés en 2020, le LISIC développe des méthodes à la frontière entre traitement du signal et des images et intelligence artificielle appliquées aux données satellitaires (images multi- ou hyper-spectrales). Le LOG s’intéresse à l’analyse théorique et l’observation de processus physiques afin de comprendre et prévoir leurs impacts sur l’environnement marin, d’un point de vue de la biologie ou de la biogéochimie.

Sujet :
L’observation satellitaire de notre planète connaît depuis plusieurs décennies d’importantes avancées instrumentales, avec des développements conséquents que ce soit en terme de résolution spatiale (par exemple en télédétection de la couleur de l’eau à haute résolution spatiale 10-60 m) et en terme de résolution spectrale (imagerie hyper-spectrale). Une image Multi-Spectrale (MS) ou Hyper-Spectrale (HS) consiste en un cube de données dont deux axes décrivent les variations spatiales et un axe décrit les variations spectrales. La principale différence entre une image HS et une image MS réside dans le nombre très réduit de bandes spectrales observées dans cette dernière.

Cependant, à cause de contraintes physiques, l’augmentation du nombre de bandes spectrales dans une image HS entraîne une diminution de sa résolution spatiale. Ainsi, aujourd’hui, notre planète est observée à la fois par des imageurs MS ayant une très bonne résolution spatiale mais une faible résolution spectrale et par des imageurs HS ayant une très bonne résolution spectrale mais une faible résolution spatiale (et un ensemble d’imageurs aux propriétés intermédiaires).

Dans le cadre de ce stage, nous nous intéressons à l’observation marine côtière via les données des satellites Sentinel-2 et Sentinel-3. Les images obtenues par ces deux satellites permettent d’étudier la couleur de l’océan, c’est-à-dire la répartition spatiale et temporelle de la concentration en phytoplancton, en matière en suspension et en matière organique. Les données Sentinel-2 consistent en des cubes avec 13 bandes spectrales pour une résolution spatiale variant de 10 à 60 m en fonction des bandes, acquises tous les 5 jours environ. Les données Sentinel-3 sont des cubes avec 21 bandes spectrales pour une résolution spatiale de 300 m, acquises tous les jours. En observation marine, pour comprendre les phénomènes complexes qui se passent en milieu côtier, il est nécessaire que les données à disposition combinent :
– une bonne résolution spectrale pour mieux analyser le milieu biogéochimique (chlorophylle, particules en suspension, etc) ;
– une bonne résolution spatiale pour mieux appréhender les phénomènes de répartition de ce milieu qui sont beaucoup plus complexes en milieu côtier qu’en pleine mer ;
– une courte période d’acquisition de ces images pour repérer des phénomènes très concentrés dans le temps (blooms de phytoplanctons par exemple).

Aucune donnée satellitaire ne permet aujourd’hui de respecter ces trois contraintes.

Dans le cadre de ce stage, nous proposons de traiter conjointement des données Sentinel-2 et Sentinel-3 acquises approximativement le même jour (fusion spatio-spectrale), afin de générer des données combinant le nombre de bandes spectrales de Sentinel-3 et la résolution spatiale de Sentinel-2. En particulier :
1) Nous souhaitons traiter des données qui ont subi une correction atmosphérique, permettant une comparaison avec des mesures in situ. Cependant, ce traitement entraîne des problématiques comme la présence de données manquantes (au niveau des terres, des nuages et des navires) ou des valeurs négatives sans signification physique.
2) Nous souhaitons traiter conjointement les trois résolutions spatiales de Sentinel-2 avec l’unique résolution spatiale de Sentinel-3, espérant ainsi améliorer la qualité de fusion.
3) Nous souhaitons effectivement réaliser une comparaison avec les mesures in situ.

Les méthodes envisagées feront appel à un formalisme régularisé de factorisation matricielle / tensorielle et/ou à un formalise de type apprentissage profond.

Le stage pourra être poursuivi par la préparation d’une thèse dans le domaine de l’apprentissage comprimé pour la fusion spatio-spectro-temporelle d’images satellitaires.

Le stage aura lieu dans la nouvelle antenne de Longuenesse du LISIC, dédiée actuellement à l’imagerie hyperspectrale. Cette antenne, créée récemment, compte à ce jour 6 chercheurs permanents, 1 chercheur post-doctorant et 4 doctorants. Le ou la stagaire sera encadré(e) par Claire Guilloteau, Mattthieu Puigt et Gilles Roussel qui apporteront leur expertise respective en traitement des images MS/HS et en machine learning (deep learning, factorisation matricielle, optimisation) pour l’imagerie satellitaire.

De nombreux échanges auront lieu avec le LOG, situé à Wimereux (et plus particulièrement avec Cédric Jamet et Vincent Vantrepotte). Le LOG apportera ses compétences sur la couleur de l’océan, notamment sur l’analyse des images fusionnées et leur validation. Le LOG fournira les mesures in-situ de validation et des images dans des zones côtières d’intérêt (Manche orientale, Guyane, Cambodge, Vietnam).

Ces deux laboratoires sont situés au coe{}ur du Parc naturel régional des caps et marais d’Opale, à proximité directe de Lille, de l’Angleterre, de la Belgique et de l’Europe du Nord (Amsterdam à 4h de route de Longuenesse).

Profil du candidat :
Issu(e) d’une filière scientifique en sciences de données (traitement du signal et des images, informatique avec une dominante en intelligence artificielle/apprentissage/machine learning, mathématiques appliquées), vous êtes curieux(se) et très à l’aise en programmation (Matlab, Python). Vous lisez et parlez avec aisance l’anglais courant. Bien que non-obligatoire, une première expérience en factorisation de données (décomposition de matrices ou tenseurs, séparation de sources, apprentissage de dictionnaire, etc) ou en deep learning sera appréciée. Pour candidater, merci d’envoyer un courriel à {claire.guilloteau, matthieu.puigt, gilles.roussel} [at] univ-littoral.fr en y annexant les documents pouvant supporter votre candidature :
– votre CV,
– une lettre de motivation,
– vos relevés de notes de Licence 3, Master 1, Master 2 (si ces dernières sont disponibles) ou d’Ecole d’Ingénieurs (première à troisième année),
– deux lettres de recommandation ou les noms et moyens de contact de deux référents académiques.

Formation et compétences requises :
Ecole d’ingénieurs ou Master avec une dominante en traitement de données / machine learning / mathématiques appliquées

Adresse d’emploi :
LISIC, antenne de Longuenesse, EILCO, Campus de la Malassise, 62698 Longuenesse

Document attaché : 202311280725_Stage_SFR_2024_LISIC_LOG.pdf

Modèles hiérarchiques pour l’analyse multi-échelle de données de très haute résolution en imagerie synchrotron
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CReSTIC
Durée : 6 mois
Contact : nicolas.passat@univ-reims.fr
Date limite de publication : 2024-01-31

Contexte :
cf. https://medyc.cnrs.fr/wp-content/uploads/2023/10/Stage_MODELAGE.pdf

Sujet :
cf. https://medyc.cnrs.fr/wp-content/uploads/2023/10/Stage_MODELAGE.pdf

Profil du candidat :
cf. https://medyc.cnrs.fr/wp-content/uploads/2023/10/Stage_MODELAGE.pdf

Formation et compétences requises :
cf. https://medyc.cnrs.fr/wp-content/uploads/2023/10/Stage_MODELAGE.pdf

Adresse d’emploi :
Reims

Document attaché : 202310200605_Stage_MODELAGE.pdf

Modelling partially observed dynamical systems with continuous-depth models
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISN/INRIA
Durée : 6 mois
Contact : thibault.monsel@universite-paris-saclay.fr
Date limite de publication : 2024-01-31

Contexte :
This internship is part of a larger project dedicated to building a bridge between Machine Learning and Dynamical Systems : inferring models more robust and less data hungry thanks to physics-based constraints, inspecting the behavior of the models, providing some online guarantees, and relating Physics and computational regularities to improve the model understanding and assessment. The connection between Physics and Machine Learning is nowadays considered in both directions and the scientific construction of this domain is underway. The internship will focus on developing new approachs of modelling dynamical systems as a whole. For the first part of the internship, the intern will get up to speed with continuous-depth models like href{https://arxiv.org/abs/1806.07366}{neural ODE} and href{https://arxiv.org/abs/1904.01681}{augmented Neural ODE}. For the second part of the internship, new research ideas will be explored like href{https://arxiv.org/pdf/2306.14545.pdf}{delayed differential equations}. The candidate is expected to be proactive and have a keen sense of critical thinking. The aim of the internship will be to publish the work in a conference/journal.

Sujet :
Modelling partially observed dynamical systems with continuous-depth models

Profil du candidat :
The candidate should have a solid background in statistics, machine learning and/or applied maths;
knowledge in Python language is required with frameworks like Pytorch/ Tensorflow/JAX. Some background in physics is appreciated too since the intern will train models on datasets from numerical simulations of physical systems. Any knowledge and experience in functional programming is a bonus.

Formation et compétences requises :
The candidate should have a solid background in statistics, machine learning and/or applied maths;

knowledge in Python language is required with frameworks like Pytorch/ Tensorflow/JAX. Some background in physics is appreciated too since the intern will train models on datasets from numerical simulations of physical systems. Any knowledge and experience in functional programming is a bonus.

Adresse d’emploi :
Campus Universitaire bâtiment 650, 1 rue Raimond Castaing, 91190 Gif-sur-Yvette

Document attaché : 202312041200_Offre_Stage_LISN_INRIA_M2.pdf

Reconnaissance d’actions dans des vidéos de sport amateur
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CEDRIC-Cnam et Sport Amat
Durée : 6 mois
Contact : michel.crucianu@cnam.fr
Date limite de publication : 2024-01-31

Contexte :
Sport Amat 1 naît du constat de la mise en invisibilité du sport amateur dans les médias et sur les réseaux sociaux. Pour palier à ce déséquilibre, nous proposons la mise en place de solutions de captation vidéo sur des infrastructures sportives. Les vidéos sont ensuite accessibles en direct en et VOD à travers un site et une application. Les objectifs de Sport
Amat sont :

— Promouvoir, démocratiser, rendre accessible et inclusif le sport amateur en apportant des outils et des moyens aux acteurs et actrices de cet écosystème (petits clubs, collectifs, clubs ruraux, handisport. . .).

— Accompagner via le numérique un retour au physique. Un moyen de créer du lien, de fidéliser et de favoriser les dynamiques en faisant venir les sportifs et le public dans les gymnases.

Sujet :
Sujet détaillé : http://cedric.cnam.fr/~ferecatu/Stage_CNAM_SportAMAT.pdf

L’analyse automatique des données vidéo trouve de nombreuses applications dans le sport : identification des temps forts, extraction de statistiques de jeu, assistance à l’arbitrage, assistance à l’entraînement par l’analyse des gestes techniques ou des tactiques de jeu, etc. De nombreux travaux ont abordé ces aspects (voir par ex. [5, 10], allant du suivi de joueurs dans les vidéos à la caractérisation de gestes techniques, en passant par la reconnaissance d’actions de différents niveaux (simples ou complexes, individuelles ou de groupe). Ces travaux se sont appuyés sur la mise à disposition de diverses bases de vidéos annotées, concernant principalement une pratique professionnelle des sports les plus populaires. Par ailleurs, des implémentations de différentes méthodes de l’état de l’art sont librement disponibles, comme PaddlePaddle (qui s’intéresse entre autres au football et au basket), MTV [11] ou MVD [9].

Le développement récent de caméras rapides haute résolution et abordables a provoqué une explosion de la quantité de vidéos sportives disponibles, surtout concernant les sportifs amateurs. Cela reflète le grand intérêt du public pour ces nouveaux contenus. Ces vidéos, très peu annotées, diffèrent de façon souvent significative de leurs équivalents professionnels et cela rend difficile non seulement l’application directe mais aussi l’adaptation des méthodes existantes à ces contenus.

Dans ce stage nous cherchons à améliorer les performances des méthodes de reconnaissance d’actions dans des vidéos de sports, mises au point en général sur des contenus annotés professionnels, lorsqu’on les applique à des vidéos de sports amateurs. Les sports privilégiés sont le basket et le football en salle (ou futsal). Le basket et le football (soccer) sont deux des sports les plus suivis au monde, et il existe déjà un nombre important de travaux dédiés à la détection et au suivi des joueurs ou à la reconnaissance d’actions, s’appuyant sur des bases annotées de matches professionnels comme FineBasketball [4], NPUBasketball [8], ComprehensiveSoccer [12], SoccerNet [3], SSET [2], SoccerDB [7], SoccerNet-v2 [1]. Or, les vidéos de matches amateurs présentent des caractéristiques différentes : fonds variés, mouvements différents des joueurs non professionnels, conditions de prise de vue, etc. Par ailleurs, pour le futsal on observe des différences supplémentaires : le jeu se déroule à l’intérieur (contrairement au football), le terrain est autre, les mouvements sont différents sur sol dur, la caméra est fixe et grand angle, etc.

Le défi est d’identifier les aspects qui posent le plus de difficultés et de proposer des améliorations adaptées sans exploiter un nombre significatif d’annotations pour le sport amateur car celles-ci ne sont pas disponibles. Nous explorerons dans ce but des méthodes de transfert d’apprentissage [13, 6], s’appuyant éventuellement en partie sur des modèles génératifs.

Profil du candidat :
Étudiant(e) en 2ème année de Master, dernière année d’école d’ingénieur ou équivalent :

— Avec une expérience de stage(s) passé(s).

— Bonne maîtrise du domaine de l’apprentissage profond.

— Bonne connaissances de Python et de la librairie PyTorch.

— Une bonne maîtrise de l’anglais technique est indispensable.

Formation et compétences requises :
Étudiant(e) en 2ème année de Master, dernière année d’école d’ingénieur ou équivalent :

— Avec une expérience de stage(s) passé(s).

— Bonne maîtrise du domaine de l’apprentissage profond.

— Bonne connaissances de Python et de la librairie PyTorch.

— Une bonne maîtrise de l’anglais technique est indispensable.

Adresse d’emploi :
CEDRIC-Cnam, 2 rue Conté, 75003 Paris

Document attaché : 202312041222_Stage_CNAM_SportAMAT.pdf

Reconnaissance et transcription des informations textuelles figurant sur des cartes anciennes
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LASTIG
Durée : 5 mois
Contact : nathalie-f.abadie@ign.fr
Date limite de publication : 2024-01-31

Contexte :
Il existe des solutions de plus en plus performantes pour détecter et transcrire du texte dans des scènes ou dans des documents. Peu à peu, celles-ci sont également appliquées à des cartes scannées pour en extraire et transcrire les écritures. En effet, extraire les noms de lieux contenus dans les cartes anciennes permettrait d’indexer spatialement les grands corpus de cartes numérisés par différentes institutions, mais pas nécessairement géoréférencées. Par ailleurs, c’est un moyen de constituer ou d’enrichir automatiquement des gazetiers utiles à la géolocalisation d’autres ressources (cartographiques ou textuelles).
Nous souhaitons appliquer des méthodes d’extraction et de reconnaissance des toponymes à différents types de cartes anciennes :
– des cartes topographiques du territoire (carte de Cassini ou carte d’état major),
– des plans à grande échelle, comme ceux du cadastre napoléonien, qui contiennent des toponymes et éventuellement des numéros de parcelles. Ces derniers permettent de localiser
les entités géographiques mentionnées dans les matrices cadastrales.
Les principales difficultés d’extraction sont liées à la grande variabilité des styles de cartes, aux multiples polices ou graphies d’écriture, au placement et à l’orientation des écritures dans les cartes, ainsi qu’aux recouvrements entre le texte et les objets géographiques représentés. Par ailleurs, les modèles à base de réseaux de neurones profonds utilisés pour détecter du texte dans les images nécessitent de disposer de grands corpus annotés pour être entraînés. Or, il n’existe pas de corpus de ce type, utilisable pour entraîner des modèles de reconnaissance du texte dans des cartes et sa production semble difficilement réalisable car chaque type de carte est différent, les styles des fonds et des textes changent.

Sujet :
L’objectif de ce stage est de produire des modèles entraînés avec peu d’exemples et capables de s’adapter à des types de cartes totalement inédits. Pour cela, les pistes suivantes devront
être explorées :
– Utilisation de modèles de détection de texte dans des scènes naturelles pour détecter les écritures dans des cartes ;
– Génération d’un jeu de données synthétique à partir du cadastre moderne (transfert de style des cartes du cadastre ancien) ;
– Proposition d’une approche de découpage de la carte selon les limites de la zone cartographiée.
Productions attendues:
➔ Corpus d’entraînement et de test pour la détection, la classification et la reconnaissance des écritures dans les cartes anciennes;
➔ Modèles entraînés + le code déposé sur un Github;
➔ Mémoire de stage.

Profil du candidat :
– Extraction d’informations dans des images (scans de cartes, images aériennes, images au sol type StreetView, etc.) : segmentation sémantique d’images, OCR, HTR, etc.
– Données géographiques structurées,
– Développement Python,
– Un intérêt pour la cartographie historique est un plus.

Formation et compétences requises :
Master 2 ou troisième année d’école d’ingénieur en informatique, en géomatique ou en humanités numériques.

Adresse d’emploi :
Institut National de l’Information Géographique et Forestière (IGN),
Saint-Mandé (métro 1, station Saint Mandé) ou Ecole Nationale des Sciences Géographiques (ENSG), Champs-sur-Marne (RER A, station Noisy-Champs).

Document attaché : 202401111433_2024_StageExtractionTexteCartesAnciennes.pdf

Reinforcement learning for the smart multiaxial testing of materials
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LaMcube, en collaboration avec CRIStAL
Durée : 6 mois
Contact : jean-baptiste.colliat@univ-lille.fr
Date limite de publication : 2024-01-31

Contexte :
Ce stage se place dans le contexte d’une nouvelle collaboration entre le LaMcube, laboratoire de mécanique de l’université de Lille., et CRIStAL, laboratoire d’informatique, autmatique et traiement de signal de l’Université de Lille.

L’objectif est d’explorer l’utilisation de l’apprentissage par renforcement pour le test de matériaux.

Sujet :
The goal of this internship is to design, implement and test a reinforcement learning agent able to control a material testing machine. This machine is used to perform research on materials at the LaMcube lab. The reinforcement learning part of the internship will be handle in collaboration with team Scool at CRIStAL/Inria.

Mechanics of materials aims to understand, model and optimize the mechanical response of industrially relevant materials. Here, the scale of observation as well as the size of the specimens are the keystones in order to build an accurate identification strategy. Major improvements have been made during the last four decades, mainly thanks to the renewal of measurement techniques. Still, several material properties and field values are difficult to measure directly. This is especially true for the interfaces. Moreover, the search for adaptive loading paths able to activate specific fine scale mechanisms is of the greatest interest, regardless of the material.
During this internship, we aim to develop a novel experimental-numerical technique in order to determine such quantities of interest by selecting the optimal macroscopic multiaxial loading paths. Reinforcement learning is coupled with material testing to attain this goal. The objective is to explore several RL algorithms in order to train an agent to control the material testing machine. A simulation environment based on the Finite Element Method will be used to train the RL agent.

(See the attached pdf for pictures.)

Profil du candidat :
Strong knowledge in reinforcement learning.
Knowledge in mechanics is a plus.
Ability to communicate and work on an interdisciplinary project.
Autonomous, able to propose original and realistic ideas.
Interested in practical applications of RL.

Formation et compétences requises :
Master d’informatique avec une spécialisation en apprentissage automatique.

Adresse d’emploi :
Cité scientifique, Villeneuve d’Ascq.

Document attaché : 202311281450_RL_intern_CRISTAL_LAMCUBE.pdf

Stage M2/Ingénieur : Classification de lésions cutanées
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire I3S – Sophia Antipolis
Durée : 6 mois
Contact : lionel.fillatre@i3s.unice.fr
Date limite de publication : 2024-01-31

Contexte :
Contexte :

Il s’agit de développer un réseau de neurones profond pour classifier des images de lésions cutanées et proposer un score numérique qui mesure la qualité de la classification.

Sujet :
Objectif :

Les lésions cutanées sont une maladie grave à l’échelle mondiale [1]. Par exemple, la détection précoce du mélanome sur des images biomédicales augmente considérablement le taux de survie. Cependant, la reconnaissance précise d’une lésion cutanée est difficile. Une classification automatique et fiable des lésions cutanées est essentielle pour améliorer la précision et l’efficacité des traitements. Notre but est de développer une chaine de traitement afin d’identifier la lésion cutanée présente dans une image analysée. Cette chaine sera composée d’une étape de segmentation suivie par une étape de classification. Chaque élément de la chaine sera modélisé avec un réseau de neurones [2]. À terme, les deux réseaux de neurones pourront être fusionnés pour disposer d’un unique réseau qui effectue l’intégralité du traitement de l’image analysée. Pour l’étape de classification, nous utiliserons un algorithme récemment développé par notre équipe de recherche [3]. Le stagiaire aura à sa disposition de nombreuses images [4] pour entrainer et tester les algorithmes développés.

Bibliographie :

[1] J. Zhang, Y. Xie, Y. Xia and C. Shen, “Attention Residual Learning for Skin Lesion Classification,” in IEEE Transactions on Medical Imaging, vol. 38, no. 9, pp. 2092-2103, 2019.
[2] http://www.deeplearningbook.org/
[3] Marie Guyomard, Susana Barbosa, Lionel Fillatre, “Kernel Logistic Regression Approximation of an Understandable ReLU Neural Network”. ICML 2023, Honolulu, Hawaii, USA.
[4] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/DBW86T

Profil du candidat :
Stage niveau M2/Ingénieur en mathématiques appliquées et/ou en informatique.

Formation et compétences requises :
Profil recherché :

Ces travaux requièrent les compétences suivantes :
– Programmation informatique : les développements informatiques seront réalisés en Python et Pytorch (connaître préalablement Python n’est pas nécessaire mais souhaitable)
– Notions de bases en machine learning (en particulier sur les réseaux de neurones).

Adresse d’emploi :
Lieu du stage : campus SophiaTech (Sophia Antipolis).