Présentation Générale

 



           
Huitième édition du Symposium MaDICS

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Une Session Poster sera spécialement consacrée aux jeunes chercheuses et jeunes chercheurs souhaitant présenter leurs travaux en analyse et gestion de données et dans les domaines interdisciplinaires autour de la Science des Données. Cette session sera également l’occasion d’échanger avec des collègues académiques et des acteurs industriels sur les thématiques de recherche présentées.

Dates importantes :

  • Soumission de posters : au plus tard le 23 mars 2026
  • Retour : 9 avril 2026
  • Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Mar
1
Tue
2022
Stage M2/Ingénieur : Deep Learning pour la détection de tumeurs dans des radiographies
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire I3S
Durée : 6 mois
Contact : lionel.fillatre@i3s.unice.fr
Date limite de publication : 2022-03-01

Contexte :
L’équipe MediaCoding du laboratoire I3S collabore sur ce sujet avec le Centre Hospitalier Universitaire (CHU) de Nice. Le stagiaire pourra donc bénéficier de l’expertise d’un professeur gastro-entérologue et hépatologue.

Sujet :
Objectifs :

Le Deep Learning (ou apprentissage profond) est une technique d’analyse de données qui permet d’obtenir des résultats de classification ou d’estimation très performants quel que soit le domaine applicatif. Ce sujet de stage s’intéresse à l’utilisation du Deep Learning pour l’analyse d’images médicales. Il s’agit plus particulièrement de détecter et localiser des lésions dans le foie. Nous disposons d’un jeu de données réelles d’images tomographiques étiquetées [1]. Les étiquettes décrivent la position et la forme des lésions dans les images. Le but du stage est d’utiliser un réseau de neurones pour estimer l’état du foie du patient.

De nombreux réseaux de neurones existent pour segmenter le contenu d’images [2]. Dans ce stage, il s’agira donc d’identifier les réseaux les plus prometteurs et de les appliquer aux images tomographiques du foie. Le stagiaire devra vérifier avec soin la qualité des informations qui peuvent être extraites de la segmentation, notamment l’estimation de la taille des lésions. Les lésions n’ont bien évidemment pas toutes les mêmes dimensions. Le réseau de neurones aura tendance à mieux détecter les lésions importantes. Le stagiaire pourra s’appuyer sur des travaux récents de notre équipe de recherche [3] afin de développer un réseau de neurones dont les performances en détection et en localisation des tumeurs seront robustes par rapport à la taille et à l’emplacement des lésions.

Encadrant du stage : M. Lionel Fillatre (professeur des universités)

Durée : de 4 à 6 mois (démarrage en mars/avril 2022 selon les contraintes du stagiaire).

Rémunération : environ 550 euros par mois.

Procédure pour déposer sa candidature : envoyer son CV, sa lettre de motivation et ses résultats académiques niveau L1, L2, L3, M1 et M2 à lionel.fillatre@i3s.unice.fr

Bibliographie :

[1] https://arxiv.org/pdf/1901.04056.pdf
[2] http://www.deeplearningbook.org/
[3] Cyprien Gilet, Susana Barbosa, and Lionel Fillatre. Discrete box-constrained minimax classifier for uncertain and imbalanced class proportions.IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020

Profil du candidat :
Ces travaux requièrent les compétences suivantes :
– Programmation informatique : les développements informatiques seront réalisés en Python et Pytorch (connaître préalablement Python n’est pas nécessaire mais souhaitable)
– Notions de bases en machine learning (en particulier sur les réseaux de neurones).

Formation et compétences requises :
Formation niveau M2/Ingénieur en mathématiques appliquées et/ou en informatique.

Adresse d’emploi :
Campus SophiaTech, Sophia Antipolis, département 06 (Alpes-Maritimes).

Mar
5
Sat
2022
Handling classes’ imbalance in supervised classification for medical diagnostics
Mar 5 – Mar 6 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LAMADE – Pôle Sciences des Données – Université P
Durée : 5-6 months
Contact : sana.mrabet@dauphine.psl.eu
Date limite de publication : 2022-03-05

Contexte :
The classification of highly imbalanced data is a big challenge for machine learning techniques. To deal with this challenge, many solutions have been proposed that could be classified in three categories: data pre-processing with under/oversampling technique that creates a training sample with a new instances distribution, active sampling that changes the training sampling throw the learning process, and the Synthetic Minority Over-sampling Technique (SMOTE) that creates new synthetic instances in the minority class. The efficiency of each approach depends on the context. For the medical diagnostics, if the input data contains categorical attributes, the SMOTE methods could be not suitable. Otherwise, if the data imbalance ratio is high, using the under/oversampling could induce loss of information in the training sample

Sujet :
Study and compare three different approaches to handle classes’ imbalance in medical data: data pre-processing with over/under sampling, synthetic minority over-sampling and active sampling.

Profil du candidat :
Master 2 ou dernière année d’école d’ingénieur en informatique

Formation et compétences requises :
Bonne connaissance en Machine Learning et en programmation Python.
Maîtrise de l’anglais et bonne capacité rédactionnelle

Adresse d’emploi :
Université Paris Dauphine – PSL
Place du Maréchal de Lattre de Tassigny – 75775 PARIS Cedex 16

Document attaché : 202202211348_Proposition sujet mémoire 2022.pdf

Mar
13
Sun
2022
Indice de qualité des eaux : modèle d’agrégation des sous-indices
Mar 13 – Mar 14 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : MIS/UPJV
Durée : 6 mois
Contact : harold.trannois@u-picardie.fr
Date limite de publication : 2022-03-13

Contexte :
Ce stage s’inscrit dans le cadre du projet Janus. Ce projet, porté par le laboratoire MIS et la société Lilaea, a pour ambition de contribuer à l’enjeu sociétal majeur que représente la surveillance de la qualité des milieux aquatiques. Les travaux proposés sont préliminaires à une étude qui sera menée dans le cadre d’une thèse sur la prédiction de la qualité des masses d’eaux douces, étangs, rivières, lacs…

Sujet :
Le(la) stagiaire contribuera à la définition d’un Water Quality Index (WQI) en adéquation avec les dernières normes et avancées techniques. Cet index unique doit permettre à toute personne intéressée de près ou de loin par la qualité de l’eau, d’en connaître son état actuel et sa variabilité, à l’image des indices des prix à la consommation. L’étudiant(e) aura en charge l’exploration de la littérature sur les dernières techniques d’agrégation utilisées dans la construction du WQI à partir de ces sous-indices. Ces techniques d’agrégation sont nombreuses et il n’est pas rare qu’elles s’appuient sur des algorithmes génétiques ou des réseaux de neurones. Pour finir, l’étudiant(e) devra proposer un ou plusieurs modèles d’agrégation et en réaliser une implémentation.

Profil du candidat :
Etudiant(e) en M2 informatique ou dernière année d’école d’ingénieurs, avec une spécialisation dans l’apprentissage artificiel.

Formation et compétences requises :
Le(la) candidat(e) devra avoir des connaissances académiques en apprentissage artificiel et en développement informatique.

Adresse d’emploi :
Université de Picardie Jules verne
Laboratoire MIS
33 rue Saint Leu – 80039 Amiens Cedex 1 – France

Mar
15
Tue
2022
Adaptation d’algorithmes de recherche de Process Mining aux besoins d’une startup
Mar 15 – Mar 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UTT – LIST3N
Durée : 6 mois
Contact : frederic.bertrand@utt.fr
Date limite de publication : 2022-03-15

Contexte :
Le laboratoire LIST3N (Informatique et Société Numérique) développe des approches efficaces (concepts, modèles, méthodes et outils) pour traiter l’ensemble de la chaîne de traitement des données, des capteurs aux usages, en passant par l’analyse et l’optimisation des données.

Sujet :
Le projet, spécialisé dans le domaine du Process Mining, comprend Frédéric Bertrand, Myriam Maumy, Yoann Valero et Benoit Vuillemin, experts du domaine, et est en collaboration avec la startup Your Data Consulting.

Dans le cadre d’un projet sur le domaine du Process Mining1 en collaboration avec la startup Your Data Consulting, proposant l’outil LiveJourney2, un stagiaire pourrait apporter sa contribution en faisant le lien entre les demandes de l’entreprise et les propositions des travaux de recherche académiques, faites aux travers d’un post doctorat (Benoit Vuillemin) et d’un doctorat (Yoann Valero).
Les travaux attendus incluent, entre autres :
– Étude, amélioration et optimisation des algorithmes de recherche. Cela comprend entre autres, des algorithmes de recherche de règles de prédiction3 et de Deep Learning4. Pour cela, vous serez sous la supervision des concepteurs de ces algorithmes.
– Réunions fréquentes avec les cadres de la startup pour non seulement définir leurs besoins, mais aussi identifier et communiquer ce qui est possible.
– Adaptation et optimisation des algorithmes de recherche aux besoins de l’entreprise.

1 Wil Van Der Aalst, « Process mining », Communications of the ACM, août 2012, https://dl.acm.org/doi/10.1145/2240236.2240257.
2 « Livejourney – Logiciel de Process Mining », s. d., https://www.livejourney.com/fr/.
3 Philippe Fournier-Viger et al., « Mining Partially-Ordered Sequential Rules Common to Multiple Sequences », IEEE Transactions on Knowledge and Data Engineering 27, no 8 (1 août 2015): 2203‑16, https://doi.org/10.1109/TKDE.2015.2405509; Benoit Vuillemin et al., « TSRuleGrowth: Mining Partially-Ordered Prediction Rules From a Time Series of Discrete Elements, Application to a Context of Ambient Intelligence », in Advanced Data Mining and Applications, vol. 11888, Lecture Notes in Computer Science (Cham: Springer International Publishing, 2019), 119‑34, https://doi.org/10.1007/978-3-030-35231-8_9.
4 Leila Arras et al., « Explaining and Interpreting LSTMs », in Explainable AI: Interpreting, Explaining and Visualizing Deep Learning, éd. par Wojciech Samek et al., vol. 11700, Lecture Notes in Computer Science (Cham: Springer International Publishing, 2019), 211‑38, https://doi.org/10.1007/978-3-030-28954-6_11; Antonia Creswell et al., « Generative Adversarial Networks: An Overview », IEEE Signal Processing Magazine 35, no 1 (janvier 2018): 53‑65, https://doi.org/10.1109/MSP.2017.2765202.

Profil du candidat :
Nous avons besoin d’un profil comprenant plusieurs qualités majeures :
– Expérience dans le code, notamment en Python, et ayant envie d’expérimenter de nouveaux langages, tels que Julia,
– Capacité d’identifier des objectifs de haut niveau provenant d’une entreprise et de les matérialiser à l’aide des algorithmes de recherche fournis,
– Force de proposition et de créativité, pour la startup comme pour les chercheurs.

Formation et compétences requises :
BAC +4/+5
Informatique

Adresse d’emploi :
12, rue Marie Curie
10000 Troyes

Document attaché : 202202151246_original.pdf

Mar
24
Thu
2022
On Capturing and Using Provenance in Machine Learning Pipelines
Mar 24 – Mar 25 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LAMSADE
Durée : 5 à 6 mois
Contact : kbelhajj@googlemail.com
Date limite de publication : 2022-03-24

Contexte :
Machine learning pipelines are designed to generate predictive models given some raw data. Learned models are then utilized to make predictions given some (unseen) observations. The predictive power of the learned model depends largely on the data sets used for trained and how they have been preprocessed (engineered). ML-pipeline developers tend to rely mainly on their skills, past experience, and an iterative try-and-fail process to refine and improve ML.

Sujet :
We seek to investigate how provenance information can be utilized to improve the process whereby ML-pipelines are designed and refined. In particular, the sub-tasks of the internships are as follows:
*T1*. A sweep of the state-of-the-art of provenance in data preprocessing and machine learning.
*T2*. Identifying techniques for the collection and utilization of provenance with the view to assist ML developers in the task of designing, improving, and debugging ML pipelines.
*T3*. The implementation of a prototype, and it is validation in the context of real-world ML pipeline.

Profil du candidat :
The candidate must be a Master student or an engineering student in his/her final year of study. To apply, send your CV, a letter of motivation and transcripts of the last three years to kbelhajj@gmail.com and daniela.grigori@lamsade.dauphine.fr

Formation et compétences requises :
Familiarity with data processing as well as unsupervised and supervised machine learning algorithms

Adresse d’emploi :
Univertsité Paris Dauphine, Place du Maréchal De Lattre de Tassigny, 75016, Paris

Document attaché : 202202240950_Internship-MLPipelinesProvenance.pdf

Mar
25
Fri
2022
Similitudes dans des corpus multimedia massifs à base de graphes de connaissances
Mar 25 – Mar 26 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIASD-Université Paris8
Durée : 6 mois
Contact : n.mellouli@iut.univ-paris8.fr
Date limite de publication : 2022-03-25

Contexte :
La recherche d’information est un domaine de recherche en perpétuel mutation à cause de la transformation numérique. Le volume des données produit via les outils numériques connectés excède la capacité humaine de les traiter manuellement et un recours à l’intelligence artificielle (IA) devient incontournable. Toutefois, ces modèles intelligents issus d’IA doivent garantir au moins le passage à l’échelle, la compréhension des données hétérogènes et la catégorisation sémantique de ces données. Dans ce contexte, la recherche de similitudes au sein d’un large corpus multimédia où se mêlent images, vidéos et textes (structurés ou non) est une tâche très complexe.
Dans le cadre d’une recherche sur les controverses en ligne, nous nous intéressons à la circulation d’informations et de discours dans les réseaux sociaux numériques (Twitter, TikTok, Instagram par exemple) sous différentes formes (textes, images, vidéo). Plus spécifiquement, nous cherchons à capturer, caractériser, analyser et expliquer les déclinaisons iconographiques, textuelles et narratives des images à mesure qu’elles circulent dans les RSN.

Sujet :
Quand il s’agit d’une image, celle-ci peut subir différentes transformations faisant appel à de nombreux outils de traitement d’images. Ces traitements peuvent être simples et agissent par exemple sur les couleurs, ou encore sur la répartition spatiale des pixels (le recadrage, le découpage, etc.), ou bien plus complexes via des outils : de génération d’images à partir de motifs d’une image de référence ; de substitution de l’image source ; de l’augmentation de l’image source par des éléments iconographiques contextuels.

Profil du candidat :
Vous êtes étudiant.e dans un Master2 en informatique, science des données ou statistiques, ou étudiant.e dans une école d’ingénieur.Vous êtes enthousiaste pour la recherche, vous aimez comprendre en profondeur les problèmes et trouver des solutions élégantes.Vous avez une solide formation en informatique (Python pour l’environnement d’apprentissage automatique).Vous êtes intéressé.e par l’intelligence artificielle et, plus précisément, par l’apprentissage automatique, les techniques d’optimisation, l’analyse de données, etc. Vous avez un intérêt pour le domaine des SHS.
Candidature à adresser à n.mellouli@iut.univ-paris8.fr ayant pour objet « Candidature Stage EID -Sim» d’ici le 25 mars 2022

Formation et compétences requises :
Python, PyTorch, OpenCV, CUDA, gestion des données, machine-learning, deep-learning, visualisation
Contact :
Nédra Mellouli
Virginie JULLIARD

Adresse d’emploi :
Sorbonne Université – Maison de la Recherche – 28 rue Serpente – 75 006 Paris
et 140, rue de la Nouvelle France 93100 Montreuil.

Document attaché : 202203031146_Sujet-StageMaster-2021-2022_EID.pdf

Mar
28
Mon
2022
Fouille de modèle et visualisation de données pour explorer les avenirs d’une zone au Sénégal
Mar 28 – Mar 29 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD (Le Centre de coopération internationale en
Durée : 5 à 6 mois
Contact : camille.jahel@cirad.fr
Date limite de publication : 2022-03-28

Contexte :
La zone des Niayes fournit 70% des produits horticoles à Dakar, profitant d’une nappe phréatique peu profonde, d’un climat favorable et de sols fertiles. Mais ces dernières années ont été marquées par une baisse importante du niveau de la nappe et une salinisation progressive des terres par invasion marine, du fait d’une diminution de la pluviométrie. A cela s’ajoute des problématiques de surexploitation des ressources hydriques par les exploitations agricoles, les agro-industries et les exploitations minières qui ne cessent de s’agrandir. Les prévisions climatiques pour les prochaines années, particulièrement alarmantes pour le Sénégal, tendent à montrer que ces tendances risquent de s’amplifier, menaçant directement toutes les exploitations agricoles de la zone.
Il est donc urgent de prendre la mesure de ces changements pour tenter de les atténuer. Dans ce contexte, une série d’ateliers de prospective ont été menés en 2018, qui ont permis de dessiner les contours de scénarios d’évolution des Niayes (Camara et al., 2020 ). Mais ces scénarios sont dans un registre narratif et qualitatif et doivent maintenant être illustrés d’indicateurs quantitatifs.
Pour cela, une équipe multidisciplinaire de modélisateurs et thématiciens ont écrit un modèle des dynamiques de la zone des Niayes, à l’aide de la plateforme de modélisation spatiale Ocelet (www.ocelet.fr). Le modèle articule plusieurs modules, et permet de simuler des dynamiques de la nappe phréatique, l’étalement urbain, l’avancée du domaine cultivé, les productions agricoles, les revenus agricoles et les emplois agricoles. Le modèle a été construit de manière à reproduire les dynamiques de ces différents modules observés ces 15 dernières années. Il s’agit pour le stagiaire d’explorer la diversité des résultats en entrée et en sortie de modèle et enfin de l’utiliser pour simuler les différents scénarios plausibles.

Sujet :
Il s’agit pour le stagiaire d’explorer la diversité des résultats en entrée et en sortie de modèle et enfin de l’utiliser pour simuler les différents scénarios plausibles.
La première phase consistera à identifier dans les résultats de sortie du modèle ceux qui correspondent aux scénarios qualitatifs identifiés par les acteurs en 2018 (approche experte). A partir de cet espace des sorties et en utilisant une des méthodes telle qu’OSE, le stagiaire identifiera dans l’espace des entrées les jeux de paramètres qui conduisent aux espaces des sorties considérées par les experts. Pour cela, des séries de simulations seront lancées sur des périodes simulées de 20 ans, en fonction de jeux de paramètres cohérents avec les scénarios qualitatifs produits plus tôt et en insérant différentes « ruptures » dans les simulations (par exemple, introduction d’un nouveau paramètre en cours de simulation). Ce travail d’exploration et d’analyse de l’espace des sorties sera mené par le stagiaire, en s’inspirant là aussi des travaux de la communauté d’OpenMole.
Le stagiaire sera alors à même de produire une interface de visualisation des trajectoires territoriales qui permette aux décideurs et aux chercheurs d’identifier les bifurcations dans les scénarios simulés parmi les avenirs plausibles de la zone des Niayes. Le travail de visualisation des données en sortie – comme par exemple, des cartes d’occurrence de phénomène pour un même scénario, ou une présentation de l’espace des possibles, etc. – fournira le contenu à la plateforme de visualisation.

Profil du candidat :
Bases solides en informatiques
Connaissance approfondie de R ou Python
Connaissances en fouille de données
Connaissance des SIG
Expérience sur les modèles mécanistes et spatiaux souhaitable
Connaissances en sciences de l’environnement seraient un plus

Formation et compétences requises :
M2 en informatique, mathématiques appliquées, fouille de données, ou
M2 agronomie/environnement/SHS spécialité informatique

Adresse d’emploi :
maison de la télédétection
Montpellier
500 Rue Jean François Breton
(www.teledetection.fr)

Document attaché : 202201281337_Fouille de modèle et visualisation de données pour explorer les avenirs plausibles de la zone des Niayes au Sénégal_vf.docx

Mar
30
Wed
2022
Machine learning for coupling electron microscopy with polycrystal plasticity
Mar 30 – Mar 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LEM3/LORIA (Metz)
Durée : 6 mois
Contact : lydia.boudjeloud-assala@univ-lorraine.fr
Date limite de publication : 2022-03-30

Contexte :
The Laboratoire d’Études des Microstructures et de Mécaniques des Matériaux (LEM3) is a center for transdisciplinary experimental and theoretical research combining mechanics of solids and metallurgy, materials science, chemistry, and physics. The LEM3 opts since many years to contribute to materials research by developing new devices and new techniques for characterizing microstructures with electron microscopies.

The Laboratoire lOrrain de Recherche en Informatique et ses Applications (LORIA) is a CNRS/INRIA/Université de Lorraine/ CnetraleSupélec laboratory, which conducts research in computer science and information and communication technologies. The Orpailleur team is mainly interested in knowledge discovery in databases i.e. processing large volumes of data for discovering patterns that are significant and reusable.

Sujet :
Developing new materials remains a main challenge to follow and predict the fast evolution of our society. Elaboration techniques must offer the possibility of developing such novel high-performance metals and alloys respecting environmental constraints. However, a mechanism-based tailoring of the performances requires constant improvements of experimental and theoretical techniques to unravel fundamental mechanisms controlling the macroscopic behavior. Plasticity is an important phenomenon which is considered here. It is closely related to the mechanical strength and formability and leads to progressive damage of components through non-reversible shape changes.
Most of used materials are generally polycrystalline, where grains are separated from their neighbors by Grain Boundaries (GBs). Grains cannot be deformed independently because the cohesion between them must be maintained. Dislocations glide through grains and interact with each other or with the GBs acting as sinks, traps, obstacles, and sources of dislocations. GBs are very important from the mechanical properties point of view.
Nowadays, we almost know how a dislocation interacts with a specific GB. But, understanding the collective response of several real GBs (contained in a real polycrystalline specimen) after receiving numerous dislocations is still a major scientific challenge. The difficulty becomes highly challenging when we consider the influence of the distribution of GBs, other types of interfaces, shape and orientation of grains, i.e. the microstructure.
In this context, our present objective is to explore a multi-level scale ranging from electron microscopy to micromechanics thank to machine learning methods. In this way, at the electron microscopy level we will develop new procedures for capturing statistically footprints of deformation mechanisms. At the micromechanics level, crystal plasticity models based on deep learning algorithms will be considered for suggesting specific microstructural parameters able to achieve targeted macroscopic mechanical properties. This project will have a major impact in current societal issues by enabling energy savings and limited costs associated with the tuning of microstructures targeting specific mechanical performances.
Supervised deep learning based on classification and/or regression is a machine learning approach known for being very efficient for treating numerical data. At first time, we will focus on the prediction of fundamental deformation mechanisms (slip, twinning, climbing, cross-slip) with respect to the specimen microstructure. In a mathematically simplistic way (see Figure), it requires, on one hand, to identify the relevant input (e.g. Euler angles…) and output (e.g. slip systems…) variables (let us call them x_1,x_2,…,x_n,y_i), and on the other hand the classifier F giving y ̂_i=F(x_1,x_2,…,x_n ), an “approximate” quantity tending towards the experimentally “true” measured value y_i. This classifier F must be based on a crystal plasticity law (f_CP), having a physical meaning, coupled (*) to a machine learning algorithm (f_ap) for its optimization. This aspect is the main originality of our strategy. During the learning phase, F will be trained to match at best the outputs y_i, experimentally measured, using the inputs x_i. Therefore, two work packages are necessary: feature engineering of the experimental datasets for feeding classifiers (F); development of classifiers (F) adapted for polycristalline plasticity.

Profil du candidat :
– You must have good knowledge in Machine learning.
– You have good written and verbal communication skills and enjoy working in a multi-thematic team.
– Good English language skills are required.

Formation et compétences requises :
The candidate should have a strong scientific background with good technical skills in programming.

Adresse d’emploi :
LEM3 : 7 Rue Félix Savart, 57070 Metz
LORIA : 2 Rue Édouard Belin 57070 Metz, France

Document attaché : 202201050936_ApplicationMaster_LORIA_LEM3.pdf

Recherche des critères d’apparition d’une lésion rénale aiguë chez les patients de réanimation
Mar 30 – Mar 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LORIA
Durée : 6 mois
Contact : lydia.boudjeloud-assala@univ-lorraine.fr
Date limite de publication : 2022-03-30

Contexte :
La lésion rénale aiguë (LRA) est un syndrome clinico-biologique dont l’ensemble de causes sont multiples et dont le degré de gravité est variable jusqu’à l’insuffisance rénale proprement dite. Elle est décomposée en trois stades selon les recommandations internationales KDIGO (Kidney Disease Improving Global Outcomes). Cette classification KDIGO est bien corrélées à la gravité de l’atteinte rénale puisque la morbidité qui en découle c’est-à-dire le risque d’évolution vers la nécessité d’une épuration extra-rénale, la durée de séjour en réanimation ou hospitalière, le risque d’évolution vers l’insuffisance rénale chronique et la mortalité estimée alors entre 45 et 70 % augmentent proportionnellement avec les stades de cette classification.
En réanimation, l’insuffisance rénale aiguë est le motif d’admission chez 1 % des patients et survient de façon intercurrente chez 5 à 8 % des patients. L’hospitalisation en réanimation est en effet une situation à risque, les facteurs de aggravants ayant tendance à se surajouter : hypovolémie, défaillance cardiaque, médicaments néphrotoxiques, injection de produit de contraste, patient âgé et/ou insuffisant rénal chronique.
En effet l’apparition des LRA est toujours précédée d’agressions rénales, qui si elles se répètent peuvent entrainer des lésions tissulaires irréversibles et au stade ultime une dysfonction. Les lésions rénales constituées restent à ce jour non accessibles à un quelconque traitement curatif. Ainsi, la recherche des facteurs de risque de survenue de LRA et la détection précoce des phénomènes d’agression rénale sont largement préconisées dans la littérature actuelle. Cette détection permet de limiter, chez ces patients à risques, de l’exposition aux agents ou procédures néphrotoxiques de façon à limiter l’aggravation et à ne pas compromettre davantage le potentiel de récupération.

Sujet :
Nous souhaitons appliquer les approches de fouille de données et d’apprentissage machine afin de découvrir des catégories de patients à risque de LRA et de façon plus précise par la seule prise en compte des facteurs favorisants déjà connus cités auparavant. Dans un premier temps une approche non supervisée serait préconisée afin de voir si on arrive à trouver les groupes liée au critère KDIGO en étudiant les données anthropométriques, cliniques et biologiques des patients disponibles.
Les données disponibles pour l’étude représentent l’ensemble des paramètres cliniques mesurés et enregistrés minute par minute, les traitements institués, et les éléments d’anamnèse conservés dans les bases de données des logiciels métiers Metavision et DXCare pour tous les patients hospitalisés dans le service de réanimation polyvalente depuis une période de 10 ans.

Profil du candidat :
Le candidat ou la candidate de niveau Bac+5, formé(e) au traitement de de données, texte, image, serait intéressé(e) par un projet pluridisciplinaire et les données médicales.

Formation et compétences requises :
Apprentissage machine, fouille de données, R, Python, SQL, traitement de données

Adresse d’emploi :
CHR Metz Thionville
Hôpital de Mercy, Metz

Document attaché : 202201050943_StageMaster_LORIA_CHR.pdf

Mar
31
Thu
2022
3 stages de recherche M2 en IA dans l’équipe TWEAK du LIRIS
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS, ésquipe TWEAK
Durée : 6 mois
Contact : frederique.laforest@insa-lyon.fr
Date limite de publication : 2022-03-31

Contexte :
Trois stages de recherche M2 en IA sont ouverts au recrutement dans l’équipe TWEAK du LIRIS.

Sujet :
– Raisonnement incrémental sur des connaissances compressées : https://perso.liris.cnrs.fr/lionel.medini/stages/Offre-stage-raisonnement-LIRIS.pdf
– Collecte et enrichissement de traces géolocalisées et visualisation interactive : http://www.atief.fr/sites/default/files/documents/MOBILES-StageM2-2022.pdf
– Une IA pour aider les étudiants à organiser leur travail et à auto-réguler leur apprentissage https://perso.liris.cnrs.fr/nathalie.guin/Sujets/2022%20Stage%20M2%20IA%20Autoregulation.pdf

Profil du candidat :
2ème année de master informatique, dernière année d’ingénieur en informatique

Formation et compétences requises :
voir chaque sujet

Adresse d’emploi :
LIRIS, campus de la Doua, Villeurbanne

Analyse de données relationnelles – définition de quantificateurs pour l’ARC
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube Strasbourg
Durée : 5 à 6 mois
Contact : florence.leber@engees.unistra.fr
Date limite de publication : 2022-03-31

Contexte :
L’analyse de concepts formels (ACF) [1] est une méthode mathématique de classification, largement appliquée sur différents types de données et dans de nombreux domaines (par exemple [2,3]). Elle consiste, à partir d’une table (appelée contexte) décrivant des objets par des attributs, à construire un treillis de concepts, i.e. des couples (extension ; intension) d’ensembles fermés décrivant les objets et les attributs qui les définissent. Cette méthode est étendue aux données relationnelles dans le cadre de l’analyse relationnelle de concepts (ARC) [4]. L’ARC considère deux types de contextes, des contextes objets-attributs et des contextes objets-objets décrivant les relations entre objets. L’ARC étend les contextes objets-attributs par des attributs relationnels de la forme qrC, où q est un quantificateur, r une relation et C un concept issu du co-domaine de r. Le résultat de l’ARC est une famille de treillis (un par contexte objets-attributs) reliés entre eux par ces attributs relationnels.

Sujet :
Il s’agit de définir des quantificateur spécifiques à certains types de relations (temporelles ou spatiales par exemple) et qu’on pourra utiliser directement pour créer des jeux de données sur lesquels on applique ensuite l’ARC. On s’appuiera pour cela sur les quantificateurs existants (existentiel, universel ou de dénombrement [5]) et sur les modèles qualitatifs de l’espace et du temps [6]. Le stage s’organisera de la façon suivante :
• bibliographie sur l’ARC et les quantificateurs
• prise en main des outils existants (RCAexplore, Galicia ?)
• définition de quantificateurs pour un type de relation, formalisation du schéma relationnel associé
• intégration dans RCAexplore
• application sur une base de données (données sur l’eau ou agricoles)

Profil du candidat :
En cours Master 2 en Informatique ou équivalent

Formation et compétences requises :
Formation en logique, représentation de connaissances et programmation

Adresse d’emploi :
Laboratoire ICube, équipe SDC
300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex

Document attaché : 202112081445_sujet-stage2022.pdf

Apprentissage de représentation de formes 3D appliqué à la physique du spray
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS lab., University of Rouen Normandy, Rouen, F
Durée : 6 mois
Contact : simon.bernard@univ-rouen.fr
Date limite de publication : 2022-03-31

Contexte :
Ce stage se déroule dans le cadre d’une collaboration entre le laboratoire LITIS, le laboratoire d’informatique et des sciences de l’information de Rouen, et le CORIA, le laboratoire de thermochimie de Rouen, spécialisé dans l’étude de flux réactifs et non-réactifs.
Cette collaboration vise à concevoir des outils de simulation numérique basés sur l’apprentissage automatique plutôt que sur le calcul numérique comme cela est traditionnellement le cas dans ces domaines de la physique. La simulation par calcul numérique est généralement très couteuse en ressources de calcul car elle repose sur des modèles mathématiques complexes. L’idée générale des travaux en cours menés conjointement par le LITIS et le CORIA est de substituer l’apprentissage automatique au calcul numérique pour produire ces simulations précises, à moindre coût.
Ce stage poursuit cet objectif pour des applications de simulation d’atomisation. L’atomisation, ou pulvérisation, est la transformation d’un liquide en spray de fines particules, ou gouttelettes. On rencontre ce processus dans de nombreuses applications comme l’injection de carburant, l’irrigation par aspersion, le séchage par pulvérisation ou l’extinction des incendies. Une des enjeux importants de ces applications est de pouvoir prédire la taille des gouttes qui se forment en fin de processus. Par exemple, c’est l’un des principaux facteurs des émissions finales des moteurs automobiles.

Sujet :
Le but de ce stage est d’utiliser des méthodes d’apprentissage machine (Machine Learning) et en particulier des méthodes d’apprentissage profond, pour prédire la probabilité de rupture d’une goutte au cours du processus d’atomisation. Cette probabilité tient une place important dans la simulation des processus d’atomisation car elle permet in fine de déterminer la distribution des tailles des goutellettes finales.

Le candidat retenu mettra en œuvre les méthodes d’apprentissage automatique à partir de données obtenues grâce à une méthodologie de simulation numérique. Ces données représentent des volumes 3D de gouttes, qui se déforment tout au long de la pulvérisation. Ces données présentent deux défis principaux du point de vue de l’apprentissage automatique:
– il s’agit de séquences de volumes de 64x64x64 voxels, eux-même décrits par 6 descripteurs numériques. Il s’agit donc de données complexes, avec des contraintes spatiales et temporelles, et décrites en très grande dimension au regard du nombres de données disponibles.
– cette base de données est constituées d’une large majorité de gouttes qui ne se rompt pas à l’issue de la séquences. C’est donc un problèmes de classification à deux classes, avec des classes très déséquilibrées.

Ce stage vise à affronter ces défis à l’aide de méthodes d’apprentissage modernes, pour : i) proposer des méthodes de ré-équilibrage des classes et/ou d’augmentation de données, ii) proposer une méthode d’apprentissage de représentation sur le volume initial (i.e. en début de séquence) et iii) prendre en compte la séquence pour fiabiliser la prédiction.

Profil du candidat :
Étudiant en informatique ou mathématiques appliqués avec une spécialisation dans la science des données et l’apprentissage automatique.

Formation et compétences requises :
– Étudiant en Master 2 ou dernière année d’école d’ingénieurs, dans une spécialité de l’informatique ou des mathématiques appliquées
– Compétences requises en apprentissage automatique et en programmation (Python de préférence)
– Intérêt personnel pour la physique

Adresse d’emploi :
Laboratoire LITIS
Université de Rouen Normandie
Campus du Madrillet
Saint Étienne du Rouvray, France

Document attaché : 202112171448_Stage_LITIS_2021-2022.pdf

Deep Learning et modélisations numériques de pathologies de l’aorte thoracique
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : nstitut de Mathématiques de Marseille, I2M, UMR 73
Durée : 6 mois
Contact : badihghattas@gmail.com
Date limite de publication : 2022-03-31

Contexte :
Différentes pathologies peuvent affecter l’aorte que ce soit au niveau thoracique ou abdominal. Deux pathologies nous interesse plus particulièrement : la formation d’anévrisme qui peut être défini
comme une dilatation du rayon de l’aorte excédant 1.5 son rayon initial et la dissection aortique qui consiste en une déchirure de la paroi vasculaire au niveau de la couche intimale. Afin de prédire les évolutions de ces pathologies le plus précocement possible l’équipe de biomécanique d’IRPHE réalise notamment des modélisations numériques complexes. Grâce à des données [géométries et conditions aux limites] provenant d’imageries médicales, l’objectif est de mettre en œuvre des modèles 3D
patient-spécifique tenant compte des interactions fluide-structure pour différents types d’évolution -favorable et défavorable- ainsi que pour plusieurs temps post opératoires. Ceci permet d’associer des
grandeurs physiques liées aux dynamiques de l’écoulement et des structures à certaines évolutions cliniques défavorables et, par suite, à prédire précocement certains échecs thérapeutiques. Toutefois,
le temps de calcul associé à ces modélisations complexes constitue un obstacle à leur utilisation en pratique clinique.

Sujet :
Deep Learning et modélisations numériques de pathologies de l’aorte thoracique

Profil du candidat :
Etudiant en M2 mathématiques appliquées (Statistiques, Data Science) ou en sernière année d’école d’ingénieur issu de filière statistiques/informatique.

Formation et compétences requises :
Le(la) candidat(e) devra avoir des connaissances académiques dans les champs disciplinaires relatifs au sujet: Deep learning en priorité et modélisations numériques. Il(elle) devra avoir une appétence
avérée pour l’interdisciplinarité. Une expérience en programmation python est indispensable, en particulier, tensorflow, keras, pandas et numpy.

Adresse d’emploi :
Institut de Mathématiques de Marseille, 163 avenue de Luminy, 13009 Marseille. Accesoissoirement aussi le site nord de chateau Gombert.

Document attaché : 202110221459_M2_deep_learning_2021_22.pdf

Emergence de règles de collaboration pour les applications transverses du Système Elec. Intelligent
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : EDF
Durée : 6 mois
Contact : Amel.Bouzeghoub@telecom-sudparis.eu
Date limite de publication : 2022-03-31

Contexte :
La transition des systèmes électriques vers plus de digitalisation, le développement de nouveaux usages – tels que les véhicules électriques – et de modes de production d’énergie décentralisés – comme la production photovoltaïque – s’accompagne de l’émergence de nouvelles formes de collaboration entre les parties prenantes historiques du domaine électrique et de nouveaux entrants – tels que les domaines des télécoms et d’autres énergéticiens. Les clés de la réussite d’une collaboration reposent sur la diversité des intervenants et la maîtrise des interactions. Cela suppose donc d’une part de connaître les règles métier de chacun des intervenants et d’autre part les règles de collaboration en support de leurs interactions.

Sujet :
Ce stage a pour objectif de concevoir un cadre permettant de faciliter l’émergence de règles de collaboration à partir de l’ensemble des règles métier mobilisées dans un projet collaboratif. Le travail collaboratif suggère une coopération et un travail d’équipe (ou intelligence collective) qui reflète l’état d’esprit et les pratiques collaboratives attendues (partage d’informations, échange de bonnes pratiques, conception et négociation d’accords, …).

Profil du candidat :
Le stage requiert un réel intérêt pour les méthodes d’intelligence artificielle :
– IA symbolique : modélisation de connaissances et raisonnement logique (graphes de connaissances et règles),
– Les Systèmes Multi-Agents
– L’apprentissage machine

Formation et compétences requises :
Stage de M2, de projet de fin d’études d’ingénieur.
L’étudiant·e en M2 informatique ou de niveau équivalent, devra avoir une spécialisation en intelligence artificielle (modélisation de connaissances, raisonnement symbolique, modélisation orientée objectif, ontologie, swrl, deep learning)
– rigueur, autonomie et capacité à travailler en équipe
– très bon niveau d’anglais

Adresse d’emploi :
EDF R&D, 7 boulevard Gaspard Monge, 91120 Palaiseau.

Document attaché : 202201171253_descriptif_stageSUNSET_2022.pdf

Fouille de modèle pour explorer les avenirs plausibles de la zone des Niayes au Sénégal
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : camille.jahel@cirad.fr
Date limite de publication : 2022-03-31

Contexte :
La zone des Niayes fournit 70% des produits horticoles à Dakar, profitant d’une nappe phréatique peu profonde, d’un climat favorable et de sols fertiles. Mais ces dernières années ont été marquées par une baisse importante du niveau de la nappe et une salinisation progressive des terres par invasion marine, du fait d’une diminution de la pluviométrie. A cela s’ajoute des problématiques de surexploitation des ressources hydriques par les exploitations agricoles, les agro-industries et les exploitations minières qui ne cessent de s’agrandir. Les prévisions climatiques pour les prochaines années, particulièrement alarmantes pour le Sénégal, tendent à montrer que ces tendances risquent de s’amplifier, menaçant directement toutes les exploitations agricoles de la zone.
Il est donc urgent de prendre la mesure de ces changements pour tenter de les atténuer. Dans ce contexte, une série d’ateliers de prospective ont été menés en 2018, qui ont permis de dessiner les contours de scénarios d’évolution des Niayes (Camara et al., 2020 ). Mais ces scénarios sont dans un registre narratif et qualitatif et doivent maintenant être illustrés d’indicateurs quantitatifs.
Pour cela, une équipe multidisciplinaire de modélisateurs et thématiciens ont écrit un modèle des dynamiques de la zone des Niayes, à l’aide de la plateforme de modélisation spatiale Ocelet (www.ocelet.fr). Le modèle articule plusieurs modules, et permet de simuler des dynamiques de la nappe phréatique, l’étalement urbain, l’avancée du domaine cultivé, les productions agricoles, les revenus agricoles et les emplois agricoles. Le modèle a été construit de manière à reproduire les dynamiques de ces différents modules observés ces 15 dernières années. Il s’agit pour le stagiaire d’explorer la diversité des résultats en entrée et en sortie de modèle et enfin de l’utiliser pour simuler les différents scénarios plausibles.

1 Camara, C., Bourgeois, R., & Jahel, C. (2019). Anticiper l’avenir des territoires agricoles en Afrique de l’Ouest: le cas des Niayes au Sénégal.

Sujet :
La première phase consistera à identifier dans les résultats de sortie du modèle ceux qui correspondent aux scénarios qualitatifs identifiés par les acteurs en 2018 (approche experte). A partir de cet espace des sorties et en utilisant une des méthodes telle qu’OSE, le stagiaire identifiera dans l’espace des entrées les jeux de paramètres qui conduisent aux espaces des sorties considérées par les experts. Pour cela, des séries de simulations seront lancées sur des périodes simulées de 20 ans, en fonction de jeux de paramètres cohérents avec les scénarios qualitatifs produits plus tôt et en insérant différentes « ruptures » dans les simulations (par exemple, introduction d’un nouveau paramètre en cours de simulation). Ce travail d’exploration et d’analyse de l’espace des sorties sera mené par le stagiaire, en s’inspirant là aussi des travaux de la communauté d’OpenMole.
Le stagiaire sera alors à même de produire une interface de visualisation des trajectoires territoriales qui permette aux décideurs et aux chercheurs d’identifier les bifurcations dans les scénarios simulés parmi les avenirs plausibles de la zone des Niayes. Le travail de visualisation des données en sortie – comme par exemple, des cartes d’occurrence de phénomène pour un même scénario, ou une présentation de l’espace des possibles, etc. – fournira le contenu à la plateforme de visualisation.

Profil du candidat :
Durée du stage :
6 mois. Début du stage Avril 2022.

Encadrement :
Le stagiaire sera co-encadré par deux chercheurs du Cirad, Camille Jahel (TETIS) et Etienne Delay (SENS)

Rémunération :
Indemnité de stage en vigueur (environ 573 €/mois).
Prise en charge des frais relatifs aux éventuels déplacements.

Contact :
camille.jahel@cirad.fr
etienne.delay@cirad.fr

Formation et compétences requises :

Adresse d’emploi :
Le stagiaire sera accueilli à la maison de la télédétection (www.teledetection.fr), à Montpellier, en fonction du contexte sanitaire en France.

Document attaché : 202202110922_Fouille de modèle et visualisation de données pour explorer les avenirs plausibles de la zone des Niayes au Sénégal_vf.pdf

Fouille de motifs fréquents pour l’analyse de comportement touristique
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DVRC/ESILV
Durée : 5 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2022-03-31

Contexte :
L’appréciation des visites effectuées par les touristes est un enjeu majeur dans le monde du tourisme afin d’anticiper les évolutions de tendances, mais aussi la manière dont ils circulent sur le territoire. Une approche permettant d’estimer cette appréciation est de reposer sur l’extraction de motifs fréquents sur un graphe de circulation, comme l’extraction de Graphlet [1], k-decomposition [2]. Ainsi, les tendances touristiques sont extraites grâce à leurs fréquences d’apparition de manière topologique.
Toutefois, les données touristiques provenant de sites prescripteurs d’expérience tels que TripAdvisor sont d’un volume difficile à intégrer dans les techniques traditionnelles de fouille de données. En effet, avec un grand nombre de lieux visité (millions), et un nombre énorme de commentaires laissés par les utilisateurs (milliards), il est nécessaire de développer une nouvelle approche pour le passage à l’échelle d’algorithmes basés sur les graphes.

Sujet :
Pour ce faire, au sein du groupe digital du DVRC, nous travaillons sur le développement en Pregel [3] de différentes approches existantes pour pouvoir définir la meilleure stratégie de fouille de motifs. De plus, l’aspect géodésique des données est un facteur important lié à la topologie des données [4, 5], tout autant que la fréquentation. Nous étudions donc l’adaptation des méthodes existantes pour améliorer l’efficacité de la fouille de motifs basé sur ces informations.
Le but de ce stage est donc double :
– Intégrer des méthodes de fouille de motifs dans une base de données Neo4j (en Pregel/Java)
– Améliorer une méthode pour donner une heuristique de fouille adaptée au contexte géodésique.

Profil du candidat :
Étudiante ou étudiant de niveau M1/M2 en informatique (Master ou école d’ingénieurs).

Formation et compétences requises :
Connaissances en bases de données, Data Mining, BD graph (Neo4j, Cypher), Java, programmation répartie

Adresse d’emploi :
Pole Universitaire Léonard de Vinci
2 avenue Léonard de Vinci, Paris La Défense

Document attaché : 202201171105_Stage_PatternMining.pdf

link prediction in distributed knowledge graphs
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LORIA UMR7503 CNRS-Universtié de Lorraine
Durée : 6 mois
Contact : sabeur.aridhi@loria.fr
Date limite de publication : 2022-03-31

Contexte :
Today, vast and diverse sources of data exist for almost every scientific domain, making their integration and intelligent exploitation challenging. Indeed, complex data require expressive data representation models such as graph representation. The Linked Open Data (LOD) movement along with the FAIR (Findability, Accessibility, Interoperability, Reusability) data principles are intended to facilitate heterogeneous data integration and analyses. In the LOD context, graphs are called knowledge graphs as they encompass domain ontologies for typing objects and describing their relationships. Semantic web languages (RDFS, OWL, SPARQL) have reached an interesting level of maturity on which ambitious machine learning techniques can rely. Interestingly, big data and NoSQL solutions make possible web-scale data analyses. So far, such analyses on dedicated big-data architectures are often limited to MapReduce scenarios on rather simple data models (key-value oriented, homogeneous graphs with only one type of nodes and one type of edges). Graph databases, as one NoSQL approach, allow for rich representation of multi-typed attributed nodes and edges. This better expressivity comes with a cost as graph and program distribution is not an easy task.

The objective of this Master project is to make progress to the state-of-the-art of link prediction problem in knowledge graphs in a distributed setting [1][2][3]. We will mainly focus on link prediction approaches proposed by the CAPSID team to solve biological problems like drug discovery.
The proposed distributed approaches will be evaluated using web-scale knowledge graphs for inferring missing links (data completion). YAGO, DBpedia, and synthetic benchmarks are usable for such evaluation and validation purposes [4].

Sujet :
This Master thesis project aims to develop scalable link prediction methods in large and complex graphs. More specifically, the aims of this project are:

– to design scalable implementations of the studied approaches for distributed architectures. In this context, the use of big graph processing frameworks such as Pregel, Trinity, GraphLab and BLADYG need to be studied [5];
– to define evaluation and validation protocols for the proposed algorithms in the context of web-scale knowledge graphs;

This project will be carried out mainly within the Capsid team at INRIA Nancy which combines expertise in knowledge graphs and distributed graph computing (https://capsid.loria.fr).

Profil du candidat :
Candidates must have a bachelor degree in computer science, mathematics, or one of the physical sciences.

Formation et compétences requises :
Good programming skills in an object-oriented programming language such as JAVA or C++ are essential. Experience of NoSQL solutions (Neo4j, Titan, MongoDB), parallel/distributed programming (Spark, Hadoop, Flink) and graph processing frameworks (Pregel, GraphLab, GraphX) is also desirable but not essential.

Adresse d’emploi :
Laboratoire Lorrain de Recherche en Informatique et ses Applications
LORIA
Campus Scientifique
BP239
54500 Vandoeuvre les Nancy

Mining Frequent Gradual Itemsets From Noise Data
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CERI Systèmes Numériques – IMT Nord Europe
Durée : 5 mois
Contact : jerry.lonlac@imt-nord-europe.fr
Date limite de publication : 2022-03-31

Contexte :
Frequent Itemset Mining (FIM, for short) is an active part of data mining field and an important first step in data analysis. In the last decades, FIM has been applied in a broad range of applications such as e-commerce [4], e-learning [10], malware detection [3]. The application of FIM in a wide range of domains with a proliferation of different type of data has inspired the development of numerous other pattern-mining techniques. Recently, gradual itemsets [6, 2, 11, 7, 9] have then been proposed for analysing numerical data and different algorithms have been designed to automatically extract gradual itemsets from different data model [12, 13, 1, 5]. Gradual itemsets aroused great interest for extracting frequent complex co-variations between numerical attributes in a multitude of areas. However, in some real- world applications, data are subject to noise and measurement error. To date, the effect of noise on classical frequent gradual itemset mining algorithms has been not addressed.

Sujet :
The goal of this work is to propose a noise tolerant gradual itemset model, which unlike classical gradual itemsets [2, 8] tolerates a controlled fraction of errors on the extent of the gradual itemset. By allowing noise, the proposed models will generalize the level-wise enu- meration of different forms of frequent gradual itemsets [2, 12, 8, 7] that can be extracted from different types of complex numerical data but obscured by noise.

References
[1] Aymeric Cˆome and Jerry Lonlac. Extracting frequent (closed) seasonal gradual patterns using closed itemset mining. In IEEE International Conference on Tools with Artificial Intelligence, ICTAI, pages 1442–1448, 2021.
[2] Lisa Di-Jorio, Anne Laurent, and Maguelonne Teisseire. Mining frequent gradual item- sets from large databases. In IDA, pages 297–308, 2009.
[3] Yiheng Duan, Xiao Fu, Bin Luo, Ziqi Wang, Jin Shi, and Xiaojiang Du. Detective: Automatically identify and analyze malware processes in forensic scenarios via dlls. In ICC, pages 5691–5696, 2015.
[4] Philippe Fournier-Viger, Jerry Chun-Wei Lin, Bay Vo, Tin Chi Truong, Ji Zhang, and Hoai Bac Le. A survey of itemset mining. Wiley Interdiscip. Rev. Data Min. Knowl. Discov., 7(4), 2017.
[5] Amel Hidouri, Sa ̈ıd Jabbour, Jerry Lonlac, and Badran Raddaoui. A constraint-based approach for enumerating gradual itemsets. In IEEE International Conference on Tools with Artificial Intelligence, ICTAI, pages 582–589, 2021.
[6] Eyke Hu ̈llermeier. Association rules for expressing gradual dependencies. In PKDD, pages 200–211, 2002.
[7] Jerry Lonlac, Arnaud Doniec, Marin Lujak, and St ́ephane Lecoeuche. Mining frequent seasonal gradual patterns. In Big Data Analytics and Knowledge Discovery – DaWaK, volume 12393, pages 197–207, 2020.
[8] Jerry Lonlac, Yannick Miras, Aude Beauger, Vincent Mazenod, Jean-Luc Peiry, and Engelbert Mephu Nguifo. An approach for extracting frequent (closed) gradual patterns under temporal constraint. In FUZZ-IEEE, pages 878–885, 2018.
[9] Jerry Lonlac and Engelbert Mephu Nguifo. A novel algorithm for searching frequent gradual patterns from an ordered data set. Intell. Data Anal., 24(5):1029–1042, 2020.
[10] Esp ́erance Mwamikazi, Philippe Fournier-Viger, Chadia Moghrabi, and Robert Bau- douin. A dynamic questionnaire to further reduce questions in learning style assess- ment. In Lazaros Iliadis, Ilias Maglogiannis, and Harris Papadopoulos, editors, Artificial Intelligence Applications and Innovations, pages 224–235, 2014.
[11] Benjamin N ́egrevergne, Alexandre Termier, Marie-Christine Rousset, and Jean-Franc ̧ois M ́ehaut. Para miner: a generic pattern mining algorithm for multi-core architectures. DMKD, 28(3):593–633, 2014.
[12] NhatHai Phan, Dino Ienco, Donato Malerba, Pascal Poncelet, and Maguelonne Teis- seire. Mining multi-relational gradual patterns. In SDM, pages 846–854, 2015.
[13] Faaiz Shah, Arnaud Castelltort, and Anne Laurent. Extracting fuzzy gradual patterns from property graphs. In FUZZ-IEEE, pages 1–6, 2019.

Profil du candidat :
– 2nd year student of a Master’s or Engineering of Computer Science degree.
– Goods skills in Artificial Intelligence, more particularly in pattern mining.
– Goods skills in programming language (C++, Python).

Formation et compétences requises :
– 2nd year student of a Master’s or Engineering of Computer Science degree.
– Goods skills in Artificial Intelligence, more particularly in pattern mining.
– Goods skills in programming language (C++, Python).

Adresse d’emploi :
IMT Nord Europe
941, rue Charles Bourseul
CS 10838
59508 DOUAI Cedex – France

Document attaché : 202202041800_Proposal_for_internship_IMT_Nord_Europe_2022.pdf

Multi-omics dimensionality reduction approaches for the study of Sepsis
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire DAVID, UVSQ, Université Paris-Saclay
Durée : 5 à 6 mois
Contact : zaineb.chelly-dagdia@uvsq.fr
Date limite de publication : 2022-03-31

Contexte :
Ce sujet de M2 s’inscrit dans le cadre du projet ANR RHU RECORDS (Rapid Recognition of Corticosteroid Resistant or Sensitive Sepsis) qui a pour objectif d’identifier et de valider des biomarqueurs de prédiction de la réponse thérapeutique aux corticoïdes dans le cadre du sepsis.

Sujet :
L’objectif principal de ce stage est d’étudier l’application des méthodes existantes de réduction de dimensions, dédiées aux données multi-omiques, sur les données omiques obtenues dans le cadre du RHU RECORDS, et de proposer une nouvelle méthode de réduction de dimensions en fonction des limites qui seront identifiées.

Profil du candidat :
Le ou la candidat(e) doit être titulaire d’une Licence en informatique ou bio-informatique.

Formation et compétences requises :
Le ou la candidat(e) doit avoir :
● Compétences solides en programmation objet et système et bases de données;
● Bonne expérience en bio-informatique (souhaitable mais non obligatoire);
● Bonne expérience en statistiques;
● Bonne expérience en machine learning;
● Bonne communication orale en anglais, compétences techniques en lecture et en écriture;
● La maîtrise du français est souhaitable mais pas obligatoire.

Adresse d’emploi :
Université de Versailles Saint-Quentin-en-Yvelines
45 avenue des États-Unis
78035 Versailles

Document attaché : 202201170955_Multic Omics & dimentionality reduction.pdf

Stage M2 Reims — Analyse de données de lectures EEG en néonatologie
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : U. Reims — CReSTIC
Durée : 6 mois
Contact : nicolas.passat@univ-reims.fr
Date limite de publication : 2022-03-31

Contexte :
Le service de Néonatologie du CHU de Reims dispose de données IRM/EEG/aEEG (EEG d’amplitude) issues d’une cohorte d’environ 800 nouveau-nés à terme dans le cadre de l’étude LyTONEPAL dont l’un des objectifs est d’étudier les facteurs prédictifs du devenir défavorable (neuropathologies, troubles psychomoteurs) à 3 ans. Il s’agit également de déterminer les mesures de neuroprotection à mettre en place, en particulier pour la prise en charge pré-hospitalière des encéphalopathies anoxo-ischémiques.

Sujet :
L’expertise des cliniciens semble montrer que la généralisation d’acquisitions EEG pour la prise de décision de mise en hypothermie des prématurés dans les premières heures de vie est un facteur déterminant pour le devenir.
Dans ce contexte, l’extraction et la mise en corrélation des données issues de ces différentes modalités de mesure semblent déterminantes dans le choix de facteurs prédictifs. Actuellement, l’analyse des EEG est effectuée par une lecture empirique des signaux, grâce notamment à une expertise terrain des praticiens.
Nous souhaitons analyser une base de données d’annotations de lecture EEG construite par la communauté de néonatologie sur la base LyTONEPAL. Durant ce stage, l’étudiant(e) stagiaire devra s’approprier et s’appuyer sur les différents outils de traitement mis en place lors de précédents travaux. Le stage s’appuiera fortement sur l’expertise de lecture des médecins du CHU. Cela se traduira par des échanges réguliers avec le service de néonatologie du CHU de Reims. Les algorithmes de traitement des EEG donneront lieu à des codes programmés en langage Python (et/ou R) qui devront être documentés, testés et vérifiés sur des jeux de données fournis par le CHU et la litérature existante.

Profil du candidat :
Profil recherché : Étudiant(e) (M2 ou Bac+5) informatique scientifique et/ou mathématiques, intéressé(e) par la recherche en traitement du signal

Formation et compétences requises :
Compétences : statistiques des données, traitement du signal, techniques d’apprentissage (deep learning. . . ), programmation (Python, R)

Adresse d’emploi :
Localisation : CReSTIC – UFR Sciences Exactes et Naturelles – Moulin de la Housse – 51100 Reims

Document attaché : 202110201234_2022_stage_proposal_eeg.pdf