Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Feb
28
Mon
2022
Call for internship proposals, M2 PSL IASD
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : PSL University
Durée : 5 mois
Contact : pierre@senellart.com
Date limite de publication : 2022-02-28

Contexte :
The IASD M2 (Artificial Intelligence, Systems, Data) is a track of the Master in Computer Science of PSL University (involving Université Paris-Dauphine, the École normale supérieure, Mines ParisTech).

Sujet :
The IASD M2 calls for internship proposals for its students. Students follow a curriculum covering various aspects of artificial intelligence, data science, machine learning, data management. The curriculum is available at https://www.masteriasd.eu/

Internship proposals can be submitted at https://db.masteriasd.eu/internships/submit

Internships last roughly 5 months, from April to August.

Profil du candidat :
M2 student

Formation et compétences requises :

Adresse d’emploi :
TBD

Conception d’une architecture ETL générique pour l’analyse vidéo en temps réel
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC – Laboratoire d’Informatique, Systèmes, Tr
Durée : 4 – 6 mois
Contact : khadija.arfaoui@univ-smb.fr
Date limite de publication : 2022-02-28

Contexte :
Le sujet de ce stage se situe dans le cadre d’un projet de recherche visant à proposer une nouvelle architecture pour l’acquisition, le traitement et l’analyse de données massives (Big Data). En effet, de nos jours les sources et les types de données se multiplient au sein de l’entreprise : de fichiers plats, de données opérationnelles, de nouveaux services internet, de différents réseaux sociaux, de nouvelles applications de l’internet des objets (IOT), en particulier les capteurs. Cette révolution informationnelle a généré une grande masse de données, dite « Big Data ». Le Big Data est caractérisé par le grand « Volume » de données collectées par l’entreprise, la « Variété » de ces données, qui peuvent être structurées, semi-structurées ou non structurées et aussi par la fréquence de l’arrivée des données « Vitesse » qui devrait être prise en considération. Dans ce stage nous nous intéressons à l’acquisition, le traitement et l’analyse des données vidéos en temps réel, c’est-à-dire les « video analytics » [2], [3].
Par ailleurs, autours du Big Data une bonne variété de technologies dédiées est apparue, tels que l’écosystème d’Hadoop (HDFS, Map Reduce, Yarn, etc), Flink, Kafka, Elasticserach, Kibana, etc. En particulier nous trouvons ceux qui s’adressent à l’ingestion et au traitement de données produites en streaming (les vidéos), tels que : Kafka, Apache Samza, Spark Streaming, Flume, Storm et d’autres.

Sujet :
L’objectif du stage sera de développer les composants fondamentaux d’une architecture générique pour l’extraction, le traitement, le chargement (ETL) et l’analyse des vidéos de trafic routier collectées en temps réel. En particulier, l’étudiant étudiera comment optimiser la localisation de l’état des applications au sein de l’architecture de stockage utilisée par les pipelines ETL pour améliorer les performances d’analyse vidéo. L’étudiant s’appuiera sur un prototype déjà développé au sein du LISTIC qui utilise un schéma de routage dit Bloom Filter-based Routing « BFR » [4] sur un cache distribué pour la découverte des contenus. Détails supplémentaires sur l’architecture à implémenter seront définie avant le début du stage dans le cadre d’un sujet de thèse annexe.
Pour l’exécution des tâches de traitement sur les flux de vidéo collectés et le stockage des données, le candidat aura accès durant la période du stage à la plateforme MUST, mésocentre de stockage et de calcul scientifique mutualisée ouverte sur la grille de recherche européenne utilisée par les chercheurs des différents laboratoires de l’USMB.
En résumé, les résultats attendus de ce stage sont les suivants :
1. Acquérir de compétences sur les technologies Big Data dédiées au traitement de flux vidéo.
2. Implémenter l’architecture générique proposée pour l’extraction, de traitement, le chargement, et l’analyse de vidéo.
3. Validation du système avec un exemple de flux de vidéo en temps réel, en vue de détecter par exemple les matricules de voitures circulant sur la route.
4. Réaliser des tests de performance de l’architecture implémentée sur la plateforme MUST.

Références.
[1] Thibeault, J. (2020). Streaming Video Fundamentals. SMPTE Motion Imaging Journal, 129(3), 10-15. DOI: 10.5594/JMI.2020.2976257
[2] J. Jiang, G. Ananthanarayanan, P. Bodik, S. Sen, and I. Stoica. Chameleon: scalable adaptation of video analytics. In Proceedings of the 2018 Conference of the ACM Special Interest Group on Data Communication, pages 253–266, 2018.
[3] Rachuri, S. P., Bronzino, F., and Jain, S. (2021, October). Decentralized modular architecture for live video analytics at the edge. In Proceedings of the 3rd ACM Workshop on Hot Topics in Video Analytics and Intelligent Edges (pp. 13-18).
[4] Marandi, A., Braun, T., Salamatian, K. and Thomos, N., 2020, June. Network Coding-based Content Retrieval based on Bloom Filter-based Content Discovery for ICN. In ICC 2020-2020 IEEE International Conference on Communications (ICC) (pp. 1-7). IEEE.

Profil du candidat :
Connaissances en Réseau et Systèmes Distribués
Connaissances recommandées en Informatique: Linux, Python, Redis, Spark Streaming, Kafka, container (Docker et/ou Kubernetes)

Formation et compétences requises :
Étudiant en Master 2ème année ou Ingénieur 5ème année en Informatique avec comme spécialité Réseaux et systèmes distribués de préférence.

Adresse d’emploi :
Étudiant en Master 2ème année ou Ingénieur 5ème année

Document attaché : 202111221638_offre_distributed.pdf

Développement d’un réseau de neurones permettant la caractérisation acoustique du transport sédiment
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : cerege
Durée : 6 mois
Contact : gassier@cerege.fr
Date limite de publication : 2022-02-28

Contexte :
L’estimation du débit de mise en mouvement des particules ainsi que du flux sédimentaire par fractions granulométriques (taille)
transportées dans les cours d’eau sont des enjeux cruciaux pour leur gestion, que ce soit pour des études scientifiques, des projets de
restauration, de prévention des crues, ou des travaux opérationnels. Devant le manque de méthode efficace, la communauté scientifique
et opérationnelle s’intéresse aux approches par mesures indirectes, ici par acoustiques passive, qui consiste à mesurer le son produit par
le déplacement des sédiments dans une rivière en y immergeant des hydrophones afin d’en évaluer les caractéristiques.

Sujet :
Au sein du Centre de Recherche et d’Enseignement de Géosciences de l’Environnement (CEREGE), nous proposons à un
étudiant, lors de son stage de fin d’études de Master ou d’ingénieur, de développer un réseau de neurones permettant de
caractériser le flux sédimentaire (masse par unité de temps) transporté dans un cours d’eau à partir de la pression acoustique
générée par ce dernier et mesurée par des hydrophones.

Profil du candidat :
Master 2 ou école d’ingénieur.

Formation et compétences requises :
Le stagiaire : Deep learning, réseau de neurones,
python, Jupyter, Linux, TensorFlow, keras, Traitement du signal acoustique.

Adresse d’emploi :
CEREGE
TECHNOPOLE ENVIRONNEMENT ARBOIS-MEDITERRANEE BP80
13545 AIX en PROVENCE, CEDEX 04, FRANCE
Tél. (+33) (0)4 13 94 91 00

Document attaché : 202112151536_Sujet_Stage_CEREGE.pdf

Exploiting Data Mining and Constraint Programming for Predictive Maintenance
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N/IMT Atlantique
Durée : 5-6 mois
Contact : samir.loudni@imt-atlantique.fr
Date limite de publication : 2022-02-28

Contexte :
Recently, with the emergence of Industry 4.0 (I4.0), predictive maintenance (PdM) based on data-driven methods has become the most effective solution to address smart manufacturing and industrial big data, especially for performing health perception (e.g. fault diagnosis and remaining useful life (RUL) estimation). Here, maintenance corresponds to the process that deals with equipment or system components to ensure their normal operating under any circumstance. PdM relies on the continuous monitoring of the equipment or the machine to predict when maintenance actions are necessary; hence the maintenance can be scheduled. Detecting and preventing failures is thus essential, and industries seek to minimise the number of operational failures, minimise their operational costs, and increase their productivity.

Failure Prediction is one of the critical components of PdM for which the main goal is to predict the approximate moment when some failure could occur. Recent works have addressed anomaly detection for PdM in order to predict incipient failures from historical data.

In the last decade, new research have began connecting data mining to symbolic Artificial Intelligence (AI). Such fertilization leads to a number of algorithms that have been proposed within Constraints Programming (CP) and Satisfiability (SAT) for mining sequences, frequent item-
sets, association rules, clustering, classification, etc. The main advantage
of symbolic AI approaches for pattern mining is their declarativity and flexibility, which include the ability to incorporate new user-specified constraints without the need to modify the underlying system.

Sujet :
The objective of this internship is to use constraint programming to apply symbolic data mining techniques on historical data to characterise the healthy behaviour of equipment. We will consider especially symbolic data mining techniques applicable to time series data where data are generated in streams. The internship will address the two following principal tasks:
• Knowledge discovery process about normal behaviour;
• The anomaly detection in new data.

Profil du candidat :
– Étudiant M2 ou 3ème ingénieur en Informatique
– bonnes compétences en programmation (Java, Python)
– connaissances en programmation par contraintes (la maîtrise des outils associés comme la bibliothèque Choco serait un vrai plus)
– une compétence en fouille de données et des méthodes associées
– goût pour la recherche et le travail collaboratif intra-équipe.

Formation et compétences requises :
– Étudiant M2 ou 3ème ingénieur en Informatique
– bonnes compétences en programmation (Java, Python)
– connaissances en programmation par contraintes (la maîtrise des outils associés comme la bibliothèque Choco serait un vrai plus)
– une compétence en fouille de données et des méthodes associées
– goût pour la recherche et le travail collaboratif intra-équipe.

Adresse d’emploi :
IMT Atlantique campus de Nantes

Document attaché : 202202010855_TASC_internship_2021.pdf

Machine Learning in Computational Fluid Dynamics
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Sorbonne Universite – Equipe Machine Learning and
Durée : 6 mois
Contact : patrick.gallinari@sorbonne-universite.fr
Date limite de publication : 2022-02-28

Contexte :
Numerical simulation of fluids plays an essential role in modeling complex physical phenomena in domains ranging from climate to aerodynamics. Fluid flows are well described by Navier-Stokes equations, but solving these equations at all scales remains extremely complex in many situations and only an averaged solution supplemented by a turbulence model is simulated in practice (Xiao and Cinnella, 2019). The increased availability of large amounts of high fidelity data and the recent development and deployment of powerful machine learning methods has motivated a surge of recent work for using machine learning in the context of computational fluid dynamics (CFD) (Durasaimy et al., 2019). Combining powerful statistical techniques and model-based methods leads to an entirely new perspective for modeling physics phenomena (Willard 2020). From the machine learning (ML) side, modeling complex dynamical systems and combining model-based and data-based approaches is the topic of active new research directions. This is then the context of this project, and our aim is to develop the interplay between Deep Learning (DL) and CFD in order to improve turbulence modeling and to challenge state of the art ML techniques.

Sujet :
Combining CFD models and Deep Learning

Our objective is to improve traditional CFD models, both in terms of complexity and of accuracy of the predictions, with the addition of ML components. Recent progresses, and the generalized use of automatic differentiation both for differentiable solvers and DL algorithms have paved the road to the integration of DL techniques and ODE/PDE solvers. In the ML community, a starting point for such investigations was the Neural ODE paper (Chen 2018) that promoted the use of ODE solvers for ML problems. We advocate for this research the use of DL modules for complementing CFD solvers, in the spirit of (Yin 2021) who introduced a principled approach however still limited to basic PDEs. In our new context, our final objective is to analyze how to model unclosed terms in the Reynolds-Averaged Navier-Stokes (RANS) equations. In order to simplify the problem, for the internship, the approach will be developed for a scalar surrogate of the Navier-Stokes equations, namely, the nonlinear Burgers’ equation, which has been widely used in the literature as a simplified ansatz for Navier-Stokes The whole system will be trained end to end with the DL modules and the numerical solvers using high-fidelity data.

In order to be useful for CFD applications a learned model must accurately simulate flows outside of the training distribution: operational conditions and environment may vary according to different physical factors thus requiring models to extrapolate to these new conditions. For providing such capabilities, we will adopt a new perspective by considering learning dynamical models from multiple environments and analyze the ability of this framework to extrapolate to new conditions.

Profil du candidat :
Master or engineering degree in engineering, computer science or applied mathematics.

Formation et compétences requises :
The candidate should have a strong scientific background with good technical skills in programming.

Adresse d’emploi :
Machine Learning and Information Access team – MLIA – https://mlia.lip6.fr, Sorbonne University, 75005 Paris, Fr

Document attaché : 202112141459_2021-12-MLIA-JLRA-Machine-Learning-Computational-Fluid-Dynamics.pdf

Prévision du temps à très haute résolution avec des méthodes de Deep Learning
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre National de Recherche Météorologique (CNRM)
Durée : 6 mois
Contact : laure.raynaud@meteo.fr
Date limite de publication : 2022-02-28

Contexte :
Les prévisions météorologiques fournies par le modèle Arome, opérationnel à Météo-France, ont une résolution spatiale de 2.5km sur les domaines Outre-Mer. En 2022, l’augmentation de résolution atteindra 1.3km, et permettra d’améliorer la performance des prévisions, en particulier pour les évènements à enjeux tels que les cyclones tropicaux et les fortes pluies. Des résolutions hectométriques permettraient de gagner encore en réalisme, en particulier sur l’île de la Réunion dont le relief est complexe. Néanmoins, le coût des prévisions Arome à des résolutions de quelques centaines de mètres ne permet pas d’envisager leur utilisation opérationnelle avant plusieurs années.

Une alternative moins coûteuse à cette descente d’échelle dynamique est la descente d’échelle statistique. L’objectif est d’apprendre une relation statistique entre les prévisions basse résolution (par exemple 2.5km ou 1.3km) et les prévisions haute résolution (par exemple 500m). Les méthodes de descente d’échelle les plus classiques reposent sur des interpolations simples ou des approches de régression linéaire. Récemment, inspirées par les travaux de super-résolution en traitement d’images, plusieurs études ont montré que des méthodes d’apprentissage profond tels que les réseaux de neurones convolutionnels offrent des perspectives intéressantes pour la descente d’échelle (Vandal et al., 2018; Baño-Medina et al., 2019, Leinonen et al., 2020; Höhlein et al. 2020, Sha et al., 2020).

Sujet :
L’objectif du travail proposé est de développer une première descente d’échelle à 500m des prévisions Arome sur la Réunion, par apprentissage profond, et pour des variables de temps sensible telles que la température, le vent et les précipitations. Pour cela il s’agira :
1. de sélectionner et d’implémenter une ou plusieurs architectures de réseaux de neurones adaptées au problème de descente d’échelle, en s’appuyant en partie sur la littérature existante
2. de préparer les jeux de données d’entraînement et de validation pour les réseaux, à partir des simulations Arome basse et haute résolution réalisées par l’encadrement en amont du stage
3. de réaliser des expériences de sensibilité des descentes d’échelle à différents réglages des méthodes statistiques et configurations des jeux de données d’apprentissage
4. d’évaluer la pertinence des prévisions Arome 500m obtenues sur des situations à enjeux variées (fortes pluies, risque de feu de forêt, etc.)

Profil du candidat :
Le stage requiert un réel intérêt pour les méthodes d’intelligence artificielle et leur application aux géosciences. Une bonne connaissance des réseaux de neurones convolutionnels et de leur implémentation Python est requise.

Formation et compétences requises :
M2 ou Ecole d’ingénieur.

Adresse d’emploi :
Centre National de Recherche Météorologique, Toulouse, France

Mar
1
Tue
2022
Anomaly detection in link streams
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6 – Sorbonne Université
Durée : 6 months
Contact : esteban.bautista-ruiz@lip6.fr
Date limite de publication : 2022-03-01

Contexte :
Link streams are sequences of interactions over time. They model a large number of datasets that have both a temporal and a structural component: phone calls, social interactions, internet traffic or financial transactions. The wealth of information contained in link streams bears great potential for progress in high-impact areas. For instance, frauds or thefts in monetary transactions may leave signatures expressed as substreams that heavily interact in a short span of time. Another example are network attacks which may be characterized as repetitive bursts of links that deviate from normal activity. Our goal in this internship is to develop algorithms that allow us to efficiently detect such anomalies in link streams.

Sujet :
The goal of this internship is to develop algorithms that can detect anomalies by ranking the importance of interactions in link streams. Recent works based on this idea have been used to detect microcluster anomalies: suddenly arriving groups of suspiciously similar links. However, such works rank interactions solely based on their time properties (how often two individuals interact) and overlook the structural properties of interactions. We therefore aim to develop ranking algorithms that take into account both the time and structural properties of link streams.

Numerous recent works have extended graph theory concepts to link streams, providing a solid foundation to analyze their structural properties. It is thus a timely challenge to leverage these concepts in the context of anomaly detection algorithms. We are particularly interested in exploring the recent definitions of temporal random walks, which have achieved great success in various applications. We are also open to explore other centrality metrics, such as betweenness, which raise important algorithmic challenges but have great interpretability.

Profil du candidat :
This internship is directed at M2 students with various background (complex networks, algorithmic, graph theory) with a strong interest in graph algorithmics and/or graph theory and its applications.

Formation et compétences requises :
Students in M2 with knowledge of the following: graph theory, algorithmique, statistics, statistical physics, and coding in Python and a compiled language like C/C++/Go/Rust.

Adresse d’emploi :
Le stagiaire fera partie de l’équipe Complex Networks du LIP6 – Sorbonne Université, situé à:
4 place Jussieu
75252 PARIS CEDEX 05, France

Document attaché : 202202011233_Internship_Proposal.pdf

Deep learning pour l’émulation de prévisions météorologiques à très fine échelle
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre National de Recherche Météorologique (CNRM)
Durée : 6 mois
Contact : laure.raynaud@meteo.fr
Date limite de publication : 2022-03-01

Contexte :
Les prévisions météorologiques opérationnelles sur les domaines Outre-Mer utilisent une résolution spatiale de l’ordre du kilomètre. Des résolutions hectométriques permettraient de gagner encore en réalisme, en particulier sur l’île de la Réunion dont le relief est complexe. Néanmoins, le coût des prévisions à des résolutions de quelques centaines de mètres ne permet pas d’envisager leur utilisation opérationnelle avant plusieurs années.
Une alternative moins coûteuse à cette descente d’échelle dynamique est la descente d’échelle statistique. L’objectif est d’apprendre une relation statistique entre les prévisions basse résolution et les prévisions haute résolution. Les méthodes de descente d’échelle les plus classiques reposent sur des interpolations simples ou des approches de régression linéaire. Récemment, plusieurs études ont montré que des méthodes d’apprentissage profond tels que les réseaux de neurones convolutionnels offrent des perspectives intéressantes pour la descente d’échelle (Vandal et al., 2018; Baño-Medina et al., 2019, Leinonen et al., 2020; Höhlein et al. 2020, Sha et al., 2020).

Sujet :
L’objectif du travail proposé est de développer une première descente d’échelle statistique à 500m des prévisions sur la Réunion, par apprentissage profond, et pour des variables de temps sensible telles que la température, le vent et les précipitations. Pour cela il s’agira :
1. de sélectionner et d’implémenter une ou plusieurs architectures de réseaux de neurones adaptées au problème de descente d’échelle, en s’appuyant en partie sur la littérature existante
2. de préparer les jeux de données d’entraînement et de validation à partir des prévisions météo basse et haute résolution réalisées par l’encadrement en amont du stage
3. de réaliser des expériences de sensibilité des descentes d’échelle à différents réglages des méthodes statistiques et configurations des jeux de données d’apprentissage
4. d’évaluer l’apport des prévisions 500m obtenues sur des situations à enjeux variées (fortes pluies, risque de feu de forêt, etc.)

Profil du candidat :
Stage de fin d’étude école d’ingénieur ou Master 2.

Formation et compétences requises :
Le stage requiert un réel intérêt pour la prévision numérique du temps et les méthodes d’intelligence artificielle. Une bonne connaissance des réseaux de neurones convolutionnels et de leur implémentation Python est requise.

Adresse d’emploi :
Météo-France/CNRM,Toulouse, France.

Stage M2/Ingénieur : Deep Learning pour la détection de tumeurs dans des radiographies
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire I3S
Durée : 6 mois
Contact : lionel.fillatre@i3s.unice.fr
Date limite de publication : 2022-03-01

Contexte :
L’équipe MediaCoding du laboratoire I3S collabore sur ce sujet avec le Centre Hospitalier Universitaire (CHU) de Nice. Le stagiaire pourra donc bénéficier de l’expertise d’un professeur gastro-entérologue et hépatologue.

Sujet :
Objectifs :

Le Deep Learning (ou apprentissage profond) est une technique d’analyse de données qui permet d’obtenir des résultats de classification ou d’estimation très performants quel que soit le domaine applicatif. Ce sujet de stage s’intéresse à l’utilisation du Deep Learning pour l’analyse d’images médicales. Il s’agit plus particulièrement de détecter et localiser des lésions dans le foie. Nous disposons d’un jeu de données réelles d’images tomographiques étiquetées [1]. Les étiquettes décrivent la position et la forme des lésions dans les images. Le but du stage est d’utiliser un réseau de neurones pour estimer l’état du foie du patient.

De nombreux réseaux de neurones existent pour segmenter le contenu d’images [2]. Dans ce stage, il s’agira donc d’identifier les réseaux les plus prometteurs et de les appliquer aux images tomographiques du foie. Le stagiaire devra vérifier avec soin la qualité des informations qui peuvent être extraites de la segmentation, notamment l’estimation de la taille des lésions. Les lésions n’ont bien évidemment pas toutes les mêmes dimensions. Le réseau de neurones aura tendance à mieux détecter les lésions importantes. Le stagiaire pourra s’appuyer sur des travaux récents de notre équipe de recherche [3] afin de développer un réseau de neurones dont les performances en détection et en localisation des tumeurs seront robustes par rapport à la taille et à l’emplacement des lésions.

Encadrant du stage : M. Lionel Fillatre (professeur des universités)

Durée : de 4 à 6 mois (démarrage en mars/avril 2022 selon les contraintes du stagiaire).

Rémunération : environ 550 euros par mois.

Procédure pour déposer sa candidature : envoyer son CV, sa lettre de motivation et ses résultats académiques niveau L1, L2, L3, M1 et M2 à lionel.fillatre@i3s.unice.fr

Bibliographie :

[1] https://arxiv.org/pdf/1901.04056.pdf
[2] http://www.deeplearningbook.org/
[3] Cyprien Gilet, Susana Barbosa, and Lionel Fillatre. Discrete box-constrained minimax classifier for uncertain and imbalanced class proportions.IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020

Profil du candidat :
Ces travaux requièrent les compétences suivantes :
– Programmation informatique : les développements informatiques seront réalisés en Python et Pytorch (connaître préalablement Python n’est pas nécessaire mais souhaitable)
– Notions de bases en machine learning (en particulier sur les réseaux de neurones).

Formation et compétences requises :
Formation niveau M2/Ingénieur en mathématiques appliquées et/ou en informatique.

Adresse d’emploi :
Campus SophiaTech, Sophia Antipolis, département 06 (Alpes-Maritimes).

Mar
5
Sat
2022
Handling classes’ imbalance in supervised classification for medical diagnostics
Mar 5 – Mar 6 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LAMADE – Pôle Sciences des Données – Université P
Durée : 5-6 months
Contact : sana.mrabet@dauphine.psl.eu
Date limite de publication : 2022-03-05

Contexte :
The classification of highly imbalanced data is a big challenge for machine learning techniques. To deal with this challenge, many solutions have been proposed that could be classified in three categories: data pre-processing with under/oversampling technique that creates a training sample with a new instances distribution, active sampling that changes the training sampling throw the learning process, and the Synthetic Minority Over-sampling Technique (SMOTE) that creates new synthetic instances in the minority class. The efficiency of each approach depends on the context. For the medical diagnostics, if the input data contains categorical attributes, the SMOTE methods could be not suitable. Otherwise, if the data imbalance ratio is high, using the under/oversampling could induce loss of information in the training sample

Sujet :
Study and compare three different approaches to handle classes’ imbalance in medical data: data pre-processing with over/under sampling, synthetic minority over-sampling and active sampling.

Profil du candidat :
Master 2 ou dernière année d’école d’ingénieur en informatique

Formation et compétences requises :
Bonne connaissance en Machine Learning et en programmation Python.
Maîtrise de l’anglais et bonne capacité rédactionnelle

Adresse d’emploi :
Université Paris Dauphine – PSL
Place du Maréchal de Lattre de Tassigny – 75775 PARIS Cedex 16

Document attaché : 202202211348_Proposition sujet mémoire 2022.pdf

Mar
13
Sun
2022
Indice de qualité des eaux : modèle d’agrégation des sous-indices
Mar 13 – Mar 14 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : MIS/UPJV
Durée : 6 mois
Contact : harold.trannois@u-picardie.fr
Date limite de publication : 2022-03-13

Contexte :
Ce stage s’inscrit dans le cadre du projet Janus. Ce projet, porté par le laboratoire MIS et la société Lilaea, a pour ambition de contribuer à l’enjeu sociétal majeur que représente la surveillance de la qualité des milieux aquatiques. Les travaux proposés sont préliminaires à une étude qui sera menée dans le cadre d’une thèse sur la prédiction de la qualité des masses d’eaux douces, étangs, rivières, lacs…

Sujet :
Le(la) stagiaire contribuera à la définition d’un Water Quality Index (WQI) en adéquation avec les dernières normes et avancées techniques. Cet index unique doit permettre à toute personne intéressée de près ou de loin par la qualité de l’eau, d’en connaître son état actuel et sa variabilité, à l’image des indices des prix à la consommation. L’étudiant(e) aura en charge l’exploration de la littérature sur les dernières techniques d’agrégation utilisées dans la construction du WQI à partir de ces sous-indices. Ces techniques d’agrégation sont nombreuses et il n’est pas rare qu’elles s’appuient sur des algorithmes génétiques ou des réseaux de neurones. Pour finir, l’étudiant(e) devra proposer un ou plusieurs modèles d’agrégation et en réaliser une implémentation.

Profil du candidat :
Etudiant(e) en M2 informatique ou dernière année d’école d’ingénieurs, avec une spécialisation dans l’apprentissage artificiel.

Formation et compétences requises :
Le(la) candidat(e) devra avoir des connaissances académiques en apprentissage artificiel et en développement informatique.

Adresse d’emploi :
Université de Picardie Jules verne
Laboratoire MIS
33 rue Saint Leu – 80039 Amiens Cedex 1 – France

Mar
15
Tue
2022
Adaptation d’algorithmes de recherche de Process Mining aux besoins d’une startup
Mar 15 – Mar 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UTT – LIST3N
Durée : 6 mois
Contact : frederic.bertrand@utt.fr
Date limite de publication : 2022-03-15

Contexte :
Le laboratoire LIST3N (Informatique et Société Numérique) développe des approches efficaces (concepts, modèles, méthodes et outils) pour traiter l’ensemble de la chaîne de traitement des données, des capteurs aux usages, en passant par l’analyse et l’optimisation des données.

Sujet :
Le projet, spécialisé dans le domaine du Process Mining, comprend Frédéric Bertrand, Myriam Maumy, Yoann Valero et Benoit Vuillemin, experts du domaine, et est en collaboration avec la startup Your Data Consulting.

Dans le cadre d’un projet sur le domaine du Process Mining1 en collaboration avec la startup Your Data Consulting, proposant l’outil LiveJourney2, un stagiaire pourrait apporter sa contribution en faisant le lien entre les demandes de l’entreprise et les propositions des travaux de recherche académiques, faites aux travers d’un post doctorat (Benoit Vuillemin) et d’un doctorat (Yoann Valero).
Les travaux attendus incluent, entre autres :
– Étude, amélioration et optimisation des algorithmes de recherche. Cela comprend entre autres, des algorithmes de recherche de règles de prédiction3 et de Deep Learning4. Pour cela, vous serez sous la supervision des concepteurs de ces algorithmes.
– Réunions fréquentes avec les cadres de la startup pour non seulement définir leurs besoins, mais aussi identifier et communiquer ce qui est possible.
– Adaptation et optimisation des algorithmes de recherche aux besoins de l’entreprise.

1 Wil Van Der Aalst, « Process mining », Communications of the ACM, août 2012, https://dl.acm.org/doi/10.1145/2240236.2240257.
2 « Livejourney – Logiciel de Process Mining », s. d., https://www.livejourney.com/fr/.
3 Philippe Fournier-Viger et al., « Mining Partially-Ordered Sequential Rules Common to Multiple Sequences », IEEE Transactions on Knowledge and Data Engineering 27, no 8 (1 août 2015): 2203‑16, https://doi.org/10.1109/TKDE.2015.2405509; Benoit Vuillemin et al., « TSRuleGrowth: Mining Partially-Ordered Prediction Rules From a Time Series of Discrete Elements, Application to a Context of Ambient Intelligence », in Advanced Data Mining and Applications, vol. 11888, Lecture Notes in Computer Science (Cham: Springer International Publishing, 2019), 119‑34, https://doi.org/10.1007/978-3-030-35231-8_9.
4 Leila Arras et al., « Explaining and Interpreting LSTMs », in Explainable AI: Interpreting, Explaining and Visualizing Deep Learning, éd. par Wojciech Samek et al., vol. 11700, Lecture Notes in Computer Science (Cham: Springer International Publishing, 2019), 211‑38, https://doi.org/10.1007/978-3-030-28954-6_11; Antonia Creswell et al., « Generative Adversarial Networks: An Overview », IEEE Signal Processing Magazine 35, no 1 (janvier 2018): 53‑65, https://doi.org/10.1109/MSP.2017.2765202.

Profil du candidat :
Nous avons besoin d’un profil comprenant plusieurs qualités majeures :
– Expérience dans le code, notamment en Python, et ayant envie d’expérimenter de nouveaux langages, tels que Julia,
– Capacité d’identifier des objectifs de haut niveau provenant d’une entreprise et de les matérialiser à l’aide des algorithmes de recherche fournis,
– Force de proposition et de créativité, pour la startup comme pour les chercheurs.

Formation et compétences requises :
BAC +4/+5
Informatique

Adresse d’emploi :
12, rue Marie Curie
10000 Troyes

Document attaché : 202202151246_original.pdf

Mar
24
Thu
2022
On Capturing and Using Provenance in Machine Learning Pipelines
Mar 24 – Mar 25 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LAMSADE
Durée : 5 à 6 mois
Contact : kbelhajj@googlemail.com
Date limite de publication : 2022-03-24

Contexte :
Machine learning pipelines are designed to generate predictive models given some raw data. Learned models are then utilized to make predictions given some (unseen) observations. The predictive power of the learned model depends largely on the data sets used for trained and how they have been preprocessed (engineered). ML-pipeline developers tend to rely mainly on their skills, past experience, and an iterative try-and-fail process to refine and improve ML.

Sujet :
We seek to investigate how provenance information can be utilized to improve the process whereby ML-pipelines are designed and refined. In particular, the sub-tasks of the internships are as follows:
*T1*. A sweep of the state-of-the-art of provenance in data preprocessing and machine learning.
*T2*. Identifying techniques for the collection and utilization of provenance with the view to assist ML developers in the task of designing, improving, and debugging ML pipelines.
*T3*. The implementation of a prototype, and it is validation in the context of real-world ML pipeline.

Profil du candidat :
The candidate must be a Master student or an engineering student in his/her final year of study. To apply, send your CV, a letter of motivation and transcripts of the last three years to kbelhajj@gmail.com and daniela.grigori@lamsade.dauphine.fr

Formation et compétences requises :
Familiarity with data processing as well as unsupervised and supervised machine learning algorithms

Adresse d’emploi :
Univertsité Paris Dauphine, Place du Maréchal De Lattre de Tassigny, 75016, Paris

Document attaché : 202202240950_Internship-MLPipelinesProvenance.pdf

Mar
25
Fri
2022
Similitudes dans des corpus multimedia massifs à base de graphes de connaissances
Mar 25 – Mar 26 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIASD-Université Paris8
Durée : 6 mois
Contact : n.mellouli@iut.univ-paris8.fr
Date limite de publication : 2022-03-25

Contexte :
La recherche d’information est un domaine de recherche en perpétuel mutation à cause de la transformation numérique. Le volume des données produit via les outils numériques connectés excède la capacité humaine de les traiter manuellement et un recours à l’intelligence artificielle (IA) devient incontournable. Toutefois, ces modèles intelligents issus d’IA doivent garantir au moins le passage à l’échelle, la compréhension des données hétérogènes et la catégorisation sémantique de ces données. Dans ce contexte, la recherche de similitudes au sein d’un large corpus multimédia où se mêlent images, vidéos et textes (structurés ou non) est une tâche très complexe.
Dans le cadre d’une recherche sur les controverses en ligne, nous nous intéressons à la circulation d’informations et de discours dans les réseaux sociaux numériques (Twitter, TikTok, Instagram par exemple) sous différentes formes (textes, images, vidéo). Plus spécifiquement, nous cherchons à capturer, caractériser, analyser et expliquer les déclinaisons iconographiques, textuelles et narratives des images à mesure qu’elles circulent dans les RSN.

Sujet :
Quand il s’agit d’une image, celle-ci peut subir différentes transformations faisant appel à de nombreux outils de traitement d’images. Ces traitements peuvent être simples et agissent par exemple sur les couleurs, ou encore sur la répartition spatiale des pixels (le recadrage, le découpage, etc.), ou bien plus complexes via des outils : de génération d’images à partir de motifs d’une image de référence ; de substitution de l’image source ; de l’augmentation de l’image source par des éléments iconographiques contextuels.

Profil du candidat :
Vous êtes étudiant.e dans un Master2 en informatique, science des données ou statistiques, ou étudiant.e dans une école d’ingénieur.Vous êtes enthousiaste pour la recherche, vous aimez comprendre en profondeur les problèmes et trouver des solutions élégantes.Vous avez une solide formation en informatique (Python pour l’environnement d’apprentissage automatique).Vous êtes intéressé.e par l’intelligence artificielle et, plus précisément, par l’apprentissage automatique, les techniques d’optimisation, l’analyse de données, etc. Vous avez un intérêt pour le domaine des SHS.
Candidature à adresser à n.mellouli@iut.univ-paris8.fr ayant pour objet « Candidature Stage EID -Sim» d’ici le 25 mars 2022

Formation et compétences requises :
Python, PyTorch, OpenCV, CUDA, gestion des données, machine-learning, deep-learning, visualisation
Contact :
Nédra Mellouli
Virginie JULLIARD

Adresse d’emploi :
Sorbonne Université – Maison de la Recherche – 28 rue Serpente – 75 006 Paris
et 140, rue de la Nouvelle France 93100 Montreuil.

Document attaché : 202203031146_Sujet-StageMaster-2021-2022_EID.pdf

Mar
28
Mon
2022
Fouille de modèle et visualisation de données pour explorer les avenirs d’une zone au Sénégal
Mar 28 – Mar 29 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD (Le Centre de coopération internationale en
Durée : 5 à 6 mois
Contact : camille.jahel@cirad.fr
Date limite de publication : 2022-03-28

Contexte :
La zone des Niayes fournit 70% des produits horticoles à Dakar, profitant d’une nappe phréatique peu profonde, d’un climat favorable et de sols fertiles. Mais ces dernières années ont été marquées par une baisse importante du niveau de la nappe et une salinisation progressive des terres par invasion marine, du fait d’une diminution de la pluviométrie. A cela s’ajoute des problématiques de surexploitation des ressources hydriques par les exploitations agricoles, les agro-industries et les exploitations minières qui ne cessent de s’agrandir. Les prévisions climatiques pour les prochaines années, particulièrement alarmantes pour le Sénégal, tendent à montrer que ces tendances risquent de s’amplifier, menaçant directement toutes les exploitations agricoles de la zone.
Il est donc urgent de prendre la mesure de ces changements pour tenter de les atténuer. Dans ce contexte, une série d’ateliers de prospective ont été menés en 2018, qui ont permis de dessiner les contours de scénarios d’évolution des Niayes (Camara et al., 2020 ). Mais ces scénarios sont dans un registre narratif et qualitatif et doivent maintenant être illustrés d’indicateurs quantitatifs.
Pour cela, une équipe multidisciplinaire de modélisateurs et thématiciens ont écrit un modèle des dynamiques de la zone des Niayes, à l’aide de la plateforme de modélisation spatiale Ocelet (www.ocelet.fr). Le modèle articule plusieurs modules, et permet de simuler des dynamiques de la nappe phréatique, l’étalement urbain, l’avancée du domaine cultivé, les productions agricoles, les revenus agricoles et les emplois agricoles. Le modèle a été construit de manière à reproduire les dynamiques de ces différents modules observés ces 15 dernières années. Il s’agit pour le stagiaire d’explorer la diversité des résultats en entrée et en sortie de modèle et enfin de l’utiliser pour simuler les différents scénarios plausibles.

Sujet :
Il s’agit pour le stagiaire d’explorer la diversité des résultats en entrée et en sortie de modèle et enfin de l’utiliser pour simuler les différents scénarios plausibles.
La première phase consistera à identifier dans les résultats de sortie du modèle ceux qui correspondent aux scénarios qualitatifs identifiés par les acteurs en 2018 (approche experte). A partir de cet espace des sorties et en utilisant une des méthodes telle qu’OSE, le stagiaire identifiera dans l’espace des entrées les jeux de paramètres qui conduisent aux espaces des sorties considérées par les experts. Pour cela, des séries de simulations seront lancées sur des périodes simulées de 20 ans, en fonction de jeux de paramètres cohérents avec les scénarios qualitatifs produits plus tôt et en insérant différentes « ruptures » dans les simulations (par exemple, introduction d’un nouveau paramètre en cours de simulation). Ce travail d’exploration et d’analyse de l’espace des sorties sera mené par le stagiaire, en s’inspirant là aussi des travaux de la communauté d’OpenMole.
Le stagiaire sera alors à même de produire une interface de visualisation des trajectoires territoriales qui permette aux décideurs et aux chercheurs d’identifier les bifurcations dans les scénarios simulés parmi les avenirs plausibles de la zone des Niayes. Le travail de visualisation des données en sortie – comme par exemple, des cartes d’occurrence de phénomène pour un même scénario, ou une présentation de l’espace des possibles, etc. – fournira le contenu à la plateforme de visualisation.

Profil du candidat :
Bases solides en informatiques
Connaissance approfondie de R ou Python
Connaissances en fouille de données
Connaissance des SIG
Expérience sur les modèles mécanistes et spatiaux souhaitable
Connaissances en sciences de l’environnement seraient un plus

Formation et compétences requises :
M2 en informatique, mathématiques appliquées, fouille de données, ou
M2 agronomie/environnement/SHS spécialité informatique

Adresse d’emploi :
maison de la télédétection
Montpellier
500 Rue Jean François Breton
(www.teledetection.fr)

Document attaché : 202201281337_Fouille de modèle et visualisation de données pour explorer les avenirs plausibles de la zone des Niayes au Sénégal_vf.docx

Mar
30
Wed
2022
Machine learning for coupling electron microscopy with polycrystal plasticity
Mar 30 – Mar 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LEM3/LORIA (Metz)
Durée : 6 mois
Contact : lydia.boudjeloud-assala@univ-lorraine.fr
Date limite de publication : 2022-03-30

Contexte :
The Laboratoire d’Études des Microstructures et de Mécaniques des Matériaux (LEM3) is a center for transdisciplinary experimental and theoretical research combining mechanics of solids and metallurgy, materials science, chemistry, and physics. The LEM3 opts since many years to contribute to materials research by developing new devices and new techniques for characterizing microstructures with electron microscopies.

The Laboratoire lOrrain de Recherche en Informatique et ses Applications (LORIA) is a CNRS/INRIA/Université de Lorraine/ CnetraleSupélec laboratory, which conducts research in computer science and information and communication technologies. The Orpailleur team is mainly interested in knowledge discovery in databases i.e. processing large volumes of data for discovering patterns that are significant and reusable.

Sujet :
Developing new materials remains a main challenge to follow and predict the fast evolution of our society. Elaboration techniques must offer the possibility of developing such novel high-performance metals and alloys respecting environmental constraints. However, a mechanism-based tailoring of the performances requires constant improvements of experimental and theoretical techniques to unravel fundamental mechanisms controlling the macroscopic behavior. Plasticity is an important phenomenon which is considered here. It is closely related to the mechanical strength and formability and leads to progressive damage of components through non-reversible shape changes.
Most of used materials are generally polycrystalline, where grains are separated from their neighbors by Grain Boundaries (GBs). Grains cannot be deformed independently because the cohesion between them must be maintained. Dislocations glide through grains and interact with each other or with the GBs acting as sinks, traps, obstacles, and sources of dislocations. GBs are very important from the mechanical properties point of view.
Nowadays, we almost know how a dislocation interacts with a specific GB. But, understanding the collective response of several real GBs (contained in a real polycrystalline specimen) after receiving numerous dislocations is still a major scientific challenge. The difficulty becomes highly challenging when we consider the influence of the distribution of GBs, other types of interfaces, shape and orientation of grains, i.e. the microstructure.
In this context, our present objective is to explore a multi-level scale ranging from electron microscopy to micromechanics thank to machine learning methods. In this way, at the electron microscopy level we will develop new procedures for capturing statistically footprints of deformation mechanisms. At the micromechanics level, crystal plasticity models based on deep learning algorithms will be considered for suggesting specific microstructural parameters able to achieve targeted macroscopic mechanical properties. This project will have a major impact in current societal issues by enabling energy savings and limited costs associated with the tuning of microstructures targeting specific mechanical performances.
Supervised deep learning based on classification and/or regression is a machine learning approach known for being very efficient for treating numerical data. At first time, we will focus on the prediction of fundamental deformation mechanisms (slip, twinning, climbing, cross-slip) with respect to the specimen microstructure. In a mathematically simplistic way (see Figure), it requires, on one hand, to identify the relevant input (e.g. Euler angles…) and output (e.g. slip systems…) variables (let us call them x_1,x_2,…,x_n,y_i), and on the other hand the classifier F giving y ̂_i=F(x_1,x_2,…,x_n ), an “approximate” quantity tending towards the experimentally “true” measured value y_i. This classifier F must be based on a crystal plasticity law (f_CP), having a physical meaning, coupled (*) to a machine learning algorithm (f_ap) for its optimization. This aspect is the main originality of our strategy. During the learning phase, F will be trained to match at best the outputs y_i, experimentally measured, using the inputs x_i. Therefore, two work packages are necessary: feature engineering of the experimental datasets for feeding classifiers (F); development of classifiers (F) adapted for polycristalline plasticity.

Profil du candidat :
– You must have good knowledge in Machine learning.
– You have good written and verbal communication skills and enjoy working in a multi-thematic team.
– Good English language skills are required.

Formation et compétences requises :
The candidate should have a strong scientific background with good technical skills in programming.

Adresse d’emploi :
LEM3 : 7 Rue Félix Savart, 57070 Metz
LORIA : 2 Rue Édouard Belin 57070 Metz, France

Document attaché : 202201050936_ApplicationMaster_LORIA_LEM3.pdf

Recherche des critères d’apparition d’une lésion rénale aiguë chez les patients de réanimation
Mar 30 – Mar 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LORIA
Durée : 6 mois
Contact : lydia.boudjeloud-assala@univ-lorraine.fr
Date limite de publication : 2022-03-30

Contexte :
La lésion rénale aiguë (LRA) est un syndrome clinico-biologique dont l’ensemble de causes sont multiples et dont le degré de gravité est variable jusqu’à l’insuffisance rénale proprement dite. Elle est décomposée en trois stades selon les recommandations internationales KDIGO (Kidney Disease Improving Global Outcomes). Cette classification KDIGO est bien corrélées à la gravité de l’atteinte rénale puisque la morbidité qui en découle c’est-à-dire le risque d’évolution vers la nécessité d’une épuration extra-rénale, la durée de séjour en réanimation ou hospitalière, le risque d’évolution vers l’insuffisance rénale chronique et la mortalité estimée alors entre 45 et 70 % augmentent proportionnellement avec les stades de cette classification.
En réanimation, l’insuffisance rénale aiguë est le motif d’admission chez 1 % des patients et survient de façon intercurrente chez 5 à 8 % des patients. L’hospitalisation en réanimation est en effet une situation à risque, les facteurs de aggravants ayant tendance à se surajouter : hypovolémie, défaillance cardiaque, médicaments néphrotoxiques, injection de produit de contraste, patient âgé et/ou insuffisant rénal chronique.
En effet l’apparition des LRA est toujours précédée d’agressions rénales, qui si elles se répètent peuvent entrainer des lésions tissulaires irréversibles et au stade ultime une dysfonction. Les lésions rénales constituées restent à ce jour non accessibles à un quelconque traitement curatif. Ainsi, la recherche des facteurs de risque de survenue de LRA et la détection précoce des phénomènes d’agression rénale sont largement préconisées dans la littérature actuelle. Cette détection permet de limiter, chez ces patients à risques, de l’exposition aux agents ou procédures néphrotoxiques de façon à limiter l’aggravation et à ne pas compromettre davantage le potentiel de récupération.

Sujet :
Nous souhaitons appliquer les approches de fouille de données et d’apprentissage machine afin de découvrir des catégories de patients à risque de LRA et de façon plus précise par la seule prise en compte des facteurs favorisants déjà connus cités auparavant. Dans un premier temps une approche non supervisée serait préconisée afin de voir si on arrive à trouver les groupes liée au critère KDIGO en étudiant les données anthropométriques, cliniques et biologiques des patients disponibles.
Les données disponibles pour l’étude représentent l’ensemble des paramètres cliniques mesurés et enregistrés minute par minute, les traitements institués, et les éléments d’anamnèse conservés dans les bases de données des logiciels métiers Metavision et DXCare pour tous les patients hospitalisés dans le service de réanimation polyvalente depuis une période de 10 ans.

Profil du candidat :
Le candidat ou la candidate de niveau Bac+5, formé(e) au traitement de de données, texte, image, serait intéressé(e) par un projet pluridisciplinaire et les données médicales.

Formation et compétences requises :
Apprentissage machine, fouille de données, R, Python, SQL, traitement de données

Adresse d’emploi :
CHR Metz Thionville
Hôpital de Mercy, Metz

Document attaché : 202201050943_StageMaster_LORIA_CHR.pdf

Mar
31
Thu
2022
3 stages de recherche M2 en IA dans l’équipe TWEAK du LIRIS
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS, ésquipe TWEAK
Durée : 6 mois
Contact : frederique.laforest@insa-lyon.fr
Date limite de publication : 2022-03-31

Contexte :
Trois stages de recherche M2 en IA sont ouverts au recrutement dans l’équipe TWEAK du LIRIS.

Sujet :
– Raisonnement incrémental sur des connaissances compressées : https://perso.liris.cnrs.fr/lionel.medini/stages/Offre-stage-raisonnement-LIRIS.pdf
– Collecte et enrichissement de traces géolocalisées et visualisation interactive : http://www.atief.fr/sites/default/files/documents/MOBILES-StageM2-2022.pdf
– Une IA pour aider les étudiants à organiser leur travail et à auto-réguler leur apprentissage https://perso.liris.cnrs.fr/nathalie.guin/Sujets/2022%20Stage%20M2%20IA%20Autoregulation.pdf

Profil du candidat :
2ème année de master informatique, dernière année d’ingénieur en informatique

Formation et compétences requises :
voir chaque sujet

Adresse d’emploi :
LIRIS, campus de la Doua, Villeurbanne

Analyse de données relationnelles – définition de quantificateurs pour l’ARC
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube Strasbourg
Durée : 5 à 6 mois
Contact : florence.leber@engees.unistra.fr
Date limite de publication : 2022-03-31

Contexte :
L’analyse de concepts formels (ACF) [1] est une méthode mathématique de classification, largement appliquée sur différents types de données et dans de nombreux domaines (par exemple [2,3]). Elle consiste, à partir d’une table (appelée contexte) décrivant des objets par des attributs, à construire un treillis de concepts, i.e. des couples (extension ; intension) d’ensembles fermés décrivant les objets et les attributs qui les définissent. Cette méthode est étendue aux données relationnelles dans le cadre de l’analyse relationnelle de concepts (ARC) [4]. L’ARC considère deux types de contextes, des contextes objets-attributs et des contextes objets-objets décrivant les relations entre objets. L’ARC étend les contextes objets-attributs par des attributs relationnels de la forme qrC, où q est un quantificateur, r une relation et C un concept issu du co-domaine de r. Le résultat de l’ARC est une famille de treillis (un par contexte objets-attributs) reliés entre eux par ces attributs relationnels.

Sujet :
Il s’agit de définir des quantificateur spécifiques à certains types de relations (temporelles ou spatiales par exemple) et qu’on pourra utiliser directement pour créer des jeux de données sur lesquels on applique ensuite l’ARC. On s’appuiera pour cela sur les quantificateurs existants (existentiel, universel ou de dénombrement [5]) et sur les modèles qualitatifs de l’espace et du temps [6]. Le stage s’organisera de la façon suivante :
• bibliographie sur l’ARC et les quantificateurs
• prise en main des outils existants (RCAexplore, Galicia ?)
• définition de quantificateurs pour un type de relation, formalisation du schéma relationnel associé
• intégration dans RCAexplore
• application sur une base de données (données sur l’eau ou agricoles)

Profil du candidat :
En cours Master 2 en Informatique ou équivalent

Formation et compétences requises :
Formation en logique, représentation de connaissances et programmation

Adresse d’emploi :
Laboratoire ICube, équipe SDC
300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex

Document attaché : 202112081445_sujet-stage2022.pdf

Apprentissage de représentation de formes 3D appliqué à la physique du spray
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS lab., University of Rouen Normandy, Rouen, F
Durée : 6 mois
Contact : simon.bernard@univ-rouen.fr
Date limite de publication : 2022-03-31

Contexte :
Ce stage se déroule dans le cadre d’une collaboration entre le laboratoire LITIS, le laboratoire d’informatique et des sciences de l’information de Rouen, et le CORIA, le laboratoire de thermochimie de Rouen, spécialisé dans l’étude de flux réactifs et non-réactifs.
Cette collaboration vise à concevoir des outils de simulation numérique basés sur l’apprentissage automatique plutôt que sur le calcul numérique comme cela est traditionnellement le cas dans ces domaines de la physique. La simulation par calcul numérique est généralement très couteuse en ressources de calcul car elle repose sur des modèles mathématiques complexes. L’idée générale des travaux en cours menés conjointement par le LITIS et le CORIA est de substituer l’apprentissage automatique au calcul numérique pour produire ces simulations précises, à moindre coût.
Ce stage poursuit cet objectif pour des applications de simulation d’atomisation. L’atomisation, ou pulvérisation, est la transformation d’un liquide en spray de fines particules, ou gouttelettes. On rencontre ce processus dans de nombreuses applications comme l’injection de carburant, l’irrigation par aspersion, le séchage par pulvérisation ou l’extinction des incendies. Une des enjeux importants de ces applications est de pouvoir prédire la taille des gouttes qui se forment en fin de processus. Par exemple, c’est l’un des principaux facteurs des émissions finales des moteurs automobiles.

Sujet :
Le but de ce stage est d’utiliser des méthodes d’apprentissage machine (Machine Learning) et en particulier des méthodes d’apprentissage profond, pour prédire la probabilité de rupture d’une goutte au cours du processus d’atomisation. Cette probabilité tient une place important dans la simulation des processus d’atomisation car elle permet in fine de déterminer la distribution des tailles des goutellettes finales.

Le candidat retenu mettra en œuvre les méthodes d’apprentissage automatique à partir de données obtenues grâce à une méthodologie de simulation numérique. Ces données représentent des volumes 3D de gouttes, qui se déforment tout au long de la pulvérisation. Ces données présentent deux défis principaux du point de vue de l’apprentissage automatique:
– il s’agit de séquences de volumes de 64x64x64 voxels, eux-même décrits par 6 descripteurs numériques. Il s’agit donc de données complexes, avec des contraintes spatiales et temporelles, et décrites en très grande dimension au regard du nombres de données disponibles.
– cette base de données est constituées d’une large majorité de gouttes qui ne se rompt pas à l’issue de la séquences. C’est donc un problèmes de classification à deux classes, avec des classes très déséquilibrées.

Ce stage vise à affronter ces défis à l’aide de méthodes d’apprentissage modernes, pour : i) proposer des méthodes de ré-équilibrage des classes et/ou d’augmentation de données, ii) proposer une méthode d’apprentissage de représentation sur le volume initial (i.e. en début de séquence) et iii) prendre en compte la séquence pour fiabiliser la prédiction.

Profil du candidat :
Étudiant en informatique ou mathématiques appliqués avec une spécialisation dans la science des données et l’apprentissage automatique.

Formation et compétences requises :
– Étudiant en Master 2 ou dernière année d’école d’ingénieurs, dans une spécialité de l’informatique ou des mathématiques appliquées
– Compétences requises en apprentissage automatique et en programmation (Python de préférence)
– Intérêt personnel pour la physique

Adresse d’emploi :
Laboratoire LITIS
Université de Rouen Normandie
Campus du Madrillet
Saint Étienne du Rouvray, France

Document attaché : 202112171448_Stage_LITIS_2021-2022.pdf