Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Dec
30
Fri
2022
Modélisation de l’effet de la lumière sur la ramification : formalisation et analyse de sensibilité pour la comparaison d’hypothèses de fonctionnement.
Dec 30 – Dec 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR AGAP, CIRAD, Montpellier ou IRHS, INRAE, Anger
Durée : 6 mois
Contact : frederic.boudon@cirad.fr
Date limite de publication : 2022-12-30

Contexte :
Aujourd’hui, la science doit trouver de nouvelles solutions pour augmenter la tolérance des plantes cultivées aux stress environnementaux. Pour cela, une meilleure compréhension des mécanismes sous-jacents à l’édification des plantes et leur contrôle par l’environnement est nécessaire. Notamment, les bourgeons formés à l’aisselle des feuilles restent dormants ou s’activent selon l’environnement donnant naissance à de nouveaux axes [1]. Ce processus a des conséquences importantes sur divers aspects des performances agronomiques des plantes (par exemple, la qualité visuelle des plantes ornementales, le rendement des plantes utilisées pour l’alimentation). Néanmoins, les mécanismes par lesquels l’environnement régule le débourrement ont été peu étudiés [2]. Dans l’équipe, des résultats expérimentaux sur le rosier nous conduisent à émettre une hypothèse quant aux mécanismes par lesquels l’intensité lumineuse contrôle le débourrement. Cette hypothèse implique une interaction entre une classe d’hormones, les cytokinines (CK), et la disponibilité en sucre, deux régulateurs contrôlés par la lumière [3,4].
Pour l’évaluation de notre hypothèse, nous souhaitons la modéliser et confronter les comportements de la plante simulés aux comportements observés. Cela implique de modéliser les flux de carbone au sein de la structure de la plante et leur interaction avec les hormones. Or, aujourd’hui, les modèles de flux de carbone utilisés dans la littérature ne reproduisent que très partiellement les mécanismes physiologiques décrits par la théorie de Münch. Des premiers modèles permettent de résoudre ces flux sur des structures topologiquement très simples [5,6]. Des travaux récents montrent la possibilité d’une résolution sur des structures plus complexes [7].

[1] Rameau, C., Bertheloot, J., Leduc, N., Andrieu, B., Foucher, F., & Sakr, S. (2015). Multiple pathways regulate shoot branching. Frontiers in plant science, 5.
[2] Schneider A., Godin C., Boudon F., Demotes-Mainard S., Sakr S., Bertheloot J. (2019). Light Regulation of Axillary Bud Outgrowth Along Plant Axes: An Overview of the Roles of Sugars and Hormones. Frontiers in Plant Science, 10, 1-17.
[3] Roman, H., Girault, T., Barbier, F., Péron, T., Brouard, N., Pencik, A., et al. (2016). Cytokinins are initial targets of light in the control of bud outgrowth. Plant Physiology, 172, 489-509.
[4] Corot A., Roman H., Douillet O., Autret H., Perez-Garcia M. D., Citerne S., Bertheloot J., Sakr S., Leduc N., Demotes-Mainard S. (2017). Cytokinins and abscisic acid act antagonistically in the regulation of the bud outgrowth pattern by light intensity. Frontiers in Plant Science, 8, 1-16.
[5] Bancal, P., & Soltani, F. (2002). Source-sink partitioning. Do we need Munch? Journal of Experimental Botany, 53(376), 1919-1928.
[6] Minchin, P. E. H., Thorpe, M. R., & Farrar, J. F. (1993). A SIMPLE MECHANISTIC MODEL OF PHLOEM TRANSPORT WHICH EXPLAINS SINK PRIORITY. Journal of Experimental Botany, 44(262), 947-955.
[7] Lacointe, A., & Minchin, P. E. H. (2019). A Mechanistic Model to Predict Distribution of Carbon Among Multiple Sinks. In J. Liesche (Ed.), Phloem: Methods and Protocols (Vol. 2014, pp. 371-386).

Sujet :
L’objectif du stage est de développer un modèle de réponse du débourrement à la lumière, intégrant les flux de carbone selon la théorie de Münch et leur interaction avec les CK. Lors d’un précédent travail, une première version simplifiée du modèle a été développée pour une structure simple de plante. Lors du stage, l’étudiant étendra ce modèle pour une structure plus complexe et pour intégrer notre hypothèse sur l’interaction sucre-CK; Il explorera également le comportement du modèle par la mise en place d’une analyse de sensibilité, et confrontera les simulations à des données expérimentales pour tester notre hypothèse.

Étapes principales du stage :
– Implémentation du modèle :
– Etendre le modèle développé pour une structure simple de plante (pools d’organes représentés) à une structure plus complexe (organes individualisés)
– Introduire l’hypothèse d’interaction Sucre-Cytokinine
– Ajuster les paramètres par optimisation à partir d’un jeu de données mesurées
– Exploration du modèle et évaluation:
– Faire une analyse de sensibilité des paramètres du modèle
– Évaluer la capacité du modèle à simuler les comportements de plante observés sous une gamme de traitements expérimentaux. Les données sont déjà disponibles. Selon l’avancement, une 2e phase pourra être envisagée au cours de laquelle d’autres hypothèses pourraient être testées.
– Intégrer le modèle à la plateforme en ligne MorphoNet pour le rendre accessible à la communauté des modélisateurs biologistes.

Profil du candidat :
Ce stage peut convenir à des étudiant(e)s provenant d’une école en modélisation mathématique, en informatique ayant un attrait pour la biologie, et la modélisation de systèmes biologiques.

Formation et compétences requises :
Une capacité rédactionnelle et un goût pour le travail en équipe à l’interface entre plusieurs disciplines (maths, info, écophysiologie) seront nécessaires.

Adresse d’emploi :
– CIRAD, Équipe Phénomen, UMR AGAP, Avenue Agropolis TA A-108/01 34398 Montpellier Cedex 5, France
ou
– Institut de Recherche en Horticulture et Semences, INRAE, 49000 Angers, France

Document attaché : 202209301412_Physioscope_Model_2023_VInfo.pdf

Dec
31
Sat
2022
Etude pilote pour une modélisation des transitions agroécologiques par des techniques d’apprentissage
Dec 31 2022 – Jan 1 2023 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : IMBE Aix-Marseille University (Marseille, Campus S
Durée : 5 à 6 mois
Contact : laure.berti@ird.fr
Date limite de publication : 2022-12-31

Contexte :

Le stage se définit dans le cadre d’une collaboration entre l’IMBE (https://www.imbe.fr/), ESPACE-DEV (https://www.espace-dev.fr/) et l’Université Fédérale de Paraíba – Campus IV (https://www.biodiversidade.info/rafael-raimundo/index.php).

Le ou la candidat.e retenu travaillera sur des approches de modélisation pour découvrir des voies alternatives de transition durable en agroécologie pour les paysages du Nord-Est brésilien.

En particulier, le travail portera sur l’élaboration de modèles informatiques pour comprendre et faire des inférences et des prédictions sur les menaces à la biodiversité et les vulnérabilités sociales afin de (i) proposer des stratégies pour favoriser le développement de systèmes agroécologiques durables combinant conservation de la biodiversité et inclusion sociale, et (ii) fournir des recommandations pour des solutions adaptatives et une gouvernance face à la crise de la biodiversité et au changement climatique.

Sujet :
Le travail consiste en 4 objectifs :

1) Recueillir toutes les données déjà disponibles (identifiées en amont du stage par les équipes encadrantes) pour cartographier les services écosystémiques et d’autres indicateurs socio-économiques liés à l’état des agroécosystèmes dans le Nord-Est brésilien, à l’échelle régionale, et plus précisément dans l’état de Paraíba où un corridor agroécologique impliquant des fragments restant de la forêt atlantique a été proposé pour combiner restauration de la biodiversité et transitions agroécologiques à l’échelle du paysage.

2) Cartographier les changements (qui peuvent être des dégradations) entre différentes périodes ; cependant, nous nous intéressons surtout à la restauration observée suite à une transition vers l’agroécologie. Les données multi-sources seront intégrées et préparées pour être ensuite utilisées par les différentes approches de modélisation, notamment les modèles d’apprentissage.

3) Mener une première étude conjointe de la littérature :
– du point de vue agroécologique, à partir d’un corpus d’articles rassemblés par les équipes encadrantes, extraire des informations dans le but de quantifier l’effet des pratiques agroécologiques sur certaines variables de l’agroécosystème (séquestration du carbone, capacité de rétention d’eau du sol, vulnérabilité des cultures aux ravageurs et aux maladies, stabilité des rendements, etc.) et sur certains indicateurs socio-économiques (coûts, emplois requis, etc.) Cette synthèse sera comparée aux données recueillies en 1). Pour les effets qui semblent significatifs, quelques fonctions simples seront dérivées.

– du point de vue de l’Intelligence Artificielle, afin d’étudier l’état de l’art dans le domaine de l’apprentissage, notamment pour évaluer comment les modèles existants d’apprentissage par renforcement peuvent être appliqués à la gouvernance agroécologique ;

4) Développer un prototype en Python pour déterminer la durabilité des pratiques agroécologiques (espace d’actions, récompense en apprentissage par renforcement à partir des données collectées) sur des scénarios de stress simplifiés de changement climatique.

Profil du candidat :
PRÉREQUIS:
– Bonne expérience de la programmation en Python
– Connaissance des méthodes, outils et librairies en apprentissage automatique
– Formation en modélisation (et idéalement en agroécologie)

CANDIDATURE: Envoyer votre CV et lettre de motivation à laure.berti@ird.fr, sophie.gachet@imbe.fr, et alberte.bondeau@imbe.fr

Formation et compétences requises :
Etudiant.e de Master 2 en Informatique

Adresse d’emploi :
IMBE Aix-Marseille Université – Campus Étoile Faculté des Sciences St-Jérôme Case 421 Av Escadrille Normandie Niémen 13 397 Marseille cedex 20

Réseaux de neurones à convolution informés par la physique : application à la convection turbulente
Dec 31 2022 – Jan 1 2023 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISN
Durée : 5 à 6 mois
Contact : anne.sergent@lisn.fr
Date limite de publication : 2022-12-31

Contexte :
La convection de Rayleigh-Bénard s’établit dans une cavité sous l’effet d’une différence de température imposée aux parois horizontales, la paroi du bas étant chauffée. L’écoulement résultant est caractérisé par la superposition de panaches à petite échelle, vecteurs de la chaleur, et d’un écoulement turbulent remplissant la cavité. Depuis de nombreuses années, nous simulons par simulation numérique directe (DNS) ce phénomène physique. Le passage à des simulations massivement parallèles nous permet maintenant de modéliser des jumeaux numériques des expérimentations. Cependant, ces calculs sont très lourds et même si la description spatio-temporelle de l’écoulement peut être très fine, il est difficile d’approcher statistiquement toutes les échelles de l’écoulement, de stocker l’intégralité des champs calculés, ou de rejouer facilement les séquences. C’est pourquoi nous cherchons à construire des modèles réduits de ces écoule-
ments, notamment par apprentissage automatique [LAS+22].

Sujet :
Nous cherchons ici à tirer partie des capacités d’apprentissage automa-
tique des réseaux de neurones pour réduire la complexité des données à sauvegarder, inférer des quantités cachées ou identifier des zones d’intérêt (par ex. [Cai+2021, FPSS19]). En particulier, on s’intéresse aux images d’ombroscopie, facilement obtenues expérimentalement, mais aussi numériquement, et qui contiennent une information 3D. A partir de réseaux à convolution, on utilisera des auto-encodeurs destinés à inférer les champs 2D/3D de température ou de vitesse. Une attention particulière sera portée sur la construction de la base de données d’entrée, de façon à assurer la robustesse du réseau. La base de données DNS est déjà existante [Bel+2021]. Les développements seront réalisés sous TensorFlow sur une carte du cluster GPU du cluster du laboratoire.

Profil du candidat :
Le candidat aura des connaissances dans un des thèmes suivants : Sciences des données, apprentissage automatique, statistiques/probabilités, mécanique des fluides.

Possibilité de continuer en thèse (financement ANR)

Formation et compétences requises :
Master de 2e année

Adresse d’emploi :
LISN, Campus universitaire, bat. 507 rue du Belvédère, 91405 Orsay

Document attaché : 202211091635_stage_sergent_2023_CNN.pdf

Stage M2 : Apprentissage profond pour le calcul de similarité de séries temporelles – Application à l’Analyse Quantifiée de la Marche des enfants avec Paralysie Cérébrale
Dec 31 2022 – Jan 1 2023 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’analyse du mouvement du CHU de Bres
Durée : 6 mois
Contact : maxime.devanne@uha.fr
Date limite de publication : 2022-12-31

Contexte :
La Paralysie Cérébrale (PC) est un terme qui désigne un groupe de troubles permanents du développement du mouvement et de la posture, responsables de limitations d’activité, imputables à des événements ou atteintes non progressives survenus sur le cerveau en développement du fœtus ou du nourrisson. Les troubles moteurs de la PC sont souvent accompagnés de troubles sensoriels, perceptifs, cognitifs, de la communication et du comportement. La PC touche environ 2 enfants sur 1000 en Europe et est le handicap physique le plus fréquent de l’enfance.
L’Analyse Quantifiée de la Marche (AQM) est un des outils que possède le clinicien pour l’aider dans sa prise de décision thérapeutique afin d’améliorer la marche des enfants avec PC. Cet examen est réalisé en routine clinique dans un laboratoire du mouvement et quantifie les déviations à la marche. Cet examen permet d’obtenir la reconstruction 3D du mouvement (cinématique) à partir de caméras infrarouges et de marqueurs posés en regard de points anatomiques, l’activité musculaire et la force de réaction lors de l’appui, …. Ces paramètres peuvent être considérés comme des séries temporelles.
Le service de Médecine Physique et Réadaptation du CHU de Brest possède un laboratoire du mouvement dans lequel plus de 1100 patients (enfants et adultes) ont réalisé au moins une AQM. Afin d’aider sa prise de décision thérapeutique, le clinicien aime retrouver dans la base de données les cas similaires à un nouveau patient à partir de la cinématique de celui-ci.

Sujet :
L’objectif du stage est le développement de la similarité entre séries temporelles à l’aide de réseaux de neurones. Il s’agira tout d’abord d’effectuer une étude bibliographique des méthodes d’apprentissage automatique et d’apprentissage profond utilisées pour la mesure de similarité de séries temporelles. Ensuite, l’objectif sera de développer des réseaux de neurones pour extraire des caractéristiques pertinentes à partir des séries temporelles des paramètres de la marche. Ces caractéristiques pourront ensuite être utilisées pour le calcul de similarité entre plusieurs séries temporelles. La performance des algorithmes développés sera évaluée à partir des cycles de marche acquis au CHU de Brest. Les cliniciens pourront ainsi avoir l’évolution des cas les proches du cas qu’ils sont en train d’analyser et proposer des recommandations thérapeutiques basées sur l’approche de cas similaires.

Profil du candidat :
– M2 recherche en Informatique / Intelligence Artificielle
– Très bon niveau de programmation Python
– Des bonnes connaissances en apprentissage automatique et apprentissage profond
– Des connaissances sur les techniques de mesures du mouvement humain par systèmes optoélectroniques seraient appréciées

Formation et compétences requises :
– M2 recherche en Informatique / Intelligence Artificielle
– Très bon niveau de programmation Python
– Des bonnes connaissances en apprentissage automatique et apprentissage profond
– Des connaissances sur les techniques de mesures du mouvement humain par systèmes optoélectroniques seraient appréciées

Adresse d’emploi :
Le stage se déroulera au laboratoire du mouvement du CHU de Brest.

Document attaché : 202210280724_StageIrimasCHU_TS.pdf

Stage M2 : Multi-modal explainable machine learning for exploring consciousness recovery of coma patients
Dec 31 2022 – Jan 1 2023 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : 5-6 mois
Contact : stefan.duffner@liris.cnrs.fr
Date limite de publication : 2022-12-31

Contexte :
While consciousness is currently seen as the result of processes in the brain, ordinary human experience is in fact embedded in a web of causal relations that link the brain to the body and the environment (Bayne et al., 2020). Embodied cognition is a naturalistic theory in which consciousness is associated with a dynamic interaction between brain, body and environment (BBE) (Thompson et Varela, 2001). Indeed, from an evolutionary point of view, the nervous system appears to be dedicated to perceptual and motor processes that allow interaction with the environment (Thompson et Varela, 2001). According to this model, the world of which we are aware is enacted by our past interactions with the environment. In other words, consciousness would be better explained in terms of being in the world at a specific time and place. From a biological point of view, this would be associated with both information shared across cortical regions and non-reflexive behaviors (Kanai et al., 2019).
One way to better understand consciousness is to study its disorders and recovery. Indeed, when such
patients recover, they go through different clinical states that are characterized by the recovery of arousal and/or awareness and by the recovery of BBE interactions. Coma is a state of unconsciousness in which patients cannot be awakened. Those who recover could transit through a disorder of consciousness (DOC).
We hypothesize that the analysis of synchronized brain-behavior recordings to naturalistic stimulations
will better predict consciousness recovery, than the current analyses of one of the two modalities in
neutral contexts. Specifically, we hypothesize that DOC patients who will recover consciousness are those whose cerebral connectivity abilities are associated with non-reflexive behaviors to emotional and/or social stimuli (listening to preferred music, visit from relatives).
The first aim of the project is to apply, in healthy participants and DOC patients, new behavioral tools we have developed thanks to different computer vision methods (body and face analysis from video), and to characterize the behavioral responses associated with naturalistic conditions, thanks to machine-learning methods. The second aim is to characterize, in the same populations, the BBE interactions, i.e. how brain (from high-density EEG connectivity), body (from video and ECG -electrocardiogram) responses are coupled/decoupled according to the environment (emotional and social vs. neutral stimuli). This work will allow a better care of DOC patients and more generally a better understanding of the cerebral-behavioral bases of consciousness.

Sujet :
We will build upon existing preliminary works, where state-of-the-art computer vision algorithms (e.g. OpenPose, OpenFace) for human pose estimation and face and gaze analysis have been integrated and adapted to the specific context and acquisition conditions.
Subjects are successively put into 3 different situations:
• listening to sound,
• rest,
• interactions with the instructor,
and for each situation an emotional and a non-emotional version is performed (e.g. for sound: listening to favorite music). The first experiments based on recurrent (LSTM) neural networks have already given promising results for classifying different situations (in terms of interaction with the environment and overall behavioral phenomena). which we will further improve and make explicit, i.e. interpretable by medical specialists and neuroscientists. For example, at this point, we do not know yet, what parts of the body or face are likely to produce more relevant indicators of consciousness state and which type of behaviour, motion or gestures are informative. This will be one concrete expected result of the internship.
We have video, ECG and hd-EEG data from 20 healthy subjects and 60 DOC patients, which will allow the development of more precise and robust machine learning models.
Nevertheless, this represents relatively few data given the large variability between patients. Thus strong priors and regularisation are needed to avoid overfitting. Also specific pre- and post-processing methods will help to reduce the noise and decrease the dimensionality (e.g. by learning compact feature
embeddings, or by features selection algorithms). For example, we developed a specific filtering algorithm on the output of OpenPose that effectively removes undesired oscillations (due to pixel quantisations) and produces body pose and motion estimates that are much more realistic and that contain fewer artifacts.
Furthermore, different learning strategies and models will be developed to deal with the large amount of noise in general and the imbalance between the amount of relevant data compared to irrelevant data, for example by “rebalancing” the data using other methods or by specific learning mechanisms such as the Multiple Instance learning framework or some type of self-supervised learning.
The combination of these different modalities using new deep learning models as well as the adaptation of our existing models for unsupervised learning multi-variate time series (Berlemont et al. 2017) will allow us to further analyse complex correlations and co-occurences of characteristics and, by focusing on explainable methods and results (explainable AI), give insights into BBE interactions and further give rise to new neuroscientific hypotheses. The findings of such correlation patterns will be another major result that we expect from this project.
Thus, the nature of this research is clearly exploratory, and the expected results will concern both methodological contributions in AI and original methods leading to new knowledge in Neuroscience.

Profil du candidat :
Master in Computer Science, AI, Machine Learning or similar

Formation et compétences requises :
– Good knowledge of machine learning and neural networks and data analysis,
– Strong skills in python programming and PyTorch
– Motivation to work in a multi-disciplinary project
– Scientific curiosity

Adresse d’emploi :
LIRIS – INSA Lyon, 7 Avenue Jean Capelle, 69621 Villeurbanne, France

Stage M2 : Neural Network compression by optimising weight quantisation
Dec 31 2022 – Jan 1 2023 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : 5-6 mois
Contact : stefan.duffner@liris.cnrs.fr
Date limite de publication : 2022-12-31

Contexte :
Deep Neural Networks (DNN) are powerful machine learning models for a large number of applications. However, they may have an enormous number of parameters and require large amounts of memory and computational resources and thus incur a high energy consumption, which makes their use for edge computing difficult.
Several approaches have been proposed to alleviate this problem, e.g. pruning, quantisation or architectural optimisations such as Neural Architecture Search. Although more and more efficient solutions exist also on the practical side (TensorFlow Lite, PyTorch quantization [1], NVIDIA Tensor RT etc.), the deployment of large DNN on embedded systems is still challenging.
Thus, on a more global level, a major concern in reducing the energy consumption related to AI in the cloud as well as on the edge is to make these tools more efficient and more accessible to a larger public.

[1] https://pytorch.org/blog/introduction-to-quantization-on-pytorch/
[2] Renato Cintra, Stefan Duffner, Christophe Garcia & André Leite (2018). « Low-complexity Approximate Convolutional Neural Networks ». IEEE Transactions on Neural Networks and Learning Systems

Sujet :
The goal of this project is to study the state of the art in neural network quantisation and experiment with existing frameworks such as the PyTorch quantisation module. We will particularly focus on post-training static quantisation. The first objective is to implement a simple pipeline (either using one of the existing libraries or from scratch) and make it extensible and adaptable to new algorithms. A set of standard models (MLP and CNN) and some common datasets will serve as a test bench.
A second objective consists in developing and experimenting with new quantisation schemes (fixed-point and floating-point of different precision and different layer-wise/channel-wise strategies).
Finally, a more complex quantisation algorithm that we published earlier [2] should be implemented and adapted to the given framework and pipeline. The developed algorithms should be tested and evaluated (on CPU and GPU hardware).
This internship is part of an industrial exploitation project of research work in collaboration with engineers from Pulsalys (https://www.pulsalys.fr).

Profil du candidat :
Master in Computer Science, AI, machine learning or similar, or final year of engineering school

Formation et compétences requises :
– Good knowledge in machine learning and neural networks
– Knowledge in optimisation is a plus
– Good skills in python programming and Pytorch, scipy, numpy etc.
– Scientific curiosity and creativity
– Motivated to work in a team of researchers and engineers

Adresse d’emploi :
LIRIS – INSA Lyon, 7 Avenue Jean Capelle, 69621 Villeurbanne, France

Jan
1
Sun
2023
Stage LIVIA – La conservation des livres par l’IA
Jan 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ETIS, UMR8051, CY Cergy Paris Université, ENSEA Ce
Durée : 6 mois
Contact : michel.jordan@cyu.fr
Date limite de publication : 2023-01-01

Contexte :
Le contexte du stage est le développement d’un outil permettant de repérer automatiquement les altérations dangereuses sur le dos des reliures pour aider les conservateurs de bibliothèques à évaluer l’état des fonds de livres.

Contacts : Camille Simon Chane, camille.simon-chane@ensea.fr; Michel Jordan, michel.jordan@cyu.fr

Sujet :
Description de la mission :
Le contexte du stage est le développement d’un outil permettant de repérer automatiquement les altérations dangereuses sur le dos des reliures pour aider les conservateurs de bibliothèques à évaluer l’état des fonds de livres. Un premier travail a été réalisé en partenariat avec les Archives. Il a permis de mettre en place un pipeline complet (voir photo) basé sur les techniques de la segmentation sémantique pour repérer les altérations dangereuses sur les reliures des archives du Parlement de Paris, constituant un corpus très homogène d’environ 11 000 ouvrages. Un partenariat avec les Archives nationales du Québec (BanQ) nous a permis d’acquérir et d’annoter des images d’ouvrages plus récents et hétéroclites. Cette base de données est composée de 300 photographies, soit plus de 5000 ouvrages. Il s’agit désormais d’évaluer les algorithmes de segmentation des livres et de détection des altérations sur cette base de données.

L’étudiant sera responsable des tâches suivantes :
1. Évaluation des algorithmes existant sur les nouvelles images
2. Adaptation et développement de nouveaux algorithmes
3. Choix et implémentation de métriques adaptées à l’évaluation de l’état sanitaire.

En sus de l’encadrement scientifique, un dialogue continu avec une restauratrice et avec les bibliothèques guidera le travail. Ce projet permettra à l’étudiant de mettre en pratique ses connaissances en deep-learning dans un contexte avec des contraintes fortes et stimulantes.

Calendrier de travail : nous prévoyons un stage de 6 mois :
– Mois 1 : bibliographie. Prise en main du travail existant
– Mois 1 : Évaluation de la détection de livres
– Mois 2 : Évaluation de la détection d’altérations
– Mois 1 à 3 : Choix et implémentation de métriques
– Mois 2 à 3 : Adaptation de l’algorithme de détection de livres
– Mois 4 à 6 : Développement d’un nouvel algorithme de détection des altérations
– Mois 6 : Rédaction du rapport de stage et de la documentation

A propos du laboratoire ETIS :
ETIS est une unité mixte de recherche (UMR 8051) commune à CY Cergy Paris Université, à l’ENSEA (Ecole nationale supérieure de l’électronique et de ses applications, Cergy) et au CNRS, rattachée principalement à l’INS2I. Le laboratoire mène des recherches aussi bien théoriques qu’expérimentales en vue de permettre à des systèmes de traitement de l’information d’acquérir des capacités d’autonomie. L’autonomie s’entend ici aussi bien en termes d’apprentissage et d’adaptation à l’environnement (y compris l’utilisateur), que de prise de décision et de faible consommation énergétique ou de puissance de calcul par exemple. Les domaines concernés sont l’analyse des données, l’indexation d’images, la robotique développementale, la théorie de l’information et les télécommunications. ETIS est doté d’un pôle de recherche d’excellence en intégration de données pour le patrimoine culturel qui a participé activement au LabEx Patrima et à l’EquipEx Patrimex.

Candidature :
Contacter les responsables du stage, Camille Simon Chane et Michel Jordan.
Date limite de candidature : 31 décembre 2022.
Début du stage : à partir du 1er mars 2023.

Profil du candidat :
Nous cherchons un étudiant en master 2 ou équivalent (ingénieur) dans l’un des domaines suivants: sciences de la donnée, intelligence artificielle, machine learning. Nous cherchons également un candidat qui a une appétence pour les sciences du patrimoine.

Formation et compétences requises :
Des compétences en programmation Python sont indispensables. L’étudiant doit avoir codé, entraîné et paramétré un réseau au cours de ses études. Une expérience avec la librairie PyTorch sera appréciée.

Niveau de qualification requis : Bac + 4/5 et +

Adresse d’emploi :
ETIS, UMR 8051, CY Cergy Paris Université, ENSEA, CNRS

ENSEA
6 avenue du Ponceau
95014 Cergy-Pontoise cedex

Jan
10
Tue
2023
Offre de stage M2 BRGM/Univ.Orléans : Fusion Textes/images sur des tweets de gestion de crise
Jan 10 – Jan 11 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : BRGM, LIFO, PRISME
Durée : 5 mois
Contact : guillaume.cleuziou@univ-orleans.fr
Date limite de publication : 2023-01-10

Contexte :
Aujourd’hui, 2/3 des communes françaises sont considérées comme exposées à des catastrophes naturelles (inondations, séismes, etc.). Il est établi que cette situation s’accentuera dans les prochaines décennies, si bien que l’analyse des témoignages diffusés de manière agile et spontanée sur les réseaux sociaux (tels que Twitter) constituera un formidable outil pour qualifier rapidement et automatiquement l’ampleur des catastrophes et ainsi contribuer aux stratégies de gestion de crise.

Des travaux récents menés dans ce domaine exploitent les techniques d’apprentissage de représentations vectorielles dans des espaces sémantiques pour mener une analyse centrée soit sur le contenu textuel des posts, soit sur les images et/ou les vidéos associées. Bien que ces deux niveaux d’analyse soient complémentaires, l’analyse conjointe des images et du texte qui leur est associé reste difficile à mettre en oeuvre dans le contexte de la gestion de crise.

Sujet :
Certaines techniques multimodales exploitant notamment les captions des images au moyen de Transformers (BERT) ont montré des performances prometteuses sur des tâches de classification sur le corpus de tweets en langue anglaise CrisisMMD.

L’objectif du stage est d’adapter ces techniques multimodales au traitement des tweets en langue française. Cette adaptation offrira différents choix dans la chaîne de traitement, dont – en particulier – la possibilité de travailler dans des espaces de représentation mono- ou multilingues. Il s’agira alors de (1) proposer plusieurs architectures d’implémentation et (2) de les évaluer sur (3) un jeu de données préparé pour l’occasion à partir de sources existantes au BRGM.

L’objectif du stage est d’adapter ces techniques multimodales au traitement des tweets en langue française. Cette adaptation offrira différents choix dans la chaîne de traitement, dont – en particulier – la possibilité de travailler dans des espaces de représentation mono- ou multilingues. Il s’agira alors de (1) proposer plusieurs architectures d’implémentation et (2) de les évaluer sur (3) un jeu de données préparé pour l’occasion à partir de sources existantes au BRGM.

Profil du candidat :
Vous disposez d’une culture scientifique en Machine Learning et d’une expérience dans la mise en oeuvre de modèles de Deep Learning (ex. Transformers). Vous manifestez un intérêt pour l’analyse de données textes et/ou images.

Formation et compétences requises :
Vous êtes étudiant·e en master et/ou école d’ingénieur en Mathématiques/Informatique.

Adresse d’emploi :
Merci d’adresser votre candidature (CV + notes + lettre de motivation) avant le 10/01/2023 à badreddine.farah@univ-orleans.fr et guillaume.cleuziou@univ-orleans.fr.

Document attaché : 202212090739_Annonce_StageM2_2023_CrisisMMDeepL_Orleans.pdf

Jan
14
Sat
2023
Fouille de motifs fréquents pour l’analyse de comportement touristique
Jan 14 – Jan 15 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : DVRC/ESILV
Durée : 5 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2023-01-14

Contexte :
L’appréciation des visites effectuées par les touristes est un enjeu majeur dans le monde du tourisme afin d’anticiper les évolutions de tendances, mais aussi la manière dont ils circulent sur le territoire. Une approche permettant d’estimer cette appréciation est de reposer sur l’extraction de motifs fréquents sur un graphe de circulation, comme l’extraction de Graphlet [1], k-decomposition [2], ou encore les structures cohésives comme les k-plex [6]. Ainsi, les tendances touristiques sont extraites grâce à leurs fréquences d’apparition de manière topologique.

Sujet :
Toutefois, les données touristiques provenant de sites prescripteurs d’expérience tels que TripAdvisor donnent lieu à des volumes difficiles à intégrer dans les techniques traditionnelles de fouille de données. En effet, avec un grand nombre de lieux visité (millions), et un nombre énorme de commentaires laissés par les utilisateurs (milliards), il est nécessaire de développer une nouvelle approche pour le passage à l’échelle d’algorithmes basés sur les graphes.
Pour ce faire, au sein du groupe digital du DVRC, nous travaillons sur le développement en Pregel [3] de différentes approches existantes pour pouvoir définir la meilleure stratégie de fouille de motifs. De plus, l’aspect géodésique des données est un facteur important lié à la topologie des données [4, 5, 7], tout autant que la fréquentation. Nous étudions donc l’adaptation des méthodes existantes pour améliorer l’efficacité de la fouille de motifs basée sur ces informations.
Le but de ce stage est donc double :
– Intégrer des méthodes de fouille de motifs dans une base de données Neo4j (en Pregel/Java).
– Améliorer une méthode pour donner une heuristique de fouille adaptée au contexte géodésique.

Profil du candidat :
Étudiante ou étudiant de niveau M2 en informatique (Master ou école d’ingénieurs).
Connaissances en bases de données, Data Mining, BD graph (Neo4j, Cypher), Java, programmation répartie.

Formation et compétences requises :
Étudiante ou étudiant de niveau M2 en informatique (Master ou école d’ingénieurs).

Adresse d’emploi :
Laboratoire de recherche De Vinci Research Center au sein de l’École Supérieure d’Ingénieurs Léonard de Vinci ; Paris, la Défense.

Document attaché : 202301131702_2023_Stage_GraphMining.pdf

Prediction of weeds growth
Jan 14 – Jan 15 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFAT, Université de Tours
Durée : 4-6 mois
Contact : nicolas.ragot@univ-tours.fr
Date limite de publication : 2023-01-14

Contexte :
This internship takes place inside the regional project DESHERB’ROB (https://desherbrob.insa- cvl.fr) which aims at elaborating new robots for high precision E-agriculture. The robot should be able to localize precisely weeds and to remove them. The originality of the project relies on the use of data coming from drone images as well as temporal data to predict the growth of the weeds and to try to combine them to detect at the earliest the location of weeds apparition. The internship will be done in close relationship with a PhD student.

Sujet :
Goals:
The main goal of this internship is to work on a neural network model taking as inputs local climatic data (temperature, humidity, light…), previous observations about weeds growth during the year, previous observations about geo-localization of weeds in the fields. The geo-localized predictions will be combined with recognition based on image analysis of drone (work of the PhD).

Methodology:
1 A state of the art will be made about neural networks methods for multivariate time series. A focus on transformers and attention mechanism will be done. At the same time, a literature review on grass growth prediction will be conducted, using [Guyet et al. 2022] as a starting point.
2 Data collection, cleaning and preparation will be done, based on known benchmarks as well as true data. Defining experimental protocol.
3 Based on 1, an architecture will be proposed and implemented. As a first step, the geo-localization will not be considered.
4 Learning of the model.
5 Evaluation of the prediction based on several criteria (detection, growth…)
6 Improvements and addition of geo-localization.
7 Documentation, reports and cleaning of the code to make it reusable (using Git)

Profil du candidat :
Academic level equivalent to a Master 2 in progress or Engineer in its 5th year, in computer science with courses in AI and machine learning

Formation et compétences requises :
Skills:
– a good experience in data analysis and machine learning (in python) is required
– some knowledge and experiences in deep learning and associated tools will be highly considered
– curiosity and ability to communicate and share your progress and to make written reports
– ability to propose solutions
– autonomy and good organization skills

Adresse d’emploi :
Computer Science Lab of the Université de Tours (LIFAT), Pattern Recognition and Image Analysis Team (RFAI)
64 av. Jean Portalis,
37200 Tours, France

Document attaché : 202301141932_stage DESHERBROB.pdf

Jan
15
Sun
2023
InteX-ML : Conception d’une plateforme d’aide à l’explicabilité et l’interprétabilité d’algorithmes usuels de Machine Learning
Jan 15 – Jan 16 all-day

Offre en lien avec l’Action/le Réseau : PLATFORM/– — –

Laboratoire/Entreprise : Unité de Recherche LIST3N (Laboratoire Informatiqu
Durée : 6
Contact : babiga.birregah@utt.fr
Date limite de publication : 2023-01-15

Contexte :
En parallèle des progrès du Machine Learning, et particulièrement des modèles « black box » de deep learning, les questions d’interprétabilité et d’explicabilité des décisions algorithmiques occupent une place grandissante aussi bien dans la communauté scientifique qu’auprès du grand public ([1], [2], [3]). Ces deux problématiques constituent l’enjeux majeur pour les chercheurs et les industriels qui souhaitent « garantir » l’acceptabilité des solutions d’IA. De même la standardisation de l’interprétabilité et de l’explicabilité reste un problème ouvert ([4]).
Le projet InteX-ML a justement pour objectif de poser les bases d’une démarche générique pour l’explicabilité et l’interprétabilité des algorithmes de l’IA, en partant de cas usuels.

Sujet :
Objectifs du projet
Le projet InteX-ML a pour objectif de proposer un cadre méthodologique et technique, suffisamment générique, d’aide à l’explicabilité et l’interprétabilité d’un algorithme sur des cas d’usages proposés par l’utilisateur. Il s’agira de construire la première version d’un outil capable de « révéler » les étapes de l’exécution d’un algorithme d’IA à son utilisateur afin de permettre à ce dernier de mieux expliquer les choix et d’ interpréter les résultats associés. Au-delà de l’aide à l’explicabilité il s’agit aussi de fournir une approche « standardisée » d’évaluation des impacts du choix des valeurs d’entrée et des paramètres de l’algorithme.
Méthodologie
Le stage est structuré en trois grandes étapes :
1. Revue de littérature : Identifier le cadre théorique dans lequel s’inscrivent les différents travaux, afin de se positionner vis-à-vis d’un domaine où le vocabulaire n’est pas encore figé (e.g. explicabilité vs interprétabilité vs transparence…). Identifier les types d’explicabilités (model-agnostic vs local) et les méthodes courantes pour chaque type
3. Proposition d’un framework  : Définir les métriques et critères d’explicabilité et d’interprétabilité à retenir dans le cadre de ce projet ainsi que l’apport de ces derniers
4. Prototypage : Réalisation d’une plateforme (package logiciel par exemple) intégrant ces critères et métriques pour l’XAI d’algorithmes classiques du Machine Learning
Références
[1] Lipton, Z. C. The Mythos of Model Interpretability. ACM Queue (2018)
[2] Adedjouma, Morayo, et al. “Towards the engineering of trustworthy AI applications for critical systems-The Confiance. ai program.” (2022).
[3] Burkart, Nadia, and Marco F. Huber. “A survey on the explainability of supervised machine learning.” Journal of Artificial Intelligence Research 70 (2021): 245-317.
[4] Doshi-Velez, F., & Kim, B. (2017). Towards A Rigorous Science of Interpretable Machine Learning. stat, 1050, 2.

Profil du candidat :
En fin de cursus Ingénieur ou Master, vous avez de bonnes connaissances en Machine Learning et vous souhaiter travailler dans le domaine émergent et challengeant de l’explicabilité de l’Intelligence Artificielle.

Formation et compétences requises :
Vous êtes capable de mener à bien une mission d’analyse et de synthèse bibliographique et de présenter/défendre vos résultats (esprit critique et de synthèse).
Sur le plan technique: Très bonne maîtrise de Python et/ou Rstudio pour le data science.

Adresse d’emploi :
UTT – Université de Technologie de Troyes
12 rue Marie Curie – CS 42060 – 10004 TROYES CEDEX
Tél. : (+33) 03 25 71 58 69

Quantification de l’incertitude liée aux réseaux de neurones : application au diagnostic du cancer du sein
Jan 15 – Jan 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : FEMTO-ST
Durée : 6 mois
Contact : noura.dridi@ens2m.fr
Date limite de publication : 2023-01-15

Contexte :
Les réseaux de neurones (RN) sont largement utilisés dans plusieurs domaines. Toutefois la décision fournie par un algorithme basé sur les RN est munie d’un niveau d’incertitude. Il est important de caractériser ces incertitudes.
Mots-clés : Quantification de l’incertitude, Réseaux de neurones, Dropout, Diagnostic,Cancer du sein.

Sujet :
Dans le cadre de ce projet, l’objectif est de développer une méthode de quantification de l’incertitude pour les réseaux de
neurones pour un modèle de régression. La méthode sera appliquée pour évaluer le stade des patientes atteintes d’un cancer du sein en fonction de plusieurs variables histopathologiques. Cette évaluation permettra par la suite de suivre le risque d’évolution de la maladie en associant un niveau de confiance, nécessaire pour un usage clinique. La
mesure de l’incertitude permettra aux praticiens de prendre des décisions adaptées pour la prise en charge des patientes comme par exemple explorer d’autres tests Orucevic et al. (2019).
Objectifs du stage :
— Développer un algorithme basé sur les RN pour la régression entre le stade de la patiente et un ensemble de variables explicatives.
— Optimisation de l’architecture du réseau ainsi que les différents hyperparamètres.
— Quantifier l’incertitude en se basant sur le dropout Gal and Ghahramani (2016b) et Gal and Ghahramani (2016a).
— Valider et comparer l’approche proposée avec d’autres techniques de la littérature (par exemple la régression distributionnelle Stasinopoulos et al. (2018) ou le RN bayésien Graves (2011)

Profil du candidat :

Etudiant.e de Master 2 ou en dernière année d’école d’ingénieur.

Formation et compétences requises :

Mathématiques-appliquées, machine learning, deep learning, programmation Python.

Adresse d’emploi :
FEMTO-ST/AS2M, UMR CNRS 6174
24 rue Alain Savary, 25000 Besançon

Document attaché : 202211241318_Sujetdestage_ND_DATA-PHM.pdf

Jan
24
Tue
2023
Internships on Deep Learning, inverse problems and Geoscience
Jan 24 – Jan 25 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : Lab-STICC/IMT Atlantique
Durée : 6 months
Contact : ronan.fablet@imt-atlantique.fr
Date limite de publication : 2023-01-24

Contexte :
We open internship offers in the framework of AI chair OceaniX (https://cia-oceanix.github.io/) to develop Physics-Informed AI for Ocean Monitoring and Surveillance.

Contact: Ronan Fablet, ronan.fablet@imt-atlantique.fr

Sujet :
Data-driven and learning-based strategies for the analysis, modeling and reconstruction of dynamical systems are currently emerging as promising research directions as an alternative to classic model-driven approaches for a wide variety of application fields, including atmosphere and ocean science, remote sensing, computer vision…. [2,3,4]. Especially, deep learning schemes [1] are currently investigated to address inverse problems, i.e. reconstruction of signals or images from observations. Especially, recent works [e.g., 3,4] have shown that one can learn variational models and solvers for the reconstruction.
These internships will specifically investigate the development of deep learning inverse models for the space-time reconstruction of geophysical dynamics from partial observations. We aim to explore and understand how end-to-end neural schemes, such as 4DVarNets [3,5], provide new means to address limitations of operational data assimilation systems, especially for applications to ocean modeling and forecasting using satellite and in situ observations. Both simulated and real case-studies will be of interest.

Keywords: deep learning, inverse problems, data assimilation, space oceanography

Profil du candidat :
MSc. and/or engineer degree in Applied Math., Data Science and/or Computer Science with a strong theoretical background, proven programming skills (Python).

Formation et compétences requises :
Knowledge of deep learning models and a first experience with Pytorch would be a plus.

Adresse d’emploi :
IMT Atlantique, Brest

Document attaché : 202211240841_sujet_stage_4DVarNet_DA2022.pdf

Stage M2 : multimodal emotion recognition / reconnaissance d’émotion multimodale
Jan 24 – Jan 25 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ImViA
Durée : 6 months
Contact : yannick.benezeth@u-bourgogne.fr
Date limite de publication : 2023-01-24

Contexte :
Titre : reconnaissance d’émotion multimodale
Laboratoire ImViA (Univ. Bourgogne)
Location: Dijon France
Supervisor: Yannick Benezeth – yannick.benezeth@u-bourgogne.fr – https://sites.google.com/view/ybenezeth
Keywords: Image and signal analysis, deep learning, emotion recognition, fusion
If you are interested, send CV and motivation letter to yannick.benezeth@u-bourgogne.fr

Sujet :
(english below)
Percevoir les émotions des personnes qui nous entourent est vital dans la vie quotidienne et améliorerait les interactions hommes-machines. Les humains modifient souvent leur comportement lorsqu’ils interagissent avec les autres en fonction des émotions qu’ils perçoivent. Les premiers travaux sur la reconnaissance des émotions ont été principalement des approches unimodales, basées sur l’analyse de la parole, du texte ou des expressions faciales. Ces modalités peuvent nous fournir des informations sur l’émotion perçue mais c’est l’exploitation de la complémentarité de ces modalités qui a conduit à de bons résultats récemment et donne également de meilleurs résultats sur les bases de données non contrôlées [1].
Dans le cadre de ce stage, nous proposons de développer un système complet de reconnaissance des émotions basé sur l’intégration et la combinaison des différentes technologies d’analyse de l’image et de l’audio. Nous développerons tout d’abord, à partir d’outils et logiciels disponibles dans la littérature, des systèmes de reconnaissances d’émotions unimodaux basés sur les expressions faciales, les caractéristiques linguistiques et paralinguistiques, le comportement et les signaux physiologiques (EDA, HRV et HR) [2] et nous développerons ensuite une fusion de ces modalités.
Le logiciel développé devra réaliser tous les traitements en temps réel et un travail sur l’optimisation devra être réalisé.

*******************
Perceiving the emotions of people around us is vital in everyday life and would certainly improve human-machine interactions. Humans often modify their behavior when interacting with others according to the emotions they perceive. Early work on emotion recognition was mainly unimodal approaches, based on speech, text or facial expression analysis. These modalities can provide information on the perceived emotion but it is the exploitation of the complementarity of these modalities that has led to good results recently and also gives better results on in-the-wild databases [1].
In the framework of this internship, we propose to develop a complete emotion recognition system based on the integration and combination of different image and audio analysis technologies. We will first develop, using tools and software available in the literature, unimodal emotion recognition systems based on facial expressions, linguistic and paralinguistic features, behavior and physiological signals (EDA, HRV and HR) [2] and then we will develop a fusion of these modalities.
The developed software will have to perform all the processing in real time and therefore a work on optimization will have to be done.

Profil du candidat :
L’étudiant recruté devra avoir de bonnes connaissances en programmation, avec par exemple les systèmes multi-thread et le développement d’interfaces graphiques (en Python par exemple).

*****
The student recruited should have a good knowledge of programming, with for example multi-threaded systems and the development of graphical interfaces (in Python for example).

Formation et compétences requises :
Computer science

Adresse d’emploi :
Dijon

Jan
26
Thu
2023
Création d’une ontologie pour le domaine de la métabolomique
Jan 26 – Jan 27 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Plateau de profilage métabolique et de metabolomiq
Durée : 6 mois
Contact : olivier.filangi@inrae.fr
Date limite de publication : 2023-01-26

Contexte :
INRAE est un institut de recherche public œuvrant pour un développement cohérent et durable de l’agriculture, l’alimentation et l’environnement. Pour répondre à des questions scientifiques de plus en plus complexes, il est souvent nécessaire de combiner des données provenant de banques de données publiques. La manière de représenter
ces données peut varier en fonction des communautés scientifiques ou des outils utilisés pour les produire par exemple. Dans ce cas, il est nécessaire de formaliser la manière de représenter et de
nommer les objets du domaine d’étude ainsi que leurs propriétés. Cette étape se concrétise généralement par la constitution de ressources sémantiques telles que les thésaurus et les ontologies.
L’infrastructure nationale de métabolomique MetaboHUB a pour objectif de fournir des outils technologiques de pointe et des services en métabolomique et fluxomique aux équipes de recherche académiques et à des partenaires industriels dans les domaines de la santé, de la nutrition, de l’agriculture, de l’environnement et des biotechnologies. Dans le cadre de sa nouvelle feuille de route, un des objectifs principaux est de favoriser une meilleure intégration des données et des services MetaboHUB au sein du consortium et au-delà. Les études actuelles sur le
métabolisme nécessitent l’utilisation d’un nombre croissant de ressources de données, complexes, produites ou stockées et au sein des plateformes de métabolomique et sur le Web.

le projet MetaSaurus réunit des experts en ingénierie des connaissances et en science des données du domaine de la métabolomique avec pour objectif de bâtir un modèle de connaissance adapté aux études
métabolomiques en s’appuyant sur les ontologies, thésaurus et vocabulaires contrôlés publiés (Thesaurus INRAE, Ontologies OBO Foundry / BioPortal).

Sujet :
Produire une ontologie adaptée au domaine de la métabolomique et les supports méthodologiques d’accompagnement de la démarche

A partir des spécifications du projet MetaSaurus et de la description des étapes d’intégration de données en métabolomique, le projet consistera à élaborer la première version d’une ontologie dédiée à la métabolomique. Vous étudierez les modalités de réutilisation des ressources sémantiques existantes en lien avec la maintenance de cette ontologie (mis en œuvre des principes OBO) et intégrerez l’environnement de gestion de l’ontologie dans une forge logicielle. L’implémentation de l’ontologie sera réaliser au format OWL. Cette démarche fera l’objet d’une proposition de méthodologie générique qui pourra être transposée à d’autres cas d’études.

Profil du candidat :
Étudiant de niveau master 2

Formation et compétences requises :
– Connaissances générales des standards du web sémantique (OWL/RDF) et des outils : Protégé, Github.
– Aptitude à la rédaction de documentation technique
– Maîtrise de l’anglais technique (lu)

Adresse d’emploi :
P2M2
Domaine de, La Motte Bat 305, 35650 Le Rheu

Document attaché : 202210171248_Stage_IngenierieConnaissance_Metabo.pdf

Jan
30
Mon
2023
apprentissage automatique pour la prévision météorologique
Jan 30 – Jan 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR SPE
Durée : 5 à 6 mois
Contact : paoli_c@univ-corse.fr
Date limite de publication : 2023-01-30

Contexte :
Ce stage s’inscrit dans le cadre du projet ANR SAPHiR1 (“Sensor Augmented weather Prediction at HIgh Resolution”) coordonné par le laboratoire Sciences Pour l’Environnement (SPE) UMR CNRS 6134. Ce programme scientifique consiste à proposer de nouvelles méthodes de prévision d’événements météorologiques rares et extrêmes à haute résolution spatiale et temporelle. Dans ce contexte, deux missions complémentaires sont envisagées, la première orientée analyse de données et Machine Learning (ML), la seconde orientée ingénierie logicielle.

Sujet :
Missions : deux missions complémentaires sont envisagées
1. ML : le stagiaire aura pour mission de développer des codes informatiques permettant de prédire des séries temporelles environnementales, basés sur des techniques et architectures de Deep Learning. Le stagiaire participera également à l’analyse et la gestion des données hétérogènes nécessaire au projet : données météorologiques historiques, données issues de capteurs, données Lidar SAETTA2, images satellites, etc.
2. Ingénierie logicielle : le stagiaire aura pour mission de réaliser une application Web/mobile (multi-plateformes type Flutter) pour la visualisation grand-public des données et résultats de simulation. Le stagiaire participera à la réflexion de l’architecture du SI de SAPHIR : déploiement continu, structuration des codes, etc.

Profil du candidat :
Profil recherché : Bac+5 Informatique – Mathématiques

Modalité de candidature : envoyer un mail à paoli_c@univ-corse.fr en joignant un CV, une lettre de motivation et vos relevés de notes postbac. Un classement en année n-1 serait un plus nous permettant de bien compléter le dossier.

Formation et compétences requises :
Compétences requises : Développement Web/Mobile – Analyse de données – Machine Learning – Python – Gestionnaire de versions – autonomie – intérêt pour la recherche et le travail en équipe.

Adresse d’emploi :
UMR SPE 6134 – Université de Corse – Travail possible en télétravail occasionnel

Document attaché : 202212130946_2022-12-09-cpaoli-offreStageM2-Saphir.pdf

Enhancing earthquake location with domain adaptation
Jan 30 – Jan 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut de Physique du Globe de Paris, Université
Durée : 6 mois
Contact : seydoux@ipgp.fr
Date limite de publication : 2023-01-30

Contexte :
Earthquakes express stress release in active geological objects and provide information about the underlying physical processes, such as fluid migrations and stress perturbations [1]. Therefore, our primary motivation is to form accurate seismic catalogs to enable precise monitoring of such active systems. The quality of seismic catalogs involves detection capabilities and location accuracy and depends on the geometry of the seismic station arrays [2] and the background seismic noise [3]. Since the 2000s, seismologists have densified and extended seismic networks in different seismically active areas to build high-quality catalogs [4]. This is the case of the eruption in Mayotte that triggered the deployment of ocean-bottom seismometers and land seismic sensors in the area [5]. The earthquake catalogs inferred in those areas prove of high quality, providing a better understanding of the region’s dynamics thanks to high-resolution seismic catalogs illuminating the geophysical features. But ocean- bottom seismometers are often deployed temporarily because of their maintenance cost, providing time-limited, high-quality data.

References:
1. Namiki, A. et al. Volcanic activities triggered or inhibited by resonance of volcanic edifices to large earth- quakes. Geology 47, 67–70 (2019).
2. Poiata, N., Satriano, C., Vilotte, J.-P., Bernard, P. & Obara, K. Multiband array detection and location of seismic sources recorded by dense seismic networks. Geophys. J. Int. 205, 1548–1573 (2016).
3. Longuet-Higgins, M. S. A theory of the origin of microseisms. Philosophical Transactions of the Royal Society of London. Series A, Mathematical and Physical Sciences 243, 1–35 (1950).
4. Rost, S. & Thomas, C. Array seismology: Methods and applications. Reviews of geophysics 40, 2–1 (2002).
5. Saurel, J.-M. et al. Mayotte seismic crisis: building knowledge in near real-time by combining land and
ocean-bottom seismometers, first results. Geophysical Journal International 228, 1281–1293 (2022).

Sujet :
This work aims to correct the systematically biased hypocenters obtained with a permanent seismic array from the hypocenters inferred with a temporary array with an adequate geometry, as illustrated in the figure below. We consider the case of Mayotte to develop the method and show the potential outcomes on other datasets of interest. We will learn the catalog bias from the events detected with the trusted array over five weeks and test the prediction quality over one week. Once successful, we will deploy the technique over several years of continuous data at Mayotte and other contexts.

Profil du candidat :
We seek candidates with a strong taste for programming, physics, and inverse problem-solving. A motivated candidate for learning about and applying artificial intelligence techniques is strongly preferred. The target programming language is Python, although we are open to other suggestions. We plan to use the Scikit-Learn library or the PyTorch framework to develop the strategy, or equivalent in other languages.

Formation et compétences requises :
Data science
Programming
Signal processing
Physics/Seismology

Adresse d’emploi :
Institut de Physique du Globe de Paris
1, Rue Jussieu, 75005 Paris

Document attaché : 202212131255_DiiP_Master_2023.pdf

Jan
31
Tue
2023
Apprentissage semi- et auto-supervisé exploitant du clustering avec connaissances
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO
Durée : 6 mois
Contact : thi-bich-hanh.dao@univ-orleans.fr
Date limite de publication : 2023-01-31

Contexte :
La cartographie du potentiel minéral consiste principalement à déterminer le lien statistique entre un ensemble d’occurrences minérales (points) et une carte géologique (polygones) dans le but d’indiquer des zones favorables en termes de potentiel minier. La majorité de ces cartes de favorabilité sont générées par des techniques numériques, et notamment depuis quelques années par des méthodes d’intelligence artificielle. Cependant les méthodes actuelles comportent des défauts liés à la qualité des données, à la présence d’approximations infondées et à l’utilisation de méthodes supervisées sur des données majoritairement non annotées [1,2]. Nous nous intéressons à explorer de nouvelles pistes pour améliorer la précision de la cartographie prédictive du potentiel minéral par le couplage d’une part de l’intégration de connaissances géologiques dans des algorithmes de clustering afin d’obtenir des clusters mieux fondées géologiquement, et d’autre part de l’utilisation de méthodes d’apprentissage semi-supervisé ou auto-supervisé pour la construction de carte.

Ce sujet s’intègre dans le cadre du projet ANR Contrats doctoraux IA.iO Artificial Intelligence in Orléans: Learning from heterogeneous data and expert knowledge. Applications in geological and environmental sciences. Le stage sera encadré conjointement par des membres du LIFO et des membres du BRGM. Un financement de thèse est prévue suite à ce sujet.

Sujet :
L’objet du stage est d’étudier les deux volets :
utilisation de méthodes de clustering existantes et intégration de connaissances [3,4,5] en vue d’améliorer les données d’entrées des modèles de prédictivité minérales. Les connaissances géologiques sont des ontologies développées au BRGM.
étude de méthodes semi-supervisées ou auto-supervisées pour détecter des anomalies sur la carte géologique en tirant partie de l’apprentissage non-supervisé (clustering). Le résultat du clustering sera utilisé avec peu de données labellisées pour améliorer le modèle de prédiction d’apprentissage semi-supervisé ou auto-supervisé [6, 7].
Les solutions à étudier incluent l’apprentissage non-supervisé, et l’apprentissage profond avec faible supervision.

Travail attendu :
– Rapport d’étude des méthodes d’apprentissage non-supervisé sur les données géologiques.
– Rapport d’étude des méthodes auto- et semi- supervisées existantes tirant partie de l’apprentissage non-supervisé.
– Etude et implémentation d’une nouvelle méthode (ou amélioration d’une méthode existante)

Profil du candidat :
– Profil Informatique, machine learning ou mathématique appliquée.
– Capacité de synthèse et de rédaction permettant une restitution régulière, claire et efficace du travail effectué.

Formation et compétences requises :
Master et/ou école d’ingénieur en Mathématiques/Informatique

Adresse d’emploi :
Les candidats sont encouragés à nous contacter au plus tôt possible. Envoyez nous votre candidature à Thi-Bich-Hanh Dao (thi-bich-hanh.dao@univ-orleans.fr) en joignant votre dossier en un seul fichier pdf, comprenant un CV, une lettre de motivation et vos relevés de notes depuis le baccalauréat. Les documents peuvent être en anglais ou en français.

Document attaché : 202212150852_Stage-2023.pdf

Classification de lésions intrahépatiques en histopathologie par apprentissage profond (deep learning)
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CReSTIC
Durée : 4 à 6 mois
Contact : eric.desjardin@univ-reims.fr
Date limite de publication : 2023-01-31

Contexte :
Les cholangiocarcinomes représentent un groupe hétérogène de cancers développés à partir des canaux biliaires intra ou extra-hépatique. Le diagnostic est histologique, souvent réalisé sur biopsie. Il peut être difficile à établir en raison de la ressemblance morphologique de certains cholangiocarcinomes avec d’autres ou avec des lésions intra-hépatiques bénignes comme l’adénome ou l’hamartome biliaire.
Le but de ce projet est de développer un algorithme diagnostique basé IA permettant de prédire avec une précision optimale le diagnostic de malignité/bénignité des lésions ductulaires intra-hépatiques. Dans ce contexte, il s’agira d’explorer, développer et expérimenter des architectures de réseaux de neurones profonds permettant de classer ces lésions avec une prédiction diagnostique optimale.

Sujet :
Ce stage se positionne dans le cadre d’un projet pluridisciplinaire qui regroupe des experts en informatique, histopathologie et médecine associant IA et Imagerie médicale.
La première étape du projet s’est concentrée sur la collecte et l’annotation des données, la sélection des patients puis le recueil des données cliniques, la numérisation des lames et l’annotation des lames virtuelles.

Le stage proposé débute à la suite de ces travaux préalables sur les données. Le travail à réaliser concerne le développement d’algorithmique pour la classification des lésions histologiques sur les lames numérisées par réseaux de neurones convolutifs (deep learning). Le schéma d’analyse suivant est proposé :
• Segmentation des régions d’intérêt (ROI) annotées sous formes d’imagettes de même taille (tuiles) ; puis extraction de ces tuiles. Les lames numériques annotées entières étaient trop lourdes pour les analyses utilisant les réseaux de neurones convolutifs ; il est nécessaire de segmenter les régions annotées en petites imagettes (tuiles) le plus souvent de 256 pixels de côté pour réaliser les analyses. Le programme d’extraction permet de conserver les données d’annotation et la coordonnée de la tuile dans la lame afin de présenter les résultats de probabilité diagnostique sous forme de carte de prédiction sur la lame numérique.
• Développement et entraînement de réseaux de neurones convolutifs (CNN) alimentés par les tuiles extraites des ROI classées (bénin / malin) sur une cohorte d’entraînement. Si le modèle U-net est bien identifié dans le cadre du traitement des images en histopathologie computationnelle, diverses autres architectures de CNN et/ou prétraitements des données, méritent d’être investigués dans un objectif de recherche de la structure la plus efficace et la plus robuste. Cette phase est généralement très consommatrice en termes de ressources humaines et matérielles. La plateforme OpenMOLE sera la base de plans d’expérimentation de recherche des meilleurs solutions (architectures, paramètres, ensembles d’apprentissage et de validation…) grâce à une distribution automatisée des tâches sur des environnements de calculs intensifs et un recueil centralisé des résultats pour analyse.

Profil du candidat :
Le(la) candidat(e) sera en Master 2 ou en 3e année d’école d’ingénieur.

Formation et compétences requises :
Compétences impératives :
• Intelligence artificielle, machine learning, deep learning
• Programmation Python
• Librairies usuelles de deep learning (TensorFlow, Keras. . . )
• Analyse d’images
Compétences souhaitées mais non-indispensables :
• Imagerie histopathologique

Adresse d’emploi :
Université de Reims Champagne-Ardenne, site de Reims
Laboratoire CReSTIC, Campus Moulin de la Housse

Document attaché : 202211081618_CHOLANGIA.pdf

Définition et validation d’une ontologie de profil d’apprenant dans le domaine de l’éducation
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : EducAction/– — –

Laboratoire/Entreprise : LIG (Laboratoire d’Informatique de Grenoble)
Durée : 6mois
Contact : fabrice.jouanot@univ-grenoble-alpes.fr
Date limite de publication : 2023-01-31

Contexte :
Ce stage s’inscrit dans la perspective des travaux sur l’AIED (AI for Education) et propose d’aborder la question de montée en compétence pour tous sous les angles informatiques et éducation. L’objectif est de repenser sous un œil éthique les différentes approches de recommandation de contenus numériques adaptées aux besoins et niveaux des apprenants, de repenser le partage de connaissances par des modalités d’accès et d’interaction diverses. La finalité étant de poser les premières briques pour la définition de protocoles d’expérimentation robustes et reproductibles permettant le test d’hypothèses à grande échelle pour les sciences de l’éducation. L’utilisation des technologies éducatives (EdTech) fondées sur les avancées récentes dans les SDEF (sciences de l’éducation et de la formation) et de la science des données est une voie prometteuse pour aider les acteurs de l’éducation. Cependant les EdTech restent encore limitées en termes de modèles de représentation des interactions sociales et de l’apprentissage.

Sujet :
Ce stage se concentre sur la compréhension et la représentation des contextes et besoins des acteurs de l’éducation. L’objectif est le développement d’une représentation à base d’ontologies des données des acteurs et des primitives d’accès à ces données qui prennent en compte le respect de la vie privée. Il est aujourd’hui nécessaire de concevoir des modèles de représentation des connaissances et de la capacité d’apprentissage des apprenants qui soient riches et évolutifs en se basant sur les modèles qui existent dans le domaine de l’apprentissage ou de la recherche d’information. Nous désirons proposer des outils de manipulation et d’interrogation de parcours, basés sur la navigation dans les bases de connaissances.
Des plateformes d’apprentissages existantes serviront de sources pour guider la définition d’une ontologie de profil d’apprenant et serviront à valider cette ontologie. Ces plateformes seront SIDESNG la plateforme nationale d’enseignement en santé et LabNbook, qui s’intéresse principalement aux compétences scientifiques expérimentales (lycée et supérieur).

Résultats attendus :
• Définir OntoEduc, le cœur d’une ontologie de profil d’apprenant (capacité d’apprentissage), à partir des référentiels de connaissances existant
• Étendre OntoSides, l’ontologie pour l’apprentissage en santé, avec les concepts d’OntoEduc.
• Valider les profils d’apprenants créés par OntoEduc sur leur capacité à prédire la réussite des apprenants aux tâches proposées dans Sides.
• Transposer les principes mis en œuvre dans OntoEduc et OntoSides à la plateforme LabNbook afin d’utiliser une ontologie des connaissances en sciences expérimentales pour inférer les profils épistémiques des apprenants dans ces domaines.

Technologies :
• Outils de gestion d’ontologie : Protégé, TopBraid
• Développement Java et/ou Python
• Outils de gestion de graphe de connaissance : Jena, Virtuoso, GraphDb

Profil du candidat :
Parcours Informatique / IA (BAC + 5 en cours),

Formation et compétences requises :
Connaissances souhaitées des technologies du web sémantique (RDF, SPARQL),
Niveau correct en français

Adresse d’emploi :
Laboratoire d’Informatique de Grenoble – Université de Grenoble (38)

Document attaché : 202301031412_Stage_Emergence.pdf