Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Mar
31
Wed
2021
Application of deep learning to LST1 real data
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LAPP et LISTIC
Durée : 4 à 6 mois
Contact : thomas.vuillaume@lapp.in2p3.fr
Date limite de publication : 2021-03-31

Contexte :
voir fichier joint

Sujet :
A specific neural network has already been developed on simultated data of Cherenkov Telescope Array. With the acquisition of the first real data, the performances of the network must now
be evaluated. After a first step of evaluation, the intern will work on improving the performances of the network based on transfer learning methods or by developing semi-supervised learning methods.

Profil du candidat :
voir fichier joint

Formation et compétences requises :
voir fichier joint

Adresse d’emploi :
Laboratoire LAPP Annecy

Document attaché : 202102061037_202011_GammaLearn_M2_internship_proposal.pdf

Détection de communautés multicouches sur réseaux complexes issus des images satellites
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2021-03-31

Contexte :
Le CIRAD est engagé dans le développement des agricultures des Pays du Sud, où la réduction de la pauvreté et la sécurité alimentaire sont des préoccupations sensibles. Ce développement passe notamment par le déploiement de solutions numériques innovantes, incluant des méthodologies alternatives pour modéliser et analyser les informations contenues dans les séries temporelles d’images satellitaires.
Dans ce contexte, le projet AMORIS a pour objectif d’explorer les possibilités de caractérisation spatio-temporelle de paysages à grande échelle par une approche de modélisation fondée sur les objets géographiques à des échelles plus fines, en passant donc par une représentation du paysage sous forme de graphes multiples d’interaction à dimensions élevées. Un modèle qui d’appuie sur de tels réseaux complexes conduit à une représentation spatiale des données satellitaires qui va au-delà de la cartographie classique : en prenant notamment en compte les différents types de relations entre objets ou segments identifiés dans les images, correspondant aux éléments « primitifs » du paysage (parcelles agricoles, tâches de végétation naturelle, îlots et structures artificialisés, etc.), ces modèles structurent l’information permettant de remonter vers l’identification d’unités paysagères à plus grande échelle, ayant une connotation « fonctionnelle » homogène dans le paysage. De plus, cette modélisation sous forme de réseaux complexes permet d’appliquer des méthodes récentes d’analyse de réseaux afin de caractériser ces unités paysagères à partir d’information non seulement spectrale ou texturale, et ce de façon non supervisée. Ces connaissances obtenues permettent par exemple de mettre en relief l’organisation spatiale des entités qui constituent un paysage en complément de leur dynamique temporelle.

Sujet :
L’objectif de ce stage est d’étudier de façon exhaustive comment des méthodes de détection de communautés multicouches (Magnani et al. 2019)1 peuvent être utilisées pour obtenir une stratification automatique du paysage agricole. Une méthodologie proposée en 2019 dans le cadre du même projet (Interdonato et al., 2019)2 sera utilisée pour modéliser une série temporelle d’images satellitaires Sentinel-2 sous forme de réseaux multicouches. Différentes méthodes de détection de communautés multicouches seront ensuite testées pour l’identification des différentes unités paysagères.
Plusieurs zones d’étude seront prises en considération, localisées dans des pays de l’Afrique de l’Ouest, et notamment au Burkina Faso et au Sénégal. Ces zones agricoles représentent en effet un terrain particulièrement intéressant pour la méthodologie proposée en raison de la fragmentation et de l’évolution constante des paysages les englobant.

1 Matteo Magnani, Obaida Hanteer, Roberto Interdonato, Luca Rossi, Andrea Tagarelli : Community Detection in Multiplex Networks. CoRR abs/1910.07646 (2019) https://arxiv.org/abs/1910.07646

2 R. Interdonato, R. Gaetano, D. Lo Seen, M. Roche, G. Scarpa : Extracting Multi-Layer Networks from Sentinel-2 Satellite Image Time Series. Network Science, Cambridge University Press (2019)

Profil du candidat :
Etudiant M2

Formation et compétences requises :
L’étudiant(e) sera spécialisé(e) dans la fouille des donnés, et plus spécifiquement dans l’analyse des réseaux complexes et fouille de graphes.
Il/elle devra être à l’aise en programmation, préférablement avec le langage Python. Il/elle devra apprécier la découverte et l’exploration méthodologique, la démarche scientifique, et fera preuve d’un bon esprit d’analyse critique.
Un bon sens du travail en équipe est fortement souhaité, ainsi que le goût pour les collaborations interdisciplinaires. Une bonne culture dans le domaine thématique de l’agriculture en milieu tropicale sera appréciée.

Adresse d’emploi :
Maison de la Télédétection, 500 Rue JF Breton, 34000 Montpellier

Document attaché : 202102051356_Amoris – Sujet de Stage M2 2021.pdf

Estimation of large-dimensional tensor models and applications in machine learning
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT (SC team, located at ENSEEIHT site)
Durée : 5 to 6 months
Contact : henrique.goulart@irit.fr
Date limite de publication : 2021-03-31

Contexte :
Tensor models are powerful tools for addressing many problems in signal processing, machine learning and beyond. Yet, their use in these applications typically requires estimating a low-rank tensor from a set of observations corrupted by noise, which is often a difficult task. Moreover, in most cases there is currently no theory for predicting the actual estimation performance that can be attained.

To overcome this gap, in recent years several researchers have studied the asymptotic statistical performance of ideal and practical estimators in the large-dimensional regime, where the size of the tensor grows large. In particular, these works have uncovered the abrupt phase transition that the performance of an ideal estimator may undergo as the signal-to-noise ratio grows. While some important advancements have been achieved, many scenarios of practical interest remain unexplored, as well as the practical implications of the existing results in applications.

Sujet :
The overall goal of this internship is to study extensions and applications of the existing results, as a first step for pushing the existing theory beyond its current limits. We will in particular consider extensions to more general tensor models that apply to larger classes of real-world problems, including e.g. asymmetric models. Application to practical machine learning problems — such as community detection in hypergraphs, latent variable model estimation and high-order co-clustering — will also be considered.

The intern will initially perform computer simulations aimed at understanding the behavior of ideal and practical estimators in the target scenarios/applications. Some theoretical results may then be derived on the basis of these experimental findings. Scientific dissemination of these findings will also be encouraged, via publication of papers and/or participation in scientific events.

A PhD thesis may be proposed to the intern at the end.

Please refer to the attached document for further details.

Profil du candidat :
We look for strongly motivated candidates with a solid background on mathematics and statistics, having good programming skills in scientific computing languages (Python, Matlab, Julia). Basic knowledge or interest in random matrix theory is a strong plus.

Formation et compétences requises :
Master 2 student in applied math, statistics, computer science, signal processing or other related fields.

Adresse d’emploi :
2, rue Charles Camichel
31071 Toulouse, France

Document attaché : 202010191312_M2-internship-2021.pdf

Exploration visuelle et interactive de traces
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : 5-6 mois
Contact : beatrice.fuchs@liris.cnrs.fr
Date limite de publication : 2021-03-31

Contexte :
Les traces numériques d’interactions sont des informations laissées par les utilisateurs d’un système informatique lors de leurs activités. Elles témoignent de l’expérience des utilisateurs dans un environnement numérique et constituent des sources de connaissances intéressantes qui peuvent être exploitées à des fins variées en accord avec l’utilisateur. Une fois collectées et modélisées, les traces sont des conteneurs de connaissances riches en informations contextuelles et utilisables à la fois à des fins d’analyse pour inférer des connaissances pertinentes sur l’activité menée par les utilisateurs et également à des fins d’assistance à l’utilisateur. L’équipe TWEAK s’intéresse à des systèmes à base de traces où les traces sont associées à un modèle explicite avec une sémantique expressive sous la forme de traces modélisées. L’équipe a développé des approches visuelles et interactives pour analyser les traces.

Sujet :
Dans ce contexte, le stage a pour objectif de contribuer au développement de prototypes d’exploration de traces. Plusieurs sujets sont possibles :
1°) Visualisation multidimensionnelle de traces : il s’agit d’étudier et concevoir une visualisation interactive de traces en fonction de dimensions paramétrables, et proposer une première implémentation.
2°) Contribution au développement d’un laboratoire d’analyse de traces à partir de la plateforme TRANSMUTE d’exploration visuelle et interactive de traces. TRANSMUTE s’appuie sur un environnement visuel et interactif basé sur html/CSS/JS pour l’exploration visuelle et interactive de traces et exploite un framework de visualisation de traces, un algorithme d’extraction d’épisodes séquentiels (DMT4SP) encapsulé dans un module Python appelé DISKIT qui assure les pré- et post- traitements. Une ou plusieurs directions peuvent être étudiées, parmi lesquelles : le choix les mesures d’intérêt (actuellement prédéfinies et limitées) afin d’ordonner des résultats de la fouille, l’enrichissement des possibilités de pré-traitement, de post-traitement et de paramétrage (découpage des traces, patterns négatifs, combinaison d’attributs en pré-traitement, etc.), l’assistance à la construction d’un modèle à partir des épisodes séquentiels retenus à l’issue de la fouille et mémorisation dans un système de gestion de base de traces.
3°) Assistance à l’acquisition de connaissances à partir de traces : KATIE est une approche d’acquisition de connaissances qui vise à assister, en interaction avec l’utilisateur, le processus de modélisation et d’intégration des traces dans un système à base de traces, en détectant et corrigeant les erreurs résiduelles dans les données (données bruitées ou manquantes). Cette approche utilise l’analyse de concepts formels pour générer un modèle des données analysées. Le processus d’acquisition de connaissances est interactif et itératif et permet à l’utilisateur d’introduire des contraintes afin d’identifier des erreurs dans les données et les corriger.

Profil du candidat :
Le candidat doit être motivé pour le développement.

Formation et compétences requises :
2ème année de master / dernière année d’école d’ingénieur
Le candidat doit avoir des compétences en programmation web, Javascript et Python et des notions en fouille de données.

Adresse d’emploi :
Lyon

Document attaché : 202012161546_stage_m2_2021.pdf

Quantification d’incertitude en apprentissage profond pour la mécanique des fluides
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIMSI – CNRS
Durée : 5 mois
Contact : mathelin@limsi.fr
Date limite de publication : 2021-03-31

Contexte :
L’apprentissage automatique, et l’apprentissage profond en particulier, a impacté un très grand nombre de domaines et d’applications en quelques années. Ses performances souvent remarquables, couplées avec la disponibilité de grandes bases de données et de plateformes
logicielles efficaces et ergonomiques, en font un outil privilégié dans beaucoup d’applications en mécanique. Cependant, une des limites de cette classe d’approche est due au manque d’interprétabilité des modèles appris qui restent ainsi trop souvent des « boites noires ».

La quantification de l’incertitude des prédictions du modèle revêt donc un enjeu important et constitue un champ de recherche actif. Plusieurs approches sont typiquement suivies, selon la quantité de paramètres à prendre en compte (par exemple, nombre de nœuds d’un réseau neuronal), la précision recherchée, le type d’incertitude considérée (épistémique, aléatoire), etc.

Sujet :
Dans ce stage, nous proposons de revisiter certaines de ces approches et de s’appuyer sur des outils méthodologiques récents de modélisation stochastique des systèmes d’équations aux dérivées partielles régissant les systèmes mécaniques. Les développements seront menés tant sur le front des approches d’ensembles par échantillonnage (Multi-Level Monte-Carlo, cubature creuse, Adaptive Design of Experiment) que variationnelles.
Cette étude devrait permettre d’accélérer et d’améliorer la précision des outils de quantification des incertitudes des modèles profonds et donc d’élargir leur champ d’application, notamment en termes de taille de réseau (passage à l’échelle) ou d’architecture (graphes, récurrents, à
mémoire, etc.). Des applications sur des données issues de systèmes mécaniques multi-échelle permettront de tester la sensibilité de la quantification à des incertitudes de différentes natures et à différentes échelles. Une possibilité d’application dans le domaine de l’hémodynamique vasculaire à travers les échelles macroscopiques et mésoscopiques de la circulation sanguine sera investiguée.

Profil du candidat :
Profil: solide formation en mathématiques appliquées, statistiques et data sciences; expérience sur les plateformes d’apprentissage.

Formation et compétences requises :
Profil: solide formation en mathématiques appliquées, statistiques et data sciences; expérience sur les plateformes d’apprentissage.

Adresse d’emploi :
LIMSI, Université Paris-Saclay
à Orsay

Document attaché : 202012102145_Stage_UQ_ML.pdf

Stage M2 : Application du deep learning aux données métabolomiques pour la découverte de biomarqueur
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : ATLAS/– — –

Laboratoire/Entreprise : CEA Saclay, Institut Joliot, Département Médicamen
Durée : 5 mois
Contact : etienne.thevenot@cea.fr
Date limite de publication : 2021-03-31

Contexte :
La caractérisation du phénotype par les approches moléculaires omiques (métabolomique, protéomique) ouvre des perspectives uniques pour la recherche de biomarqueurs dans le domaine de la santé. L’analyse classique des données de spectrométrie de masse (MS) s’effectue sur chaque nouveau jeu de données en deux temps : traitement du signal pour extraire les variables dans les données brutes, puis apprentissage statistique sur ces variables pour générer les modèles prédictifs.

Ces dernières années, les approches de réseaux de neurones profonds (e.g., CNN) directement sur données brutes ont montré des performances de classification très élevées notamment dans le domaine de l’imagerie. Les toutes premières publications dans le domaine de la spectrométrie de masse confirment le potentiel de ce type d’approche.

Sujet :
L’objectif de ce stage est de développer des architectures de type CNN innovantes pour optimiser les étapes de prétraitement des données de spectrométrie de masse MS ou MS/MS, de pronostic et d’annotation. Elle associera les expertises des équipes de science des données du métabolisme et d’imagerie génétique du CEA.

Les modules logiciels seront implémentés pour permettre la détection en routine de biomarqueurs pronostics en santé à partir des analyses métabolomiques sur des cohortes humaines.

Profil du candidat :
Nous recherchons un(e) candidat(e) avec un très bon dossier en mathématiques appliquées (traitement du signal, statistiques et informatique), et motivé par les applications multidisciplinaires (chimie, biologie, clinique).

Formation et compétences requises :
Le master pourra se prolonger par une thèse.

Adresse d’emploi :
Data Sciences for Molecular Phenotyping and Precision Medicine team (SciDoPhenIA)
Département Médicaments et Technologies pour la Santé (DMTS)
CEA Saclay, INRAE, Université Paris Saclay, MetaboHUB
91191 Gif-sur-Yvette cedex
https://scidophenia.github.io/

Apr
30
Fri
2021
Réseaux de neurones pour la prédiction et la classification des ARN non-codants
Apr 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IBISC. Université d’Evry, Université de Paris-Sac
Durée : 6 mois
Contact : fariza.tahi@univ-evry.fr
Date limite de publication : 2021-04-30

Contexte :
Les ARN non-codants (ARNnc) sont depuis quelques années au cœur de recherches particulièrement attrayantes et intensives, notamment dans le domaine biomédical. En effet, les ARNnc sont impliqués dans un grand nombre de maladies, telles que le cancer, le diabète, les maladies neuro-dégénératives, et suscitent un intérêt croissant dans leur utilisation comme biomarqueurs ou comme cibles thérapeutiques. Grâce aux nouvelles générations de séquençage (NGS), le profilage détaillé des molécules d’ARNnc a été considérablement améliorée. Un grand nombre de classes et de types d’ARNnc ont été découverts, mais beaucoup d’autres classes sont encore à découvrir.
L’identification de ces ARNncs est donc un enjeu important, et avec les NGS qui génèrent des volumes considérables de données RNAseq notamment, leur prédiction par des méthodes in silico est nécessaire. Ces méthodes permettront en effet d’identifier des ARNncs potentiels pouvant ensuite être validés par des méthodes expérimentales.

Sujet :
Le but de ce stage est de développer une méthode d’apprentissage automatique multi-sources combinant l’apprentissage supervisé et le non-supervisé, afin d’identifier les ARNncs connus et de découvrir de nouvelles classes, en utilisant des sources de données hétérogènes représentant différentes caractéristiques potentielles associées à ces ARN : leur structure secondaire, la présence de certains motifs dans leur séquence, des caractéristiques épigénétiques, etc. L’algorithme se basera sur des réseaux de neurones supervisés de type perceptron multi-couches (ou MLP) et des réseaux de neurones non-supervisés de type cartes auto-organisatrices (ou SOM pour Self Organizing Maps) pour permettre une meilleure visualisation et interprétation des résultats.

Ce stage fait suite aux travaux menés dans le cadre de la thèse de Ludovic Platon (voir les publications ci-dessous), et s’inscrit dans la continuité des travaux de prédiction des ARNncs et de leurs structures menés dans l’équipe AROBAS depuis plusieurs années. Ces travaux ont donné lieu à plusieurs algorithmes et logiciels publiés dans des revues internationales et mis à disposition de la communauté scientifique via le serveur web :
http://EvryRNA.ibisc.univ-evry.fr

Bibliographie :
– L. Platon, F. Zehraoui, F.Tahi. Localized Multiple Sources Self-Organizing Map. International Conference on Neural Information Processing, ICONIP (3) 2018 : 648-659.
– L. Platon, F. Zehraoui, A. Bendahmane, F. Tahi. IRSOM, a reliable identifier of ncRNAs based on supervised Self-Organizing Maps with rejection. Bioinformatics, 34(17), i620-i628, 2018.
– L. Platon, F. Zehraoui, F.Tahi. Self-Organizing Maps with supervised layer. In Proceedings of the 12th International Workshop on Self-Organizing Maps and Learning Vector Quantization, Clustering and Data Visualization (WSOM+). 2017: 161-168.
– Boucheham A, Sommard V, Zehraoui F, Boualem A, Batouche M, Bendahmane A, Israeli D, Tahi F. PLoS One 2017, 16;12(6):e0179787.

Profil du candidat :
Etudiant en Master 2 d’informatique, de data sciences (ou de bioinformatique). Les étudiants de dernière année d’Ecole d’Ingénieur sont également encouragés à candidater.

Formation et compétences requises :
Le candidat doit maitriser les techniques de machine learning, notamment des réseaux de neurones, ainsi que la programmation.

Adresse d’emploi :
Bâtiment IBGBI. 23 bv. de France. 91000 Evry.

Document attaché : 202012101034_Sujet-Stage-Reseaux-Neurones-Classification-ARNnc.pdf

Offre de stage M2: Identification des paramètres par apprentissage automatique dans le cadre d’optim
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LMEE/IBISC Université Paris Saclay / Univ. Evry
Durée : 5 à 6 mois
Contact : Khalifa.Djemal@ibisc.univ-evry.fr
Date limite de publication : 2021-04-30

Contexte :
Stage de recherche sur la thématique suivante:

Identification des paramètres par apprentissage automatique dans le cadre d’optimisation d’un réseau de capteurs

Sujet :
Titre: Identification des paramètres par apprentissage automatique dans le cadre d’optimisation d’un réseau de capteurs

Description et objectifs du stage:

Il est désormais démontré que la qualité de l’air a un impact sur la santé et devient un sujet de plus en plus préoccupant à l’échelle urbaine. La caractérisation de sources de pollution atmosphérique en environnement urbain devient de ce fait un enjeu important, et repose essentiellement sur l’utilisation d’un grand nombre de capteurs fixes et/ou mobiles.
Les objectifs de ce travail concernent l’identification de paramètres d’optimisation d’un modèle de réseau de capteurs dans le cadre de la géolocalisation de sources de pollution atmosphérique.
En effet, dans un premier temps le candidat réalisera une étude comparative des méthodes récentes d’optimisation de réseau de capteurs. Dans un second temps, il présentera l’intérêt des approches issues de l’intelligence artificielle pour la résolution de ce type de problème.
La dernière partie de ce travail concernera la mise en place d’une méthode d’apprentissage automatique adéquate permettant l’identification des différents paramètres du modèle.

Profil du candidat :
Sujet de stage pour Master 2 ou équivalent, de préférence des spécialités suivantes :
➢ Mathématique/Informatique
➢ Traitement de données
➢ Intelligence artificielle

Formation et compétences requises :
Compétences requises:
➢ Programmation Python, outils de traitement de traitement de données
➢ Méthodes d’apprentissage automatique notamment les techniques d’apprentissage profond

Adresse d’emploi :
Université Paris Saclay / Univ. Evry
IBISC/LMEE
40 rue du Pelvoux
91020 Evry
France

Document attaché : 202103110905_Sujet-stage-M2.pdf

May
1
Sat
2021
Conception d’outils pour la visualisation de trajectoires spatiales agrégées
May 1 – May 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N
Durée : 2/6 mois
Contact : francois.queyroi@univ-nantes.fr
Date limite de publication : 2021-05-01

Contexte :
Le projet régional S&N (Sequences & Networks) a pour objectif l’étude et la conception d’outils pour l’analyse de trajectoires (déplacement routiers, maritimes etc.). Ces traces peuvent être définies comme des séquences discrètes d’événements (e.g. les différents ports visités par un navire). Dans ce cadre, le projet S&N s’intéresse aux relations indirectes entre lieux e.g. sachant qu’un navire vient de Shanghai et est actuellement à Singapour, quelle est sa prochaine destination ? On va ainsi chercher à dépasser la représentation usuelle des déplacements sous la forme de graphes (voir Fig. 1 pdf joint) en utilisant des « réseaux d’ordre supérieur » (voir Fig. 2 pdf joint).

Sujet :
L’objectif du stage est de proposer des outils permettant de visualiser efficacement les séquences spatiales. Des diagrammes comme les « alluvial graphs » (voir Fig. 2c et 2f pdf joint) sont parfois utilisés dans ce contexte. Toutefois la taille des jeux de données rend ce type de visualisation difficile. On va donc s’intéresser à l’agrégation automatique des événements / lieux permettant d’obtenir des modèles qui représentent bien les relations indirectes entre lieux. Ainsi, par exemple, si les navires venant des ports chinois ont des destinations similaires en quittant le port de Singapour, on pourra les considérer comme un objet unique dans le diagramme. Ce travail se basera sur des travaux existants sur la modélisation de trajectoires.

Profil du candidat :
Nous cherchons un.e étudiant.e en L3/M1/M2 informatique (ou équivalent) intéressé.e et ayant des compétences dans l’analyse de données.
– bonne maîtrise de Python
– capacités rédactionnelles
– bon niveau d’Anglais

Formation et compétences requises :
L3/M1/M2 informatique (ou équivalent)

Adresse d’emploi :
Polytech Nantes, Rue Christian Pauc, 44300 Nantes

Document attaché : 202012161413_sujet_master2_2021_fr.pdf

May
3
Mon
2021
Stage Machine Learning Airbus/I2M
May 3 – May 4 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : AIRBUS / Institut de Mathématiques de Marseille
Durée : 6 mois
Contact : badihghattas@gmail.com
Date limite de publication : 2021-05-03

Contexte :
Lors de la mise en service de la première version du logiciel de traitement des pannes d’un
hélicoptère, on constate la détection et l’enregistrement de l’ordre de quelques centaines de pannes
par vol par les systèmes avioniques alors que selon le taux de défaillance théorique global hélicoptère
le nombre de vraies pannes avioniques se situe entre 0 et 1 par vol. Ces détections de fausses
occurrences de pannes polluent l’analyse de données et empêche un traitement efficace des vraies
pannes détectées.
Les données d’entrées sont d’une part, un journal d’évènement contenant les informations :
nom et numéro d’identification de la panne, type d’évènement : apparition ou disparition, temps de
l’évènement et d’autre part les données de contexte correspondants aux données de capteurs de type
réel, enregistrées en continu.

Sujet :
Machine learning pour la ségrégation automatisée des fausses pannes avioniques

Profil du candidat :
Ecole d’ingénieur (Statistiques, Informatique, DataScience) ou Master Data Science.

Formation et compétences requises :
La mise au point de l’outil de prédiction requiert des compétences en développement de moyens d’apprentissage automatique supervisé et non supervisé (clustering, arbres de décision, …) et de modélisation statistique plus classique.
• Le traitement des données de la base centralisée Airbus requiert des compétences SQL, et en langage de programmation (java ou python).

Adresse d’emploi :
A l’Institut de Mathématiques de Marseille à Luminy, avec des déplacements réguliers chez Airbus à Marignane.

Document attaché : 202103031023_Stage-Airbus-I2M..pdf

May
7
Fri
2021
Application of Machine Learning techniques to classify hydroacoustic events in large acoustic databa
May 7 – May 8 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UBO/IUEM/LGO
Durée : 24
Contact : sara.bazin@univ-brest.fr
Date limite de publication : 2021-05-07

Contexte :
Nous avons soumis un sujet de post-doc Marie-Curie pour développer des algorithmes de reconnaissance automatique par apprentissage machine (ML) de signaux de données hydroacoustiques (séismes notamment). Nous disposons de 10 ans d’enregistrements du réseau OHASISBIO dans l’océan indien (https://www-iuem.univ-brest.fr/lgo/les-chantiers/ohasisbio/).
Lien vers l’annonce Euraxess : https://euraxess.ec.europa.eu/jobs/623070
Les candidat.e.s devront avoir passé au moins 12 mois à l’étranger lors des trois dernières années.

Sujet :
Mooring networks of autonomous hydrophones is an effective way for monitoring the ocean soundscape and its sources: undersea earthquakes and volcanic eruptions, marine mammals, iceberg cracks, sea-state, ship noise… For more than 10 years, our laboratory has been maintaining hydroacoustic networks in the open ocean, composed of few hydrophones moored in the sound channel, which acts as an acoustic waveguide, carrying acoustic waves over thousands of kilometers.
In the Indian Ocean, the OHASISBIO network comprises 7 to 9 distant hydrophones continuously recording low-frequency sounds (0-120Hz) since 2010. Its objective is to monitor the seismic activity of mid-ocean ridges, but also the presence and migration patterns of large whales, and the oceanic ambient noise in general. Indeed, mid-oceanic spreading centers generate a large number of earthquakes and thus acoustic waves, indicative of the intervening seafloor spreading processes. Moreover, large baleen whales produce many loud and distinctive calls and songs, which provides clues as to when and where species dwell and migrate. Other sounds of interest are cryogenic sounds produced by icebergs or man-made noises (ship traffic, seismic exploration).
Over the years, passive acoustic monitoring of the ocean results in very large data sets (e.g. 25G/yr/instrument x 10 instr. x 10 years). The preliminary but indispensable, and time consuming step in the data analysis consists in identifying the different types of acoustic events. To achieve a more complete and efficient analysis, we wish to develop a deep learning application for event detection and signal discrimination in our acoustic database.
The fellow will hence develop an automatic detection and classification tool for acoustic signals recorded in the ocean, based on machine learning techniques. Among the wide range of approaches for intelligent classification, we seek for the implementation that would best extract information from our growing acoustic database.
Supervised learning consists in teaching a model how to make classification predictions, here: earthquake, icequake, seismic-shot or whale-call. Parts of the OHASISBIO dataset have already been manually processed and classified, and will serve for training the model.
Once events are detected and classified on several hydrophones, their source can be localized based on their arrival times, the geometry of the network, and the sound-speed in the ocean. Ultimately, resulting seismic catalogs will depict the spatial and temporal seismicity that will help understanding the dynamics of seafloor spreading. Bioacoustic catalogs will be used to establish statistics on the presence of marine mammals and its evolution over the years, a key to developing conservation measures. Ocean noise pollution by man-made noise is becoming a major issue and its evolution has yet to be characterized in the long term. These are among the outcomes expected from a thorough, systematic and enhanced analysis of continuous acoustic recordings in the open ocean, through machine learning techniques.

Profil du candidat :
Applicants must have a maximum of 8 years full-time equivalent experience in research, measured from the date applicants were in possession of a doctoral degree. Years of experience outside research and career breaks (e.g. due to parental leave), will not be taken into account.
Nationality & Mobility rules: Applicants can be of any nationality but must not have resided more than 12 months in France in the 36 months immediately prior to the MSCA-PF call deadline (September 15th, 2021)

Formation et compétences requises :
– Skills in Machine Learning algorithms and their implementation
– Skills in large dataset analysis and signal processing
– Post-doctoral publication(s) in peer reviewed journals, related to these fields
– Experience in acoustics or geoscience will be a plus
– Required Language: English (French is not required)

Adresse d’emploi :
Institut Universitaire Européen de le Mer (Université de Brest), Plouzané, France

May
21
Fri
2021
Fouille de modèle et visualisation de données pour explorer les avenirs d’une zone au Sénégal
May 21 – May 22 all-day

Offre en lien avec l’Action/le Réseau : FENDER/– — –

Laboratoire/Entreprise : CIRAD (Le Centre de coopération internationale en
Durée : 5 à 6 mois
Contact : camille.jahel@cirad.fr
Date limite de publication : 2021-05-21

Contexte :
La zone des Niayes fournit 70% des produits horticoles à Dakar, profitant d’une nappe phréatique peu profonde, d’un climat favorable et de sols fertiles. Mais ces dernières années ont été marquées par une baisse importante du niveau de la nappe et une salinisation progressive des terres par invasion marine, du fait d’une diminution de la pluviométrie. A cela s’ajoute des problématiques de surexploitation des ressources hydriques par les exploitations agricoles, les agro-industries et les exploitations minières qui ne cessent de s’agrandir. Les prévisions climatiques pour les prochaines années, particulièrement alarmantes pour le Sénégal, tendent à montrer que ces tendances risquent de s’amplifier, menaçant directement toutes les exploitations agricoles de la zone.
Il est donc urgent de prendre la mesure de ces changements pour tenter de les atténuer. Dans ce contexte, une série d’ateliers de prospective ont été menés en 2018, qui ont permis de dessiner les contours de scénarios d’évolution des Niayes (www.niayes2040.fr). Mais ces scénarios sont dans un registre narratif et qualitatif et doivent maintenant être illustrés d’indicateurs quantitatifs.
Pour cela, une équipe multidisciplinaire de modélisateurs et thématiciens ont écrit un modèle des dynamiques de la zone des Niayes, à l’aide de la plateforme de modélisation spatiale Ocelet (www.ocelet.fr). Le modèle articule plusieurs modules, et permet de simuler des dynamiques de la nappe phréatique, l’étalement urbain, l’avancée du domaine cultivé, les productions agricoles, les revenus agricoles et les emplois agricoles. Le modèle a été construit de manière à reproduire les dynamiques de ces différents modules observés ces 15 dernières années. Il s’agit pour le stagiaire de calibrer le modèle, d’explorer la diversité des résultats en entrée et en sortie de modèle et enfin de l’utiliser pour simuler les différents scénarios plausibles.

Sujet :
La première partie de ce stage sera la calibration du modèle, en comparant les sorties du modèle pour différents jeux de paramètres aux données d’observation terrain (station d’enregistrement piézométriques, étalement urbain, productions agricoles). Le stagiaire sera amené à effectuer des analyses de sensibilité pour évaluer les réactions du modèle aux variations de conditions initiales. Il cherchera également à mesurer les contributions des différents paramètres d’entrées aux sorties du modèle. Enfin en mobilisant des algorithmes évolutionnaires (NSGA2, PSE), le modèle sera mis sous contrainte pour comprendre les situations optimales et les situations critiques du système. Le stagiaire s’appuiera pour cela des approches développées par la communauté OpenMole (openmole.org) d’exploration de modèle.
Une fois le modèle calibré et vérifié, il s’agira d’identifier dans les résultats de sortie du modèle ceux qui correspondent aux scénarios qualitatifs identifiés par les acteurs en 2018 (approche experte). A partir de cet espace des sorties et en utilisant une des méthodes telle qu’OSE, le stagiaire identifiera dans l’espace des entrées les jeux de paramètres qui conduisent aux espaces des sorties considérées par les experts. Pour cela, des séries de simulations seront lancées sur des périodes simulées de 20 ans, en fonction de jeux de paramètres cohérents avec les scénarios qualitatifs produits plus tôt et en insérant différentes « ruptures » dans les simulations (par exemple, introduction d’un nouveau paramètre en cours de simulation). Ce travail d’exploration et d’analyse de l’espace des sorties sera mené par le stagiaire, en s’inspirant là aussi des travaux de la communauté d’OpenMole.
Si le temps le permet, le stagiaire sera alors à même de produire une interface de visualisation des trajectoires territoriales qui permette aux décideurs et aux chercheurs d’identifier les bifurcations dans les scénarios simulés parmi les avenirs plausibles de la zone des Niayes. Le travail de visualisation des données en sortie – comme par exemple, des cartes d’occurrence de phénomène pour un même scénario, ou une présentation de l’espace des possibles, etc. – fournira le contenu à la plateforme de visualisation.

Profil du candidat :
Le stagiaire devra maîtriser au moins un langage informatique et aura des connaissances en analyse de données. Un intérêt pour les thématiques environnementales, de changement climatique et socio-économiques sera un plus.

Formation et compétences requises :
M1 ou M2 en informatique, analyse de données ou sciences environnementales (avec option info).

Adresse d’emploi :
Maison de la télédétection
500 Rue Jean François Breton, 34090 Montpellier

Document attaché : 202104281633_Fouille de modèle et visualisation de données pour explorer les avenirs plausibles de la zone des Niayes au Sénégal_vf.docx

May
31
Mon
2021
Embedding Representations of Electronic Medical Records
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CHU de Lille – INCLUDE
Durée : 6 months
Contact : include@chru-lille.fr
Date limite de publication : 2021-05-31

Contexte :
1. Medical Context

The High Council on Public Health estimates that 15 million people in France suffer from one or more chronic diseases. This number has increased substantially in recent years, for two main reasons: population ageing, and improved treatments (meaning that formerly fatal, acute diseases have become chronic conditions). In the move towards personalized medicine, there is an increasing need for tools that can detect chronic diseases, provide prognostic information, and predict the occurrence of complications and exacerbations leading to hospitalization.
Furthermore, medical nosology is becoming increasingly complex. The numbers of disease entities, diagnostic tests, biomarkers and treatment modalities have increased exponentially over recent years. As a result, clinical decision-making has also become more complex, and requires the integration and synthesis of a large amount of clinical information. Based on the patient’s complaint and initial signs and symptoms, the physician seeks to rule out a number of potentially serious differential diagnoses. The most useful disease characteristics are identified; when the probability of one of the diagnoses reaches a predetermined level of acceptability, the process is stopped, and the diagnosis is accepted. In some senses, the physician acts as a classifier.
All French hospitals collect medical and administrative data as part of hospital invoicing. Their electronic medical records (EMRs) notably contain original data on lab results, drug prescriptions, and clinical notes. Furthermore, information on outpatients and causes of death are provided as part of the SNDS (Système National des Données de Santé). It is now possible to consider linking outpatient and inpatient data, for a full analysis of the care pathways followed by patients with chronic diseases. Most of the today’s research projects have mainly used structured SNDS data. The search for predictive elements in EMRs requires a focus on more complex, unstructured data such as free text, event sequences, and changes over time in laboratory parameters. Structured information is coded using terminologies with a high number of component items (for example, there are 32,000 codes in the International Classification of Diseases, 10th Edition (ICD-10)); some of these correspond to very similar medical concepts, and could be grouped together and summarized.

2. Methodological context

Unsupervised and weakly-supervised statistical learning methods make it possible to consider building unified representations by synthesizing information from heterogeneous and (in some cases) unstructured data associated with patients. This can be done via “embedding” transformations that provide an alternative representation of the initial objects within a structured mathematical space. The typical purpose of an embedding is to represent initial objects in a small space that preserves or even reveals the structure of the relationships between objects. This is achieved via the introduction of a mathematical distance and/or a reduction in dimension with respect to the initial space.
In the case of natural language in general and words in particular, embedding makes it possible to replace words (represented by a simple numerical index within the vocabulary, or by vectors whose dimension V is that of the vocabulary) by vectors in a Euclidean space of dimension m (where m <<< V) whose relative positions reflect linguistic properties (e.g. semantics or syntactics). This embedding can be based exclusively on informational criteria, e.g. using the GloVE algorithm ([1]); this consists in (i) factoring the co-occurrence matrix of words within a given corpus, and (ii) using one of the resulting matrices as a representation of words in a space of a chosen dimension. In other cases (word2vec [2], BERT [3], etc.), we will rely on an artificial neural network trained on one or more linguistic tasks - the prediction of a hidden word from those surrounding it in a given sentence, for example. Embedding will then corresponds to one of the intermediate representations learned by this network at the end of its training. The methods initially developed to produce "word embedding" in natural language could be transposed to other types of data and objects. In a medical context, it makes sense to produce embeddings of a nomenclature's items, so as to represent mathematically their relationships and notably capture similarities and possible redundancies between items. This can for example be applied (separately) to drugs, symptoms, exams or medical acts. In turn, these representations are of value in developing (for example) decision support and alert systems. For quantitative measures, such as those in a standardized biological exam, embedding methods can be desirable to construct vectors synthetizing multivariate information, at a given date and/or through time. For these data, an embedding can be constructed using simple methods such as PCA or t-SNE, or more complex models such as auto-encoder artificial neural networks, or even adaptations of some network architectures and tasks initially conceived for word embedding. Lastly, following recent research on combining embeddings of different types of related data (e.g. Mixture-of-Embedding-Experts (MEE) [4], Mixture-of-Experts (MOE) [5], or Multi-channel Variational Auto-encoder [6]), learned representations from heterogeneous medical data could be combined into a "patient embedding" representation. The latter (built from massive data in warehouses) could then be transferred to other contexts, providing greater statistical power and thus reducing the number of participants needed for prospective research. Bibliography: [1] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. GloVe: Global Vectors for Word Representation. [2] Tomas Mikolov, Ilya sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. Distributed Representations of Words and Phrases and their Compositionality. arXiv:1310.4546 [cs.CL] [3] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805 [cs.CL] [4] Antoine Miech, Ivan Laptev, and Josef Sivic. 2018. Learning a Text-Video Embedding from Incomplete and Heterogeneous Data. arXiv:1804.02516 [cs.CV] [5] Xin Wang, Fisher Yu, Lisa Dunlap, Yi-An Ma, Ruth Wang, Azalia Mirhoseini, Trevor Darrell, and Joseph E. Gonzalez. 2018. Deep Mixture of Experts via Shallow Embedding. arXiv:1806.01531 [cs.CV] [6] Luigi Antelmi, Nicholas Ayache, Philippe Robert, and Marco Lorenzi. 2019. Sparse Multi-Channel Variational Autoencoder for the Joint Analysis of Heterogeneous Data. ICML 2019. hal-02154181

Sujet :
3. Objectives of the internship

Main objective
The main objective will be the construction of embedding representations for various types of medical data, starting with drugs (based on prescriptions) and biology results (for a set of standard exams). These embeddings will then be used as inputs for supervised machine learning methods in order to predict the occurrence of a health outcome, in a classical biomedical research context. Comparisons to baseline models making use of the “raw” data will be conducted to assess the interest in building (and possibly transferring) embeddings to gain predictive power.
This objective will require the intern to reflect (possibly relying on a literature review) on the adequate embedding methods for each type of data depending on its specificities, to implement the embedding (using open-source software and/or new implementations), and to train both baseline and embedding-based machine learning predictive models. Research on optimal model classes and/or hyper-parameters may be conducted both at the embedding and classification steps.

Additional objectives
Depending on the time, the results and the personal inclinations of the intern, a variety of follow-up and complementary objectives may be pursued:
(a) Embed additional types of data.
Diagnostic and/or medical act codes may be considered for embedding. As for clinical notes (text), existing work conducted in the team may be leveraged, or new solutions may be explored.
(b) Define (and implement) additional tasks to assess the quality of the embeddings.
This open topic, which may involve a literature review, could either leverage available information, or produce specifications for a task involving data annotation to be obtained from clinicians.
(c) Construct a “patient embedding”, aggregating multi-channel information.
This exploratory topic, which should involve a literature review, will aim at producing a “unified” representation of patient data to be leveraged for prediction tasks (and/or additional ones). This global embedding may either be constructed by aggregating data-type-wise embeddings, or by starting back from the raw data.
(d) Reflect on explicability concerns emerging from using embeddings as inputs in a supervised task.
This open topic, which could involve a literature review, may be taken in a variety of directions: searching for embedding and prediction methods that enable deriving clinical knowledge from trained models; defining application cases that do not suffer from the potential lack of explicability arising from using embeddings; etc.

4. INCLUDE and the Lille University Hospital

With a community of 16,000 professionals, the Lille University Hospital is one of the largest campuses of northern Europe dedicated to healthcare, and has become a reference for teaching, innovation and research over the recent years. In 2017, more than 5,000 patients were included in clinical studies, representing a budget of nearly 70 million euros. During the year 2019, INCLUDE, the Integration Centre for the Lille University Hospital for Data Exploration, was authorized by the CNIL to reuse patients’ data (e.g. through routine EMRs) for clinical and methodological research. Data integration is carried out within the data warehouse while the statistical development (in every sense, including machine learning and deep learning) is provided by a team of data scientists with significant computing resources (GPU server). Thanks to the extremely rich scientific environment available on the campus, INCLUDE actively collaborates with various clinical research teams – but also teams from INRIA, INSERM and the University of Lille, to explore the potential of artificial intelligence techniques in healthcare.
Data and practical concerns
The dataset used for this internship will consist in biomedical measurements, drugs prescriptions and clinical notes for a wide group of patients of the Lille University Hospital between 2008 and 2019. This data is currently held in the hospital’s data warehouse, administered by INCLUDE, and is therefore ready to be made available securely on a self-hosted computational infrastructure; an authorization from the CNIL allows its lawful statistical exploitation. The data will not comprise information allowing to identify individuals (identity variables will be dropped, an ad hoc patient id will be used to align data tables, and text will undergo a de-identification process removing sensitive information).
The internship will take place at INCLUDE, with an articulation between remote and office work depending on the sanitary situation and on national and institutional rules and recommendations. Secure remote access to computational resources holding the data will be provided at any rate.
Supervision and support will be handled by both clinicians and data scientists, respectively providing with expert knowledge of the data and biomedical studies in general, and with scientific and technical knowledge and assistance.

Profil du candidat :
Equivalent of a M1 or M2 in Data Science / Computer Science / Statistics.

Formation et compétences requises :
Required:
* Programming in Python (or R), with a focus on scientific libraries
* Theoretical and practical knowledge in Machine Learning

Would be a plus:
* Theoretical and practical knowledge in Deep Learning
* Knowledge of Git and associated development practices
* Interest for and/or prior experience with health data and clinical research

Adresse d’emploi :
CHU de Lille,
Institut Coeur Poumon,
5 Boulevard du Pr Jules Leclerc
59000 Lille

Document attaché : 202102251432_stage_patient_embedding.pdf

Enrichissement de ressources sémantiques du domaine par des connaissances de sens commun.
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIPN
Durée : 5 mois
Contact : manel.zarrouk@lipn.univ-paris13.fr
Date limite de publication : 2021-05-31

Contexte :
Le projet BNI (Bibliothèque Numérique des Idées) [1] offre des fonctionnalités d’accès riches en exploitant des modèles sémantiques dans le domaine de la philosophie. La plateforme indexe actuellement les œuvres de Adam Smith et Francis Hutcheson. Deux types de ressources sémantiques sont exploitées : des thésaurus et des grilles de lecture qui sont des structures arborescentes qui cartographient le champ de pensée des auteurs.

Sujet :
L’objectif du stage est l’enrichissement des ressources sémantiques produites par des connaissances générales qui permet de mettre à profit leur complémentarité.

Cet enrichissement est envisagé en deux parties :
– L’enrichissement statique qui consiste en l’augmentation des ressources du domaine par des entités lexicales et des relations lexico-sémantiques en voisinage direct avec les nœuds déjà existants. Pour ceci nous utiliserons le réseau lexico-sémantique JeuxDeMots (JDM) [2] comme base de connaissance générale.
– L’enrichissement dynamique, qui peut s’appuyer sur des mécanismes d’inférence pour proposer automatiquement de nouvelles relations à partir de celles qui existaient déjà dans le réseau [3]. D’autres pistes sont envisagées qui intègrent l’apprentissage automatique.

Les différentes étapes du travail à réaliser sont les suivantes :
– Mise en place de techniques d’alignement lexical de l’état de l’art
– État de l’art sur les techniques d’enrichissement de connaissances
– Mise en œuvre d’enrichissement statique
– Mise en œuvre et comparaison d’enrichissement dynamique
– Évaluation des propositions dans le cadre du projet

Profil du candidat :
Master 2 en Informatique (orienté recherche).
Bon niveau en Anglais exigé.
Ce stage est proposé à des étudiants qui disposeraient d’un bon niveau académique, d’une curiosité scientifique affirmée et qui envisagent une orientation professionnelle future dans le domaine de la recherche.

Formation et compétences requises :
– Domaines techniques : Intelligence Artificielle, Traitement automatique des Langues, Ingénierie des Connaissances, Extraction d’information à partir de textes, Apprentissage automatique.
– Compétences en développement : Java, Python, PHP

Adresse d’emploi :
Ce stage d’une durée de 5 mois se déroulera au Laboratoire d’Informatique de Paris Nord (LIPN) dans l’équipe Représentation des Connaissances et Langage Naturel (RCLN). Les travaux de l’équipe visent à articuler langage et connaissances pour améliorer les processus d’acquisition de connaissances, d’analyse textuelle, d’exploitation et d’exploration des corpus. L’encadrement sera assuré par Haïfa Zargayouna et Manel Zarrouk. Compte tenu du contexte sanitaire, des arrangements de travail à distance sont envisageables.

Jun
30
Wed
2021
Apprentissage de distance d’éditions entre graphes par Réseaux de Neurones
Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : GREYC/LITIS/LAMSADE
Durée : 6 mois
Contact : benoit.gauzere@insa-rouen.fr
Date limite de publication : 2021-06-30

Contexte :
Le stage est rémunéré et pourra se dérouler soit à Rouen (LITIS) ou à Caen
(GREYC). En cas d’empêchement un stage à domicile sera également possible
avec des points réguliers en visio conférence.
Le stage pourra se poursuivre en thèse selon les résultats obtenus et les
financements disponibles. Plusieurs demandes de financement (ANR, thèse IA,
thèse normale) sont actuellement en cours.

Sujet :
Le sujet du stage consiste à étudier la mise en œuvre de réseaux de neurones sur graphes pour l’apprentissage des coûts associés à la distance d’édition entre graphes. Plus de détails dans le pdf joint.

Profil du candidat :
Les qualités attendues du stagiaire sont :
— Connaissance de Python et de Pytorch ou toute autre bibliothèque de
réseaux de neurones,
— Capacités à lire et comprendre des articles scientifiques (en anglais),
— Autonomie dans le travail,

Formation et compétences requises :
M2/école d’ingénieur en informatique et/ou apprentissage automatique

Adresse d’emploi :
ENSICAEN ou INSA de Rouen

Document attaché : 202101251255_stage.pdf

Composant d’intégration de données multi-source pour la plateforme de données sémantiques DataNoos.
Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT, Institut de Recherche en Informatique de Tou
Durée : 5/6 mois
Contact : pascal.dayre@irit.fr
Date limite de publication : 2021-06-30

Contexte :
A l’heure actuelle les entreprises ou les unités de recherche souhaitent faire de nouvelles agrégations de données existantes pour créer de la valeur, prendre des décisions ou produire de nouvelles connaissances.
L’intégration de données est le processus qui consiste à combiner et à aligner des données provenant de différentes sources.
L’intégration de données augmente la valeur des données disponibles et permet de constituer de nouveaux jeux de données en fonction des buts recherchés.
Nous considérerons un ensemble de sources de données, une plateforme d’intégration de données offrant un accès unifié à un ensemble de jeux de données disponibles sur internet.
La plateforme sera celle du projet DataNoos (https://datanoos.univ-toulouse.fr/).

Sujet :
Le travail demandé est de concevoir et de développer le composant d’intégration de données multi-source de la plateforme de données sémantisées DataNoos.

La plateforme DataNoos permet actuellement l’alignement de méta-données.
Il est nécessaire néanmoins de développer un composant sous forme d’une couche de service offrant les fonctionnalités suivantes pour la connecter à des e-infrastructures existantes:
• la recherche des sources de données
• l’intégration de sources de données
• la recherche de jeu de données
• l’importation et/ou le référencement des thésaurus / vocabulaires contrôlés /ontologies
• l’importation des méta-données des jeux de données et des référentiels
• l’alignement des méta-données dans un référentiel de méta-données local
• l’importation des données dans un référentiel de données local
• l’importation de référentiel de service et de workflow

Nous nous placerons dans le cadre du web des données pour la gestion des méta-données et des ETL sémantique pour leur moissonnage. Le cas d’application sera celui de la science ouverte notamment lors d’une recherche interdisciplinaire nécessitant l’accès et l’intégration de données multi-sources multi-domaines.

La constitution d’un catalogue des productions de l’université Toulousaine sera demandé comme délivrable.

Profil du candidat :
Stage M2 ou stage ingénieur

Formation et compétences requises :
Technologies du W3C.
UML
Python / Django
javascript / framework
Architecture orientée service: API REST

Adresse d’emploi :
Développement Logiciel des systèmes distribués (connaissance des
architectures distribuées et des technologies du net)

[Stage M2] Apprentissage automatique pour l’analyse de simulations de rupture de gouttes
Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CORIA / LITIS
Durée : 6 mois
Contact : simon.bernard@univ-rouen.fr
Date limite de publication : 2021-06-30

Contexte :
L’atomisation est présente dans de nombreuses applications telles que l’injection de carburant, l’irrigation par aspersion, le séchage par pulvérisation ou l’extinction des incendies. Ce processus est généralement divisé en deux régimes : le régime d’atomisation primaire, où le jet se déstabilise en créant de grandes structures liquides et le régime d’atomisation secondaire, où ces grandes structures se divisent en petites gouttes sphériques. Ces gouttelettes finales restent sphériques à cause de l’effet dominant de la tension de surface. La prédiction précise de la distribution finale de la taille des gouttes est nécessaire pour améliorer les applications concernées par l’atomisation. En particulier, la taille des gouttes est l’un des principaux facteurs des émissions finales des moteurs automobiles.
Afin de réaliser cette prédiction il faut établir des modèles de rupture secondaire qui permettent de savoir, à partir de l’état d’une goutte, la probabilité de rupture. De nombreux modèles ont été proposés dans la littérature. Les modèles actuels sont basés sur des corrélations empiriques prenant en compte des paramètres comme la turbulence environnante ou la vitesse de glissement. La diversité des effets provocant la rupture fait qu’à ce jour aucun modèle n’a permis une prédiction fiable sur l’ensemble de régimes utilisés dans l’industrie.
Le but de ce stage est d’utiliser les algorithmes d’apprentissage machine (Machine Learning) pour produire de meilleures prédictions de l’atomisation secondaire.

Sujet :
Le contexte applicatif posent plusieurs défis à l’apprentissage automatique. Tout d’abord, le nombre de gouttes étudiées est limité par le coût de génération qui reste non négligeable. On envisage la génération de quelques milliers de gouttes pour réaliser notre étude, ce qui, au regard de la tâche d’apprentissage est relativement faible. En particulier, ce volume de donnée est bien en deçà des volumes généralement nécessaires à l’apprentissage profond (Deep Learning). Bien que ce soit difficile à estimer de façon précise, car dépendant à la fois du problème et de la méthode utilisée, nous savons que la quantité de données nécessaire à l’apprentissage profond est plutôt de l’ordre de plusieurs millions de données. Ensuite, chaque donnée (goutte) de la base d’apprentissage est décrite par un volumede 64x64x64 voxels, eux-même décrits par 6 descripteurs numériques. Cela implique que la dimension du problème d’apprentissage est de l’ordre du million, ce qui est bien supérieur aux nombre de données disponibles. Ces situations sont connues pour être particulièrement difficiles à traiter en apprentissage machine et nécessite des méthodes dédiées. Finalement, la base d’apprentissage sera constituée d’un nombre très inégal de gouttes qui subissent une rupture au cours du temps et de gouttes stables. Ce déséquilibre est une difficulté supplémentaire, qui nécessite également des méthodes d’apprentissage spécifiques.
Ces trois problématiques d’apprentissage, i.e. l’apprentissage en grande dimension, avec de petits échantillons et en présence de données débalancées ont déjà été étudiés par le passé au Laboratoire LITIS, et solutionnées notamment avec des méthodes de forêts aléatoires et d’ensembles de classifieurs. Ces travaux ont démontré l’efficacité de ces approches pour ces types de problèmes, c’est pourquoi nous les envisageons pour ce projet, sans pour autant s’y restreindre.
Ce stage sera financé par l’ANR DropBreak et peut déboucher sur un contrat d’ingénieur d’études de 6 mois financées dans le cadre d’un projet RIN (Région Normandie – Union Européenne). Le contenu de ce contrat de 6 mois est dans la continuité des tâches proposées dans le stage.
Résultats attendus pour la rédaction du rapport de stage :
• Étude bibliographique des outils d’apprentissage machine adaptées,
• Préconisation d’une procédure d’apprentissage adaptée pour la problématique physique posée.

Profil du candidat :
Étudiant en Master 2 ou dernière année d’école d’ingénieurs, d’un cursus mathématique/informatique, idéalement avec une spécialisation en science des données.

Formation et compétences requises :
Compétences attendues:
• Bonnes connaissances des méthodes d’apprentissage machine.
• Programmation Python
• Goût pour la physique.

Adresse d’emploi :
Ce stage a lieu au laboratoire de physique CORIA et/ou au laboratoire d’informatique LITIS (selon autorisations d’accès), tous deux à l’Université de Rouen Normandie, campus du Madrillet.
En fonction de l’évolution de la situation sanitaire, il pourrait avoir lieu entièrement ou en partie en télétravail mais le candidat devra avoir la possibilité de se rendre sur place si besoin.

Document attaché : 202012160835_StageM2-2021-CORIA-LITIS.pdf

Jul
28
Wed
2021
Construction d’un graphe de connaissances à partir des relations extraites dans des cas cliniques
Jul 28 – Jul 29 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO
Durée : 6 mois (max)
Contact : mirian@univ-orleans.fr
Date limite de publication : 2021-07-28

Contexte :
Stage financé par la fédération ICVL (Informatique Centre Val de Loire)

Calendrier du recrutement:

+ Date limite des candidatures: 3 janvier
+ Éventuelles auditions: 6 janvier
+ Notifications: 7 janvier

Les candidatures (CV et les relevés de notes) sont à envoyer, au plus tôt, aux encandrants (voir emails contacts)

Contacts : nhiot@ennov.com, anne-lyse.minard@univ-orleans.fr, mirian@univ-orleans.fr, agata.savary@univ-tours.fr

Sujet :
Le stage proposé portera sur l’extraction des relations et l’instanciation de graphes, et s’inscrira dans la continuité d’un stage de M2 réalisé au 1er semestre 2020. Ce dernier a conduit au développement d’un système de reconnaissances des entités médicales et de la réalisation d’une première étude de la problématique de l’extraction des relations.

Détails dans le fichier attaché

Profil du candidat :
– Étudiants de master en TAL ou master en informatique avec un intérêt fort pour le TAL

Formation et compétences requises :
– Bonne connaissance de python et des méthodes de TAL (parsing, text mining, etc.)
– Capacité de travail en équipe pluridisciplinaire

Adresse d’emploi :
LIFO – Batiment IIIA – Rue Léonard de Vinci – BP6759
45067 Orléans Cedex 2

Document attaché : 202012221026_ANNONCE_stage-TAL-BD.pdf

Plateforme internet d’accès aux données pour les Observatoires Hommes-Milieux du CNRS-INEE
Jul 28 – Jul 29 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT, Institut de Recherche en Informatique de Tou
Durée : 5 à 6 mois (date
Contact : pascal.dayre@irit.fr
Date limite de publication : 2021-07-28

Contexte :
Contexte de la science ouverte
Les principes FAIR fournissent des lignes directrices pour améliorer la facilité le repérage [F], l’accessibilité [A], l’interopérabilité [I] et la réutilisation [R] des ressources numériques scientifiques. 
Pour ce faire, il est nécessaire de mettre en place des éco-systèmes numériques intégrant des ressources et des services en nombre toujours plus grand et facilitant la “FAIRisation” des données de la recherche.

Contexte métier
Le dispositif de recherche (LabEx DRIIHM) rassemble 13 observatoires scientifiques, les observatoires « hommes-milieux » (OHM) en France et à l’international. Depuis plusieurs années, les scientifiques impliqués étudient les dynamiques environnementales, culturelles et sociétales sur ces territoires, à différentes échelles spatiales et temporelles.

Des données hétérogènes sont produites chaque année par les équipes de recherche multidisciplinaires (>100 projets annuels lauréats). Elles font essentiellement partie de la “longue traîne des données”, elles ne disposent donc pas d’infrastructure facilitant leur gestion et leur partage. Au-delà de leurs incontournables stockage et catalogage, il est crucial d’améliorer le partage et l’ouverture de ces données pour favoriser les analyses croisées interdisciplinaires et communiquer les résultats auprès de la société.

Le projet ANR SO-DRIIHM (2020-2023) offre un nouvel élan visant à :
1. Informer la communauté scientifique des bénéfices du partage et de l’ouverture des données
2. Créer un portail web qui facilite l’accès aux ressources existantes et la démarche de diffusion de la donnée.

Le stage s’inscrit dans le second objectif du projet SO-DRIIHM avec la création d’un premier prototype DATA-DRIIHM.

Sujet :
Description du travail demandé
La science ouverte s’appuie sur les principes FAIR (Findable Accessible Interoperable Reusable). Ces principes doivent être mis en œuvre dans un environnement facilitant la recherche, l’accès, l’utilisation et la gestion des ressources numériques afférentes.

Il s’agit de concevoir et de développer un environnement « virtuel » de travail composé de :
1/  le portail web pour la mise en œuvre des cas d’usage des principes FAIR (frontend).
2/ Web APIs pour implémenter une couche intergicielle de service (middleware) permettant l’intégration et l’accès aux différents services existants de l’éco-système numérique de la recherche aux niveaux national et international comme les services institutionnels ou les services des e-infrastructures de recherche pour alimenter le portail web (backend).

Au cours de ce stage, nous nous concentrerons principalement sur la mise en œuvre des fonctionnalités de “facilité le repérage” [F – Findable] et l’accessibilité [A – Accessible] des données selon les principes FAIR. Il s’agit  de faciliter la découverte, l’exploration et l’accès des données disponibles sur les zones géographiques d’emprise des observatoires. Il sera demandé de contribuer à la spécification, de concevoir et de développer cet environnement pour les données des différentes disciplines scientifiques des observatoires. Nous parlons ici de données ou de ressources numériques au sens large.

L’IHM devra permettre les cas d’usage suivants (organisés autour du principe [F] de FAIR) sur ordinateur et sur smartphone:
[F]> Enregistrer un annuaire de référentiels de données comme re3data.org
[F]> Trouver des entrepôts de données selon une thématique scientifique
[F]> Trouver des jeux de données dans des référentiels tiers et dans un référentiel pour la longue traîne de données sur les emprises géographiques des 13 observatoires
[F]> Trouver des publications dans des référentiels tiers
[A]> Accéder par téléchargement et par visualiser en ligne d’un jeu de données sélectionné
[A]> Accéder par téléchargement et par visualiser en ligne d’une publication sélectionnée

Le portail web offrira à l’utilisateur une IHM et un espace personnel de travail permettant d’afficher et de sélectionner la liste des référentiels de données, des disciplines et de lancer des recherches en paramétrant le service de recherche par la sélection de son observatoire OHM et par la sélection des disciplines scientifiques, de mots-clés et une emprise spatiale et/ou temporelle. 
L’utilisateur pourra alors raffiner sa requête puis télécharger, visualiser les données, jeux de données par jeux de données, ou faire une visualisation croisée sur l’e-infrastructure DATA-DRIIHM.
L’utilisateur pourra réutiliser son historique de recherche.

La couche de service web devra permettre de :
    – construire un registre des services de catalogage de données, 
    – paramétrer et enregistrer  les requêtes fédérées pour récupérer la liste des méta-données et les accès aux données pour chacun des services de référentiels de données ou de catalogues de données,
    – Exécuter les requêtes fédérées et restituer comme résultat les méta-données, un lien de téléchargement, un lien de visualisation de chaque jeu de données et un lien source de données pour permettre la visualisation croisée multi-sources dans l’e-infrastructure DATA-DRIIHM.

Une démonstration sur l’exploration, l’utilisation des données de la recherche, de leurs services associés, des publications dans le cadre du LabEx DRIIHM sera un attendu. Nous nous intéressons à des scénarios d’usage faisant appels à des données d’observatoire et de la longue traîne des sciences de l’univers, sciences de l’environnement et sciences humaines et sociales.

Les développements se feront selon l’état de l’art des développements internet comme par exemple les web API, les spécifications d’Open API (https://www.openapis.org/), REST pour le backend et HTML5 et les frameworks javascript pour le frontend compatible ordinateur et smartphone. Nous utiliserons les technologies du web sémantique et du W3C pour descrire et utiliser les ressources (cf. RDF, RDFS, OWL, DCAT https://www.w3.org/TR/vocab-dcat-3/)

Les livrables suivants sont attendus :
• les spécifications de l’IHM (frontend) et de la couche de service (backend)
• la conception générale et détaillée
• le code et la documentation détaillée
• les tests et le scénario de livraison
• le manuel utilisateur
• le manuel administrateur de la couche de service
• le manuel de déploiement
• Une machine virtuelle pour l’environnement de développement
• Une machine virtuelle et/ou des conteneurs Docker pour le déploiement

Profil du candidat :
M2 en informatique ou dernière année d’école d’ingénieur avec une spécialité de développement informatique internet et systèmes d’information distribués.

Formation et compétences requises :
Compétences dans le développement de plateformes internet distribuées basées sur le web sémantique.
Compétences et formation requises:
• Le cadre de Description des Ressources du W3C : JSON, Web sémantique, Sparql, RDF, RDFS, OWL, DCAT https://www.w3.org/TR/vocab-dcat-3/, …
• Modélisation du logiciel UML
• Architectures orientées services SOA voir ROA (micro-services), REST
• Frontend : HTML5, javascript, frameworks.
• Backend : web API, web services, SPARQL endpoints (https://www.openapis.org/)

• Pour le déploiement, les conteneurs Dockers seront privilégiés afin de pouvoir faire un déploiement dans le CLOUD

Adresse d’emploi :
118 Route de Narbonne, F-31062 TOULOUSE CEDEX 9 https://www.irit.fr/informations-pratiques/acceder-a-lirit/ 

Document attaché : 202012221504_SO-DRIIHM_stage_2021_20201222.pdf

Sep
29
Wed
2021
Intégration des résultats issus des prétraitements automatisés de données en IRM en vue d’une créati
Sep 29 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre de Recherche en Neurosciences de Lyon (CRNL
Durée : 4 mois
Contact : gaelle.leroux@cnrs.fr
Date limite de publication : 2022-01-31

Contexte :
Depuis la loi numérique de 2016 et le plan S de 2018, les laboratoires de recherche sont amenés à mettre en œuvre la science ouverte. Le stage se déroulera au Centre de Recherche en Neurosciences de Lyon (CRNL). L’activité du stage permettra de proposer des outils pour des données de neuroimagerie en utilisant les standards de la communauté (XNAT, BIDS, etc.).

Le service commun est ouvert aux 19 équipes du Centre. Il a pour objectif d’aider des projets en neuroImagerie et de participer à la mise en œuvre de la science ouverte. Le service compte actuellement 2 ingénieures.

Sujet :
• Mise en place d’outils de mise en commun des étapes de contrôle qualité
• Aide au traitement automatiques des données physiologiques
• Présenter aux utilisateurs.trices l’outil en fin de stage
• Rédiger une documentation en ligne pour admin
• Rédiger une documentation en ligne pour les utilisateurs.trices

Profil du candidat :
– Capacités à comprendre et s’exprimer en Anglais
– Connaissances du contrôle de version Git
– Organisation rigoureuse dans le travail

Formation et compétences requises :
– M2/école d’ingénieur

Adresse d’emploi :
https://www.crnl.fr/fr/page-base/acces

Document attaché : 202106171417_2021_offre_stage_4mois_AssInge_SCImagerie – FetGB.pdf