
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LIRMM, CNRS UMR 5506
Durée : 6
Contact : rivals@lirmm.fr
Date limite de publication : 2020-06-30
Contexte :
Mots-clé : apprentissage automatique, statistique, épitranscriptome, marques épitranscriptomiques, développement, cancer
L’identification de bio-marqueurs spécifiques du cancer sont essentiels pour diverses prévisions et décisions médicales (diagnostic, prognostic, stratification de patients, évaluation de la pertinence d’une thérapie). Récemment, il a été montré que la régulation de l’expression des gènes est influencée par des modifications des bases des ARNs. Ces modifications qui sont dynamiquement contrôlées (ajoutées, lues ou effacées) sur une grande partie des ARNs produits dans les cellules. Contrairement à des mutations génétiques, ces modifications dites “épitranscriptomiques” ne changent pas la base, mais en quelque sorte la “décorent”. En outre, certaines de ses modifications ont été associées à divers cancers. Grâce à une plateforme montpellièraine unique en France (mis en place au sein de notre consortium), on peut étudier globalement par spectroscopie de masse la présence de ces modifications dans un échantillon de cellules.
Dans ce projets nous disposons des mesures d’une cinquantaine de modifications effectuées sur des tissus de patients sains et cancéreux. L’objet de ce stage est de développer une approche d’apprentissage automatique qui recherchent les combinaisons de modifications permettant de distinguer les cellules saines de cellules cancéreuses, voire de les relier au stade cancéreux.
Les tissus de patients sont collectés par un des partenaires, le SIRIC de Montpellier.
Sujet :
Mettre en place un analyse permettant de normaliser les mesures, d’étudier les corrélations entre les mesures de différentes marques, et de proposer des stratégies d’apprentissage automatique (machine learning) qui 1/ distinguent les échantillons de cellules saines de ceux de cellules cancéreuses, puis 2/ déterminent les modifications associées à différents stades d’un cancer.
References :
1. Delaunay, S. and M. Frye, RNA modifications regulating cell fate in cancer. Nat Cell Biol, 2019. 21(5): p. 552-559.
2. A.C. Muller and S. Guido. Introduction to Machine Learning with Python: A Guide for Data Scientists. O’Reilly (édition en Anglais et en Français).
3. Gilbert Saporta. Probabilités, analyse des données et Statistique. Technip. 2011.
Profil du candidat :
Prérequis et connaissances
– programmation en python
– apprentissage automatique
– analyse statistique
– goût pour les thématiques pluridisciplinaires
Qualités souhaitées :
– motivation
– programmation
– capacités de synthèse et d’analyse
– ouverture d’esprit.
– capacité d’échanges et de communication
Formation et compétences requises :
Master informatique, math appliquées, statistiques
Formation de “data analyst”
Adresse d’emploi :
Gratification : 520 euros mensuels.
Lieu : Montpellier
Structure d’accueil : équipe Méthodes et Algorithmes pour la Bioinformatique, LIRMM UMR 5506 CNRS & Univ Montpellier
Encadrants : E. Rivals (CNRS), A. David (INSERM)
Partenaires : IGF et SIRIC, tous deux à Montpellier.
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Inria, équipe Mistis et Phimeca
Durée : 12 mois
Contact : ; “>”Sylvain Girard, Phimeca”
Date limite de publication : 2020-06-30
Contexte :
Le projet MADiPA collaboration entre INRIA et Phimeca Engineering, subventionné par l’AMIES vise a développer une méthode de prévision de la dispersion de polluants dans l’atmosphère.
L’approche envisagée consiste à construire une approximation d’un modèle physique coûteux en utilisant des modèles Auto-Associatifs pour contourner la difficulté liée à la grande dimension des entrées et sorties.
Voir le fichier joint pour davantage de détails.
Sujet :
Modèles Auto-associatifs pour la Dispersion de Polluants dans
l’Atmosphère
Profil du candidat :
Le candidat est titulaire d’un doctorat en mathématique. Il maîtrise les notions fondamentales de
probabilité et statistique. Il s’intéresse à l’ingénierie et cherche à accroître sa culture scientifique et
industrielle. Il n’est pas rebuté par l’informatique scientifique et la programmation.
Formation et compétences requises :
Compétences requises :
– bon niveau en mathématique
– connaissances en probabilité et statistique
– connaissance du système d’exploitation Linux
– maîtrise du langage Python
Adresse d’emploi :
Le poste est localisé dans les bureaux de Phimeca au 18 boulevard de Reuilly à Paris.
Document attaché : PostDoc-Pḧimeca.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire CREATIS et LIRIS Lyon
Durée : 4-6 mois
Contact : carole.frindel@creatis.insa-lyon.fr
Date limite de publication : 2020-07-20
Contexte :
La modélisation physique de l’écoulement du sang dans les artères par résolution numérique des équations de dynamique des fluides permet de comprendre la survenue et l’évolution de pathologies graves comme l’accident vasculaire cérébral ou la rupture d’anévrisme. Il s’agit dans un premier temps de définir le domaine 3D dans lequel on veut modéliser l’écoulement sanguin. Cela est fait communément en utilisant un maillage surfacique en trois dimensions de la paroi artérielle. Ce domaine doit ensuite être divisé en un ensemble de petits éléments appelés cellules, formants un maillage volumique dans lequel les équations physiques pourront être résolues numériquement. Cette résolution permet d’obtenir une estimation de la pression et la vitesse du sang dans chacune des cellules du maillage.
Sujet :
Nous avons récemment implémenté un algorithme permettant d’obtenir un maillage de l’arbre vasculaire a partir d’informations de ligne centrale avec rayon. Le stage propose vise a compléter le pipeline existant par de nouvelles fonctionnalités. Il consistera principalement en la programmation du code permettant de réaliser les deux objectifs décrits ci-après. Le code devra s’intégrer dans le framework déjà existant, il sera donc codé en python, en utilisant des librairies graphiques comme VTK.
1 – Déformation du maillage
L’algorithme actuel produit des maillages tubulaires. Il s’agit d’une approximation qui est cohérente avec l’anatomie dans la plupart des cas, mais il serait intéressant de pouvoir mailler également des artères avec une section non circulaire. Pour cela, nous souhaiterions déformer le maillage surfacique tubulaire produit par l’algorithme pour le faire correspondre à la surface d’un autre maillage obtenu par segmentation d’images médicales. Cela peut être fait par projection des noeuds du premier maillage vers la surface du maillage de référence.
2 – Modélisation de la surface par des NURBS
L’analyse isogéométrique est une méthode qui permet de réaliser des simulations physique en s’affranchissant totalement de l’utilisation d’un maillage volumique. Avec cette approche, la surface du domaine d’etude est représentée mathématiquement par des fonctions B-splines rationnelles non uniformes (NURBS). Cette modélisation particulière présente l’avantage de réduire les erreurs de calcul dues a la discrétisation de la surface par les cellules d’un maillage lors de la résolution.
Ainsi, il serait intéressant d’ajouter au pipeline existant la possibilité de modéliser mathématiquement un réseau vasculaire plutôt que de le mailler.
Profil du candidat :
Etudiant en M1/M2 avec majeure en informatique
Formation et compétences requises :
Compétences requises :
– Programmation python
– Des notions en géométrie 3D et une expérience avec des librairies de visualisation/manipulation de maillages seraient un plus
Compétences développées:
– Géométrie 3D, maillages surfaciques et volumiques
– Modélisation par NURBS
– Notions de résolution numérique d’équations et simulation physique
– Application au domaine du médical
Adresse d’emploi :
Bâtiment Blaise Pascal (4ème étage)
7 Avenue Jean Capelle
69621 Villeurbanne Cedex
Document attaché : 202007201241_Sujet_arbre_vasculaire_2020.pdf
Annonce en lien avec l’Action/le Réseau : Formation
Laboratoire/Entreprise : Laboratoire Informatique, Biologie Intégrative et Systèmes Complexes – IBISC
Durée : 5 ou 6 mois
Contact : Khalifa.Djemal@ibisc.univ-evry.fr
Date limite de publication : 10/02/2020
Contexte :
Dans le cadre du projet AlzVR, nous souhaitons développer une application permettant la prédiction de la sévérité d’un patient atteint par l’Alzheimer.
Information : Le stage pourra se poursuivre également en doctorat.
Sujet :
La détection de signes des pathologies d’Alzheimer qui est une maladie neurodégénérative est une tâche très importante dans un système d’aide au diagnostic médical. En effet, La réalité virtuelle offre aujourd’hui des perspectives pour détecter des troubles liés à la maladie, évaluer son avancement et à terme pouvoir rééduquer le patient. Dans un premier temps, le candidat se familiarise avec l’environnement virtuel récemment développé au laboratoire IBISC. Il procèdera ensuite à son enrichissement permettant ainsi à un patient d’effectuer des parcours et des tâches spécialisées dans un scénario bien défini à l’avance. L’analyse de ces tâches conduit à l’évaluation par des calculs statistiques et des approches de classification de la sévérité de la maladie.
Profil du candidat :
Compétences requises :
– Programmation C/C++, Matlab, Unity 3D
– Des connaissances de base en traitement d’images
– Des connaissances des méthodes de classification, Machine learning
Formation et compétences requises :
Sujet de stage pour Master 2 ou équivalent, de préférence des spécialités suivantes :
– Apprentissage automatique, information et Contenu (Machine Learning),
– Réalité Virtuelle et Systèmes Intelligents
– Informatique Biomédicale,
– Informatique,
– Imagerie Biomédicale,
Adresse d’emploi :
Université Paris-Saclay, Univ. Evry
Laboratoire Informatique, Biologie Intégrative et Systèmes Complexes – IBISC
40 rue du Pelvoux, 91020 Evry, France.
Document attaché : Sujet-stage-Master2-Djemal-2019-2020.pdf
Offre en lien avec l’Action/le Réseau : – — –/Innovation
Laboratoire/Entreprise : DISP (Décision et Information pour les Systèmes de
Durée : 1 semestre
Contact : chantal.bonnercherifi@univ-lyon2.fr
Date limite de publication : 2020-11-05
Contexte :
Chaque
année, il y a en moyenne 150 millions d’êtres humains affectés par l’une des 400 crises humanitaires
recensées. Ces crises sont le résultat de catastrophes naturelles telles que les tremblements de terre, le s
inondations ou encore les sècheresses.
Les opérations logistiques dans le contexte de la réponse à une crise humanitaire sont très différentes de ce qui se fait généralement dans le secteur privé. Différents auteurs se sont penchés sur la description de ce contexte particulier [1-3].
La complexité de la situation lors d’une crise humanitaire rend sa vision globale difficile. Plusieurs facteurs expliquent cette complexité :
– Les données disponibles en temps réel sont souvent incomplètes et dynamiques. Ce travail de récolte et de mise à jour de données prend du temps et n’est donc pas toujours traité en priorité.
– Les acteurs sont très variés (des petites ONG locales aux associations internationales, l’armée, le gouvernement…). Leurs moyens et capacités de coordination ne sont pas toujours alignés.
– Les appels de fonds, et donc le financement de la réponse, sont gérés en parallèle des opérations. La réponse humanitaire apportée aux personnes affectées dépend de la disponibilité de ces fonds. Le périmètre des actions menées et le nombre d’acteurs impliqués évoluent en conséquence.
– L’aspect humain est prépondérant. Quelques jours de retard sur les livraisons peuvent avoir un impact en termes de vies humaines. Une inégalité de traitement entre différentes régions touchées peut générer des mouvements de population, donc plus de camps à ouvrir pour gérer ces migrants.
De ce fait, des problèmes de coordination pour la réponse sont souvent constatés [4]. Nous pouvons ainsi observer des surconcentrations et un recouvrement d’interventions dans certaines zones, alors que d’autres sont involontairement délaissées.
A cela s’ajoute la dynamique du système. En effet, au cours même de la réponse à une crise humanitaire, la situation sur le terrain évolue. On peut citer entre autres, les répliques de tremblement de terre qui peuvent générer l’impraticabilité de certaines routes ou autres infrastructures logistiques, avant que la situation ne se débloque progressivement. De même, les besoins des personnes affectées peuvent évoluer au cours du temps, notamment lorsque les crises se complexifient (épidémies de choléra quelques semaines après un tremblement de terre…). L’écosystème des acteurs est lui aussi sujet à évolution avec par exemple le retrait d’un acteur, la destruction de locaux ou encore l’endommagement du matériel.
On comprend alors la difficulté d’atteindre des niveaux d’efficacité et d’efficience optimaux pour la coordination d’une réponse.
Sujet :
Afin donc de proposer une aide à la coordination et à la décision des plus adaptées, nous avons modélisé une crise humanitaire sous forme de réseau de réseaux. Les données à disposition des communautés étant de nature hétérogène et ne présentant pas de caractère de complétude, peu de travaux de recherche sur l’analyse de ces données à posteriori existent. L’originalité de ce travail préliminaire est donc double mais ne permet pas encore d’atteindre l’optimalité de la décision.
Il apparaît alors crucial de rendre dynamique ce modèle [5] et pouvoir viser une aide à la coordination et à la décision presque temps-réel. De nombreux travaux traitent dans la littérature cette problématique pour les réseaux de téléphonie mobiles. En particulier il est important de distinguer les problématiques de consensus décisionnel des acteurs qui sans cesse évolue en fonction des caractéristiques de la crise et de l’interaction entre les acteurs eux-mêmes. Il s’agira alors de se concentrer sur les problématiques de topologie évoluant dans le temps (concensus-based switching topologies) [6]. L’autre partie névralgique concerne la question de la résilience du réseau face aux multiples changements et modifications. Les indicateurs topologiques classiques comme la centralité d’intermédiarité (betweenness centrality) doivent en conséquence être mis en relation avec l’évolution temporelle du réseau. Là aussi un certain nombre de travaux abordent cette problématique surtout dans un cadre de robotique et d’attaques virales ou informatiques [7] et où les invariants topologiques sont optimisés et « asservis » au cours du temps pour sans cesse pallier aux vulnérabilités.
Dans ce travail, nous proposons de fait de modéliser et d’analyser ces aspects dynamiques de la réponse à une crise humanitaire sous la forme de graphes en abordant conjointement par un nouveau couplage les aspects de consensus décisionnels et de résilience.
[1] L. N. VanWassenhove, “Humanitarian aid logistics: supply chain management in high gear”. In: Journal of the Operational Research Society 57, 2006.
[2] G. Kovacs and K. M. Spens, “Humanitarian logistics in disaster relief operations”. In: International Journal of Physical Distribution LogisticsManagement 37.2, pp. 99 114, 2007.
[3] R. Oloruntoba, “Analysis of the Cyclone Larry emergency relief chain Some key success factors”. In: International Journal of Production Economics 126.1, pp. 85 101. ISSN: 0925 5273, 2010.
[4] A Charles, M Lauras, R Tomasini, Collaboration Networks Involving Humanitarian Organisations Particular Problems for a Particular Sector. IFIP Advances in Information and Communication Technology. 336. 157 165. 10.1007/978 3 642 15961 9_18. (2010)
[5] M. Warnier, V. Alkema, T. Comes, T. et al. Humanitarian access, interrupted: dynamic near real time network analytics and mapping for reaching communities in disaster affected countries. OR Spectrum 42, 815 834 (2020)
[6] G. Moutsinas, W. Guo. Node Level Resilience Loss in Dynamic Complex Networks. Sci Rep 10, 3599 (2020)
[7] T. Wheeler, E. Bharathi and S. Gil, “Switching Topology for Resilient Consensus using Wi Fi Signals,”
International Conference on Robotics and Automation ( Montreal, QC, Canada, 2019, pp. 2018 2024 (2019)
Profil du candidat :
Nous recherchons un·e candidat·e issu.e d’une formation en informatique de niveau M2 ou stagiaire ingénieur PFE. Il ou elle a un intérêt pour la recherche scientifique et des bases théoriques en graphes et réseaux complexes. Des notions de logistique/logistique humanitaire seront un plus.
Formation et compétences requises :
Modélisation de systèmes complexes, Théorie des graphes,
Science des réseaux, Réseaux complexes, (Un plus: Logistique/Logistique humanitaire)
Adresse d’emploi :
Laboratoire DISP (Décision et Information pour les Systèmes de Production)
IUT Lumière Lyon 2
Campus Portes des Alpes
160 Boulevard de l’Université
69500 Bron
Document attaché : 202011051523_2021_StageM2_Humanitaire_DISP.pdf
Offre en lien avec l’Action/le Réseau : – — –/Innovation
Laboratoire/Entreprise : DISP (Décision et Information pour les Systèmes de
Durée : 1 semestre
Contact : chantal.bonnercherifi@univ-lyon2.fr
Date limite de publication : 2020-11-06
Contexte :
La recherche de la meilleure maîtrise possible du processus de conception de systèmes complexes reste un enjeu important. En effet, ceci permettrait de capitaliser les bonnes pratiques et de les réutiliser efficacement pour le développement de nouveaux produits.
Durant le processus, un grand nombre de données sont générées et manipulées soit à partir de connaissances déjà existantes soit à partir de connaissances nouvellement créées. Pour atteindre donc des objectifs de capitalisation et de traçabilité tout au long du processus de conception, des travaux de recherche restent à mener, pour profiter encore plus de la digitalisation de ce processus (à travers les approches PLM et Jumeau numérique).
Sujet :
De fait, il est possible de représenter tous ces éléments d’information (données produits, processus et activités, objet de connaissance, etc.) et leurs interactions sous forme de graphes. La modélisation à base de graphe est une approche innovante dans le contexte du processus de conception de produits, pour identifier des bonnes pratiques à capitaliser, pour tracer des données ou des décisions, etc.
Une des difficultés pour cette modélisation dans notre contexte est que ces graphes seront complexes, dues à la multiplicité des nœuds, à leurs nombreuses interactions, à la prise en compte des sémantiques, etc.
L’objectif de ce travail de recherche est de proposer une modélisation à base de graphe à partir de plusieurs cas terrains de processus de conception de systèmes, et d’identifier le méta-modèle associé. Une fois ces graphes modélisés, un travail d’analyse permettra d’identifier des opportunités de capitalisation à partir de pattern, d’évaluation de performances, etc.
Profil du candidat :
Nous recherchons un·e candidat·e issu.e d’une formation en informatique (Modélisation, Graphes) de niveau M2 ou PFE ingénieur en génie mécanique (conception de produits). Il ou elle a un intérêt pour la recherche scientifique, des bases théoriques en graphes, réseaux complexes.
Formation et compétences requises :
Modélisation, Analyse, Synthèse, Programmation
Adresse d’emploi :
Laboratoire DISP
IUT Lumière Lyon 2
Campus Portes des Alpes
160 Boulevard de l’Université
69500 Bron
Document attaché : 202011060940_2021_StageM2_DISP_GrapheConceptionProduits.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire Bordelais de Recherche en informatique
Durée : 5-6 mois
Contact : bruno.pinaud@labri.fr
Date limite de publication : 2020-11-16
Contexte :
Cf doc joint.
Sujet :
Cf doc joint.
Profil du candidat :
Formation en informatique BAC+5
Formation et compétences requises :
Formation en informatique avec un goût prononcé pour le développement. Une formation en visualisation d’informations sera appréciée.
Adresse d’emploi :
Université de Bordeaux
Document attaché : 202011161555_Stage M2 2020_2021.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRIMAS, équipe MSD, Mulhouse, France
Durée : 6 mois
Contact : maxime.devanne@uha.fr
Date limite de publication : 2020-11-30
Contexte :
Le stage proposé se déroulera au sein de l’institut IRIMAS et l’équipe MSD (Modélisation et Sciences des données). Il s’inscrit dans le contexte de la rééducation assistée par un robot coach, jouant ainsi le rôle d’intermédiaire entre un kinésithérapeute et son patient. Le robot Poppy, équipé d’une caméra permettant la capture du mouvement humain, apprend un mouvement idéal à partir de démonstrations de kinésithérapeutes. Ensuite, le robot évalue de manière automatique les patients atteints de lombalgie pendant leur séances de rééducation, en les corrigeant leur mouvement si nécessaire.
Cependant, l’apprentissage de modèles à partir de démonstrations d’experts (sujets sains) n’est pas toujours directement applicable pour l’analyse des exercices des patients nécessitant une rééducation. En effet, un patient ayant des difficultés à lever un bras suite à un accident ne pourra pas effectuer de manière idéale un exercice sollicitant son bras. Il est alors crucial d’adapter le modèle appris en détectant et prenant en compte cette contrainte physique dans l’analyse du mouvement du patient. Durant le stage, il s’agira ainsi de développer des algorithmes d’apprentissage profond adaptatifs permettant d’évaluer les performances des patients en considérant leurs limites physiques et douleurs éventuelles.
Sujet :
La/le stagiaire aura pour objectifs, dans un premier temps de réaliser un état de l’art sur les différentes méthodes d’apprentissage profond pour l’analyse de mouvement humain. En effet, les travaux de recherche portant sur l’analyse de mouvements à partir de vidéos sont très nombreux mais se limitent pour la plupart à des problèmes de reconnaissance de gestes, d’actions ou d’activités. Différemment, nous nous intéresserons à l’analyse détaillée des mouvements pour le calcul de similarité, l’évaluation de la qualité et la détection d’anomalies. En particulier, différentes architectures de réseaux de neurones seront analysées et comparées sur les aspects de précision mais aussi de coût de calcul. Dans un deuxième temps, la/le stagiaire devra développer l’algorithme choisi et l’évaluer sur des données réelles de mouvements de rééducation de patients mis à disposition. Enfin, il s’agira d’étendre l’algorithme implémenté pour permettre l’adaptation automatique aux limites physiques des patients ainsi qu’à leurs éventuelles douleurs.
Profil du candidat :
La/le candidat(e) doit être inscrit(e) en Master 2 (ou équivalent) en Informatique.
Formation et compétences requises :
– Compétences avancées requises en programmation Python
– Des connaissances et/ou expériences de apprentissage profond et bibliothèques associées seraient un plus
Adresse d’emploi :
Institut IRIMAS, équipe MSD, Mulhouse France.
Contact : Maxime Devanne (maxime.devanne@uha.fr)
Document attaché : 202010271931_Proposition_stage_2021_fr.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire d’Informatique et Systèmes LIS – UMR
Durée : 5-6 months
Contact : marxer@univ-tln.fr
Date limite de publication : 2020-11-30
Contexte :
Recent deep learning (DL) developments have been key to breakthroughs in many artificial intelligence (AI) tasks such as automatic speech recognition (ASR) [1] and speech enhancement [2]. In the past decade the performance of such systems on reference corpora has consistently increased driven by improvements in data-modeling and representation learning techniques. However our understanding of human speech perception has not benefited from such advancements. This internship sets the ground for a project that proposes to gain knowledge about our perception of speech by means of large-scale data-driven modeling and statistical methods. By leveraging modern deep learning techniques and exploiting large corpora of data we aim to build models capable of predicting human comprehension of speech at a higher level of detail than any other existing approaches [3].
This internship is funded by the ANR JCJC project MIM (Microscopic Intelligibility Modeling). It aims at predicting and describing speech perception at the stimuli, listener and sub-word level. The project will also fund a PhD position, the call for applications will be published in the coming months. A potential followup in PhD could be foreseen for the successful candidate of this internship.
Sujet :
In an attempt to using DL methods for speech perception tasks, this internship aims at participating in the first Clarity challenge. This challenge tackles the difficult task of performing speech enhancement for optimising intelligibility of a speech signal in noisy conditions. The challenge opens in January 2021, it is the first of its kind with the objective of advancing hearing-aid signal processing and the modelling of speech-in-noise perception.
Several research directions will be explored, including but not limited to:
perceptual-based loss functions
advanced speech representation learning pipelines
DL-based multichannel processing techniques
Given that the baseline and data of the challenge are to be published in January 2021 and the difficulty of the task remains uncertain, a backup plan is foreseen for this internship that is more tightly related to the context of the ANR project.
In the MIM project, we focus on corpora of consistent confusions: speech-in-noise stimuli that evoke the same misrecognition among multiple listeners. In order to simplify this first approach to microscopic intelligibility prediction, we will restrict to single-word data. This should reduce the lexical factors to aspects such as usage frequency and neighborhood density, significantly limiting the complexity of the required language model. Consistent confusions are valuable experimental data about the human speech perception process. They provide targets for how intelligibility models should dif-ferentiate from automatic speech recognition (ASR) systems. While ASR models are optimised to recognise what has been uttered, the proposed models should output what has been perceived by a set of listeners. A sub-task encompasses creating baseline models that predict listeners’ responses to the noisy speech stimuli. We will target predictions at different levels of granularity such as predicting the type of confusion, which phones are misperceived or how a particular phone is confused.
Several models regularly used in speech recognition tasks will be trained and evaluated in predicting the misperceptions of the consistent confusion corpora. We will first focus on well established models such as GMM-HMM and/or simple deep learning architectures. Advanced neural topologies such as TDNNs, CTC-based or attention-based models will also be explored, even though the relatively small amount of training data in the corpora is likely to be a limiting factor. As a starting point we envisage solving the 3 tasks described in [3] consisting of 1) predicting the probability of occurrence of misrecognitions at each position of the word, 2) given the position, predicting a distribution of particular phone misperceptions, and 3) predicting the words and the number of times they have been perceived among a set of listeners. Predictions will be evaluated using the metrics also defined in [3] and random and oracle predictions will be used as references. These baseline models will be trained using only in-domain data and optimized on word recognition tasks.
Profil du candidat :
The candidate shall have the following profile:
– Master 2 level or equivalent in one of the following fields: machine learning, computer science, applied mathematics, statistics, signal processing
– Good English written and spoken language skills
– Programming skills, preferably in Python
Formation et compétences requises :
Furthermore the ideal candidate would have:
– Experience in one of the main DL frameworks (e.g. PyTorch, Tensorflow)
– Notions in speech or audio processing
Adresse d’emploi :
Laboratoire d’Informatique et Systèmes – LIS – UMR CNRS 7020 – Université de Toulon Campus de la Garde – Bât X – CS 60584 – 83041 TOULON Cedex 09
Document attaché : 202011301229_LIS offre stage M2 MIM (2).pdf
Offre en lien avec l’Action/le Réseau : MACLEAN/– — –
Laboratoire/Entreprise : UMR TETIS
Durée : 6
Contact : dino.ienco@irstea.fr
Date limite de publication : 2020-11-30
Contexte :
Le projet Protest (PROspective TErritoriale SpaTialisée) (https://protest.irstea.fr/) est un projet de recherche appliquée financé par l’ADEME qui vise à construire une méthodologie d’analyse territoriale de la biomasse forestière en s’appuyant sur 1/ une cartographie haute résolution de la ressource et de ses conditions de mobilisation, 2/ des scénarios de gestion intégrant le contexte socio-économique local et global, 3/ des modèles d’évolution forestière à moyen/long terme, et 4/ des modules d’évaluation des services écosystémiques. Le territoire d’étude est le Parc Naturel Régional du Massif des Bauges.
La cartographie des ressources forestières a été réalisée en s’appuyant sur des relevés d’inventaire terrain (323 placettes mesurées en forêt au niveau du Parc) et sur des données Lidar aéroportées (https://protest.irstea.fr/). Le lidar est une technologie particulièrement intéressante pour mesurer la structure de la végétation . Utilisées avec des données de référence terrain elles permettent de développer des modèles pour prédire des paramètres forestiers à partir de variables de structure qui sont issues des nuages de points 3D Lidar. Une fois établis, les modèles peuvent ensuite être extrapolés à la totalité de la zone d’étude, conduisant à la cartographie de certains paramètres forestiers utiles aux gestionnaires . Dans le cadre du projet PROTEST, l’ONF a ainsi produit des cartes de la surface terrière, du % de gros bois en surface terrière, du diamètre dominant et des grands types de peuplements (résineux purs, dominantes, feuillus, purs, dominants et mélanges).
Certaines études ont montré l’intérêt de combiner les données Lidar avec l’information spectrale d’images provenant de capteurs spatiaux multispectraux à haute résolution spatiale (e.g., Monnet et al., 2015) ou de capteurs hyperspectraux aéroportés (e.g., Zhao et al. 2018). Actuellement, l’offre en données de télédétection spatiale adaptées au suivi des écosystèmes forestiers évolue rapidement. La mission Sentinel-2 apporte par exemple une richesse spectrale à haute résolution spatiale précieuse pour identifier la composition et l’état des peuplements (Grabska et al., 2019; Sheeren et al., 2016), et ce avec une couverture systématique et une fréquence de revisite inédite à ces résolutions. De par leurs caractéristiques les données Sentinel-2 apportent une information complémentaire à celle des données lidar. Leur potentiel pour caractériser les forêts du Parc Naturel Régional du Massif des Bauges n’a cependant pas encore été évalué. Or ces données sont distribuées gratuitement (programme Copernicus de l’ESA) et peuvent donc être facilement mobilisées pour la gestion des territoires.
En parallèle, les approches d’apprentissage profond se sont développées et facilitent l’analyse de jeu de données de télédétection volumineux et complexes comme les séries temporelles (Interdonato et al., 2019), les données multi-capteurs (Ienco et al., 2019) ou pour faire des analyses multi-résolutions (Benedetti et al., 2018).
En s’appuyant sur des méthodes d’apprentissage profond, l’objectif de ce stage est d’évaluer le potentiel de séries temporelles Sentinel 2 et de la fusion de données issues de nuages de points ALS et d’images Sentinel-2 pour la cartographie des peuplements et de la ressource forestière du Parc Naturel Régional (PNR) du Massif des Bauges. Un premier sous-objectif consistera à identifier le potentiel des données Sentinel-2 pour la caractérisation et la cartographie de la composition spécifique. Un second sous-objectif visera à évaluer l’intérêt de la fusion entre données dérivées des nuages de points ALS et Sentinel-2 pour améliorer la cartographie des différents types de peuplements et, éventuellement, la caractérisation de certains attributs forestiers estimés initialement à partir des seules données lidar.
• Benedetti, P., Ienco, D., Gaetano, R., Ose, K., Pensa, R. G., & Dupuy, S. (2018). M3Fusion: A Deep Learning Architecture for Multiscale Multimodal Multitemporal Satellite Data Fusion. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 11(12), 4939-4949.
• Bouvier, M., Durrieu, S., Fournier, R. A., & Renaud, J. P. (2015). Generalizing predictive models of forest inventory attributes using an area-based approach with airborne LiDAR data. Remote Sensing of Environment, 156, 322-334.
• Dalponte, M., Bruzzone, L., & Gianelle, D. (2008). Fusion of hyperspectral and LIDAR remote sensing data for classification of complex forest areas. IEEE Transactions on Geoscience and Remote Sensing, 46(5), 1416-1427.
• Durrieu, S., Vega, C., Bouvier, M., Gosselin, F., Renaud, J.-P., Saint-André, L. (2015). Optical remote sensing of tree and stand heights. In: Prasad S. Thenkabail, dir., Land Resources Monitoring, Modeling, and Mapping with Remote Sensing (p. 449-485). Remote Sensing Handbook, 2. Boca Raton, USA : CRC Press. 37
https://prodinra.inra.fr/record/386094
• Grabska, E., Hostert, P., Pflugmacher, D., & Ostapowicz, K. (2019). Forest Stand Species Mapping Using the Sentinel-2 Time Series. Remote Sensing, 11(10), 1197.
• Ienco, D., Interdonato, R., Gaetano, R., & Minh, D. H. T. (2019). Combining Sentinel-1 and Sentinel-2 Satellite Image Time Series for land cover mapping via a multi-source deep learning architecture. ISPRS Journal of Photogrammetry and Remote Sensing, 158, 11-22.
• Interdonato, R., Ienco, D., Gaetano, R., & Ose, K. (2019). DuPLO: A DUal view Point deep Learning architecture for time series classificatiOn. ISPRS journal of photogrammetry and remote sensing, 149, 91-104.
• Lim, K., Treitz, P., Wulder, M., St-Onge, B., & Flood, M. (2003). LiDAR remote sensing of forest structure. Progress in physical geography, 27(1), 88-106.
• Munoz, A., Bock, J., Monnet, J. M., Renaud, J. P., Jolly, A., & Riond, C. (2015). Évaluation par validation indépendante des prédictions des paramètres forestiers réalisées à partir de données LiDAR aéroporté, Revue Française de Photogrammétrie et Télédétection, 211-212.
• Monnet, J. M., Chirouze, É., & Mermin, É. (2015). Estimation de paramètres forestiers par données Lidar aéroporté et imagerie satellitaire RapidEye: Étude de sensibilité. Revue Française de Photogrammétrie et Télédétection, 211-212.
• Van Leeuwen, M., & Nieuwenhuis, M. (2010). Retrieval of forest structural parameters using LiDAR remote sensing. European Journal of Forest Research, 129(4), 749-770.
• Véga, C., Renaud, J. P., Durrieu, S., & Bouvier, M. (2016). On the interest of penetration depth, canopy area and volume metrics to improve Lidar-based models of forest parameters. Remote Sensing of Environment, 175, 32-42.
• Zhao, Y., Zeng, Y., Zheng, Z., Dong, W., Zhao, D., Wu, B., & Zhao, Q. (2018). Forest species diversity mapping using airborne LiDAR and hyperspectral data in a subtropical forest in China. Remote Sensing of Environment, 213, 104-114.
Sujet :
Les principales étapes envisagées pour la réalisation du stage sont :
• Analyse bibliographique sur l’utilisation des systèmes lidar et des images Sentinel-2 pour le suivi des écosystèmes forestiers.
• Mise en place du jeu de données :
◦ Prise en main des données existantes (bdd terrain, données ALS, métriques ALS utilisées dans les modèles ONF)
◦ Téléchargement d’une série temporelle d’images Sentinel-2 (images géoréférencées et en réflectance)
• Identification (par analyse de la littérature) et calcul d’indices spectraux d’intérêt pour la classification des types de végétation à partir des images Sentinel-2.
• Évaluation de l’apport des données Sentinel-2 pour la détermination et la cartographie de la composition spécifique des forêts du PNR du Massif des Bauges ;
◦ La composition spécifique sera définie au niveau des placettes inventoriées selon différentes typologies (en particulier, en tenant compte ou non du statut dominant des arbres).
◦ Pour chaque typologie, la combinaison de dates et de bandes spectrales ou d’indices spectraux la plus adaptée pour discriminer les différents types sera identifiée puis utilisée pour classer les images. La qualité des différentes classifications sera analysée.
• Evaluation de la fusion des données Sentinel-2 et ALS pour la caractérisation des forêts
◦ Les variables issues des images Sentinel-2 seront combinées avec les métriques lidar utilisées pour la caractérisation des grands types de peuplements (résineux purs, dominantes, feuillus, purs, dominants et mélanges) afin d’améliorer la qualité des classification (taux d’erreur actuel de classification des placettes = 11%)
◦ Les variables Sentinel-2 seront aussi utilisées pour l’estimation de certains paramètres forestiers de structure (e.g., surface terrière, %de gros bois) en complément des métriques Lidar. Les modèles d’estimation lidar étant en théorie dépendant du type de peuplement, les données Sentinel-2 pourront intervenir au niveau d’une stratification préalable ou être intégrée directement dans les modèles de régression.
◦ Les résultats avec et sans données Sentinel-2 seront comparés
• Rédaction du rapport et préparation de la soutenance.
Profil du candidat :
• Master II ou dernière année d’école ingénieur
• Compétences : programmation informatique et géomatique
• Bonne connaissance des méthodes de machine learning et deep learning
• Des connaissances en foresterie sont un plus
• Goût pour la recherche scientifique et l’interdisciplinarité
• Maîtrise de l’anglais et bonne capacité rédactionnelle
Formation et compétences requises :
• Master II ou dernière année d’école ingénieur
• Compétences : programmation informatique et géomatique
• Bonne connaissance des méthodes de machine learning et deep learning
• Des connaissances en foresterie sont un plus
• Goût pour la recherche scientifique et l’interdisciplinarité
• Maîtrise de l’anglais et bonne capacité rédactionnelle
Adresse d’emploi :
UMR TETIS, 500 Rue Jean François Breton, 34090 Montpellier
Document attaché : 202010261642_Stage_M2_Bauges_forets_ALS_Sentinel2_Protest.pdf
Offre en lien avec l’Action/le Réseau : MACLEAN/– — –
Laboratoire/Entreprise : IRISA (OBELIX team)
Durée : 6 months
Contact : minh-tan.pham@irisa.fr
Date limite de publication : 2020-11-30
Contexte :
In the past few years, the amount of earth observation missions using remote sensing technologies has increased dramatically, providing a huge number of multimodal data coming from different sensors: optical, radar, lidar, etc. The need of efficient and reliable methods for multimodal remote sensing data analysis becomes crucial to exploit their complementary information for tackling various applications such as land-cover mapping and updating, scene understanding, urbanization trend detection and prediction, etc. Among modern techniques, object-based approach using graph model appears to be a promising solution.
Sujet :
This internship proposal aims at studying the ability of graph structures to model and characterize the spatial relationships of objects and regions from an image at different scales. That means we are interested to work on object/region levels, not the pixel level from the image. From the achieved graph structures, recent frameworks based on graph representation learning (e.g. graph convolutional neural networks, graph autoencoder) and graph distance metric learning could be investigated to perform structured graph embedding into robust feature spaces. For remote sensing applications, we are interested in various tasks including image retrieval, classification and scene matching, with applications to ecological or humanitarian challenges. More specifically, this work will concentrate on extracting meaningful spatial graphs that can be used for reasoning (akin to [5]). The work will leverage on theoretical works developed in the team [6] to design sensible loss between graphs objects to learn efficiently neural networks that will predict the graph structure.
Potential outcomes of the internship will lead to publications in remote sensing, computer vision or machine learning fields, depending on the nature of the contributions. Let us finally note that this internship will be part of the AI chair OTTOPIA funded by ANR (starting beginning of 2021), for which potential fundings are available for the candidate to enter a PhD track after the internship.
For more information: https://www-obelix.irisa.fr/files/2020/10/stageM2_graph_2020.pdf
Profil du candidat :
Student Master 2, Ecole d’Ingénieur or equivalent with excellent academic track;
Formation et compétences requises :
• Background in computer science and/or machine/statistical learning and/or applied mathematics for signal and image processing;
• Excellent programming in Python (familiar with one of deep learning packages, such as PyTorch or Tensorflow, is a must.)
Adresse d’emploi :
Université Bretagne Sud – IRISA (OBELIX team: https://www-obelix.irisa.fr/), Vannes 56000, France
Document attaché : 202010141228_stageM2_graph_2020.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRISA/équipe OBELIX
Durée : 6 mois
Contact : francois.merciol@irisa.fr
Date limite de publication : 2020-11-30
Contexte :
L’équipe OBELIX (OBsErvation de L’environnement par Imagerie compleXe, www.irisa.fr/obelix) est une jeune équipe de l’IRISA, au caractère international marqué. Elle s’intéresse aux thématiques de l’analyse et la fouille de données (image) en lien avec des problématiques environnementales. Les données traitées sont
massives, multidimensionnelles (multi- ou hyper-spectrales), bruitées, hétérogènes (multi-sources) et présentent un caractère spatio-temporel (séries d’images). Un partenariat a été établi avec le CNES et SIRS-CLS concernant l’analyse d’images satellite. Dans ce cadre l’équipe a développé une librairie et des logiciels C++ permettant une représentation hiérarchique des images du non de TRISKELE (https://gitlab.inria.fr/obelix/triskele/).
Sujet :
L’objectif du stage consiste donc dans un premier temps en un état des lieux des différentes sources bibliographique de TRISKELE [1,2] et OTB [3]. Puis de mettre en avant les différences de stratégie de traitement. OTB réalise des traitements localisés et permet de gérer les données en flux. Triskele de part les caractéristiques hiérarchiques opte pour un traitement global. Cependant, Triskele offre également un tuilage pour paralléliser les calculs. Le manuel d’utilisation de TRSISKELE se trouve ici : http://francois.merciol.fr/IRISA/2020_Triskele_Manual.pdf
Pour plus des informations: https://www-obelix.irisa.fr/files/2020/10/2020-Stage-IRISA-Merciol.pdf
Profil du candidat :
Master Recherche, Master 2 ou Ecole d’Ingénieurs
Formation et compétences requises :
Traitement d’image (expérience de l’imagerie aérienne, satellite, télédétection appréciée)
Maîtrise de l’anglais (langue de travail de l’équipe, littérature scientifique)
Maîtrise des outils de rédaction (Latex)
Maîtrise de la programmation et du développement (C++, cmake, GIT)
Esprit d’analyse
Travail en équipe
Adresse d’emploi :
IRISA, Bâtiment ENSIBS, Campus de Tohannic, 56000 Vannes
Document attaché : 202010280858_2020-Stage-IRISA-Merciol.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIS UMR CNRS 7020
Durée : 5 à 6 mois
Contact : marc-emmanuel.bellemare@univ-amu.fr
Date limite de publication : 2020-12-05
Contexte :
Dans le cadre d’un projet de recherche concernant la modélisation de la dynamique des organes pelviens (projet MoDyPe : http://modype.lsis.org) nous nous intéressons particulièrement à la déformation d’organes à tissus mous. Ce projet développé en collaboration avec des services de chirurgie du CHU La Timone (AP-HMarseille) vise à comprendre la physiopathologie des troubles de la statique pelvienne.
Sujet :
. Nous proposons une approche qui repose sur les résultats obtenus par la caractérisation de la dynamique des déformations des contours des principaux organes observés en 2D. Les principaux organes concernés par les pathologies sont observés par IRM dynamique 2D. Les déformations sont estimées à partir des contours extraits des images IRM de ces organes. Il s’agit alors de proposer une classification des patientes et de leurs pathologies, basée sur l’analyse de la réponse de descripteurs des déformations subies au cours du temps lors d’un « exercice de poussée ». Si ce premier résultat peut permettre une aide au diagnostic nous souhaitons en particulier mettre en évidence une parcellisation des contours des organes en fonction des déformations subies de sorte à pouvoir décrire les phénomènes en cours pour éventuellement pouvoir les reproduire par simulation bio-mécanique.
Profil du candidat :
Le candidat ou la candidate de niveau Bac+5, en formation d’ingénieur ou de master sera intéressé(e) par un projet pluridisciplinaire et l’imagerie médicale.
Formation et compétences requises :
La formation initiale attendue est dans le domaine du traitement des images. Des compétences en mathématiques appliquées seront particulièrement appréciées. Une expérience de la programmation avec l’environnement python est attendue. Le stage aura une durée de 4 à 6 mois avec la gratification d’usage
Adresse d’emploi :
Le travail se déroulera à Marseille au laboratoire d’informatique et des systèmes (LIS) dans l’équipe Image & Modèles. Le LIS UMR 7020 fédère plus de 375 membres. La recherche y est structurée au sein de pôles (calcul, science des données, analyse et contrôle des systèmes, signal et image), et centrée sur les activités dans les domaines de l’informatique, de l’automatique, du signal et de l’image
Document attaché : 202012051305_Sujet_Master2_ClassifDef2D.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LITIS, Rouen Normandie
Durée : 4 à 6 mois
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2020-12-05
Contexte :
La caractérisation des sites pollués s’effectue à l’aide de prélèvements de sol et d’analyses en laboratoire. Ces étapes longues et coûteuses limitent le nombre d’analyses réalisées sur le terrain. Dans ce contexte, L’entreprise Tellux développe des appareils de mesures innovants permettant d’analyser en temps réel la quantité de polluants.
Récemment des approches géostatistiques adaptées aux particularités des sites et sols pollués ont été développées pour cartographier les sols en fonction des quantités de matériaux contaminés. Elles visent à quantifier les incertitudes sur la quantité de polluants entre les sites de forages. Le couplage des analyses sur site et les méthodes géostatistiques, permettent d’envisager des campagnes de reconnaissance optimisées où le nombre et la localisation de nouveaux points de mesures sont déterminés au fur et à mesure de l’acquisition des données. Le but est de réduire l’incertitude sur la cartographie de la pollution.
Sujet :
L’objectif du stage est de concevoir et de tester les fonctionnalités d’un module de cartographie conçu à partir d’une librairie de fonctions existantes (méthode M-GS, développée par l’entreprise Estimages). Le stage se compose d’une étude bibliographique sur des algorithmes géostatistiques et la mise en œuvre d’algorithmes géostatistiques sur des données provenant d’un site réel. Cette démarche vise à tester les paramètres de la modélisation géostatistique afin de planifier des améliorations par des méthodes 3D, co-variogramme multiples, pour la poursuite du projet.
Profil du candidat :
– Étudiant.e en M2 ou 5ème année d’une école d’ingénieur, en génie mathématique ou sciences des données similaire, avec une motivation particulière pour les sciences des données (méthodes statistiques) ;
Formation et compétences requises :
– De solides compétences en programmation en Python ;
– De bonnes connaissances en statistique ;
– Un bon sens des relations humaines pour travailler en étroite collaboration avec l’équipe Tellux et les partenaires ;
– Un intérêt pour les sciences de la terre est un plus.
Localisation : Rouen
Rémunération : 600€ par mois
Possibilité de poursuite en thèse : oui
Contacts (CV + notes) : antonin.vanexem@tellux.fr, paul.honeine@univ-rouen.fr, maxime.berar@univ-rouen.fr thomas.demongin@estimages.com
Adresse d’emploi :
LITIS, Université de Rouen Normandie
Document attaché : 202012051433_Stage_géostatistique_LITIS.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : UHA/IRIMAS EA 7499, Mulhouse, France
Durée : 6 mois
Contact : maxime.devanne@uha.fr
Date limite de publication : 2020-12-15
Contexte :
Le stage proposé s’inscrit dans le contexte actuel des véhicules autonomes. De nos jours, la perception de l’environnement autour du véhicule représente encore un verrou scientifique. Cette information est primordiale pour la planification de la trajectoire à suivre, et une erreur peut très vite coûter des vies. La perception de l’environnement peut se décomposer en deux tâches hiérarchiques : la détection des zones d’intérêt et l’analyse de la scène perçue. Ce stage se focalise sur l’analyse et l’interprétation de la scène. Une fois les zones d’intérêt détectées, il s’agira de définir le contour des potentiels obstacles (bounding boxes) ainsi que de définir la nature de ces obstacles (notamment leur caractère mobile ou non) et les caractériser (taille, vitesse…).
Avec l’augmentation des puissances de calcul, les approches basées données comme les réseaux de neurones et le Deep Learning permettent avec des données d’apprentissage, de concevoir un algorithme robuste et réactif à une grande variété de situations. Cependant, ces solutions sont extrêmement dépendantes des données d’entraînement, ainsi que des capacités de calcul des systèmes embarqués.
L’objectif de ce stage est d’implémenter dans les véhicules autonomes du laboratoire IRIMAS, des systèmes de perception basés sur le Deep Learning, et notamment sur les réseaux de neurones permettant d’intégrer les informations issues de plusieurs capteurs (cross-fusion).
Sujet :
Le/la stagiaire aura pour objectifs de faire un état de l’art sur les Réseaux de Neurones Convolutifs (CNN), ainsi que leurs applications à la perception des véhicules autonomes. Sachant que l’objectif est l’implémentation des algorithmes, le choix des solutions considérera comme critères la performance de l’analyse de la scène (« faux positifs », classification…) ainsi que le coût de calcul. Des méthodes de réduction de ce coût peuvent être explorées.
La partie pratique s’effectuera suivant la structure suivante : choix de l’algorithme de CNN cross-fusion, implémentation des algorithmes dans les systèmes embarqués des véhicules autonomes (PC embarqué ou GPU, programmation sous ROS/RTMaps/Python). Cette partie pratique s’accompagnera d’essais temps-réel sur les plateformes de recherche. De ces expérimentations techniques, le stagiaire analysera les résultats et fournira des pistes de recherche à la synthèse d’algorithmes de cross-fusion. L’ensemble des travaux de recherche réalisé par le/la stagiaire donnera lieu à des publications scientifiques pour des conférences internationales et/ou des journaux à facteur d’impact.
Profil du candidat :
Pour toute demande d’information supplémentaire ou pour candidater, merci d’envoyer CV, résultats de Master/ingénieur et lettre de motivation avant le 15/12/2020. Compte tenu de la situation d’urgence sanitaire actuelle, nous n’accepterons que des candidatures issues d’étudiant(e)s actuellement en études supérieurs sur le sol français.
Formation et compétences requises :
En dernière année de Master 2 ou équivalent
Compétences de programmation
Première expérience en deep learning
Adresse d’emploi :
UHA/IRIMAS EA 7499, Mulhouse, France
Document attaché : 202011171711_Stage_IRIMAS_CNN_2021.pdf
Offre en lien avec l’Action/le Réseau : RoD/– — –
Laboratoire/Entreprise : LaBRI – Laboratoire Bordelais de Recherche en Info
Durée : 5 mois
Contact : meghyn.bienvenu@labri.fr
Date limite de publication : 2020-12-15
Contexte :
Accessing the relevant information contained in real-world data to support informed decision making is difficult, time-consuming, and error-prone due to the need to integrate data across multiple heterogeneous sources. Moreover, even if this first hurdle is overcome, a perhaps even more daunting challenge arises: how to obtain reliable insights from imperfect data? It is widely acknowledged that real-world data is plagued with quality issues, such as incompleteness (missing information) and errors (false or outdated information).
The ontology-mediated query answering (OMQA) paradigm facilitates access to (potentially heterogeneous) data sources through the use of ontologies that specify a convenient user-friendly vocabulary for query formulation (which abstracts from the way the data is stored) and capture domain knowledge that can be exploited at query time, via automated reasoning, to obtain more complete query results. For example, querying for patients with infectious heart disease is non-trivial due to the myriad of ways such a generic condition can manifest, but by leveraging the knowledge formalized in medical ontologies (like SNOMED CT), it is possible to correctly return patients diagnosed with Chagall’s disease, toxoplasma myocarditis, etc. The OMQA approach is relevant to a wide range of data-intensive applications, and recent industrial projects have witnessed its practical benefits.
While OMQA systems are growing in maturity, they too often fail to address the data quality issue, aside from issuing warnings when inconsistencies are discovered. To widen the applicability of the OMQA approach, it is essential to equip OMQA systems with appropriate mechanisms for handling imperfect data: how to obtain meaningful answers to queries posed over imperfect data, and how best to generate a high-quality version of the data ?
The Master’s internship is part of the INTENDED Chair on Artificial Intelligence, whose aim is to develop intelligent, knowledge-based methods for handling imperfect data. A PhD position on a related topic is available.
Sujet :
Several different inconsistency-tolerant semantics have been proposed with the aim of providing meaningful answers to queries posed over inconsistent knowledge bases. Recent work has focused on how to integrate preferences into such semantics in order to exploit information about the relative reliability of facts in the data.
The aim of this internship is to explore declarative languages for specifying preferences between facts in the OMQA context. Specifically, we envision rule-based preference languages, along the lines of “If the data contains Salary(EMP,s1) and Salary(EMP,s2) and s1>s2, then prefer Salary(EMP,s1) to Salary(EMP,s2)” or “If fact1 and fact2 are in contradiction, fact1 was inserted after fact2, and fact2 is not from source A, then prefer fact1 over fact2”.
After defining a syntax and semantics for such preference rules, the student will investigate the associated reasoning tasks: Can we decide whether a given set of preference rules always yields an acyclic preference relation? Do the rules always define a total relation (i.e. precisely determine how to correct the data)? How does adopting preference rules rather than assuming an explicit preference relation affect the complexity of query answering under preference-based semantics?
Profil du candidat :
This is a foundational research topic and no programming or implementation will be done during the internship. Rather the student will define formally a preference representation language and study its properties (with formal arguments and proofs).
Formation et compétences requises :
Candidates should be currently enrolled in a M2 program in computer science (or possibly mathematics, if accompanied by relevant computer science background).
Candidates should have some prior experience with logic, and knowledge of one of more of the following topics would be helpful: knowledge representation and reasoning (in particular, description logics), Semantic Web (ontologies), database theory, logic in AI, theoretical computer science (computational complexity).
Knowledge of French is not required, while strong English skills are desired. The working language can be either French or English.
Adresse d’emploi :
LaBRI, Université de Bordeaux, Talence, France
Document attaché : 202011111016_master1-intended.pdf
Offre en lien avec l’Action/le Réseau : MaDICS-HN/– — –
Laboratoire/Entreprise : Laboratoire ERIC (Université Lyon 2, Campus Porte
Durée : 5 mois à partir de m
Contact : sabine.loudcher@univ-lyon2.fr
Date limite de publication : 2020-12-20
Contexte :
L’université Lumière Lyon 2 et l’université autonome de Barcelone travaillent ensemble depuis 2018 dans le cadre d’un projet visant à l’élaboration d’un lac de données en archéologie (projet HyperThésau du Labex IMU). Même si les données de l’archéologie sont aujourd’hui numériques ou ont été numérisées (carnets de fouille incluant texte, plans, croquis, photos…), il n’existe pas de norme pour ces données, ni de consensus sur les systèmes d’information archéologiques (SIA) : tableur bureautique, base de données FileMaker, serveur SQL propriétaire ou libre, etc. Pour maîtriser cette hétérogénéité, gérer la qualité et faciliter le partage et l’analyse, les partenaires du projet ont décidé d’utiliser le concept de « lac de données » pour conserver celles-ci, primaires ou enrichies, dans leur forme originelle.
Après avoir démontré l’intérêt et la faisabilité d’utiliser un lac de données dans le contexte de l’archéologie, les partenaires du projet (et en particulier le laboratoire ERIC, le laboratoire Archéorient et le musée d’archéologie de Catalogne) souhaitent poursuivre avec la conception et la mise en place d’un lac pour les données du site d’Ullastret du musée d’archéologie de Catalogne.
Sujet :
L’objectif du stage en informatique sera, dans un premier temps, de concevoir et de mettre en œuvre le lac de données pour stocker et interroger des données archéologiques hétérogènes. Dans un second temps, il s’agira d’expérimenter l’utilisation de méthodes d’Intelligence Artificielle pour extraire depuis les données primaires des informations qui permettent de les enrichir et de constituer les métadonnées nécessaires à l’analyse des données hétérogènes réunies dans le lac.
Les missions confiées au stagiaire seront :
1. la compréhension des données archéologiques à prendre en compte et une familiarisation avec la littérature consacrée aux lacs de données ;
2. la compréhension et l’appropriation d’un lac de données déjà implémenté dans le cadre d’un premier projet en archéologie ;
3. la conception du lac de données, du système de métadonnées et le choix des technologies à utiliser pour la création du lac ;
4. l’implémentation du lac de données et du modèle de métadonnées, en particulier sémantiques ;
5. l’alimentation du lac avec les données primaires dans leur forme originelle ;
6. l’alimentation du lac avec la documentation ou la transcription des données primaires.
Si le temps le permet, le stagiaire pourra également travailler sur :
7. l’utilisation de méthodes d’Intelligence Artificielle pour extraire des données primaires des informations qui permettent de constituer de nouvelles métadonnées ;
8. la création d’une interface pour l’alimentation du lac par les archéologues.
Profil du candidat :
Le sujet de stage s’adresse à des étudiant·es en 1re ou 2e année de master (ou équivalent) en informatique décisionnelle ou en sciences des données.
Formation et compétences requises :
Des compétences en bases de données, en traitement des données massives ou en technologies liées aux big data seront particulièrement appréciées.
Adresse d’emploi :
Merci d’adresser, avant le 15 décembre 2020, votre candidature avec un CV, une lettre de motivation ainsi que vos notes de l’année universitaire en cours et de l’année dernière à jerome.darmont@univ-lyon2.fr, sabine.loudcher@univ-lyon2.fr et jean-pierre.girard@mom.fr
Les candidat·es retenu·es seront convoqué·es pour un entretien en visioconférence en janvier.
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LIRMM (campus St Priest) dans l’équipe ICAR
Durée : 5-6 mois
Contact : Marc.Chaumont@lirmm.fr
Date limite de publication : 2020-12-20
Contexte :
Le Centre de synthèse et d’analyse de la biodiversité (CESAB) est un programme phare de la Fondation pour la Recherche sur la Biodiversité (FRB) et a pour objectif de mettre en œuvre des travaux innovants de synthèse etd’analyse des jeux de données déjà existants dans le domaine de la biodiversité. Faire progresser les connaissances, développer la culture et la collaboration, faciliter les liens entre les disciplines scientifiques et avec les acteurs, sont les principaux objectifs du CESAB, qui accueille chaque année un grand nombre de chercheurs de tous les continents. Plus d’informations sur le CESAB:http://www.fondationbiodiversite.fr/la-fondation/le-cesab/
Sujet :
Bien souvent en télédétection, on souhaite produire une cartographie géographique, c’est-à-dire produire une carte découpée en zones, où chaque zone est labellisée par une valeur. Cette valeur peut par exemple être le niveau de consommation annuel des ménages, la santé des actifs, etc. L’approche standard pour produire une cartographie consiste à extraire des caractéristiques / traits / informations pour chaque zone étudiée .Ces caractéristiques / traits / informations sont représentés par un ensemble de valeurs entières, réelles ou binaires. Elles peuvent être le matériau des bâtiments, le matériau des toits, le nombre de pièces d’une maison, le type de maison, les distances entre divers points d’infrastructure, la classification urbaine ou rurale, la température annuelle, les précipitations annuelles, etc. [Xieet al 2016 -Transfer]. Il est bien évident qu’il n’est pas aisé d’avoir accès à de telles informations qui nécessitent de faire des relevés ou des enquêtes sur le terrain. Une solution moins coûteuse pour faire la cartographie consiste à utiliser des images satellites de haute résolutio n(le principe de la télédétection consiste à faire de la mesure à distance), et d’extraire des caractéristiques qui pourront alors servir à prédire la valeur de chaque zone de la carte. Par exemple, en 2016, Xie et al. [Xie et al 2016 -Transfer] ont proposé de prédire le niveau de pauvreté (= niveau de consommation annuel des ménages) pour des zones de 1 km x 1 km. Toute la problématique de la cartographie par image satellite est qu’il est nécessaire d’avoir suffisamment d’images labellisées (images + valeurs pour chaque zone) pour pouvoir utiliser des algorithmes d’apprentissage automatique. Dans une publication plus récente, Jean et ses collaborateurs [Jean et al. 2019 -Tile2Vec], toujours dans un esprit d’approche faiblement supervisé, proposent un apprentissage par “triplet loss”. Cela correspond a apprendre avec des triplets d’imagettes (deux zones proches dans l’image satellite et une zone distante), un vecteur caractéristique discriminant la zone proche de la zone distante. Cet apprentissage est ainsi totalement non supervisé. Dans un deuxième temps, une régression est effectuée pour prédire le niveau de pauvreté à partir du vecteur des caractéristiquesde l’imagette en entrée. Les résultats de cette nouvelle proposition donnent une régression dont la corrélation est meilleure que celle obtenuepar l’approche par transfert [Xie et al 2016 -Transfer]. Il reste cependant encore une marge de progression puisque la corrélation après régression n’est que de 70%. La méthodologie est intéressante, mais comme indiqué par les auteurs [Jean et al. 2019 -Tile2Vec], elle ne prend pas assez en compte l’aspect temporel. Par ailleurs, les données sur lesquelles les expériences ont été effectuées ont été volontairement bruitées par les agences gouvernementales.
L’étudiant devra donc étudier et proposer une solution dans le cas où l’on dispose d’un ensemble d’images satellites prises sur une dizaine d’années, avec une fréquence variable, un échantillonnage à “trous”, une échelle en résolution variable et un faible nombre de données annotées. Dans un premier temps, l’étudiant devra faire un état de l’art des approches de segmentation (labellisation) d’images satellites, en veillant à étudier plus particulièrement les approches de prédiction utilisant des séquences d’images satellite. En parallèle, l’étudiant reprendra les expériences menées par l’équipede Jean et al. pour avoir une base de comparaison, mais également pour prendre en main les données dont nous disposons. En fin de stage, l’étudiant pourra comparer l’approche de Jean et al. et son approche basée sur la prédiction par séquence d’images.
Références
https://nealjean.com/
[Jean et al. 2019 -Tile2Vec] N. Jean, S. Wang, A. Samar, G. Azzari, D. Lobell, S. Ermon.Tile2Vec: Unsupervised representation learning for spatially distributed data. AAAI Conference on Artificial Intelligence (AAAI), 2019
[Jean et al. 2016 -PredictPoverty] N. Jean, M. Burke, M. Xie, W. M. Davis, D. B. Lobell, S. Ermon. Combining satellite imagery and machine learning to predict poverty Science, 353(6301), 790-794, 2016.
[Xie et al 2016 -Transfer] Transfer learning from deep features for remote sensing and poverty mapping. M. Xie, N. Jean, M. Burke, D. B. Lobell, S. Ermon AAAI Conference on Artificial Intelligence (AAAI), 2016
Profil du candidat :
Master 2 Informatique
Formation et compétences requises :
Programmation C/C++, Python, Classification, Fouille de données, connaissances en traitement d’images, connaissances de base en Deep Learning, anglais écrit scientifique.
Aucune connaissance en télédétection n’est requise
Adresse d’emploi :
LIRMM (Laboratoire d’Informatique, de Robotique et Microélectronique de Montpellier) Equipe ICAR, Bât. 5, CC 05016 -860 rue de St Priest, 34095 Montpellier cedex 5, France
Document attaché : Stage_Master_PARSEC_2020_FR.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : GREYC
Durée : 6 mois
Contact : francois.rioult@unicaen.fr
Date limite de publication : 2020-12-31
Contexte :
En analyse de la performance, la capture des informations conceptuelles est essentielle à la description et la modélisation des scénarios de jeu explorés par les joueurs, en entraînement ou en compétition [1]. De plus, la qualité collective de certains sports motive des besoins en identification de classes de situations, en détection de motifs de mouvements coordonnés au sein de situations similaires afin de faire émerger des régularités entre des ensembles hétérogènes de situations de jeu [2].
Ce travail s’intéresse plus particulièrement au handball, pour lequel de nombreuses données sont disponibles, en particulier des données de trajectoires. La pratique du handball implique de nombreuses séquences de jeu et un répertoire de tactiques bien délimité. Ce sport est bien étudié dans la littérature sur les aspects individuels de coordination et d’agilité, de force et de puissance, d’endurance et de cognition (voir [3] pour une revue extensive). Cependant, d’un point de vue collectif, les approches tactiques et stratégiques ont fait l’objet de développement mineurs. À l’exception de [4, 5, 6, 7], les aspects collectifs du handball sont très peu étudiés. Pourtant, c’est un sport où cet aspect domine.
Sujet :
L’objectif est donc d’appliquer une démarche exploratoire à des données de positions en handball, de manière à détecter des régularités dans les enchaînements tactiques. Pour cela, il convient de reproduire le cadre générer/tester utilisé par la fouille de données, de motifs ou de séquences, de façon à obtenir des résultats en terme de graphes dynamiques fréquents. L’espace de recherche des graphes dynamiques étant d’une taille qui rend difficile leur génération, on pourra plutôt utiliser une approche sans génération, pilotée par les données, initiée par la méthode FP-growth dans le domaine de l’extraction de motifs fréquents [8].
Ce stage est susceptible d’être poursuivi en thèse.
Envoyer CV, relevés de notes, recommandation et lettre de motivation montrant l’intérêt pour la recherche dans ce domaine à francois.rioult@unicaen.fr, avant le 31/12/2020.
Bibliographie
[1] Tim McGarry. Applied and theoretical perspectives of performance analysis in sport : Scientific issues and challenges. International Journal of Performance Analysis in Sport, 9(1) :128–140, 2009.
[2] Gennady Andrienko, Natalia Andrienko, Gabriel Anzer, Pascal Bauer, Guido Budziak, Georg Fuchs, Dirk Hecker, Hendrik Weber, and Stefan Wrobel. Constructing spaces and times for tactical analysis in football. IEEE Transactions on Visualization and Computer Graphics, 2019.
[3] Herbert Wagner, Thomas Finkenzeller, Sabine Würth, and Serge P Von Duvillard. Individual and team performance in team-handball : A review. Journal of sports science & medicine, 13(4) :808, 2014.
[4] Norbert Schrapf and Markus Tilp. Action sequence analysis in team handball. Journal of Human Sport and Exercise, 8 :S615–S621, 09 2013.
[5] M Tilp and N Schrapf. Analysis of tactical defensive behavior in team handball by means of artificial neural networks. IFAC-PapersOnLine, 28(1) :784–5, 2015.
[6] António Lopes, Oleguer Camerino, M Teresa Anguera, and Gudberg K Jonsson. Ball recovery in the handball tournament of the 2008 beijing olympic games : sequential analysis of positional play as used by the spanish team’s defence. In Proceedings of the 7th International Conference on Methods and Techniques in Behavioral Research, pages 1–4, 2010.
[7] Udo Feuerhake and Monika Sester. Mining group movement patterns. In Proceedings of the 21st ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems, pages 520–523, 2013.
[8] Jiawei Han, Jian Pei, and Yiwen Yin. Mining frequent patterns without candidate generation. ACM sigmod record, 29(2) :1–12, 2000.
Profil du candidat :
Étudiant.e en M2/ingénieur spécialité science des données. Une expertise ou un fort intérêt pour les problématiques liées à l’analyse de données sportives est un plus.
Formation et compétences requises :
Sciences des données, culture du sport collectif.
Adresse d’emploi :
Université de Caen – campus 2 Côte de Nacre – Laboratoire CNRS UMR6072 GREYC
Document attaché : 202012021159_stageDonneesSport.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : SNCF
Durée : 6 mois
Contact : tony.marteau@sncf.fr
Date limite de publication : 2020-12-31
Contexte :
Au sein de SNCF Voyageurs, le Centre d’Ingénierie du Matériel réalise des missions d’expertise dans diverses spécialités lors de l’acquisition et la rénovation de matériels roulants. Intégré à l’équipe ETF1, le pôle « Intelligence Artificielle » expertise et conçoit des systèmes de vision artificielle ainsi que des solutions de surveillance audio et vidéo.
La problématique de disponibilité de jeu de données avec une labélisation forte pour entrainer de manière supervisé les modèles de deep learning est commune à tous les projets du pôle. L’acquisition de ce type de données est couteuse en temps et introduit des biais d’annotation. Pour contrer ces problématiques les modèles sont entrainés avec des données synthétiques ou scénarisées. Malheureusement, même si ce genre de données est intéressant pour valider la pertinence d’un modèle, ces données ne reprennent pas toute la diversité d’un environnement commercial.
Avant de pouvoir déployer les modèles en production il est donc nécessaire de les entrainer sur des données provenant de services commerciaux. La difficulté est que ces données sont soit faiblement labélisés ou partiellement labélisés. L’objectif de ce stage est donc d’évaluer et de mettre en place des approches faiblement et semi supervisé afin d’entrainer des modèles précédemment validé avec des entrainements supervisés.
Sujet :
Appliqué à un cas d’usage vidéo le stage aura pour but d’étudier deux approches afin d’évaluer les atouts, les faiblesses et la pertinence au regard du cas d’usage
1. Faiblement supervisé
2. Semi supervisé
Il sera nécessaire de se baser sur les travaux déjà menés dans le pôle et les techniques récentes dans la communauté scientifique.
La finalité du stage sera le développement d’un framework logiciel permettant d’entrainer facilement, sur des jeux de données faiblement ou partiellement annotés, des modèles validés via un entrainement supervisé.
Le stage sera découpé en trois parties :
– La première partie « littérature » permettra de découvrir les différentes approches et d’établir l’état de l’art dans le domaine
– La seconde partie « implémentation » sera l’application sur des cas d’usage SNCF des méthodes précédemment repérées
– Enfin la troisième et dernière partie sera dédiée au développement d’un framework afin de pouvoir entrainer tous les modèles
La publication en conférence sera possible et encouragé.
Concernant le matériel une unité de calcul équipé d’un GPU dernier cri (V100, RTX 8000, RTX 6000, Titan RTX, 2080Ti) sera mise à disposition du stagiaire pour évaluer ses implémentations.
Enfin des déplacements ponctuels sont prévus dans le cadre de certains essais ou réunions.
Profil du candidat :
Le stage s’adresse aux étudiants en Master 2 informatique ou traitement de signal ou en dernière année d’école d’ingénieur (BAC+5).
Le stagiaire devra faire preuve d’autonomie et d’initiative ainsi que d’un bon sens relationnel. Curiosité technique et un esprit de synthèse seront également nécessaires.
Formation et compétences requises :
Les compétences techniques ciblées pour ce stage sont :
– Système d’exploitation : Linux
– Langages : Python
– Librairies : OpenCV, TensorFlow ou PyTorch
Les compétences fonctionnelles suivantes sont demandées :
– Intelligence artificielle : Deep Learning (DNN, CNN, RNN)
– Computer Vision
Adresse d’emploi :
4 Allée des Gémeaux – 72100 LE MANS
Document attaché : 202010231149_2021-ApprentissageSemiSuperviséPourAnalyseVideo.pdf
