
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : INRAe
Durée : 6
Contact : sandro.bimonte@irstea.fr
Date limite de publication : 2020-01-15
Contexte :
**!!!!!The internship grant scientific work is based on our new paper that will appear at DOLAP2020 : “To Each His Own: Accommodating Data Variety by a Multimodel Star Schema”. !!!!!
Sujet :
**Our proposal is a preliminary work that define DW schema inside Multimodel databases [1]. In particular, on using a multimodel (MM) star schema to deal with variety in data warehouses (DW) where the same schema may contain different data types that are not necessarily structured.
The paper is a “preliminary investigation” and thus there are not many conclusive findings, but the paper introduces the basics and points to many directions for future work. The topic is very important in this era of big data management and for many real-life applications.
Some directions of this future work will investigated during the internship.
**In particular, we will provide some methods and tests to “measure” the benefit of our approach against relational and single NoSQL model for: (i) variety, (ii) flexibility, and (iii) ETL
A real case study concerning agricultural tractors and robots data (i.e. trajectory data) will be used during the project.
[1] Jiaheng Lu and Irena Holubová. 2019. Multi-model
Databases: A New Journey to Handle the Variety of Data.ACM
Comput. Surv.52, 3 (2019), 55:1–55:38
Profil du candidat :
**Required skills:
Data Warehouse
Databases
ETL
Spatial data (optional)
Mondrian OLAP server (optional)
Formation et compétences requises :
Data Warehouse
Databases
ETL
Spatial data (optional)
Mondrian OLAP server (optional)
Adresse d’emploi :
INRAe 9 avenue Blaise Pascal
Aubiere France
Annonce en lien avec l’Action/le Réseau : ADOC
Laboratoire/Entreprise : ERIC, Université Lumière Lyon 2
Durée : 5 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2020-01-15
Contexte :
BRETEZ est un projet pluridisciplinaire qui vise la restitution visuelle et sonore de Paris dans la seconde moitié du XVIIIe siècle. Projet exploratoire, il se développe par modules qui s’imbriquent les uns aux autres avec des caractéristiques essentielles : les modules doivent être interopérables et ouverts, des outils au service de tous.
Les restitutions historiques urbaines (issues ou non de l’archéologie de terrain) prennent appui sur des moteurs de jeux vidéo ayant leurs propres caractéristiques liées à leur destination première, le jeu. Or, ces outils sont utilisés par des chercheurs ayant des besoins spécifiques de gestion, mais également de traçabilité. La documentation nécessaire au projet BRETEZ représente de gros volumes de données hétérogènes et multimédia (aspects volume et variété des big data).
Dans le projet BRETEZ, le module STRATEGE (Système de TRAçabiliTE et de Gestion de l’information de données multimédia) devra à terme permettre le stockage, la modélisation, l’interrogation et l’analyse de toutes les données du projet, données par nature multimédia. Maîtriser l’hétérogénéité des données, gérer leur qualité et leur volume, garantir leur interopérabilité et leur accès efficace tout en les conservant dans leur forme originelle afin qu’elles demeurent des références utilisables peut s’envisager en exploitant le concept de lac de données (data lake).
Sujet :
Un premier stage recherche de master en 2018-2019 a permis d’explorer cette piste. Un état des lieux de l’existant du projet BRETEZ a permis de recenser toutes les données du projet avec des données dans une base de données, des documents textuels, des fichiers son, des fichiers image, une maquette dans Unity (un logiciel de développement de jeu vidéo), etc. La base de données a été entièrement restructurée et les premiers fondements du lac de données ont été posés.
L’objectif du deuxième stage recherche de master en 2019-2020 est de :
– poursuivre la construction du lac de données notamment avec le développement du système de gestion des métadonnées ;
– intégrer dans le lac les données provenant de la maquette vidéo ;
– de formaliser les besoins d’analyse des données du lac ;
– de concevoir les outils d’analyse tenant compte du contenu textuel, visuel et audio et de l’hétérogénéité des sources.
Profil du candidat :
Le sujet de stage s’adresse à des étudiants en 1e ou 2e année de master en informatique décisionnelle, en fouille de données ou en sciences des données. Des compétences en bases de données, en traitement des données massives, en technologies liées au Big Data ou en jeux vidéo seront particulièrement appréciées.
Formation et compétences requises :
Le sujet de stage s’adresse à des étudiants en 1e ou 2e année de master en informatique décisionnelle, en fouille de données ou en sciences des données. Des compétences en bases de données, en traitement des données massives, en technologies liées au Big Data ou en jeux vidéo seront particulièrement appréciées.
Adresse d’emploi :
Merci d’adresser, avant le 15 janvier 2020, votre candidature avec un CV, une lettre de motivation ainsi que vos notes de l’année universitaire en cours et de l’année dernière à jerome.darmont@univ-lyon2.fr, sabine.loudcher@univ-lyon2.fr et mylene.pardoen@wanadoo.fr. Les candidats retenus seront convoqués pour un entretien fin janvier.
Document attaché : Offre-stage-Master-Recherche-STRATEGE.pdf
Annonce en lien avec l’Action/le Réseau : Formation
Laboratoire/Entreprise : LIP6 – Sorbonne Université
Durée : 6 mois
Contact : bernd.amann@lip6.fr
Date limite de publication : 2020-31-01
Contexte :
Le stockage d’information sur ADN est une technologie émergente qui constitue une solution durable (quelques dizaines de milliers d’années), à faible impact énergétique et extrêmement compacte [Church12]. Le stockage d’informations numériques sur ADN a été pour l’instant effectué sur des pools d’oligonucléotides synthétisés, stockés et lus in vitro. Alors que cette méthodologie s’est révélée utile pour démontrer la faisabilité du stockage numérique sur ADN, elle présente de nombreuses limitations. Afin de lever ces limitations et de développer des systèmes de stockage sur ADN plus performants, nous développons des solutions d’archivage originale in vivo, en rupture avec les technologies existantes.
Ce stage est financé par Sorbonne Université dans le cadre du projet émergence DNA SYSTEM et s’effectuera en collaboration avec deux équipes de recherche en informatique (BD et DELYS) et deux équipes en biologie (Z. Xu et S. Lemaire) qui développent de nouvelles techniques pour le stockage et la manipulation de l’information numérique sur ADN. Ce stage implique également des interactions fortes entre ces différentes équipes.
Sujet :
Objectifs du stage
Ce stage de master visera à poursuivre ces travaux en étudiant le problème d’encodage et de décodage de séquences binaires 0/1 en séquences DNA ACGT avec des propriétés particulières, intégrées dans le support physique. Cet encodage doit être biocompatible et biosécurisé et permettre la manipulation (copie, édition, lecture, écriture) de longs fragments d’ADN in vivo et in vitro.
Il existe déjà un algorithme de biocompatibilité qui utilise un encodage flexible Church-Gao-Kosuri (0=A=C ; 1=T=G) et permet de moduler des séquences afin qu’elles satisfassent des contraintes spécifiques comme par exemple :
Taux de présence de nucléotides spécifiques, par exemple %GC du génome de l’organisme hôte, pour améliorer les performances en lecture et écriture ;
Interdiction des répétitions de plus de trois nucléotides (ACGT) identiques pour réduire notamment les erreurs de lecture et d’écriture ;
Suppression et ajouts de séquences spécifiques pour obtenir un assemblage de fragments biocompatible pour l’organisme vivant ;
Travail à effectuer
Formaliser les contraintes de biocompatibilité et biosécurité ;
Etudier et analyser l’algorithme d’encodage existant (convergence, complexité/coût) ;
Etudier l’état de l’art sur les algorithmes d’encodage existants [Tulpan06] ;
Proposer des solutions nouvelles en utilisant par exemple des index et des techniques de machine learning;
Implémenter et évaluer une ou plusieurs solutions proposées avec un simulateur ;
[Church12] Church, G. M., Gao, Y., & Kosuri, S. (2012). Next-generation digital information storage in DNA. Science, 337(6102), 1628-1628.
[Tulpan06]Tulpan, D. C. (2006). Effective heuristic methods for DNA strand design (Doctoral dissertation, University of British Columbia).
Profil du candidat :
Bonnes compétences en algorithmique (recherche stochastique, algorithmes génétiques) et programmation (Java, Python)
Des connaissances en biologie/génétique sont bienvenues
Formation et compétences requises :
M2 en cours
Adresse d’emploi :
Sorbonne Université
4 place Jussieu
75252 Paris cedex 05
Annonce en lien avec l’Action/le Réseau : Formation
Laboratoire/Entreprise : Société Kaduceo avec co-encadrement de l’IRIT (Toulouse)
Durée : 6 mois
Contact : julien.aligon@irit.fr
Date limite de publication : 2020-01-31
Contexte :
La mission s’inscrit dans le cadre d’une collaboration entre l’entreprise Kaduceo et l’équipe SIG de l’IRIT. Le cœur de métier de Kaduceo porte sur l’aide à la décision pour les données de santé, en particulier sur les hospitalisions et consultations. Ces données ont, en particulier, besoin d’être catégorisées automatiquement afin de mieux prendre en charge les patients et d’améliorer les conditions de travail des professionnels de santé (par exemple dans les Centres Hospitaliers). A cette fin, l’utilisation de modèles prédictifs peut être une solution mais ils sont généralement difficiles à appréhender. En effet, le manque d’explications sur ces modèles mène à un effet « black box », entrainant une possible perte de confiance de l’utilisateur. Afin d’éviter ce problème, quelques stratégies d’explications de prédictions ont été proposées dans la littérature [3, 4, 5].
[3] Ribeiro, Marco Tulio and Singh, Sameer and Guestrin, Carlos, “Why Should I Trust You?”: Explaining the Predictions of Any Classifier, SIGKDD 2016
[4] Gabriel Ferrettini, Julien Aligon and Chantal Soulé-Dupuy, “Explaining single predictions : a faster method”, SOFSEM 2020 (To Appear)
[5] Gabriel Ferrettini, Julien Aligon et Chantal Soulé-Dupuy, « Un cadre d’aide à l’exploitation des résultats de prédictions », à destination d’experts de domaine, Inforsid 2019
Sujet :
L’objectif du stage porte sur la conception et la réalisation d’une nouvelle méthode d’explication pour les modèles prédictifs. Le but sera d’identifier, dans le dataset, le sous ensemble d’instances (le plus réduit possible) expliquant au mieux le modèle. Ces instances pourraient être vues comme des exemples caractéristiques du modèle. Ainsi, l’utilisateur n’aurait plus qu’à analyser ces instances afin de comprendre et valider son modèle.
Les principales étapes du stage sont les suivantes :
– Analyser et préparer les données du cas d’usage
– Appliquer des algorithmes de prédictions
– Concevoir et implémenter l’algorithme de sélection d’instances pour l’explication
Il est à noter que le bon déroulement du stage pourra mener à une possible thèse CIFRE par la suite.
Le stage est rémunéré aux alentours de 900€ par mois.
Profil du candidat :
Le stagiaire devra avoir un intérêt certain pour l’analyse de données et le machine learning. Le stagiaire devra également disposer d’une capacité à s’exprimer auprès de non-spécialistes en informatique.
Formation et compétences requises :
Etudiant M2.
De fortes compétences en Python sont attendues.
Adresse d’emploi :
96 Avenue Jules Julien N°5, 31400 Toulouse
Document attaché : proposition_stage_kaduceo.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LITIS / GREYC
Durée : 6 mois
Contact : francois.rioult@unicaen.fr
Date limite de publication : 2020-01-31
Contexte :
Depuis quelques années, des chercheurs se sont penchés sur l’analyse des stratégies dans les sports collectifs les plus pratiqués : football, basket-ball, hand-ball en particulier. Cet intérêt récent s’explique par le constat qu’une équipe correspond parfaitement aux définitions les plus utilisées pour les systèmes complexes. Cette admission est fortement liée à la notion de performance collective. La performance d’une équipe est en effet loin de se réduire à la somme des performances des individus, ce qui fait tout le succès de ces sports. Il est donc naturel d’appliquer les méthodes d’analyse des systèmes complexes aux stratégies des équipes. Dans le champ des recherches cognitives, les sports collectifs permettent d’observer l’émergence d’une intelligence collective, permettant la mise en œuvre de stratégies complexes.
En parallèle, les moyens d’observation se sont considérablement accrus ces dernières années (films, positionnement par balises GPS, capteurs divers sur les joueurs,..) permettant un accès plus facile à de nombreuses données.
Mais jusqu’à maintenant, les méthodes d’analyse étaient essentiellement issues des statistiques et de l’analyse des données. Ces méthodes (comme l’analyse de séries chronologiques) permettent de
mettre en évidence certains types de comportements. Elles sont cependant surtout dévouées à l’analyse de comportements individuels (e.g. positions sur le terrain, kilomètres parcourus, …) et prennent difficilement en compte la double dimension spatiale/temporelle nécessaire à l’analyse.
Les approches focalisant sur les aspects collectifs sont rares.
Des études récentes utilisent l’approche par réseau social et construisent un réseau statique modélisant les inter-relations entre les joueurs, interactions pouvant être liées à leurs positions respectives. Elles ne capturent pas la dimension temporelle.
Sujet :
L’objectif est d’explorer une nouvelle voie pour caractériser les stratégies d’équipe : les graphes dynamiques.
Un graphe dynamique peut être vu comme un graphe dont la structure, par exemple les arêtes, évolue dans le temps. On peut également y voir une succession de graphes statiques, étiquetés par des dates successives. Ce concept est utile dans de nombreux contextes, comme la circulation des biens ou des personnes, les réseaux de communication, les réseaux sociaux. On peut étudier les problèmes classiques dans ce nouveau contexte. En particulier, la recherche de motifs dans un graphe s’étend dans un graphe dynamique : le motif cherché a une composante temporelle. On peut par exemple le définir comme une succession de motifs statiques.
La question posée est celle-ci : comment peut-on construire un graphe dynamique à partir des données de positionnement des joueurs (et de la balle) durant un match, de manière à faire apparaître des motifs caractérisant la stratégie de cette équipe ?
Cette question comporte plusieurs volets :
1. la nature du graphe à construire : quels sommets, quelles arêtes ? Doit-on attacher aux sommets, aux arêtes des caractéristiques (attributs) différents? De manière triviale on peut définir qu’un sommet est un joueur ou un ballon, ou un panier de basket-ball. Cependant, la
nature de la relation attachée à une arête est plus délicate à définir, entre par exemple deux joueurs (mais aussi les relations entre les autres objets), sachant qu’ils peuvent être de la même équipe ou non, proches ou non, visibles ou non, …
2. le type de motif à chercher : la compétence sportive est ici indispensable pour valider les motifs, qui doivent avoir une dimension relative aux graphes et une dimension spatiale.
3. volet méthodologique : comment mettre en évidence ces motifs ?
4. validation : application des résultats obtenus sur les données disponibles pour le basket-ball et le handball.
Les deux premiers volets sont liés et nécessitent de mettre en commun des expertises sportives et de modélisation par les graphes. On voit également qu’il est nécessaire d’enrichir les graphes, c’est à dire de considérer des graphes dynamiques sémantiques. Le troisième volet nécessite des compétences algorithmiques particulières de recherche de motifs.
Profil du candidat :
Le stagiaire de Master 2 recruté sera associé au travail d’un stagiaire STAPS qui amènera une expertise dans le domaine sportif, ainsi que par plusieurs stagiaires en informatique (L3). Il participera au volet 1 et 2 de construction du graphe et de caractérisation des motifs, et ensuite son
travail se focalisera sur la recherche et la validation de motifs graphiques (volet 3 et 4). Des données issues de basket-ball et de handball sont disponibles pour pouvoir mener à bien ces travaux.
Formation et compétences requises :
Science des données, fouille des données.
Adresse d’emploi :
Caen, Rouen ou Le Havre
Document attaché : 20191208-sujetMasterGraphesSports.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : laboratoire ERIC, Université Lyon 2 (campus de Bron)
Durée : 4-6 mois
Contact : julien.velcin@univ-lyon2.fr
Date limite de publication : 2020-01-31
Contexte :
Le projet LIFRANUM (Littératures FRAncophones Numériques), financé par l’Agence Nationale de la Recherche pour une période allant de 2020 à 2023, vise à analyser l’impact des modifications des supports de l’écrit sur
les pratiques littéraires. Il regroupe des chercheurs de l’équipe MARGE (Université Lyon 3) et du laboratoire ERIC (Universités Lyon 2 et Lyon 1), en partenariat avec la Bibliothèque nationale de France. L’ambition du projet est notamment de construire une plateforme en ligne qui permettra de faciliter l’analyse des créations littéraires sur le Web par les chercheurs en information-communication et en littérature.
Sujet :
Dans le cadre du projet LIFRANUM, nous cherchons un stagiaire en Informatique afin de pouvoir tester plusieurs algorithmes de la littérature (informatique) pour suggérer de nouveaux liens dans le réseau des auteurs des textes produits sur les supports numériques (par ex. site web personnel, blog), mais également pour proposer des algorithmes originaux. Pour bien débuter, le stagiaire pourra s’appuyer sur des travaux en cours menés par des chercheurs du laboratoire ERIC sur l’apprentissage de représentation (representation learning) d’auteurs. Il aura accès à des données récupérées dans le cadre du projet, mais il travaillera également sur un jeu de données déjà collectées au sein du laboratoire.
Profil du candidat :
Nous recherchons un candidat ayant des compétences solides en analyse/fouille de données, en programmation (Python de préférence) et si possible des notions de traitement automatique des langues (natural language processing) / fouille de données textuelles (text mining) et d’apprentissage automatique (machine learning). Un intérêt pour le travail pluridisciplinaire serait un plus.
Formation et compétences requises :
Master en data mining / data science
Master en statistiques appliquées / analyse des données
Master en traitement automatique des langues (NLP)
Adresse d’emploi :
Université Lyon 2, laboratoire ERIC
5 avenue Pierre Mendès France
69676 Bron
Document attaché : stage-info-lifranum.pdf
Annonce en lien avec l’Action/le Réseau : Formation
Laboratoire/Entreprise : LIP6 – Sorbonne Université
Durée : 6 mois
Contact : bernd.amann@lip6.fr
Date limite de publication : 2020-31-01
Contexte :
L’analyse thématique de corpus scientifiques permet de mieux comprendre les avancées effectuées dans les différents domaines de la science [1]. Au fil des années et des découvertes, les domaines scientifiques évoluent progressivement. Certains sujets prennent de l’ampleur dans un domaine jusqu’à devenir un domaine à part entière. Inversement d’autres sujets peuvent être délaissés dans certains domaines. Analyser la façon dont les domaines scientifiques se forment et évoluent dans un corpus qui rassemble des articles scientifiques sur plusieurs années ou décennies (comme par exemple HAL, arXiv ou Web of Science) permet aux historiens et philosophes de valider leurs modèles d’évolution de la science, aux scientifiques de mieux positionner leurs contributions dans le contexte historique, aux financeur de mieux prédire des évolutions technologiques etc… Par exemple, on peut se poser les questions suivantes pour mieux comprendre l’engouement autour de l’IA : Est-ce que l’IA est la même aujourd’hui que dans les années 2000 ? En quoi est-elle différente ou similaire ? Quels sont les domaines se rapportant à l’IA ? Est-ce que l’IA est une thématique transversale à plusieurs domaines ou plutôt au cœur de certains domaines ?
Sujet :
Objectifs
Ce stage s’appuie sur le workflow EPIQUE [2] d’analyse de grands corpus de documents scientifiques en cours de réalisation au laboratoire LIP6. Le workflow EPIQUE est implanté en Scala avec la plate-forme SPARK et utilise la méthode LDA pour représenter un domaine scientifique (topic) sous forme d’un ensemble de termes pondérées. Les 3 étapes du workflow permettant d’extraire l’évolution des domaines sont :
découper le corpus entier en plusieurs tranches en déplaçant une fenêtre temporelle,
appliquer la méthode LDA pour extraire les domaines scientifiques dans
chaque tranche de temps. Les domaines ainsi produits sont appelés une époque scientifique,
comparer les époques pour déterminer dans quelle mesure elles évoluent dans le temps.
Seules les étapes (1) et (2) étant déjà réalisées, le stage a pour objectif de concevoir et réaliser l’étape (3). Cela soulève plusieurs questions : comment représenter l’évolution des époques ? Comment mesurer la qualité des résultats ? Comment augmenter les performances ?
Travail à réaliser :
Etat de l’art sur les modèles d’analyse sémantique et temporelle de contenus documentaires,
définition d’un modèle d’appariement des époques. L’appariement peut s’appuyer sur une analyse des similarités entre les domaines.
définition d’un algorithme pour extraire des appariements et d’une mesure pour noter la qualité des appariements obtenus.
implantation et intégration du modèle dans le workflow EPIQUE,
évaluation expérimentale sur plusieurs corpus,
optimisation du workflow EPIQUE.
Profil du candidat :
Etudiant M2
Formation et compétences requises :
programmation Java/Scala/Python
expérience Notebook, Spark
Adresse d’emploi :
LIP6-Sorbonne Université
4 place Jussieu
75252 Paris
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : CEDRIC – CNAM
Durée : 6 mois
Contact : nicolas.audebert@cnam.fr
Date limite de publication : 2020-02-01
Contexte :
La compréhension de scènes est un enjeu majeur de la recherche en perception artificielle. Il s’agit non seulement d’identifier les objets imagés mais aussi de comprendre les relations qui les lient : la fracture est-elle horizontale ou verticale, les livres sont-ils rangés, le piéton traverse-t-il ? Depuis quelques années, les approches les plus efficaces de l’état de l’art reposent sur des réseaux de neurones convolutifs profonds (CNN) permettant la détection ou la segmentation d’objets d’intérêt dans les images. Toutefois, le paradigme d’apprentissage supervisé demeure le plus populaire et les modèles profonds sont ainsi gourmands en annotations. Or, l’étiquetage exhaustif des objets, voire des pixels, d’une image est un procédé d’annotation coûteux et qui nécessite souvent l’intervention d’experts (par exemple, des médecins) dont le temps est précieux. Récemment de nouvelles approches d’apprentissage dites semi-supervisée ou faiblement supervisées [Dur+17] se sont intéressées à la réduction de la quantité et de la qualité des annotations nécessaires à l’obtension des performances à l’état de l’art en reconnaissance de formes, jusqu’à se passer entièrement d’annotations [Buc+19]. L’objet de ce stage est ainsi d’étudier les approches parcimonieuses en supervision pour la compréhension d’images.
Sujet :
Il existe dans la littérature scientifique plusieurs approches de classification d’images semi-supervisées, par préentraînement non-supervisé [Car+18 ; NF16], propagation d’étiquettes [Rad+18 ; Kho+17] ou contraintes géométriques [Xie+19].
Le premier objectif de ce stage consiste à adapter les techniques de classification semi-supervisées et non-supervisées au problème de la segmentation sémantique. En effet, ces approches exploitent généralement des notions d’invariance ou d’équivariance à des objets à des transformations géométriques qu’il est possible de retrouver ou de modéliser dans le cadre de la compréhension de scènes. Par exemple, faire tourner un objet de 90° doit produire une segmentation où le masque de l’objet correspond à une même rotation du masque initial.
Le second objectif du stage est de réduire le niveau de supervision des exemples d’entraînement, c’est-à-dire d’apprendre à partir d’annotations moins fines ou incomplètes. En pratique, il est rare de pouvoir travailler sur des bases de données où les images ont été complètement annotées au niveau pixellique et il est bien souvent nécessaire de se contenter d’annotations partielles ou grossières, plus rapides à obtenir.
La mise en application des méthodes développées pourra se faire sur différentes applications déjà étudiées au sein du laboratoire : conduite de véhicules autonomes, cartographie d’images satellitaires, analyse d’images médicales ou segmentation d’images naturelles génériques.
[Buc+19] M. Bucher, T.-H. VU, M. Cord et P. Pérez, “Zero-Shot Semantic Segmentation”, in Advances in Neural Information Processing Systems 32, 2019, p. 466-477.
[Car+18] M. Caron, P. Bojanowski, A. Joulin et M. Douze, “Deep Clustering for Unsupervised Learning of Visual Features”, in The European Conference on Computer Vision (ECCV), 2018.
[Dur+17] T. Durand, T. Mordan, N. Thome et M. Cord, “WILDCAT : Weakly Supervised Learning of Deep ConvNets for Image Classification, Pointwise Localization and Segmentation”, in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[Kho+17] A. Khoreva, R. Benenson, J. Hosang, M. Hein et B. Schiele, “Simple Does It : Weakly Supervised Instance and Semantic Segmentation”, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[NF16] M. Noroozi et P. Favaro, “Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles”, in Computer Vision – ECCV 2016, 2016.
[Rad+18] I. Radosavovic, P. Dollár, R. Girshick, G. Gkioxari et K. He, “Data Distillation : Towards Omni-Supervised Learning”, in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[Xie+19] Q. Xie, Z. Dai, E. Hovy, M.-T. Luong et Q. V. Le, Unsupervised Dat
Profil du candidat :
Nous recherchons un ou une candidate de niveau master 2 ou école d’ingénieur avec une spécialité en mathématiques, en informatique ou en traitement du signal.
Formation et compétences requises :
Le ou la candidate doit démontrer un certain goût pour la recherche et des bases théoriques adéquates en apprentissage automatique, apprentissage profond et traitement d’image. Une aptitude à la programmation, de préférence avec Python, est indispensable. Une première expérience avec une bibliothèque d’apprentissage profond telle que TensorFlow ou PyTorch est un plus.
Adresse d’emploi :
Laboratoire CEDRIC(EA4629) – Conservatoire National des Arts & Métiers
2, rue Conté
75003 Paris
Document attaché : sujet.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : CEDRIC – CNAM
Durée : 6 mois
Contact : nicolas.audebert@cnam.fr
Date limite de publication : 2020-02-01
Contexte :
La compréhension de scènes est un enjeu majeur de la recherche en perception artificielle.
Il s’agit non seulement d’identifier les objets imagés mais aussi de comprendre les relations qui les lient: la fracture est-elle horizontale ou verticale, les livres sont-ils rangés, le piéton traverse-t-il?
Toutefois, le paradigme d’apprentissage supervisé demeure le plus populaire et les modèles profonds sont ainsi gourmands en annotations.
Or, l’étiquetage exhaustif des objets, voire des pixels, d’une image est un procédé d’annotation coûteux et qui nécessite souvent l’intervention d’experts (par exemple, des médecins) dont le temps est précieux.
Récemment de nouvelles approches d’apprentissage dites semi-supervisée ou faiblement supervisées~cite{wildcat} se sont intéressées à la réduction de la quantité et de la qualité des annotations nécessaires à l’obtension des performances à l’état de l’art en reconnaissance de formes, jusqu’à se passer entièrement d’annotations~cite{zeroshot}.
L’objet de ce stage est ainsi d’étudier les approches parcimonieuses en supervision pour la compréhension d’images.
Sujet :
Il existe dans la littérature scientifique plusieurs approches de classification d’images semi-supervisées, par préentraînement non-supervisé~cite{deepcluster,jigsaw}, propagation d’étiquettes~cite{distillation,simple} ou contraintes géométriques~cite{uda}.
Le premier objectif de ce stage consiste à adapter les techniques de classification semi-supervisées et non-supervisées au problème de la segmentation sémantique.
En effet, ces approches exploitent généralement des notions d’invariance ou d’équivariance à des objets à des transformations géométriques qu’il est possible de retrouver ou de modéliser dans le cadre de la compréhension de scènes.
Par exemple, faire tourner un objet de 90° doit produire une segmentation où le masque de l’objet correspond à une même rotation du masque initial.
Le second objectif du stage est de réduire le niveau de supervision des exemples d’entraînement, c’est-à-dire d’apprendre à partir d’annotations moins fines ou incomplètes.
En pratique, il est rare de pouvoir travailler sur des bases de données où les images ont été complètement annotées au niveau pixellique et il est bien souvent nécessaire de se contenter d’annotations partielles ou grossières, plus rapides à obtenir.
La mise en application des méthodes développées pourra se faire sur différentes applications déjà étudiées au sein du laboratoire: conduite de véhicules autonomes, cartographie d’images satellitaires, analyse d’images médicales ou segmentation d’images naturelles génériques.
Profil du candidat :
Le ou la candidate doit démontrer un certain goût pour la recherche et des bases théoriques adéquates en apprentissage automatique, apprentissage profond et traitement d’image.
Formation et compétences requises :
Nous recherchons un ou une candidate de niveau master 2 ou école d’ingénieur avec une spécialité en mathématiques, en informatique ou en traitement du signal.
Une aptitude à la programmation, de préférence avec Python, est indispensable.
Une première expérience avec une bibliothèque d’apprentissage profond telle que TensorFlow ou PyTorch est un plus.
Adresse d’emploi :
Laboratoire Cédric, Conservatoire National des Arts & Métiers (CNAM)
2, rue Conté
75003 Paris
Document attaché : sujet.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : ICube/SERTIT, University of Strasbourg
Durée : 6 months
Contact : iadb@icube.unistra.fr
Date limite de publication : 2020/2/1
Contexte :
Created in 2013, the laboratory brings together researchers from the University of Strasbourg, the CNRS (French National Center for Scientific Research), the ENGEES and INSA of Strasbourg in the fields of engineering and computer science, with imaging as the unifying theme.
With around 650 members, ICube is a major driving force for research in Strasbourg whose main areas of application are biomedical engineering and sustainable development.
SERTIT, a service platform of ICube, known for its ISO certified rapid mapping service, is seeking to accelerate its mapping activities through artificial intelligence. This service assists in post-crisis emergency management (e.g. ground rescue, reconstruction efforts …).
You will join a transversal team of researchers, software engineers and geomatics specialists from SERTIT (Regional service for remote sensing and image processing), SDC (Data science and knowledge), IMAGeS (Images, learning, geometry and statistics), working on automatic feature extraction from satellite imagery.
http://icube.unistra.fr/en/
Sujet :
● Users need to map buildings during rapid mapping after a disaster strikes
● Collaborate with research teams to transfer techniques from medical imaging
to remote sensing
● Develop new innovative and enhance existing solutions to automatically
extract building footprints using:
o Deep Learning
o Object based segmentation algorithms
Profil du candidat :
Undergraduate student of a computer science/geomatics degree or similar.
Formation et compétences requises :
Must have:
● Experience with the Python scientific computing ecosystem (Pandas, numpy, scikit-learn, scikit-image, etc.)
● Knowledge of Machine Learning workflows and techniques (e.g. best practices around training data management, understand basics of numerical optimization)
● Familiarity with Linux environments
● Have excellent communication skills and a strong team player
● Good knowledge of English, French is not mandatory
● Can-do attitude!
Nice to have or interested in learning:
● Experience with GIS software and packages like ArcGIS, QGIS, GDAL or PostGIS
● Experience with a deep learning framework (Tensorflow, PyTorch, Caffe, Theano, Keras)
● Experience with remote sensing and/or geographic raster/vector data
Adresse d’emploi :
300 Bd Sébastien Brant
67412 Illkirch
Document attaché : Stage_2020_Offre_EN_-_final.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : ENSTA Bretagne / Lab-Sticc
Durée : 6 mois
Contact : gilles.le_chenadec@ensta-bretagne.fr
Date limite de publication : 2020-02-01
Contexte :
The project deals with the processing of images recorded by sidescan sonars. Such images reveal detailed textured information about seafloors and may be used to classify any patch into seafloor types (rocks, sand ripples, mud, sand, etc.) and/or to segment images into homogeneous zones.
Various works in this domain have studied different approaches using various signal processing algorithms to extract discriminative information and various supervised or unsupervised classifiers to classify these information. Recently, deep learning approaches showed promising progress, and are interesting to replace traditional handcrafted features stage by an automatic
feature learning stage, to extract hierarchical representation of information with various level of abstraction and to obtain invariant information (insensitive to contrast changes between images and more generally to small
deformations).
Sujet :
Some recent work in our lab has been focused on supervised and unsupervised (autoencoder) architectures applied to seafloor classification and semantic segmentation. In this context, the aim of the proposed internship is to develop new deep-learning-based methods to segment seafloor information recorded by sonar systems.
A number of key points will have to be addressed in this work: the choice of the architecture, the evaluation of results from available sonar images databases, the interpretation of learned representation, the specificity of
sonar images. The student will then explore other directions among semi-supervised (learning with few examples) and/or weakly supervised (learning with lower-quality labels) deep learning architectures.
Profil du candidat :
– Msc/M2 or engineering school 3rd or 4th year
Formation et compétences requises :
– Good scientific skills in data science and good scientific programming skills in Python required.
– Appreciated knowledge in one or several of the following: underwater acoustics, sidescan sonar, data science, machine (deep learning), TensorFlow, PyTorch, Keras, etc.
– Methodology, curiosity and team work ability are also required for this internship.
Adresse d’emploi :
ENSTA Bretagne – Lab-STICC UMR CNRS 6285 – 2 rue François Verny, 29806 Brest
Document attaché : 1920.-sujet_stage_ENSTA.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Équipe ADAM, Laboratoire Données et Algorithmes pour une Ville Intelligente et Durable (DAVID)
Durée : 6 mois
Contact : Karine.zeitouni@uvsq.fr; yehia.taher@uvsq.fr
Date limite de publication : 2020-02-02
Contexte :
Que ce soit en milieu intérieur ou dans un environnement extérieur, la qualité de l’air que nous respirons est l’une des principales préoccupations de la population, notamment en zones urbaines denses en raison de l’importance des risques sanitaires de la pollution atmosphérique. Cependant, l’exposition individuelle réelle à cette pollution est encore mal connue. L’émergence de micro-capteurs environnementaux portables et connectés rend envisageable la mesure de l’exposition individuelle, d’une manière continue, en tout lieu et à tout moment. C’est dans cette optique que s’inscrit le projet ANR Polluscope. Le projet se base sur des campagnes avec des volontaires équipés de capteurs personnels afin d’observer leur exposition individuelle et de collecter par la même occasion des données participatives sur les lieux qu’ils visitent au grès de leurs déplacement. Polluscope propose une plateforme informatique de gestion et d’analyse de ces données. Cette plateforme déjà bien avancée devra s’enrichir de nouvelles fonctionnalités de traitement et d’analyse avancés des données. Le stagiaire intègrera l’équipe du projet dans l’objectif de développer une méthode de caractérisation de l’exposition à la pollution et des micro-environnements (intérieur, extérieur, dans les gares ou les transports).
Sujet :
Ces données ont plusieurs facettes : séries temporelles, des trajectoires, des séquences annotées, voire des données contextuelles externes, essentiellement géo-spatiales. Aujourd’hui, plusieurs méthodes ont été explorées au sein du projet exploitant une de ces facettes individuellement. Par exemple, la segmentation en stops et moves s’est basée sur le clustering des données de localisation ; ou encore sur la détection de changement dans les mesures de capteurs. L’objectif du stage est de combiner ces facettes pour détecter automatiquement et caractériser les micro-environnements.
La méthode de reconnaissance de micro-environnement préconisée est d’appliquer ou adapter l’apprentissage multi-sources (multi-view learning) dont la bibliographie fournie, afin de combiner plusieurs classifieurs. La première partie du stage sera consacrée à l’étude et la prise en main de ces méthodes, puis leur application dans le contexte réel du projet. Le stagiaire sera intégré à l’équipe de recherche.
Dans un deuxième temps, le stagiaire contribuera à l’implémentation d’un indicateur de l’exposition individuelle au risque de pollution, une fois qu’il aura été défini par les partenaires du projet.
La plate-forme Polluscope en cours de développement par l’équipe ADAM, se base sur une architecture flexible à base de services, dont un gestionnaire de données avec Postgres/PostGIS, des services d’extraction, transformation et chargement de données de sources diverses, des services de prétraitement, des analyses basiques et une interface de visualisation interactive utilisant Grafana. L’implémentation intégrera des fonctions de prétraitement de données comme le débruitage ou l’imputation des valeurs manquantes.
Bibliographie et webographie :
Projet Polluscope : http://polluscope.uvsq.fr
Brahem M. et al., Vers un observatoire participatif de l’exposition individuelle à la pollution de l’air et de ses effets sanitaires, Conférence internationale de Géomatique et d’Analyse Spatiale (SAGEO 2019), 275-280.
Muslea, I., Minton, S., & Knoblock, C. A. (2006). Active learning with multiple views. Journal of Artificial Intelligence Research, 27, 203-233.
Xu, C., Tao, D., & Xu, C. (2013). A survey on multi-view learning. arXiv preprint arXiv:1304.5634. https://arxiv.org/pdf/1304.5634.pdf
Li, Sheng, Yaliang Li, and Yun Fu. “Multi-view time series classification: A discriminative bilinear projection approach.” Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. CIKM 2016. https://static.aminer.org/pdf/fa/cikm2016/lfp0510-liA.pdf
Profil du candidat :
Le stage est destiné aux étudiants de Master 2 ou de dernière année de cycle Ingénieur en Informatique.
Formation et compétences requises :
Le candidat doit avoir des compétences solides en ingénierie informatique, en bases de données et en apprentissage statistiques (machine learning). La connaissance des SIG est un plus. Le travail en équipe et la communication avec des non informaticiens sont également nécessaires pour la réussite de ce stage.
Adresse d’emploi :
Équipe ADAM, Laboratoire Données et Algorithmes pour une Ville Intelligente et Durable (DAVID) – UVSQ, Université Paris-Saclay, Versailles
45 avenue des états-unis
78035 Versailles
Document attaché : Stage_DIM-QI2_MultiView_Learning.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : ICube, University of Strasbourg
Durée : 6 months
Contact : lampert@unistra.fr
Date limite de publication : 2020-02-15
Contexte :
Created in 2013, the laboratory brings together researchers from the University of Strasbourg, the CNRS (French National Center for Scientific Research), the ENGEES and INSA of Strasbourg in the fields of engineering and computer science, with imaging as the unifying theme.
With around 650 members, ICube is a major driving force for research in Strasbourg whose main areas of application are biomedical engineering and sustainable development.
SERTIT, a service platform of ICube, known for its ISO certified rapid mapping service, is seeking to accelerate its mapping activities through artificial intelligence. This service assists in post-crisis emergency management (e.g. ground rescue, reconstruction efforts …).
More information:
http://icube.unistra.fr/en/
Sujet :
You will exploit state-of-the-art advances in multi-modal and multi-domain representation learning made in the data science and knowledge research group (SDC) to detect objects in satellite images of different characteristics (resolution, bands, etc), i.e. modality, in collaboration with remote sensing experts in SERTIT.
These models have been developed with benchmarks and medical datasets in mind and need to be extended and refined to work with more complex, higher dimensionality data such as satellite imagery.
The work has two benefits: on the one hand, to reduce the burden of ground truth collection when sensors of different characteristics are used; and on the other to exploit the information contained in each data modality to learn representations that are more robust and general, i.e. to detect buildings/roads/trees in different countries that exhibit different characteristics.
Your contributions will be part of the global work of the SDC researchers who aim to propose and implement new generic methods and tools to exploit large sets of reference data from one domain/modality (sufficient to train an accurate detector) to train a multi-modal/domain detector that can be applied to imagery taken from another sensor for which there exists no reference data.
As such, the work tackles problems that are key to many machine learning and computer vision applications.
• You will join a transversal team of researchers, software engineers and geomatics specialists from SERTIT and SDC (Data Science and Knowledge research group)
• Collaborate with research teams to transfer deep learning models to applications in remote sensing
• Build deep learning pipelines for multi-modal domain adaptation
• Participate in a research and development team
• Develop experimental protocols
• Perform thorough evaluation of proposed solution
Further Reading:
[1]. J. Shen, Y. Qu, W. Zhang and Y. Yu, “Wasserstein Guided Representation Learning for Domain Adaptation,” In Proceedings of the AAAI Conference on Artificial Intelligence, 2018.
[2]. Y. Bengio, “Deep Learning of Representations for Unsupervised and Transfer Learning,” In Proceedings of the Conference on Advances in Neural Information Processing Systems, 2012.
[2]. K. Bousmalis, et al. “Domain separation networks,” In Proceedings of the Conference on Advances in Neural Information Processing Systems, 2016.
Profil du candidat :
2nd year of a Master’s in Computer Science degree or similar
Formation et compétences requises :
• Experience with the Python (numpy, keras, tensorflow, etc.)
• Interest/experience in deep learning
• Knowledge of machine learning workflows and techniques (e.g. best practices around training data management, understand basics of numerical optimisation)
• Familiarity with Linux environments
• Have excellent communication skills and a strong team player
• Good knowledge of English (French is not mandatory)
• Be enthusiastic!
Adresse d’emploi :
ICube
300 bd Sébastien Brant – CS 10413
F-67412 Illkirch Cedex
France
Document attaché : Intern_Ad_RL4MSD_ENG.pdf
Annonce en lien avec l’Action/le Réseau : Formation
Laboratoire/Entreprise : Institut de recherche en informatique de Toulouse / Centre hospitalier universitaire de Toulouse
Durée : 4-6 mois
Contact : omar.el-rifai@irit.fr
Date limite de publication : 2020-02-20
Contexte :
Le Dossier Médical Partagé (DMP) mis en place depuis 2011 met à disposition les données de santés de chaque patient sous une plateforme unique. Il facilite également le partage des informations avec les professionnels de santé. Mais cette nouvelle disponibilité des données soulève des problématiques technologiques et exige des standards de sécurité plus élaboré.
La technologie blockchain s’est développée en parallèle et a vu ces dernières années des cas d’usages dans plusieurs domaines très divers. En particulier, dans le domaine de la santé, des initiatives au niveau d’Etat se sont mis en place en particulier en Estonie et à Dubai. Ces intitiatives utilisent la blockchain pour sécuriser les données des patients et garantir plus de transparence sur leurs utilisation.
Sujet :
Dans le cadre du projet TRANSPARENS porté par le CHU de Toulouse et finance par la Fondation Roche, vous travaillerez en collaboration avec d’autres chercheurs pour la mise en place technique d’une blockchain basée sur la technologie Ethereum à destination des patients atteints de Traumatisme Cranien. Il s’agira du développement de “Smart Contract” sur cette blockchain pour gérer les données des patients et les droits d’accès. Le prototype servira comme preuve de concept à montrer aux équipes médicales et donc une interface graphique sous forme de site web est à développer.
Profil du candidat :
Niveau M1 ou M2
Formation et compétences requises :
– Très bon niveau en programmation web (NodeJS/React/Angular)
– Compréhension des méchanismes de la blockchain (Programmation en solidity est un atoût) ou à défaut bases solides en mathématiques et informatique
Adresse d’emploi :
Toulouse
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Laboratoire ERIC, Université Lumière Lyon 2
Durée : 6 mois
Contact : julien.velcin@univ-lyon2.fr
Date limite de publication : 2020-02-28
Contexte :
Le projet « Territoires d’innovation de grande ambition (TIGA) » de la métropole lyonnaise comprend un axe de travail de recherche-action sur le thème du lien local entre les citoyens et l’industrie. En particulier, le projet vise à imaginer des outils nécessaires et objectifs pour l’observation du territoire et de l’implication citoyenne.
Sujet :
Dans le cadre de ce projet, il est proposé un stage de master ayant pour mission principale de clarifier la situation afin de dégager des pistes de recherches prometteuses et amorcer des réponses. Ce stage se déroulera au laboratoire universitaire de recherches ERIC (https://eric.msh-lse.fr/), avec l’appui de l’agence d’urbanisme du Grand Lyon. Les objectifs du projet sont les suivants :
– Détection, mise en place et analyse multicritère d’indicateurs générateurs de confiance au niveau d’un territoire
– Recueil des données et évolutions de ces indices
– Modélisation des évolutions de ces indices à partir de variables d’intérêts liées à la relation habitants / industries
Les objectifs du stage consistent à établir un état de l’art, identifier les données à récolter, proposer un modèle multicritère et dégager une problématique autour de la question de l’appropriation citoyenne des liens avec l’industrie et de son impact sur la qualité de vie. Le stage comprendra les phases suivantes :
1. Etat de l’art de différents indices multicritères générateurs de confiance déployables au niveau territorial : tableau avantages / inconvénients. Base de recherche : économie du développement, urbanisme, aide à la décision multicritère
2. Mise en place d’une méthodologie de récolte des données permettant de mettre en œuvre les indices recensés en phase 1. Base de recherche : statistique publique, bureau d’enquêtes
3. Analyse coûts/bénéfices des différentes options et suggestions du choix d’un indice au vu des résultats des phases 1 et 2
Profil du candidat :
Informatique
Formation et compétences requises :
– analyse/fouille des données
– analyse multicritère
Adresse d’emploi :
Laboratoire ERIC, université Lyon 2, campus Porte des Alpes (Bron)
Document attaché : sujet-stage-ERIC-TIGA.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Equipe DANTE, LIP, ENS de Lyon
Durée : 6 mois
Contact : remi.gribonval@inria.fr
Date limite de publication : 2020-02-28
Contexte :
Nous recherchons deux étudiantes ou étudiants intéressés par les aspects algorithmiques et mathématiques de l’apprentissage pour un stage de six mois niveau master 2 ou fin d’école d’ingénieurs, dans l’optique d’une continuation en thèse.
Date de démarrage souhaitée : février/mars 2020
Sujet :
Exemples de sujets possibles:
Optimization algorithms for sparse deep networks
http://people.irisa.fr/Remi.Gribonval/wp-content/uploads/2019/11/sujet1.pdf
When are sparse deep networks unique and optimal ?
http://people.irisa.fr/Remi.Gribonval/wp-content/uploads/2019/11/sujet2.pdf
Profil du candidat :
Master2 ou fin d’étude ingénieur en mathématiques appliquées, machine learning, traitement du signal
Formation et compétences requises :
Goût pour les aspects mathématiques de l’apprentissage automatique et de l’optimisation.
Adresse d’emploi :
Lieu du stage : ENS de Lyon
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LRI, Laboratoire de Recherche en Informatique
Durée : 3 à 6 mois
Contact : acl@lri.fr
Date limite de publication : 2020-02-29
Contexte :
Organisational background:
TAU (TAckling the Underspecified) is an Inria team belonging to the LRI lab, the Reseacrh Laboratory in Computer Science. The LRI is attached to both the computing science department of Paris Saclay University and to the INS2I Institute of the CNRS. It is also tightly linked in a partnership with Inria and CentraleSupelec neighbor institutions. LRI hosts more than 250 people, 115 permanent people and 90 PhD on Plateau de Saclay.
Cartolabe project is a high potential project held by a team of scientifics and engineers from LRI and Inria. Both parts, data pipeline and visualization module, have an open architecture to be adapted to various application fields. The hyperparameters tuning part of the internship is essential for the project, because it will validate at least one Cartolabe instance, the one for the scientific publications model.
Sujet :
Objectives of the internship :
The intern will have to set a test protocol to evaluate the results of the scientific cartography provided by Cartolabe web application (cartolabe.fr). In a first step, quality indicators and a validation protocol will be defined. Applying Cartolabe to different datasets like Wikipedia for instance and the comparison with the results returned by other search engine for instance should allow to validate the chosen indicators and the test protocol. In a second step, optimizing the cartography hyperparameters will improve the reached quality.
Job description :
Cartolabe is a LRI – CNRS – Inria common project aiming at visualizing many publications, authors, labs and teams on a unique map (up to 10⁶ points).
Cartolabe application builds a distance between these entities linked to publication by mean of articles text content. A data handling pipeline scraps the data from HAL open archive (
https://hal.archives-ouvertes.fr/: 750 000 articles and authors as of today) and works them out using machine learning techniques. A single json (or feather) format file is produced as pipeline output. Then, a second part of the application (a web application) is in charge of visualizing the point cloud in a zoomable annotated heatmap. Full exploration possibilities are offered on the web client.
As an example, a natural intrinsic quality indicator could be to count, per author, the part of his articles which are reasonnably ‘near’ his own author point localisation.
Extrinsic quality indicators could be conceived by sending similar requests to independant applications like Google Scholar or LookInLabs (https://lookinlabs4halinria.cominlabs.u-bretagneloire.fr/) and comparing the outputs.
Manual quality indicators are also possible by asking scientific referees and experts in a recorded formal querying session to check the validity of the distances proposed by Cartolabe.
Some of the quality indicators can be confrontated with other available information articles citations.
Once the quality indicators will be defined, the second part of the internship will focus on optimizing the pipeline hyperparameters in order to establish their correlation with the indicators and to improve the output results on the map. Hyperparamters are either the choice of an algorithm among several possible others : LDA or LSA, chosen neighborood or projection method the choice of their parameters, like latent dimensions number for similarity computation.
Profil du candidat :
Expected abilities of the candidate:
Python programmation and tools : Anaconda, scikit-learn, pandas…;
software environment tools : software forges, git ;
Appreciated knowledge in one of the following: large corpus data visualization, machine learning, Natural Language Processing, information retrieval : recall vs precision.
Scientific english level required ;
methodology, curiosity and team work ability are also required for this internship.
Formation et compétences requises :
M2 or engineering school 3rd or 4th year.
Domains: computer science, data analysis, information retrieval, machine learning, Natural Language Processing
Adresse d’emploi :
Université Paris Saclay
LRI – Bâtiment Shannon 660
Rue Noetzlin
91190 Gif-sur-Yvette
Document attaché : 2020_DataQualityCartolabe_Internship_En.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : IECL, Nancy
Durée : Six mois
Contact : marianne.clausel@univ-lorraine.fr
Date limite de publication : 2020-03-01
Contexte :
In partnership with Laboratoire d’Informatique de Grenoble, we have collected tweets for three years. Our goal is to understand the different factors involved in some ailments as well as the links between these ailments. In a preliminary work [3], we developed two probabilistic models TM-ATAM and T-ATAM extending Latent Dirichelet Allocation allowing us to summarize the health content of a corpus of tweets and taking into account time.
Sujet :
The output of the method is a vector valued time series that we analyzed using statistical tools. Notably, we detected change points in the health content of our corpus providing a relevant way to detect transitions in the environemental context (for e.g. seasons). We aim at combining this model and recent tools coming from rougths paths theory [1,2] to give new insights on the two models TM-ATAM and T-ATAM.
In particular, we aim at identifying causality relations between ailments as well as use the skew symmetric nature of order 2 signature to cluster the data. The internship will be divided into two parts : understanding of TM-ATAM/T-ATAM and signature method, and thereafter application on our real data.
Contacts: Massih-Reza Amini (Massih-Reza.Amini@imag.fr), Antoine Lejay (antoine.lejay@inria.f), Marianne Clausel (marianne.clausel@univ-lorraine.fr).
Profil du candidat :
Master 2 in statistical learning
Formation et compétences requises :
Strong programming skills in Python, knowledge in statistical learning
Adresse d’emploi :
Institut Élie Cartan de Lorraine
Université de Lorraine, Site de Nancy
B.P. 70239, F-54506 Vandoeuvre-lès-Nancy Cedex
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LIMSI – CNRS
Durée : 5 mois
Contact : mathelin@limsi.fr
Date limite de publication : 2020-03-01
Contexte :
The reliable prediction of the time behavior of complex systems is required in numerous fields ranging from the engineering applications to finance, epidemiology or fluid and solid mechanics. In many cases, the governing equations describing the physics of the system under consideration are not accessible or — when known — their solution requires a computational time often incompatible with the prediction horizon. However, recent successes in the application of deep Neural Networks (NN) are boosting the interest in using deep Machine Learning techniques to simulate complex systems and produce long time forecast.
Nevertheless, several open questions have to be addressed: For instance, when following a trajectory, it is not a-priori guaranteed that the amount of data used during the training process is sufficient to faithfully reproduce the real system. How to choose the architecture of the neural network and a relevant objective (loss function) to obtain reliable and generalizable results?
Sujet :
The internship will focus on studying the quality of a deep NN reduced-order model for simulating chaotic dynamical systems. We will consider the well known Lorenz system and the chaotic dynamics of the Kuramoto-Sivashinsky (KS) partial differential equation, often used in fluid mechanics to model the diffusive instabilities in laminar flames. The intership is part of an effort in our group (https://mathelin3.wixsite.com/flowconproject) and it will take place at LIMSI (www.limsi.fr) in Saclay (91), benefiting from its multidisciplinary environment and expertise in machine learning, dynamical systems and computational fluid mechanics.
Profil du candidat :
The candidate should have a good mathematical background; basic knowledge in Python language and rudiments in nonlinear systems will be beneficial.
Formation et compétences requises :
The candidate should have a good mathematical background; basic knowledge in Python language and rudiments in nonlinear systems will be beneficial. Python scripts are already available, for the numerical simulations of the aforementioned models as well as several NN architectures and training strategies (multi-layer perceptrons, long short-term memory (LSTM), generative adversarial network (GAN)) in combination with several strategies of optimization.
Adresse d’emploi :
LIMSI – CNRS
rue John von Neumann
Campus Universitaire d’Orsay
Bat. 508
91405 Orsay cedex
France
Document attaché : M2proposal.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LAMSADE
Durée : 5-6 months
Contact : elsa.negre@dauphine.fr
Date limite de publication : 2020-03-01
Contexte :
Data exploration is a process of searching relevant information, within a set of data, to detect hidden correlations or new information. However, users have to deal with a growing volume of information due to the increased computing and storage capacity. So, it is increasingly difficult to know exactly what information to look for and where to look for it. Computer technologies facilitating search and retrieval of relevant information are needed. One of them is the recommendation that will guide the user in his/her exploration of the amount of available information by searching for information that seems relevant. This is a particular form of information filtering to present information (movies, music, books, news, images, web pages, etc.) of interest to users. Typically, the recommendation process seeks to predict the score the user would give to each item and recommends the items with the highest scores. Despite good performance of recommender systems, recommendations are sometimes not relevant enough.
Integrating contextual data/information is interesting. Moreover, the context is omnipresent and multidimensional. Consequently, recommender systems move from a two-dimensional score function (Users x Items -> Ratings) to a multidimensional score function (Users x Items x Context -> Ratings). This multidimensional modelling should improve the quality of recommendation process, but unfortunately, it is rare or even impossible to have ratings for all possible cases of context. This generates data sparsity which is an important challenge in recommender system field. Thus, how to limit this data sparsity?
Sujet :
The internship will be centered on a multidimensional approach. A state of the art on context-aware recommender systems (CARSs) and context (multidimensional) modeling (among others) will be carried out. Then, some ideas will be proposed around multidimensional modeling of the context for its integration into a CARS. An implementation and/or a prototype could be developed.
Profil du candidat :
Master 2 – computer science cursus (last year of Master studies)
Formation et compétences requises :
the candidate, involved in a computer science cursus (last year of Master studies), should have a background in at least one (or more) of the following domains: data mining, knowledge discovery/management, OLAP, Business Intelligence, Data Science, machine learning. About the technical skills: java or python.
Adresse d’emploi :
LAMSADE, Paris-Dauphine University, Paris, France
Document attaché : MasterInternship2020.pdf
