
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Institut Elie Cartan de Lorraine
Durée : 6 mois
Contact : marianne.clausel@univ-lorraine.fr
Date limite de publication : 2020-03-01
Contexte :
The analysis of multi-dimensional time series is a fundamental problem in most
areas of science and industry. Often, linear models are insufficient to capture the
structure present in data.
The internship shall focus on the improvement of machine learning techniques
for multivariate time series analysis based on specific feautures encoding dependencies between the components and known as the iterated-integrals signature
(IIS) [1]. Equipped with mathematical guarantees, the IIS is a means to extract
(almost all) multilinear features of a time series. The IIS can then be combined
with Kernel methods as in [2] to perform classical machine learning tasks as classification. We intend to extend classical kernel approaches for statistical testing
and change point detection with this new framework.
Sujet :
The analysis of multi-dimensional time series is a fundamental problem in most
areas of science and industry. Often, linear models are insufficient to capture the
structure present in data.
The internship shall focus on the improvement of machine learning techniques
for multivariate time series analysis based on specific feautures encoding dependencies between the components and known as the iterated-integrals signature
(IIS) [1]. Equipped with mathematical guarantees, the IIS is a means to extract
(almost all) multilinear features of a time series. The IIS can then be combined
with Kernel methods as in [2] to perform classical machine learning tasks as classification. We intend to extend classical kernel approaches for statistical testing
and change point detection with this new framework.
The internship will be divided into two parts : understanding of the IIS features
and the kernelized framework, and thereafter application to statistical testing.
Profil du candidat :
Master 2 students with good background in statistical learning, strong programming skills in Python
Formation et compétences requises :
Master 2
Adresse d’emploi :
Institut Élie Cartan de Lorraine
Université de Lorraine, Site de Nancy
B.P. 70239, F-54506 Vandoeuvre-lès-Nancy Cedex
Document attaché : stage-IECL-CRAN.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LIS UMR 7020
Durée : 4 à 6 mois
Contact : marc-emmanuel.bellemare@univ-amu.fr
Date limite de publication : 2020-03-01
Contexte :
Le travail se déroulera à Marseille essentiellement au laboratoire d’informatique et des systèmes (LIS) dans l’équipe Image & Modèles. Le LIS UMR 7020 fédère plus de 375 membres. La recherche y est structurée au sein de pôles (calcul, science des données, analyse et contrôle des systèmes, signal et image), et centrée sur des activités dans les domaines de l’informatique, de l’automatique, du signal et de l’image.
Sujet :
Le stagiaire s’attachera a définir les paramètres les plus efficaces du point de vue de l’architecture et des données pour la segmentation d’IRM par une approche dite « deep-learning ».
Les troubles de la statique pelvienne regroupent un ensemble de pathologies associant une perte des rapports anatomiques normaux des organes pelviens, et une altération dramatique de la qualité de vie des malades. Ces troubles regroupent des pathologies handicapantes à des degrés variés mais leur physiopathologie reste encore mal connue ce qui complique leur prise en charge. L’IRM dynamique s’avère être une des meilleures modalités pour l’évaluation du degré de pathologie des patientes. Mais l’interprétation. des images et surtout la réalisation de mesures sur ces dernières peut être une tâche fastidieuse pour le clinicien. La proposition de méthodes permettant des mesures objectives et reproductibles serait une contribution pertinente pour l’aide au diagnostic. La segmentation des principaux organes impliqués est alors une étape primordiale mais difficile. Nous avons déjà proposé des méthodes semi-automatiques reposant sur des approches à base de contour actifs et de recalage. Il s’agit alors d’estimer l’apport des approches à base de réseaux de neurones convolutionnels pour cette problématique. Nos travaux actuels reposent sur l’utilisation d’un réseau à architecture U-Net dont les résultats seront comparés aux 2 approches existantes au laboratoire. Le problème de l’adaptation de la base d’apprentissage est particulièrement sensible et sera au centre du projet.
Profil du candidat :
Le candidat ou la candidate de niveau Bac+5 sera intéressé(e) par un projet pluridisciplinaire et par l’imagerie médicale. Les domaines abordés concernent la segmentation d’IRM et les approches par apprentissage profond, dites « deep-learning ».
Formation et compétences requises :
Des compétences en classification et apprentissage seront particulièrement appréciées. Une expérience de la programmation avec l’environnement python est attendue
Adresse d’emploi :
Laboratoire d’Informatique et Systèmes – LIS – UMR CNRS 7020 – Aix-Marseille Université
Campus scientifique de St Jérôme – Av. Escadrille Normandie Niemen -13397 Marseille Cedex 20
Tél. : 33 (0)4 91 05 60 30 – www.lis-lab.fr
Document attaché : Sujet_Master2_SegmentationDeep.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : ICube
Durée : 5 à 6 mois
Contact : florence.leber@engees.unistra.fr
Date limite de publication : 2020-03-15
Contexte :
Valoriser les grandes masses de données spatio-temporelles disponibles dans différents domaines est crucial. Ceci nécessite de concevoir et développer des approches innovantes aptes à traiter conjointement les aspects spatiaux et les aspects temporels, ce qui n’est que peu le cas avec les méthodes actuelles. Si les graphes, outils puissants à la fois théoriquement et méthodologiquement, sont utilisés pour modéliser des phénomènes temporels ou spatiaux, les méthodes actuelles de fouille, d’analyse et d’extraction de connaissances n’exploitent, en général, qu’une seule dimension de l’information, spatiale versus temporelle. Cela implique souvent une perte de précision et possibilité d’interprétation des résultats. C’est pourquoi nous nous proposons d’exploiter un modèle de graphe spécifique intégrant différents types de relations, les graphes spatio-temporels.
Sujet :
L’objectif général est d’étudier et développer des techniques pour trouver dans de grands graphes spatio-temporels, des motifs, ou répétitions, auxquels les experts du domaine concerné peuvent donner sens. Variante 1 (graphes synthétiques) – Deux aspects seront étudiés en particulier :
– la génération d’une base de graphes synthétiques : on dispose déjà d’un outil pour générer de tels graphes. Le stagiaire devra le prendre en main et l’évaluer dans le but de générer une base de graphes caractérisés selon différents indicateurs à définir. Cette base servira densuite pour tester des algorithmes
– la fouille de graphes : plusieurs approches de la litterature seront étudiées ; les codes disponibles pourront être testés sur les graphes synthétiques (avec appui d’un étudiant en M1) pour aboutir à une proposition de méthode de recherche de motifs spatio-temporels fréquents.
En fonction de l’avancée, une expérimentation sur données réelles pourra être menée avec l’aide d’un expert du domaine.
Variante 2 (données réelles, en collaboration avec le SERTIT) – Deux aspects seront étudiés en particulier :
– la simplification de graphes spatio-temporels : on travaillera sur des graphes spatio-temporels de parcelles, enrichis avec des informations issues de données satellitaires et de bases de données géographiques : la simplification des graphes sera opéré par fusion de sommets « similaires », dans les différents dimensions, spatiales et temporelles.
– la fouille de graphes : plusieurs approches de la litterature seront étudiées (avec appui d’un étudiant en M1) ; l’objectif sera d’une part de repérer des motifs définis par l’expert, d’autre part de mettre en évidence des phénomènes spatio-temporels fréquents auxquels l’expert pourra donner sens.
Profil du candidat :
Master ou ingénieur·e informatique
Formation et compétences requises :
Autonome en programmation (python), connaissances sur les graphes, intérêt pour l’aspect expérimental
Adresse d’emploi :
ICube UMR 7357 – Laboratoire des sciences de l’ingénieur, de l’informatique et de l’imagerie
300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex
Annonce en lien avec l’Action/le Réseau : Formation
Laboratoire/Entreprise : Coexel
Durée : 4-6 mois
Contact : vincent.boisard@coexel.com
Date limite de publication : 2020-03-31
Contexte :
Les outils de veille technologique et stratégique permettent de délivrer des services de recherches d’information et de notifications de données ciblées, que ce soit en direct ou en temps réel. Ces données ciblées correspondent à des évolutions technologiques visibles sur le Web pour lequel un expert du domaine souhaite rester au courant de la concurrence ou des usages dans son périmètre.
La difficulté pour ces outils de veille est de devoir traiter d’une part les données avec à la fois la multitude de domaines d’expertise pour répondre à la demande des experts, acquérir et gérer un grand volume de données à récupérer sur le Web, analyser le contenu des informations pour en ressortir de la pertinence. Et d’autre part, gérer le profil des experts sur leurs usages de recherche, d’interactions avec la plateforme de veille, mais également les connaissances de l’expert sur son environnement, comme sa propre base de connaissances ou un réseau d’experts.
La société Coexel se positionne dans ce domaine de la veille technologique & stratégique en proposant la plateforme MyTwip dédiée à ne nombreux domaines d’expertise, avec un moteur de recherche dédié, intégrant des analyses sémantiques basées sur une ontologie pour classifier automatiquement les informations par domaines d’expertise, du traitement de textes pour identifier des signaux faibles pour détecter ces évolutions technologiques pertinentes, ou de l’extraction de connaissances pour relier les concepts liés à une information.
Sujet :
Afin de mieux intégrer l’expert dans le processus de veille, nous envisageons d’intégrer le profil utilisateur, l’expert, au sein même de l’environnement de recherche à différents niveaux. Concrètement, le projet consiste en la mise en place d’un système de recommandations se basant sur les précédentes interactions de l’utilisateur. Celles-ci, de nature hétérogène ( recherches, lecture détaillée, documents, notations, suppressions, commentaires, validations manuelles ) permettent de caractériser le besoin de l’expert et, par conséquent, de lui suggérer de nouveaux documents ou nouvelles sources susceptibles de l’intéresser.
Il s’agit donc de trouver une pondération pertinente de ces différentes interactions afin de définir précisément le profil de l’expert et, une fois celui-ci spécifié, d’identifier sources et documents les plus proches de lui. Il y a donc une notion de distance à affiner entre les différentes entités mises en jeu ( documents, sources, profils d’experts ) et entre plusieurs instances d’une même entité ( on peut ainsi envisager d’étudier la proximité entre deux profils d’experts P1 et P2 afin de recommander à P1 les documents validés par P2 dans le cas où P1 et P2 seraient suffisamment similaires )
Ainsi, la croisée de ces différents critères produit un système complexe dont le mélange particulier a pour but de produire des informations pertinentes aussi bien par recherche à la volée qu’en temps-réel. Cette combinaison subtile n’est pas traitée dans la littérature, en effet nous comptons pouvoir produire des recommandations pertinentes de manière efficace en temps réel avec des profils multidimensionnels en se basant à la fois sur des historiques d’événements et sur des graphes de connaissances ou un réseau social.
Ce défi à relever repose sur certains verrous que nous devons soulever :
• Définir une mesure de pertinence de recommandations reposant sur un profil utilisateur riche, reposant sur son historique étendu (données explicites & implicites), son réseau social et son graphe de connaissances ;
• Définir un système optimisé pour la recherche d’information et la recommandation de veille technologique, combinant temps-réel et traitements lourds pour des milliers d’expert.
Profil du candidat :
Connaissances requises :
– Maîtrise générale des Bases de Données relationnelles.
– Maîtrise générale du langage Python et du format JSON
– Connaissance des concepts de recherche d’information, métadonnées et web-sémantique.
– Capacité à gérer efficacement un workflow conséquent
Connaissances appréciables :
– Expérience de l’outil de gestion de projet Redmine
– Expérience de la BDD No-SQL ElasticSearch.
Qualités nécessaires :
– Motivation
– Rigueur
– Autonomie
Formation et compétences requises :
De formation informatique (Bac+5 minimum), vous avez une expérience significative dans le développement et avez une expérience dans le déploiement et la gestion de projets ou souhaitez évoluer vers ce type de poste.
Adresse d’emploi :
131 avenue du Maréchal Foch 83000 TOULON
Document attaché : 200117-Stage-Module-Recommandations-COEXEL.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : CEDRIC, Conservatoire National des Arts et Métiers
Durée : 6 mois
Contact : elena.kornyshova@cnam.fr
Date limite de publication : 2020-03-31
Contexte :
Le champ des jeux affectifs est nouveau. Il s’appuie sur l’intégration de nouveaux moyens à développer dans les jeux afin d’adaptabilité. [1] et [2] présentent une méthodologie unifiée pour la conception des jeux affectifs utilisant le plus tôt possible le mécanisme de boucle émotionnelle. Ils repèrent des variations à l’aide de mesures physiologiques et appliquent un modèle issu d’un ensemble construit considéré comme en relation avec les émotions. Leur étude montre combien la dimension émotionnelle de l’utilisateur est importante mais difficile à gérer.
Le profil du joueur, y compris ses émotions, impacte la conception des jeux. Afin de proposer une meilleure expérience aux joueurs et de proposer un jeu particularisé, le jeu doit être adaptable en fonction du contexte global du joueur. Nous sommes dans une approche holistique qui combine à la fois l’individu et ses émotions, et, les influences de l’entourage qui va du bâtiment lui-même à l’atmosphère que dégage le lieu. Très peu de travaux ont été faits pour la conception et le développement des jeux adaptables dynamiquement. [3] formalise le concept des jeux appliqués aux visites de musées. Ce travail modélise le jeu de visite et propose un processus d’équilibrage entre la dimension ludique et la dimension non ludique (la visite) de ce type de jeux. [3] propose des patrons de mission qui servent d’éléments réutilisables lors de la conception des jeux, mais qui ne couvrent qu’une partie du processus de conception.
Sujet :
Il s’agit dans ce stage d’élaborer un modèle conceptuel du jeu pervasif adaptable basé sur les émotions. Ce modèle, éventuellement réalisé sous forme d’une ontologie, doit couvrir toute la variété des facteurs qui impactent le jeu tels que le profil de l’utilisateur et ses données physiologiques exprimant son état émotionnel. Cette ontologie doit être construite de façon à ce qu’elle soit adaptée à la démarche situationnelle nécessaire pour la composition dynamique du jeu.
Profil du candidat :
Passionné par les jeux
Formation et compétences requises :
Master 2 en Informatique
Modélisation conceptuelle
Ingénierie des systèmes d’information
Adresse d’emploi :
CEDRIC, Conservatoire National des Arts et Métiers, Paris, 75003, 2, rue Conté.
Document attaché : Stage_Modélisation_JeuxPervasifs_Madics.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Télécom SudParis, laboratoire Samovar (sites Évry ou Palaiseau)
Durée : 5 à 6 mois
Contact : Amel.Bouzeghoub@telecom-sudparis.eu
Date limite de publication : 2020-03-31
Contexte :
Devant la quantité grandissante de données disponibles, de nombreuses applications nouvelles sont proposées dans des domaines en lien avec l’intelligence artificielle, les Big Data ou encore l’Internet des objets. Ces applications font appel à de l’apprentissage automatique, des algorithmes de recommandation, ou de la classification par exemple, et sont de plus en plus utilisées dans tous les domaines de la société [1]. Cependant, les prises de décision effectuées de manière autonome par ces applications, sans intervention humaine, soulèvent des défis d’ordre éthique auxquels s’intéresse de plus en plus la communauté scientifique. Des conférences récentes telles que la conférence ACM Conference on Fairness, Accountability, and Transparency ont été mises en place pour réunir différentes communautés de recherche afin de proposer des solutions interdisciplinaires pour des algorithmes garantissant l’équité et l’absence de biais notamment. Récemment, un groupe de travail de la commission européenne a défini des recommandations pour une intelligence artificielle de confiance [2].
Ce stage concerne plusieurs aspects liés aux données et aux algorithmes pour des prises de décisions équitables, sans biais et auto-explicatives. Il s’agira de comprendre les risques de discrimination dans les traitements de données et de proposer des solutions pour en limiter l’impact.
Sujet :
Ce stage concerne plusieurs aspects liés aux données et aux algorithmes pour des prises de décisions équitables, sans biais et auto-explicatives. Il s’agira de comprendre les risques de discrimination dans les traitements de données et de proposer des solutions pour en limiter l’impact.
https://www-public.imtbs-tsp.eu/~chabrido/sujet_Master2.html
Profil du candidat :
Informatique, niveau Master ou 5ème année ingénieur
Formation et compétences requises :
Nous recherchons des étudiants ayant de solides compétences en informatique, programmation et Linux. Une bonne connaissance en traitement de données est un plus.
Le ou la candidate doit démontrer un certain intérêt pour la recherche, un esprit critique et de la rigueur.
Adresse d’emploi :
Télécom SudParis
site d’Evry :
9 rue Charles Fourier, 91011 Evry
Site de Palaiseau :
19 place Marguerite Perey, 91120 Palaiseau
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : ICUbe – Université de Strasbourg
Durée : 5-6 mois
Contact : gancarski@unistra.fr
Date limite de publication : 2020-03-31
Contexte :
Analysing satellite image time-series using supervised methods requires that thematic classes are perfectly known and defined, and that the expert is able to provide a sufficient set of training data in terms of both number and quality. Faced with the difficulty of obtaining enough examples for the such an analysis, new clustering methods use constraints to guide the clustering process [1,3,4,5]. In particular, in our team, we have developed SAMARAH an innovative method of collaborative interactive clustering under constraints [2]. This method allows the expert to add constraints “on the fly” to guide the process in order to produce clusters closer to the expert’s “intuition”, i.e. potential thematic classes. Thus, the SAMARAH collaborative method developed by ICube allows constraints to be considered incrementally.
Nevertheless, selecting which piece of additional information (object to be labelled, new constraint to apply, etc) is most relevant, i.e. that has a positive impact on the current result, is often very difficult for the expert. Indeed, to define new constraints, the expert almost exclusively uses a visualisation of the scene. Experiments show that, on the one hand, the expert focus on relatively large regions of the image and, on the other hand, they have no way of knowing whether the constraints that are proposed are consistent with each other and relevant a priori. In fact, selecting new information is an important scientific problem, especially since it is essential to optimise the manner in which to obtain this new information from an expert. If they do not see a rapid improvement of the solution following their help, they will quickly lose confidence in the system. Paradoxically, the potential disruptions to the current solution (by the new information) should be limited in order not to disorient the expert. To this end, the expert must be assisted with advice or propositions for new constraints by the method in an active way [6,7].
Sujet :
The objective of this internship is to study and implement mechanisms to propose potentially relevant constraints. This can be done, for example, using two approaches [1]: dependent on, and independent from the clustering algorithm. Ideas in the algorithm dependent direction are, to use the difference between results due to the heterogeneity of methods in SAMARAH, and/or by developing new measures based on the inconsistency [8] and informativeness [9] measures. Directions in the algorithm independent direction are to use a complexity measure, for example, based on trees of minimal weight to identify points at the boundaries between clusters and use them to define constraints, or by developing new measures similar to coherence [9] for time-series.
For the consolidation of proposals and thematic validation, the intern will be able to rely on the work undertaken between ICube and SERTIT. Different fields of application are envisaged such as (non-exhaustively):
1. Detection and monitoring of tree cuts in the Vosges mountains: the detection of clear cuts has already been the subject of previous studies. The case of selective cutting, which is much more complex, could be studied.
2. Monitoring of (re)vegetation around new infrastructure: this will involve identifying vegetation revitalisation/reinstallation classes around newly created infrastructure and then monitoring the evolution of this multi-annual vegetation.
The proposed mechanism(s) will be integrated into the FODOMUST-MULTICUBE platform [10] dedicated to the multi-temporal analysis of remote sensing data.
Profil du candidat :
Second year student of a Master’s of Computer Science degree,
Gratification : 550€ per month
Formation et compétences requises :
The candidate must have good skills in data analysis and more particularly in supervised or unsupervised classification of time series. Skills in remote sensing image analysis are welcome.
Adresse d’emploi :
ICube – SDC Team
Pierre Gançarski – Thoma Lampert
Pôle API
67 400 Illkirch
Document attaché : Sujet_HIATUS_ENG.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Laboratoire d’Informatique et Systèmes, Université de Toulon
Durée : 4 à 6 mois
Contact : adeline.paiement@univ-tln.fr
Date limite de publication : 2020-03-31
Contexte :
Le stage se situe dans un contexte de partenariat multidisciplinaire avec le Bristol Heart Institute (BHI, Royaume-Uni). Le but de ce partenariat est d’améliorer l’évaluation de la fonction cardiaque à l’aide d’une nouvelle mesure, plus directe, de la qualité des battements du cœur. Cette nouvelle mesure devra être totalement automatisée afin de libérer du temps pour les spécialistes. Elle devra aussi être précise et robuste.
Les mesures proxy utilisées actuellement pour évaluer la fonction cardiaque (volume des ventricules, fraction d’éjection, etc.) sont obtenues après reconstruction 3D dynamique du cœur, laquelle est ensuite utilisée pour calculer divers volumes et les mesures proxy qui en découlent. Cette reconstruction est une étape contraignante qui demande beaucoup de temps aux radiologues et cardiologues.
De plus les mesures proxy étant par définition indirectes, elles ne sont pas totalement satisfaisantes pour évaluer la mobilité du muscle cardiaque.
Le stage s’inscrit donc dans un projet de développement d’une nouvelle mesure de la fonction cardiaque, basée directement sur la modélisation de la déformation du cœur.
Sujet :
Des travaux préliminaires ont permis de :
1) développer une méthodologie de quantification de la qualité de certains mouvements : http://www.bmva.org/bmvc/2014/files/paper058.pdf
2) faire un premier pas vers l’application de cette méthode au mouvement de battement du cœur, en démontrant qu’il est possible de produire un modèle de déformation du cœur adapté à cette méthodologie : https://miua2018.soton.ac.uk/documents/papers/MIUA2018_026.pdf
Pendant le stage, nous continuerons ces travaux afin d’obtenir une méthode de quantification de la qualité de battement du cœur.
Le stage comprendra les étapes suivantes :
1) Reconstruction du cœur de patients du BHI en 3D et 4D à partir d’IRMs déjà segmentées au BHI.
2) Construction d’une représentation simplifiée de la déformation du cœur (‘manifold learning’) selon la méthode présentée ici : https://miua2018.soton.ac.uk/documents/papers/MIUA2018_026.pdf . Les diagnostiques des patients du BHI étant connus, il sera possible de vérifier que cette représentation permet bien de distinguer les différentes pathologies.
puis au choix :
3a) Suppression de l’étape de reconstruction en apprenant un mapping direct entre l’image IRM et la représentation de l’étape 2 : entrainement d’un réseau de neurones profond comme dans : http://openaccess.thecvf.com/content_iccv_2015_workshops/w11/papers/Crabbe_Skeleton-Free_Body_Pose_ICCV_2015_paper.pdf .
ou
3b) Construction d’un modèle de mouvement normal du cœur selon la méthode de : http://www.bmva.org/bmvc/2014/files/paper058.pdf , et utilisation de ce modèle pour calculer un score de qualité du battement du cœur.
Profil du candidat :
Ce stage est principalement destiné à un étudiant de niveau Master 2, dans un cursus informatique, mathématiques appliquées, ou école d’ingénieur.
Formation et compétences requises :
Pendant ce stage, des méthodes de modélisation markovienne, d’apprentissage de manifold, et de deep learning seront utilisées. Il n’est pas attendu du stagiaire qu’il soit un utilisateur chevronné de ces techniques, mais il devra avoir envie d’apprendre. Des bases solides en mathématiques et statistique seront nécessaires pour cet apprentissage.
Il est fortement recommandé de lire les articles cités ci-dessus pour vous assurer que vous souhaitez bien travailler avec ces méthodes.
Une bonne maîtrise de la programmation python est absolument nécessaire.
Adresse d’emploi :
Laboratoire d’Informatique et Systèmes, équipe DYNamiques de l’Information (DYNI)
Université de Toulon, Campus de La Garde – La Valette, Avenue de l’Université, 83130 LA GARDE
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LIS UMR CNRS 7220, Aix-Marseille Université (AMU)
Durée : 5 mois/Months
Contact : bernard.espinasse@lis-lab.fr
Date limite de publication : 1 juin 2020
Contexte :
La fouille de textes (Text-Mining) utilise de plus en plus de techniques issues de l’apprentissage profond pour des tâches de traitement automatique des langues (TAL) de très bas niveau comme l’extraction d’information (entités nommées ou relations) ou des tâches de plus haut niveau comme la simplification de textes, le résumé automatique.
Ces techniques d’apprentissage profond utilisant diverses architectures de réseaux de neurones (CNN, RCC, LSTM, …) permettent d’atteindre des performances intéressantes. Ces performances peuvent être améliorées par l’intégration de caractéristiques linguistiques comme les dépendances syntaxiques (Espinasse et al., 2019). Cependant les performances de ces techniques relevant de l’apprentissage profond semblent plafonner. D’autres techniques de TAL, symboliques tirent mieux partie de la linguistique, de ressources sémantiques externes (ontologies), avec notamment l’usage d’un apprentissage relationnel comme dans (Lima et al., 2019) (Verbeke et al., 2014). Pour outrepasser les limites des techniques par apprentissage profond, leur combinaison avec ces techniques symboliques s’avère judicieuse.
Sujet :
Fouille de textes par Machines Relationnelles Profondes /
Text Mining with Deep Relational Machines
cf document attaché / cf attached document
Profil du candidat :
Master 2 en informatique
Formation et compétences requises :
Bases du traitement automatique des langues, Python, apprentissage,
Adresse d’emploi :
Marseille, Campus de St Jérôme, LIS UMR CNRS
Document attaché : Sujet-Master-2-MRD-7fev20.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : BEA (le Bourget) ou LISIC (Calais)
Durée : 6 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2020-04-01
Contexte :
Ce stage s’intègre dans les activités de R&D du Laboratoire Audio CVR du Département Technique du Bureau d’Enquêtes et d’Analyses (BEA) [1]. Le BEA est l’organisme officiel en charge de la conduite des enquêtes de sécurité à la suite d’accidents ou d’incidents aériens. De renommée internationale le BEA et en particulier son département technique, a la responsabilité d’analyser les données issues des enregistreurs phoniques ou CVR (pour Cockpit Voice Recorder) plus communément appelées les “boîtes noires” contenant les échanges vocaux et les alarmes émises dans le poste de pilotage.
Sujet :
Enjeux :
Les CVR sont des équipements renforcés protégeant une information importante pour la détermination des facteurs contributifs à la survenue d’un accident ou d’un incident aérien. Pour cette raison la qualité audio des enregistrements, l’audibilité des alarmes du cockpit et l’intelligibilité des échanges vocaux sont cruciales pour les enquêteurs du BEA.
Les limitations de conception des CVR contraignent les constructeurs d’avion à mélanger les sources sonores audibles dans le cockpit et dans les casques des pilotes (émissions et réceptions radio, échanges sur l’intercom, annonces aux passagers, alarmes sonores, etc) en un unique canal audio envoyé vers le CVR [2], qui en fait une acquisition numérique et protège cette donnée en cas d’accident. Ainsi l’activation simultanée de plusieurs sources sonores peut conduire à une réduction significative de l’intelligibilité des échanges vocaux, voire un masquage complet d’une ou de plusieurs sources audio.
L’extraction d’informations dans les données CVR s’appuie sur l’expérience des analystes audio du BEA et sur leur capacité à détecter des sources sonores enfouies dans des mélanges audio difficiles [3]. Le laboratoire audio du BEA souhaite dans un futur proche explorer les approches de Séparation Aveugle de Sources pour supporter ces travaux très complexes.
Structure et objectifs du stage :
1. Réaliser une étude bibliographique des méthodes de Séparation Aveugle de Sources applicable à des mélanges audio;
2. Développer ou acquérir les licences et les codes informatiques des méthodes les plus pertinentes et prometteuses;
3. Évaluer ces méthodes sur un corpus d’enregistrements audio non-sensibles;
4. Analyser les résultats obtenus, critiquer les méthodes disponibles et caractériser le fossé technologique;
5. Communiquer sur les résultats obtenus et rédiger la documentation finale du stage.
Encadrement du stage et points de contact :
Ce stage sera encadré conjointement par un enquêteur du Laboratoire audio CVR du BEA et par un enseignant-chercheur de l’équipe SPeciFI du LISIC de l’ULCO, spécialiste du domaine. Le stagiaire travaillera avec ces deux équipes, depuis le site de son choix, i.e. dans les locaux du BEA au Bourget, ou ceux du LISIC à Calais.
Les candidats exprimeront dans un premier temps leur intérêt pour ce stage par un courriel auquel ils annexeront les documents pouvant supporter leur candidature (lettre(s) de recommandation, relevés de notes, rapport de projet).
Contact BEA :
Dr. Benjamin Bigot
Enquêteur de sécurité – Analyste CVR
benjamin.bigot [at] bea.aero
Contact ULCO :
Dr. Matthieu Puigt
Maître de Conférences
matthieu.puigt [at] univ-littoral.fr
Références :
[1] Aeronews.tv, Comment le BEA répare les boîtes noires, https://www.youtube.com/watch?v=SIejrcrQboQ
[2] Captain Joe, BLACK BOX/Flight Data Recorder/COCKPIT VOICE RECORDER explained by Captain Joe, https://youtu.be/lPiWlBG16Wo
[3] Guide sur la vérification des enregistrements CVR, https://www.bea.aero/fileadmin/user_upload/Guidance_on_CVR_recording_Inspection__1_.pdf
Profil du candidat :
Curieux et très à l’aise en programmation (Matlab, Python), vous êtes inscrits en deuxième année de Master ou troisième année d’école d’ingénieurs en sciences de données (traitement du signal et des images, machine learning, intelligence artificielle), informatique ou mathématiques appliquées.
Formation et compétences requises :
Curieux et très à l’aise en programmation (Matlab, Python), vous êtes inscrits en deuxième année de Master ou troisième année d’école d’ingénieurs en sciences de données (traitement du signal et des images, machine learning, intelligence artificielle), informatique ou mathématiques appliquées.
Adresse d’emploi :
BEA, 10 Rue de Paris Bâtiment 153, 93350 Le Bourget
OU
LISIC, 50 rue F. Buisson, BP 719, 62228 Calais Cedex
Annonce en lien avec l’Action/le Réseau : Formation
Laboratoire/Entreprise : GEOPS
Durée : 6 months max
Contact : frederic.schmidt@u-psud.fr
Date limite de publication : 2020-04-01
Contexte :
This study takes place in the data deluge from the numerous space missions across the Solar System. The project proposes to develop a tool to automatically detect and characterize the most ubiquitous feature on planetary body : craters.
Sujet :
The aim is to developed a tool to define precise size and position of all craters in the scene, whatever the illumination conditions, the type of sensor and the scale. As a second goal, the project will have to determine the crater characteristics, such primary / secondary (ejecta from a previous impact, not from a direct impactor), presence / absence of rays, erosion level…
This study will take advantage of the machine learning and deep learning libraries available as open source to propose the most versatile and robust detection method. We propose to develop a new tool dedicated to this task. In addition, we propose to organize a worldwide challenge for any researcher/students as an open source strategy, in a framework called RAMP. This platform is designed for collaborative work and gives access to the source code of the participants (not only the results).
Such software pipeline is required to tackle fundamental questions in planetary science to study the surface processes across the Solar System. It will be a crucial tool to precisely date the surface and open a new era for onboard decisions on landing or targeting, to maximize the science return of future deep space missions.
Profil du candidat :
Last year engineer or M2 master student.
Formation et compétences requises :
The candidate must have a engineer or master grade in machine learning/data mining or in planetary science. Double competence in both fields will be encouraged. An excellent level of programming skills is required (Python, linux). We expect the candidate to have a good level of communication in English (written and oral).
Adresse d’emploi :
UMR8148 GEOPS
Bât 509, Université Paris Saclay
91405 ORSAY, FRANCE
Document attaché : ACDC.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : IMT Mines Ales
Durée : 6 mois
Contact : patrice.guyot@mines-ales.fr
Date limite de publication : 2020-04-01
Contexte :
Dans le domaine de l’écologie, il est primordial d’obtenir des mesures objectives sur le nombre d’individus des espèces menacées. Dans ce cadre, afin d’assurer le suivi de la population de poissons migrateurs, l’Association Migrateurs Rhône-Méditerranée met en place un suivi qui utilise la particularité l’acte de reproduction de l’Alose qui permet, in fine, de suivre l’évolution de la population de cette espèce menacée. Lors de la fraie (reproduction), les aloses se manifestent en surface en effectuant des déplacements circulaires et en frappant l’eau de leur nageoire caudale afin de créer un tourbillon qui favorisera la fécondation des œufs. Cette phase appelée « bull » peut être particulièrement bruyante (jusqu’à 50dB) et peut durer jusqu’à dix secondes ce qui permet sa détection à distance par une méthode acoustique.
Sujet :
Le but du stage est d’optimiser des méthodes de détection de sons d’aloses à la surface de l’eau. Le stagiaire pourra s’appuyer sur des méthodes existantes de détection de l’association (incluant des approches basées sur l’étude du signal, et de l’apprentissage profond). Il pourra également s’appuyer sur des techniques d’augmentation artificielle des données audio.
L’objectif final est de comparer les résultats obtenus par différents types de techniques, afin d’identifier une technique robuste qui pourra être embarquée pour une utilisation effective.
Profil du candidat :
Étudiant en dernier année d’école d’ingénieur ou en Master 2 Informatique.
Formation et compétences requises :
Bonnes connaissances en apprentissage profond et en traitement du signal audio.
Intérêt pour l’écologie.
Adresse d’emploi :
Centre de recherche LGI2P, 7 rue Jules Renard. IMT Mines Alès – Site de Croupillac. 30100 Alès.
Document attaché : Stage_2020_MRM_P.guyot_.pdf
Annonce en lien avec l’Action/le Réseau : MAESTRO
Laboratoire/Entreprise : Laboratoire Univers et Théories, Observatoire de Meudon
Durée : 3 Mois ou plus
Contact : jean-michel.alimi@obspm.fr
Date limite de publication : 2020/04/1
Contexte :
Formation des grandes structures de l’Univers et Nature de l’Energie Noire. Traitement de données massives et modélisation numériques grâce aux technologies d’apprentissage profond (deep learning) avec Prior Physique.
Sujet :
Le projet HPC en cosmologie “Dark Energy Universe Simulation” (www.deus-consortium.org) a permis de réaliser un ensemble de simulations numériques de formation des structures cosmiques dans différents modèles cosmologiques. L’objectif scientifique de ce projet est d’étudier de façon croisée les signatures éventuelles de l’énergie noire (composante accélératrice de l’expansion de l’Univers) sur la formation des grande structures et/ou réciproquement comment le processus de formation des grandes structures est modifiée du fait de la présence d’une composante spécifique accélératrice d’énergie noire dans l’Univers. Les modèles cosmologiques étudiés sont dits réalistes au sens où ils sont indistinguables statistiquement sur les données observationnelles disponibles à grandes échelles (Fond de rayonnement cosmologique (CMB) et Supernovae). Cependant l’évolution non-linéaire de structuration gravitationnelle dans ces modèles montre des différences fines et subtiles. L’objectif de ce stage est de tenter de discriminer ces modèles cosmologiques ainsi que d’étudier la possibilité de prédire les paramètres cosmologiques en utilisant les technologies de l’apprentissage statistique profond (deep learning) appliquées aux cartes de densité et de champ de vitesses des halos de matière noire formées dans ces simulations. La capacité (sous certaines conditions) de discriminer entre les modèles cosmologiques à partir des attributs physiques, géométriques ou morphologique (Masse, taille, vitesse, moment cinétique, ellipticité, distribution de masse ou de densité à l’intérieur du halo …) des halos de matière noire formées dans les simulations, et calculées préalablement a déjà été démontrée. Le rôle respectif de chaque attribut lors du processus de discrimination des modèles cosmologiques ou lors de la prédiction des paramètres cosmologique a été étudié. Ainsi on peut dire que l’utilisation des technologies de machine learning est double, elle est à la fois opérationnelle en terme de « classificateur » ou de « regresseur » supervisés sur les données de cosmologie et en particulier sur les données du projet DEUS mais elle montre également et spécialement que ces technologies sont un nouveau moyen de mieux comprendre la physique en jeu lors de la formation des structure cosmiques. En ce sens, on peut considérer le machine learning avec « Prior Physique » sur les données, comme un nouvel outil heuristique pour la cosmologie. Les développements réalisés durant ce stage pourront ensuite être appliqués aux données observationelles issues des grands projets actuels et futurs de la cosmologie (SDSS, XMM, Euclid,LSST). Un sujet de thèse prolongeant ce stage où l’utilisation des technologies évoluées de Machine Learning avec Prior Physique plus récente seront utilisés pour construire à partir de la distribution de matière cosmique les théories étendues de la gravitation compatibles avec notre connaissance actuelle de l’Univers.
Profil du candidat :
Niveau Master 1 ou préférentiellement 2 en Computing Science (avec un intérêt pour la physique et plus particulièrement pour la cosmologie) ou en Physique avec une affinité avec l’outil numérique (Simulations numériques haute performance et traitement massif de données) et notamment l’apprentissage automatique.
Formation et compétences requises :
Maitrise d’un langage de programmation par exemple Fortran, C, C++, Python
Le candidat doit avoir une affinité avec l’outil numérique et notamment l’apprentissage automatique.
Une composante importante du stage réside dans l’exploration de données et le développement d’outils innovants mais les motivations scientifiques sont préférentiellement théoriques.
Autonomie et Capacité de travail soutenue.
Curiosité et approfondissement intellectuelles
Adresse d’emploi :
UMR-8102 LUTH
Laboratoire de l’univers et de ses théories
5, place Jules Janssen
92195 Meudon
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : CRIStAL équipe ORKAD
Durée : 4 à 6 mois
Contact : julie.jacques@univ-catholille.fr
Date limite de publication : 2020-04-01
Contexte :
Les réseaux de neurones profonds (Deep Learning), qui sont efficaces en classification (prédiction des achats clients, classification des activités d’une société,…), bénéficient de moyens de calculs de plus en plus importants (Nvidia Tensor Core). La conception d’un réseau de neurones requiert de nombreux hyperparamètres qu’il faut adapter soigneusement au problème traité : nombre de noeuds, type de connexion entre les noeuds, fonction d’activation,… Actuellement, une recherche croissante est dirigée vers l’automatisation du paramétrage de ces algorithmes afin d’obtenir la meilleure efficacité. De plus, les réseaux de neurones adoptent une approche de type « boîte noire » difficile à interpréter. Ceci les rend difficilement compatibles avec une utilisation médicale selon le rapport du CCNE (Comité consultatif national d’éthique pour les sciences de la vie et de la santé) et pose un vrai défi d’explicabilité. Dans ce contexte, l’XAI (eXplainable Artificial Intelligence) s’intéresse à la création d’outils pour améliorer la compréhension de ce type d’approches.
Sujet :
Dans ce stage, nous nous intéresserons à 2 aspects.
1/ Le premier aspect concerne l’ hyper- paramétrage automatique de réseaux de neurones profonds . Nous proposons d’utiliser des méthodes de configuration automatique d’algorithmes tels
que paramILS [Hutter2009] pour déterminer la configuration d’hyperparamètres idéale. Il s’agira de générer des réseaux de neurones dont les caractéristiques sont adaptées au problème et à son environnement.
2/ Le second aspect concerne l’i nterprétabilité de l’intelligence artificielle . Dans un premier temps l’objectif est d’étudier les approches émergentes telles que BreakDown [Staniak2019] qui permettent d’augmenter l’interprétabilité des réseaux de neurones. Dans un deuxième temps, en étudiant grâce à l’approche proposée précédemment comment les hyper-paramètres influent sur la qualité de l’interprétation. Cela permettra d’élaborer une nouvelle version de l’approche proposée, qui maximise à la fois la qualité de l’interprétation et la performance du réseau.
Profil du candidat :
Etudiant en fin de BAC+5 en informatique
Poursuite en thèse possible
Formation et compétences requises :
Etudiant en fin de BAC+5 en informatique
Une expérience de programmation C++ et/ou Python (Tensorflow, Scikit Learn) est un plus.
Adresse d’emploi :
UMR CRIStAL
Université de Lille – Campus scientifique
Bâtiment ESPRIT
Avenue Henri Poincaré
Document attaché : stage_ORKAD_2020_MO-AAC_NN_XAI.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : CREATIS
Durée : 4 mois – 6 mois
Contact : sorina.pop@creatis.insa-lyon.fr
Date limite de publication : 2020-04-01
Contexte :
Ce stage traitera de problématiques de stockage et de traitement FAIR (localisable, accessible, interopérable et retrouvable) des données de recherche issues de la plateforme PILoT.
Pour cela, nous proposons de mettre en place une base de données de type Girder, qui permettra d’accueillir les données issues de PILoT et de gérer leurs droits d’accès conformément au souhait de leur propriétaires. Nous proposons d’extraire et publier les métadonnées pertinentes permettant de rendre ces données localisables et retrouvables. Enfin, pour faire le lien avec les traitements qui peuvent être lancés sur ces données, la base de données sera interconnectée avec la plateforme VIP.
Sujet :
Ce stage traitera de problématiques de stockage et de traitement FAIR (localisable,
accessible, interopérable et retrouvable) des données de recherche issues de la
plateforme PILoT.
Pour cela, nous proposons de mettre en place une base de données de type Girder,
qui permettra d’accueillir les données issues de PILoT et de gérer leurs droits
d’accès conformément au souhait de leur propriétaires. Nous proposons d’extraire et
publier les métadonnées pertinentes permettant de rendre ces données localisables
et retrouvables. Enfin, pour faire le lien avec les traitements qui peuvent être lancés
sur ces données, la base de données sera interconnectée avec la plateforme VIP.
Plus précisément, l’étudiant recruté devra travailler sur :
– La prise en main d’une instance de BD Girder
– L’étude des données disponibles sur PILoT afin de proposer une structure
adéquate pour leur intégration dans la BD
– Définition des métadonnées à extraire et publier
– Automatisation de l’extraction de ces métadonnées
– Mise en place et test d’un pipeline complet de l’import des données dans la
BD, l’extraction des métadonnées et l’exécution de traitements avec VIP
Profil du candidat :
Informatique, niveau Master ou 5ème année ingénieur
Formation et compétences requises :
– Bonnes compétences en informatique, programmation et systèmes Linux
– Connaissances en bases de données et/ou traitement de données
– Rigueur, esprit critique, intérêt pour la recherche
Adresse d’emploi :
CREATIS – INSA LYON
Bâtiment Blaise Pascal (4ème étage)
7 Avenue Jean Capelle
69621 Villeurbanne Cedex
Document attaché : sujet_stage_vip_pilot_0.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : IRISA/OBELIX
Durée : 6 mois
Contact : minh-tan.pham@irisa.fr
Date limite de publication : 2020-04-01
Contexte :
Ce stage s’intègre dans le cadre d’un projet de recherche de l’équipe d’accueil qui a pour objectif de développer des méthodes de détection d’objets de petite taille dans des images de télédétection (aériennes et satellite) à l’aide de réseaux de neurones profonds (par approche de Deep Learning). Ce projet évolue dans un contexte applicatif varié, par ex. la détection de mammifères marins ou bien de véhicules terrestres, à partir d’images satellites/aériennes. Un algorithme a été proposé dans une première partie du projet pour réaliser cette tâche de détection. L’objectif du stage est d’étudier les performances de cet algorithme, en considérant différents scénarios pour les données d’entraînement et de test, en particulier variabilité des données d’entraînement, apparition de nouveaux fonds dans les données de test, ressemblance des données tests, méta-données disponibles, etc.
Le-a futur-e stagiaire rejoindra l’équipe OBELIX (OBsErvation de L’environnement par Imagerie compleXe) de l’IRISA (Institut de recherche en informatique et systèmes aléatoires) à Vannes (Université de Bretagne-Sud, Campus de Tohannic).
Sujet :
Missions/Programme de travail:
• Etude bibliographique de l’évaluation d’algorithme d’apprentissage, en particulier d’apprentissage profond
• Prise en main de la solution développée pour la détection de petits objets (code en C++ et Python/pytorch) pour la détection de mammifères marins/de véhicules terrestres dans des images satellitaires/aériennes
• Éventuellement, annotation de données manuelle, non-supervisée ou par transfert
• Étude extensive des performances de l’algorithme par simulations numériques
Profil du candidat :
• Traitement d’image, Machine Learning (expérience en Deep Learning appréciée)
• Programmation Python et/ou C++ (expérience avec Tensorflow et/ou Pytorch appréciée)
Formation et compétences requises :
• Formation Master 2 ou Ecole d’Ingénieur
Adresse d’emploi :
Lieu: Université Bretagne Sud – IRISA (équipe OBELIX), Vannes 56000, France
Document attaché : stageM2_evaluation_detection_2.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Laboratoire I3S
Durée : 4-6 mois
Contact : lionel.fillatre@i3s.unice.fr
Date limite de publication : 2020-04-06
Contexte :
Le Deep Learning (ou apprentissage profond) est une technique d’analyse de données qui permet d’obtenir des résultats de classification très performants quel que soit le domaine applicatif. L’apprentissage profond est classiquement décomposé en deux étapes : le calcul des descripteurs profonds et la classification de ces descripteurs. Plus précisément, le réseau de neurones profonds transforme les données d’entrées (signaux, sons, images,…) en descripteurs complexes puis ces descripteurs sont exploités par un algorithme de classification (généralement un classifieur « softmax ») qui affecte une classe aux données traitées en fonction des descripteurs profonds calculés.
Ce sujet de stage s’intéresse à l’utilisation du Deep Learning pour l’analyse des données médicales. Il s’agit plus particulièrement de décider si un patient a développé ou non certaines maladies du foie en exploitant des données cliniques et des données biologiques. La stéato-hépatite non alcoolique du foie (connue du grand public sous le nom « maladie du foie gras » [1]) est la maladie dont la détection sera privilégiée pendant le stage. Dans ce but, nous disposons d’un jeu de données réelles étiquetées qui contient de nombreux attributs médicaux et plusieurs centaines de patients. Les étiquettes décrivent l’état du foie du patient. Le but du stage est d’utiliser un algorithme de Deep Learning supervisé [2] pour estimer l’état du foie du patient. Il s’agit en particulier de rechercher les transformations mathématiques non-linéaires induites par le réseau de neurones profond (« Deep Neural Network » [3]) qui favoriseraient cette estimation. Le stagiaire devra identifier les forces et les faiblesses, tant théoriques que pratiques, de cette approche pour le problème de classification considéré.
L’équipe MediaCoding du laboratoire I3S collabore sur ce sujet avec le Centre Hospitalier Universitaire (CHU) de Nice. Le stagiaire disposera donc de données médicales et cliniques de grande qualité. Il pourra également bénéficier de l’expertise d’un professeur gastro-entérologue et hépatologue.
Sujet :
Travail à réaliser :
L’étudiant aura différents travaux à réaliser :
1. Étudier les possibilités d’une architecture « Deep Learning » pour modéliser des relations non-linéaires entre les données médicales et l’état du foie.
2. Proposer un algorithme d’apprentissage supervisé qui exploite l’architecture analysée dans l’étape précédente.
3. Étudier l’efficacité de l’algorithme sur des données simulées qui reposent sur un modèle non-linéaire connu.
4. Tester l’efficacité de l’algorithme sur le jeu de données réelles.
Les développements informatiques seront réalisés en Python avec les librairies Scikit-Learn [4] (pour utiliser des algorithmes de machine learning) et Pytorch [5] (pour le Deep Learning).
Bibliographie :
[1] https://www.the-nash-education-program.com/fr/quest-ce-que-la-nash/
[2] https://see.stanford.edu/Course/CS229/47
[3] http://www.deeplearningbook.org
[4] https://scikit-learn.org/stable/
[5] https://pytorch.org
Profil du candidat :
Mathématiques appliquées, informatique
Formation et compétences requises :
Ces travaux requièrent les compétences suivantes :
• Programmation informatique (connaître préalablement Python n’est pas nécessaire mais souhaitable)
• Notions de bases en machine learning (réseau de neurones, SVM, arbre de décision, etc.)
Adresse d’emploi :
Laboratoire I3S
UMR7271 – UNS CNRS
Bâtiment Euclide B
2000 Route des Lucioles
06900 Sophia Antipolis
Document attaché : Offre_de_stage_NiveauM2_DeepLearning.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Praditus
Durée : 4 à 6 mois
Contact : kbelhajj@googlemail.com
Date limite de publication : 2020-04-15
Contexte :
Le contexte du projet est une plateforme pour de développement des talents appelés Praditus. Praditus exploite les techniques du numérique, en particulier les techniques de gestion de données et de machine learning afin de proposer aux individus les formations qui leur correspondent le plus. Ce faisant, Praditus capitalise sur les connaissances de ces experts en psychométrie, une science qui concerne la mesure objective des compétences et des connaissances, des capacités, des attitudes, des traits de personnalité et des résultats scolaires.
La gestion et l’analyse de données dans Praditus sont réalisées par un pipeline qui comprend des étapes qui vont de la capture des données (qui prennent la forme de réponses aux questions posées à des utilisateurs), de leur stockage dans un système de gestion de données Nosql, de traitement, nettoyage et transformation de ces données en une forme tabulaire stockées dans une base de données relationnelle, jusqu’à l’exploitation et l’analyse de données en utilisant des outils statistiques et prédictifs. Les résultats de l’analyse de ces données sont utilisées pour recommander aux utilisateurs les formations en ligne qui leur conviennent le plus. Les résultats de l’analyse sont également exploités par les scientifiques dans le domaine de psychométrie afin d’apprendre et vérifier de nouvelles hypothèses et d’améliorer les services proposés aux utilisateurs.
Sujet :
Objetifs du Stage
– Revisiter le workflow de collecte, gestion et analyse de données effectuées par la platform Praditus, avec l’objectif de les optimiser.
– Concevoir et implémenter de nouvelles fonctionnalités qui assistent les experts de domaines dans leurs analyses. En particulier, il sera impliqué dans la mise en place et le test de modèles prédictifs et de croiser un nombre important de données psychométriques, démographiques et d’utilisation.
– Contribuer à l’amélioration de la qualité psychométrique des outils Praditus et à la mise en place de modélisations statistiques variés.
Profil du candidat :
Un étudiant de M2 avec une expérience avec l’un ou plusieurs de ces outils:
● Gestion de données (Bases de données SQL et systèmes NOSQL)
● Machine learning (R)
Formation et compétences requises :
Un étudiant de M2 avec une expérience avec l’un ou plusieurs de ces outils:
● Gestion de données (Bases de données SQL et systèmes NOSQL)
● Machine learning (R)
Adresse d’emploi :
Praditus
33 Rue Raffet
75016 Paris
Document attaché : Internship-Proposal-1.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LISIC – Université du Littoral Côte d’Opale
Durée : 5 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2020-04-15
Contexte :
Les techniques de factorisation matricielle sont de populaires outils d’apprentissage statistique, une famille d’approches d’intelligence artificielle. Ces factorisations trouvent de nombreuses applications en traitement du signal et des images (séparation de sources, apprentissage de dictionnaire et approximations parcimonieuses, etc) mais aussi en informatique (systèmes de recommandation). Nous nous intéressons dans ce stage à une application environnementale pour laquelle un développement méthodologique est attendu
Sujet :
Le mobile crowdsensing consiste à acquérir une grande quantité de données à partir d’une foule de capteurs issus de (ou connectés à des) smartphones. Un capteur transforme une grandeur physique en tension ou intensité électrique. Retrouver la grandeur physique à partir de la grandeur électrique en sortie du capteur n’est possible que si le modèle et les paramètres d’étalonnage du capteur sont connus. Ceux-ci sont généralement estimés en laboratoire, par régression de sorties de capteur dans un environnement contrôlé.
Dans le cadre du mobile crowd-sensing, il n’est pas possible d’étalonner en laboratoire le grand nombre de capteurs utilisés. Réaliser ‘étalonnage à distance, sans environnement contrôlé, s’appelle “l’auto-étalonnage”, l’étalonnage “aveugle” ou encore “in situ” de capteurs [1,2].
Nous avons récemment proposé des approches d’étalonnage aveugle d’un réseau homogène de capteurs mobiles en réécrivant le problème d’étalonnage sous la forme d’une factorisation informée d’une matrice de données à valeurs manquantes [3]. En particulier, dans notre formalisme, les facteurs matriciels contiennent la structure de la fonction d’étalonnage considérée (c.-à-d. le modèle d’étalonnage supposé identique pour tout le réseau) et les paramètres d’étalonnage propres à chaque capteur, respectivement.
Plus récemment, nous avons proposé d’accélérer fortement les méthodes de factorisation matricielle à données manquantes, dans un cadre générique (c.-à-d. sans ajout d’information) [4].
Dans le cadre de ce stage, nous proposons (i) d’accélérer les travaux de factorisation informée [3] en utilisant le formalisme de [4] et (ii) d’étendre ces méthodes pour réaliser l’étalonnage d’un réseau hétérogène de capteurs.
Le stage pourra être poursuivi par la préparation d’une thèse dans le domaine de la factorisation matricielle (sous réserve d’obtention d’un financement : ce point sera défini durant le stage).
Références :
[1] B. Maag, Z. Zhou, and L. Thiele. A survey on sensor calibration in air pollution monitoring deployments. IEEE Internet of Things Journal, 5(6) :4857–4870, Dec 2018.
[2] F. Delaine, B. Lebental, and H. Rivano. In situ calibration algorithms for environmental sensor networks : A review. IEEE Sensors Journal, 19(15) :5968–5978, Aug 2019.
[3] C. Dorffer, M. Puigt, G. Delmaire, and G. Roussel. Informed nonnegative matrix factorization methods for mobile sensor network calibration. IEEE Transactions on Signal and Information Processing over Networks, 4(4) :667–682, Dec 2018.
[4] F. Yahaya, M. Puigt, G. Delmaire, and G. Roussel. How to apply random projections to nonnegative matrix factorization with missing entries ? In Proc. of the 27th European Signal Processing Conference (EUSIPCO), 2019.
Profil du candidat :
Curieux et très à l’aise en programmation (Matlab, Python), vous êtes inscrits en deuxième année de Master ou troisième année d’école d’ingénieurs en sciences de données (traitement du signal et des images, machine learning, intelligence artificielle), informatique ou mathématiques appliquées.
Pour candidater, merci de nous envoyer votre CV, une lettre de motivation, deux lettres de recommandation (ou au moins les noms et adresses e-mail de deux référents) et vos relevés de notes de Licence et Master à :
– Matthieu PUIGT (matthieu.puigt [at] univ-littoral.fr)
– Farouk YAHAYA (farouk.yahaya [at] univ-littoral.fr)
– GIlles DELMAIRE (gilles.delmaire [at] univ-littoral.fr)
– Gilles ROUSSEL (gilles.roussel [at] univ-littoral.fr)
Formation et compétences requises :
Curieux et très à l’aise en programmation (Matlab, Python), vous êtes inscrits en deuxième année de Master ou troisième année d’école d’ingénieurs en sciences de données (traitement du signal et des images, machine learning, intelligence artificielle), informatique ou mathématiques appliquées.
Adresse d’emploi :
LISIC, 50 rue F. Buisson, BP 719, 62228 Calais Cedex
le LISIC est situé en plein coeur de la côte d’Opale, renommée pour ses activités de plein air (randonnées, VTT, windsurf, kitesurf, équitation) et sa proximité avec Lille (30 min en TER GV), Londres (1h) et le Nord de l’Europe.
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Laboratoire SYMME – Polytech – Université Savoie Mont Blanc
Durée : 3 à 5 mois
Contact : laurence.vignollet@univ-smb.fr
Date limite de publication : 2020-04-30
Contexte :
Certaines formations de l’université Savoie Mont Blanc (USMB) proposent des activités d’apprentissage en ligne, généralement en complément des formations en présentiel. C’est par exemple le cas pour le master “Advanced Mechatronics” dont les étudiantes et étudiants suivent certains cours uniquement en ligne ou pour les cours d’anglais pour non spécialistes où les étudiantes et étudiants complètent les heures en présentiel par de l’auto-formation en ligne.
Les enseignantes et enseignants impliqués souhaitent aujourd’hui se doter d’outils d’aide au suivi de leurs étudiantes et étudiants afin, notamment, de repérer le plus tôt possible celles et ceux qui sont en difficulté.
Sujet :
Ce stage s’intègre dans le cadre d’une thèse CIFRE, menée en collaboration entre le laboratoire SYMME de l’université Savoie Mont Blanc et l’entreprise Logipro, éditrice de logiciels dans le domaine de la formation ouverte à distance.
L’objectif est d’évaluer l’approche développée dans le cadre de la thèse CIFRE pour l’entreprise Logipro en la transposant dans le contexte de l’USMB.
Il s’agit notamment d’évaluer la méthode utilisée dans ce travail de recherche pour adapter des algorithmes de machine learning de type “forêts aléatoires” dans le contexte de la formation professionnelle en ligne en la transposant dans le contexte de l’USMB où le scénario pédagogique et la durée des activités diffèrent et où la plate-forme pédagogique n’est pas la même.
Missions
• Analyser le format des traces d’activités disponibles dans la plate-forme Moodle et les modéliser ;
• Etudier les travaux du doctorant Logipro/Symme, Mohamed Mouaici, et notamment la démarche utilisée pour adapter les algorithmes de machine learning qu’il utilise dans ses travaux de thèse ;
• À partir de l’application des algorithmes standards aux traces d’activité des trois dernières promotions du master Advanced Mechatronics, suivre la démarche d’adaptation de ces algorithmes afin d’obtenir les meilleures prédictions possibles dans ce nouveau contexte ;
• Etudier les types de tableaux de bord s’interfaçant avec Moodle, notamment ceux qui intègrent un serveur de stockage dédié de type LRS (Learning Record Store) et qui permettent de stocker les traces de son utilisation, ceci pour permettre d’analyser les usages du tableau de bord ;
• Développer un premier tableau de bord, à partir d’une des solutions existantes a priori,
• Respecter les contraintes du RGPD tout au long du processus.
Profil du candidat :
En école d’ingénieur ou en master, la candidate ou le candidat doit avoir un bon niveau en programmation et connaître des méthodes d’apprentissage automatique.
Formation et compétences requises :
Niveau de formation souhaitée : master ou école d’ingénieur, filière informatique – sciences des données
Compétences souhaitées :
* Méthodes d’apprentissage automatique (machine learning)
* Développement front et back office
* Gestion de bases de données
Adresse d’emploi :
Le campus du Bourget-du-Lac (73) ou d’Annecy-le-Vieux (74).
Un hébergement en résidence universitaire peut être envisagé.
Document attaché : Offre_de_Stage-Tableau-de-bord.pdf
