MaDICS

Huitième édition du Symposium MaDICS (les inscriptions sont ouvertes !)

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Dates importantes :

Date limite d’inscription : ~~30 avril 2026~~ 7 mai 2026
Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda et à vous inscrire !
Inscrivez-vous ici

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…

Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.

Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus…
Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus…
Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus…
Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…

Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS

Feb

Sun

2020

Caractérisation des micro-environnements et de l’exposition à la pollution atmosphérique dans un contexte de données participatives – Apprentissage automatique multi-sources

Tickets

Feb 2 – Feb 3 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Équipe ADAM, Laboratoire Données et Algorithmes pour une Ville Intelligente et Durable (DAVID)
Durée : 6 mois
Contact : Karine.zeitouni@uvsq.fr; yehia.taher@uvsq.fr
Date limite de publication : 2020-02-02

Contexte :
Que ce soit en milieu intérieur ou dans un environnement extérieur, la qualité de l’air que nous respirons est l’une des principales préoccupations de la population, notamment en zones urbaines denses en raison de l’importance des risques sanitaires de la pollution atmosphérique. Cependant, l’exposition individuelle réelle à cette pollution est encore mal connue. L’émergence de micro-capteurs environnementaux portables et connectés rend envisageable la mesure de l’exposition individuelle, d’une manière continue, en tout lieu et à tout moment. C’est dans cette optique que s’inscrit le projet ANR Polluscope. Le projet se base sur des campagnes avec des volontaires équipés de capteurs personnels afin d’observer leur exposition individuelle et de collecter par la même occasion des données participatives sur les lieux qu’ils visitent au grès de leurs déplacement. Polluscope propose une plateforme informatique de gestion et d’analyse de ces données. Cette plateforme déjà bien avancée devra s’enrichir de nouvelles fonctionnalités de traitement et d’analyse avancés des données. Le stagiaire intègrera l’équipe du projet dans l’objectif de développer une méthode de caractérisation de l’exposition à la pollution et des micro-environnements (intérieur, extérieur, dans les gares ou les transports).

Sujet :
Ces données ont plusieurs facettes : séries temporelles, des trajectoires, des séquences annotées, voire des données contextuelles externes, essentiellement géo-spatiales. Aujourd’hui, plusieurs méthodes ont été explorées au sein du projet exploitant une de ces facettes individuellement. Par exemple, la segmentation en stops et moves s’est basée sur le clustering des données de localisation ; ou encore sur la détection de changement dans les mesures de capteurs. L’objectif du stage est de combiner ces facettes pour détecter automatiquement et caractériser les micro-environnements.
La méthode de reconnaissance de micro-environnement préconisée est d’appliquer ou adapter l’apprentissage multi-sources (multi-view learning) dont la bibliographie fournie, afin de combiner plusieurs classifieurs. La première partie du stage sera consacrée à l’étude et la prise en main de ces méthodes, puis leur application dans le contexte réel du projet. Le stagiaire sera intégré à l’équipe de recherche.
Dans un deuxième temps, le stagiaire contribuera à l’implémentation d’un indicateur de l’exposition individuelle au risque de pollution, une fois qu’il aura été défini par les partenaires du projet.
La plate-forme Polluscope en cours de développement par l’équipe ADAM, se base sur une architecture flexible à base de services, dont un gestionnaire de données avec Postgres/PostGIS, des services d’extraction, transformation et chargement de données de sources diverses, des services de prétraitement, des analyses basiques et une interface de visualisation interactive utilisant Grafana. L’implémentation intégrera des fonctions de prétraitement de données comme le débruitage ou l’imputation des valeurs manquantes.

Bibliographie et webographie :
Projet Polluscope : http://polluscope.uvsq.fr
Brahem M. et al., Vers un observatoire participatif de l’exposition individuelle à la pollution de l’air et de ses effets sanitaires, Conférence internationale de Géomatique et d’Analyse Spatiale (SAGEO 2019), 275-280.
Muslea, I., Minton, S., & Knoblock, C. A. (2006). Active learning with multiple views. Journal of Artificial Intelligence Research, 27, 203-233.
Xu, C., Tao, D., & Xu, C. (2013). A survey on multi-view learning. arXiv preprint arXiv:1304.5634. https://arxiv.org/pdf/1304.5634.pdf
Li, Sheng, Yaliang Li, and Yun Fu. “Multi-view time series classification: A discriminative bilinear projection approach.” Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. CIKM 2016. https://static.aminer.org/pdf/fa/cikm2016/lfp0510-liA.pdf

Profil du candidat :
Le stage est destiné aux étudiants de Master 2 ou de dernière année de cycle Ingénieur en Informatique.

Formation et compétences requises :
Le candidat doit avoir des compétences solides en ingénierie informatique, en bases de données et en apprentissage statistiques (machine learning). La connaissance des SIG est un plus. Le travail en équipe et la communication avec des non informaticiens sont également nécessaires pour la réussite de ce stage.

Adresse d’emploi :
Équipe ADAM, Laboratoire Données et Algorithmes pour une Ville Intelligente et Durable (DAVID) – UVSQ, Université Paris-Saclay, Versailles
45 avenue des états-unis
78035 Versailles

Document attaché : Stage_DIM-QI2_MultiView_Learning.pdf

Categories: Stages

Feb

Sat

2020

[Stage M2] Representation Learning and Domain Adaptation (Strasbourg)

Tickets

Feb 15 – Feb 16 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube, University of Strasbourg
Durée : 6 months
Contact : lampert@unistra.fr
Date limite de publication : 2020-02-15

Contexte :
Created in 2013, the laboratory brings together researchers from the University of Strasbourg, the CNRS (French National Center for Scientific Research), the ENGEES and INSA of Strasbourg in the fields of engineering and computer science, with imaging as the unifying theme.
With around 650 members, ICube is a major driving force for research in Strasbourg whose main areas of application are biomedical engineering and sustainable development.

SERTIT, a service platform of ICube, known for its ISO certified rapid mapping service, is seeking to accelerate its mapping activities through artificial intelligence. This service assists in post-crisis emergency management (e.g. ground rescue, reconstruction efforts …).

More information:
http://icube.unistra.fr/en/

accueil

Sujet :
You will exploit state-of-the-art advances in multi-modal and multi-domain representation learning made in the data science and knowledge research group (SDC) to detect objects in satellite images of different characteristics (resolution, bands, etc), i.e. modality, in collaboration with remote sensing experts in SERTIT.

These models have been developed with benchmarks and medical datasets in mind and need to be extended and refined to work with more complex, higher dimensionality data such as satellite imagery.

The work has two benefits: on the one hand, to reduce the burden of ground truth collection when sensors of different characteristics are used; and on the other to exploit the information contained in each data modality to learn representations that are more robust and general, i.e. to detect buildings/roads/trees in different countries that exhibit different characteristics.

Your contributions will be part of the global work of the SDC researchers who aim to propose and implement new generic methods and tools to exploit large sets of reference data from one domain/modality (sufficient to train an accurate detector) to train a multi-modal/domain detector that can be applied to imagery taken from another sensor for which there exists no reference data.

As such, the work tackles problems that are key to many machine learning and computer vision applications.

• You will join a transversal team of researchers, software engineers and geomatics specialists from SERTIT and SDC (Data Science and Knowledge research group)

• Collaborate with research teams to transfer deep learning models to applications in remote sensing

• Build deep learning pipelines for multi-modal domain adaptation

• Participate in a research and development team

• Develop experimental protocols

• Perform thorough evaluation of proposed solution

Further Reading:

[1]. J. Shen, Y. Qu, W. Zhang and Y. Yu, “Wasserstein Guided Representation Learning for Domain Adaptation,” In Proceedings of the AAAI Conference on Artificial Intelligence, 2018.

[2]. Y. Bengio, “Deep Learning of Representations for Unsupervised and Transfer Learning,” In Proceedings of the Conference on Advances in Neural Information Processing Systems, 2012.

[2]. K. Bousmalis, et al. “Domain separation networks,” In Proceedings of the Conference on Advances in Neural Information Processing Systems, 2016.

Profil du candidat :
2nd year of a Master’s in Computer Science degree or similar

Formation et compétences requises :
• Experience with the Python (numpy, keras, tensorflow, etc.)

• Interest/experience in deep learning

• Knowledge of machine learning workflows and techniques (e.g. best practices around training data management, understand basics of numerical optimisation)

• Familiarity with Linux environments

• Have excellent communication skills and a strong team player

• Good knowledge of English (French is not mandatory)

• Be enthusiastic!

Adresse d’emploi :
ICube
300 bd Sébastien Brant – CS 10413
F-67412 Illkirch Cedex
France

Document attaché : Intern_Ad_RL4MSD_ENG.pdf

Categories: Stages

Feb

Thu

2020

Stage Blockchain Webdev

Tickets

Feb 20 – Feb 21 all-day

Annonce en lien avec l’Action/le Réseau : Formation

Laboratoire/Entreprise : Institut de recherche en informatique de Toulouse / Centre hospitalier universitaire de Toulouse
Durée : 4-6 mois
Contact : omar.el-rifai@irit.fr
Date limite de publication : 2020-02-20

Contexte :
Le Dossier Médical Partagé (DMP) mis en place depuis 2011 met à disposition les données de santés de chaque patient sous une plateforme unique. Il facilite également le partage des informations avec les professionnels de santé. Mais cette nouvelle disponibilité des données soulève des problématiques technologiques et exige des standards de sécurité plus élaboré.
La technologie blockchain s’est développée en parallèle et a vu ces dernières années des cas d’usages dans plusieurs domaines très divers. En particulier, dans le domaine de la santé, des initiatives au niveau d’Etat se sont mis en place en particulier en Estonie et à Dubai. Ces intitiatives utilisent la blockchain pour sécuriser les données des patients et garantir plus de transparence sur leurs utilisation.

Sujet :
Dans le cadre du projet TRANSPARENS porté par le CHU de Toulouse et finance par la Fondation Roche, vous travaillerez en collaboration avec d’autres chercheurs pour la mise en place technique d’une blockchain basée sur la technologie Ethereum à destination des patients atteints de Traumatisme Cranien. Il s’agira du développement de “Smart Contract” sur cette blockchain pour gérer les données des patients et les droits d’accès. Le prototype servira comme preuve de concept à montrer aux équipes médicales et donc une interface graphique sous forme de site web est à développer.

Profil du candidat :
Niveau M1 ou M2

Formation et compétences requises :
– Très bon niveau en programmation web (NodeJS/React/Angular)
– Compréhension des méchanismes de la blockchain (Programmation en solidity est un atoût) ou à défaut bases solides en mathématiques et informatique

Adresse d’emploi :
Toulouse

Document attaché :

Categories: Stages

Feb

Fri

2020

Méthodes multicritères pour les indicateurs générateurs de confiance sur le lien entre l’industrie et les citoyens

Tickets

Feb 28 – Feb 29 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire ERIC, Université Lumière Lyon 2
Durée : 6 mois
Contact : julien.velcin@univ-lyon2.fr
Date limite de publication : 2020-02-28

Contexte :
Le projet « Territoires d’innovation de grande ambition (TIGA) » de la métropole lyonnaise comprend un axe de travail de recherche-action sur le thème du lien local entre les citoyens et l’industrie. En particulier, le projet vise à imaginer des outils nécessaires et objectifs pour l’observation du territoire et de l’implication citoyenne.

Sujet :
Dans le cadre de ce projet, il est proposé un stage de master ayant pour mission principale de clarifier la situation afin de dégager des pistes de recherches prometteuses et amorcer des réponses. Ce stage se déroulera au laboratoire universitaire de recherches ERIC (https://eric.msh-lse.fr/), avec l’appui de l’agence d’urbanisme du Grand Lyon. Les objectifs du projet sont les suivants :
– Détection, mise en place et analyse multicritère d’indicateurs générateurs de confiance au niveau d’un territoire
– Recueil des données et évolutions de ces indices
– Modélisation des évolutions de ces indices à partir de variables d’intérêts liées à la relation habitants / industries

Les objectifs du stage consistent à établir un état de l’art, identifier les données à récolter, proposer un modèle multicritère et dégager une problématique autour de la question de l’appropriation citoyenne des liens avec l’industrie et de son impact sur la qualité de vie. Le stage comprendra les phases suivantes :
1. Etat de l’art de différents indices multicritères générateurs de confiance déployables au niveau territorial : tableau avantages / inconvénients. Base de recherche : économie du développement, urbanisme, aide à la décision multicritère
2. Mise en place d’une méthodologie de récolte des données permettant de mettre en œuvre les indices recensés en phase 1. Base de recherche : statistique publique, bureau d’enquêtes
3. Analyse coûts/bénéfices des différentes options et suggestions du choix d’un indice au vu des résultats des phases 1 et 2

Profil du candidat :
Informatique

Formation et compétences requises :
– analyse/fouille des données
– analyse multicritère

Adresse d’emploi :
Laboratoire ERIC, université Lyon 2, campus Porte des Alpes (Bron)

Document attaché : sujet-stage-ERIC-TIGA.pdf

Categories: Stages

offres de stage M2 / ingénieur à l’ENS de Lyon

Tickets

Feb 28 – Feb 29 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Equipe DANTE, LIP, ENS de Lyon
Durée : 6 mois
Contact : remi.gribonval@inria.fr
Date limite de publication : 2020-02-28

Contexte :
Nous recherchons deux étudiantes ou étudiants intéressés par les aspects algorithmiques et mathématiques de l’apprentissage pour un stage de six mois niveau master 2 ou fin d’école d’ingénieurs, dans l’optique d’une continuation en thèse.

Date de démarrage souhaitée : février/mars 2020

Sujet :
Exemples de sujets possibles:

Optimization algorithms for sparse deep networks
http://people.irisa.fr/Remi.Gribonval/wp-content/uploads/2019/11/sujet1.pdf

When are sparse deep networks unique and optimal ?
http://people.irisa.fr/Remi.Gribonval/wp-content/uploads/2019/11/sujet2.pdf

Profil du candidat :
Master2 ou fin d’étude ingénieur en mathématiques appliquées, machine learning, traitement du signal

Formation et compétences requises :
Goût pour les aspects mathématiques de l’apprentissage automatique et de l’optimisation.

Adresse d’emploi :
Lieu du stage : ENS de Lyon

Document attaché :

Categories: Stages

Feb

Sat

2020

Hyperparameter exploration and optimization for big data visualisation.

Tickets

Feb 29 – Mar 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LRI, Laboratoire de Recherche en Informatique
Durée : 3 à 6 mois
Contact : acl@lri.fr
Date limite de publication : 2020-02-29

Contexte :
Organisational background:
TAU (TAckling the Underspecified) is an Inria team belonging to the LRI lab, the Reseacrh Laboratory in Computer Science. The LRI is attached to both the computing science department of Paris Saclay University and to the INS2I Institute of the CNRS. It is also tightly linked in a partnership with Inria and CentraleSupelec neighbor institutions. LRI hosts more than 250 people, 115 permanent people and 90 PhD on Plateau de Saclay.
Cartolabe project is a high potential project held by a team of scientifics and engineers from LRI and Inria. Both parts, data pipeline and visualization module, have an open architecture to be adapted to various application fields. The hyperparameters tuning part of the internship is essential for the project, because it will validate at least one Cartolabe instance, the one for the scientific publications model.

Sujet :
Objectives of the internship :
The intern will have to set a test protocol to evaluate the results of the scientific cartography provided by Cartolabe web application (cartolabe.fr). In a first step, quality indicators and a validation protocol will be defined. Applying Cartolabe to different datasets like Wikipedia for instance and the comparison with the results returned by other search engine for instance should allow to validate the chosen indicators and the test protocol. In a second step, optimizing the cartography hyperparameters will improve the reached quality.

Job description :
Cartolabe is a LRI – CNRS – Inria common project aiming at visualizing many publications, authors, labs and teams on a unique map (up to 10⁶ points).
Cartolabe application builds a distance between these entities linked to publication by mean of articles text content. A data handling pipeline scraps the data from HAL open archive (
https://hal.archives-ouvertes.fr/: 750 000 articles and authors as of today) and works them out using machine learning techniques. A single json (or feather) format file is produced as pipeline output. Then, a second part of the application (a web application) is in charge of visualizing the point cloud in a zoomable annotated heatmap. Full exploration possibilities are offered on the web client.

As an example, a natural intrinsic quality indicator could be to count, per author, the part of his articles which are reasonnably ‘near’ his own author point localisation.
Extrinsic quality indicators could be conceived by sending similar requests to independant applications like Google Scholar or LookInLabs (https://lookinlabs4halinria.cominlabs.u-bretagneloire.fr/) and comparing the outputs.
Manual quality indicators are also possible by asking scientific referees and experts in a recorded formal querying session to check the validity of the distances proposed by Cartolabe.
Some of the quality indicators can be confrontated with other available information articles citations.

Once the quality indicators will be defined, the second part of the internship will focus on optimizing the pipeline hyperparameters in order to establish their correlation with the indicators and to improve the output results on the map. Hyperparamters are either the choice of an algorithm among several possible others : LDA or LSA, chosen neighborood or projection method the choice of their parameters, like latent dimensions number for similarity computation.

Profil du candidat :
Expected abilities of the candidate:
Python programmation and tools : Anaconda, scikit-learn, pandas…;
software environment tools : software forges, git ;
Appreciated knowledge in one of the following: large corpus data visualization, machine learning, Natural Language Processing, information retrieval : recall vs precision.
Scientific english level required ;
methodology, curiosity and team work ability are also required for this internship.

Formation et compétences requises :
M2 or engineering school 3rd or 4th year.
Domains: computer science, data analysis, information retrieval, machine learning, Natural Language Processing

Adresse d’emploi :
Université Paris Saclay
LRI – Bâtiment Shannon 660
Rue Noetzlin
91190 Gif-sur-Yvette

Document attaché : 2020_DataQualityCartolabe_Internship_En.pdf

Categories: Stages

Mar

Sun

2020

Analysis of the health content of a corpus of tweets unsing the signature method

Tickets

Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : IECL, Nancy
Durée : Six mois
Contact : marianne.clausel@univ-lorraine.fr
Date limite de publication : 2020-03-01

Contexte :
In partnership with Laboratoire d’Informatique de Grenoble, we have collected tweets for three years. Our goal is to understand the different factors involved in some ailments as well as the links between these ailments. In a preliminary work [3], we developed two probabilistic models TM-ATAM and T-ATAM extending Latent Dirichelet Allocation allowing us to summarize the health content of a corpus of tweets and taking into account time.

Sujet :
The output of the method is a vector valued time series that we analyzed using statistical tools. Notably, we detected change points in the health content of our corpus providing a relevant way to detect transitions in the environemental context (for e.g. seasons). We aim at combining this model and recent tools coming from rougths paths theory [1,2] to give new insights on the two models TM-ATAM and T-ATAM.

In particular, we aim at identifying causality relations between ailments as well as use the skew symmetric nature of order 2 signature to cluster the data. The internship will be divided into two parts : understanding of TM-ATAM/T-ATAM and signature method, and thereafter application on our real data.

Contacts: Massih-Reza Amini (Massih-Reza.Amini@imag.fr), Antoine Lejay (antoine.lejay@inria.f), Marianne Clausel (marianne.clausel@univ-lorraine.fr).

Profil du candidat :
Master 2 in statistical learning

Formation et compétences requises :
Strong programming skills in Python, knowledge in statistical learning

Adresse d’emploi :
Institut Élie Cartan de Lorraine
Université de Lorraine, Site de Nancy
B.P. 70239, F-54506 Vandoeuvre-lès-Nancy Cedex

Document attaché :

Categories: Stages

Deep-learning time-prediction of chaotic dynamical systems

Tickets

Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIMSI – CNRS
Durée : 5 mois
Contact : mathelin@limsi.fr
Date limite de publication : 2020-03-01

Contexte :
The reliable prediction of the time behavior of complex systems is required in numerous fields ranging from the engineering applications to finance, epidemiology or fluid and solid mechanics. In many cases, the governing equations describing the physics of the system under consideration are not accessible or — when known — their solution requires a computational time often incompatible with the prediction horizon. However, recent successes in the application of deep Neural Networks (NN) are boosting the interest in using deep Machine Learning techniques to simulate complex systems and produce long time forecast.
Nevertheless, several open questions have to be addressed: For instance, when following a trajectory, it is not a-priori guaranteed that the amount of data used during the training process is sufficient to faithfully reproduce the real system. How to choose the architecture of the neural network and a relevant objective (loss function) to obtain reliable and generalizable results?

Sujet :
The internship will focus on studying the quality of a deep NN reduced-order model for simulating chaotic dynamical systems. We will consider the well known Lorenz system and the chaotic dynamics of the Kuramoto-Sivashinsky (KS) partial differential equation, often used in fluid mechanics to model the diffusive instabilities in laminar flames. The intership is part of an effort in our group (https://mathelin3.wixsite.com/flowconproject) and it will take place at LIMSI (www.limsi.fr) in Saclay (91), benefiting from its multidisciplinary environment and expertise in machine learning, dynamical systems and computational fluid mechanics.

Profil du candidat :
The candidate should have a good mathematical background; basic knowledge in Python language and rudiments in nonlinear systems will be beneficial.

Formation et compétences requises :
The candidate should have a good mathematical background; basic knowledge in Python language and rudiments in nonlinear systems will be beneficial. Python scripts are already available, for the numerical simulations of the aforementioned models as well as several NN architectures and training strategies (multi-layer perceptrons, long short-term memory (LSTM), generative adversarial network (GAN)) in combination with several strategies of optimization.

Adresse d’emploi :
LIMSI – CNRS
rue John von Neumann
Campus Universitaire d’Orsay
Bat. 508
91405 Orsay cedex
France

Document attaché : M2proposal.pdf

Categories: Stages

Multidimensional approach for context-aware recommender systems.

Tickets

Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LAMSADE
Durée : 5-6 months
Contact : elsa.negre@dauphine.fr
Date limite de publication : 2020-03-01

Contexte :
Data exploration is a process of searching relevant information, within a set of data, to detect hidden correlations or new information. However, users have to deal with a growing volume of information due to the increased computing and storage capacity. So, it is increasingly difficult to know exactly what information to look for and where to look for it. Computer technologies facilitating search and retrieval of relevant information are needed. One of them is the recommendation that will guide the user in his/her exploration of the amount of available information by searching for information that seems relevant. This is a particular form of information filtering to present information (movies, music, books, news, images, web pages, etc.) of interest to users. Typically, the recommendation process seeks to predict the score the user would give to each item and recommends the items with the highest scores. Despite good performance of recommender systems, recommendations are sometimes not relevant enough.
Integrating contextual data/information is interesting. Moreover, the context is omnipresent and multidimensional. Consequently, recommender systems move from a two-dimensional score function (Users x Items -> Ratings) to a multidimensional score function (Users x Items x Context -> Ratings). This multidimensional modelling should improve the quality of recommendation process, but unfortunately, it is rare or even impossible to have ratings for all possible cases of context. This generates data sparsity which is an important challenge in recommender system field. Thus, how to limit this data sparsity?

Sujet :
The internship will be centered on a multidimensional approach. A state of the art on context-aware recommender systems (CARSs) and context (multidimensional) modeling (among others) will be carried out. Then, some ideas will be proposed around multidimensional modeling of the context for its integration into a CARS. An implementation and/or a prototype could be developed.

Profil du candidat :
Master 2 – computer science cursus (last year of Master studies)

Formation et compétences requises :
the candidate, involved in a computer science cursus (last year of Master studies), should have a background in at least one (or more) of the following domains: data mining, knowledge discovery/management, OLAP, Business Intelligence, Data Science, machine learning. About the technical skills: java or python.

Adresse d’emploi :
LAMSADE, Paris-Dauphine University, Paris, France

Document attaché : MasterInternship2020.pdf

Categories: Stages

Multivariate time series analysis with IIS features

Tickets

Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Institut Elie Cartan de Lorraine
Durée : 6 mois
Contact : marianne.clausel@univ-lorraine.fr
Date limite de publication : 2020-03-01

Contexte :
The analysis of multi-dimensional time series is a fundamental problem in most
areas of science and industry. Often, linear models are insufficient to capture the
structure present in data.
The internship shall focus on the improvement of machine learning techniques
for multivariate time series analysis based on specific feautures encoding dependencies between the components and known as the iterated-integrals signature
(IIS) [1]. Equipped with mathematical guarantees, the IIS is a means to extract
(almost all) multilinear features of a time series. The IIS can then be combined
with Kernel methods as in [2] to perform classical machine learning tasks as classification. We intend to extend classical kernel approaches for statistical testing
and change point detection with this new framework.

Sujet :
The analysis of multi-dimensional time series is a fundamental problem in most
areas of science and industry. Often, linear models are insufficient to capture the
structure present in data.
The internship shall focus on the improvement of machine learning techniques
for multivariate time series analysis based on specific feautures encoding dependencies between the components and known as the iterated-integrals signature
(IIS) [1]. Equipped with mathematical guarantees, the IIS is a means to extract
(almost all) multilinear features of a time series. The IIS can then be combined
with Kernel methods as in [2] to perform classical machine learning tasks as classification. We intend to extend classical kernel approaches for statistical testing
and change point detection with this new framework.
The internship will be divided into two parts : understanding of the IIS features
and the kernelized framework, and thereafter application to statistical testing.

Profil du candidat :
Master 2 students with good background in statistical learning, strong programming skills in Python

Formation et compétences requises :
Master 2

Adresse d’emploi :
Institut Élie Cartan de Lorraine
Université de Lorraine, Site de Nancy
B.P. 70239, F-54506 Vandoeuvre-lès-Nancy Cedex

Document attaché : stage-IECL-CRAN.pdf

Categories: Stages

Segmentation d’IRM pelvienne par apprentissage profond

Tickets

Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIS UMR 7020
Durée : 4 à 6 mois
Contact : marc-emmanuel.bellemare@univ-amu.fr
Date limite de publication : 2020-03-01

Contexte :
Le travail se déroulera à Marseille essentiellement au laboratoire d’informatique et des systèmes (LIS) dans l’équipe Image & Modèles. Le LIS UMR 7020 fédère plus de 375 membres. La recherche y est structurée au sein de pôles (calcul, science des données, analyse et contrôle des systèmes, signal et image), et centrée sur des activités dans les domaines de l’informatique, de l’automatique, du signal et de l’image.

Sujet :
Le stagiaire s’attachera a définir les paramètres les plus efficaces du point de vue de l’architecture et des données pour la segmentation d’IRM par une approche dite « deep-learning ».
Les troubles de la statique pelvienne regroupent un ensemble de pathologies associant une perte des rapports anatomiques normaux des organes pelviens, et une altération dramatique de la qualité de vie des malades. Ces troubles regroupent des pathologies handicapantes à des degrés variés mais leur physiopathologie reste encore mal connue ce qui complique leur prise en charge. L’IRM dynamique s’avère être une des meilleures modalités pour l’évaluation du degré de pathologie des patientes. Mais l’interprétation. des images et surtout la réalisation de mesures sur ces dernières peut être une tâche fastidieuse pour le clinicien. La proposition de méthodes permettant des mesures objectives et reproductibles serait une contribution pertinente pour l’aide au diagnostic. La segmentation des principaux organes impliqués est alors une étape primordiale mais difficile. Nous avons déjà proposé des méthodes semi-automatiques reposant sur des approches à base de contour actifs et de recalage. Il s’agit alors d’estimer l’apport des approches à base de réseaux de neurones convolutionnels pour cette problématique. Nos travaux actuels reposent sur l’utilisation d’un réseau à architecture U-Net dont les résultats seront comparés aux 2 approches existantes au laboratoire. Le problème de l’adaptation de la base d’apprentissage est particulièrement sensible et sera au centre du projet.

Profil du candidat :
Le candidat ou la candidate de niveau Bac+5 sera intéressé(e) par un projet pluridisciplinaire et par l’imagerie médicale. Les domaines abordés concernent la segmentation d’IRM et les approches par apprentissage profond, dites « deep-learning ».

Formation et compétences requises :
Des compétences en classification et apprentissage seront particulièrement appréciées. Une expérience de la programmation avec l’environnement python est attendue

Adresse d’emploi :
Laboratoire d’Informatique et Systèmes – LIS – UMR CNRS 7020 – Aix-Marseille Université
Campus scientifique de St Jérôme – Av. Escadrille Normandie Niemen -13397 Marseille Cedex 20
Tél. : 33 (0)4 91 05 60 30 – www.lis-lab.fr

Document attaché : Sujet_Master2_SegmentationDeep.pdf

Categories: Stages

Mar

Sun

2020

Extraction de connaissances à partir de grands graphes spatio-temporels

Tickets

Mar 15 – Mar 16 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube
Durée : 5 à 6 mois
Contact : florence.leber@engees.unistra.fr
Date limite de publication : 2020-03-15

Contexte :
Valoriser les grandes masses de données spatio-temporelles disponibles dans différents domaines est crucial. Ceci nécessite de concevoir et développer des approches innovantes aptes à traiter conjointement les aspects spatiaux et les aspects temporels, ce qui n’est que peu le cas avec les méthodes actuelles. Si les graphes, outils puissants à la fois théoriquement et méthodologiquement, sont utilisés pour modéliser des phénomènes temporels ou spatiaux, les méthodes actuelles de fouille, d’analyse et d’extraction de connaissances n’exploitent, en général, qu’une seule dimension de l’information, spatiale versus temporelle. Cela implique souvent une perte de précision et possibilité d’interprétation des résultats. C’est pourquoi nous nous proposons d’exploiter un modèle de graphe spécifique intégrant différents types de relations, les graphes spatio-temporels.

Sujet :
L’objectif général est d’étudier et développer des techniques pour trouver dans de grands graphes spatio-temporels, des motifs, ou répétitions, auxquels les experts du domaine concerné peuvent donner sens. Variante 1 (graphes synthétiques) – Deux aspects seront étudiés en particulier :
– la génération d’une base de graphes synthétiques : on dispose déjà d’un outil pour générer de tels graphes. Le stagiaire devra le prendre en main et l’évaluer dans le but de générer une base de graphes caractérisés selon différents indicateurs à définir. Cette base servira densuite pour tester des algorithmes
– la fouille de graphes : plusieurs approches de la litterature seront étudiées ; les codes disponibles pourront être testés sur les graphes synthétiques (avec appui d’un étudiant en M1) pour aboutir à une proposition de méthode de recherche de motifs spatio-temporels fréquents.
En fonction de l’avancée, une expérimentation sur données réelles pourra être menée avec l’aide d’un expert du domaine.
Variante 2 (données réelles, en collaboration avec le SERTIT) – Deux aspects seront étudiés en particulier :
– la simplification de graphes spatio-temporels : on travaillera sur des graphes spatio-temporels de parcelles, enrichis avec des informations issues de données satellitaires et de bases de données géographiques : la simplification des graphes sera opéré par fusion de sommets « similaires », dans les différents dimensions, spatiales et temporelles.
– la fouille de graphes : plusieurs approches de la litterature seront étudiées (avec appui d’un étudiant en M1) ; l’objectif sera d’une part de repérer des motifs définis par l’expert, d’autre part de mettre en évidence des phénomènes spatio-temporels fréquents auxquels l’expert pourra donner sens.

Profil du candidat :
Master ou ingénieur·e informatique

Formation et compétences requises :
Autonome en programmation (python), connaissances sur les graphes, intérêt pour l’aspect expérimental

Adresse d’emploi :
ICube UMR 7357 – Laboratoire des sciences de l’ingénieur, de l’informatique et de l’imagerie
300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex

Document attaché :

Categories: Stages

Mar

Tue

2020

Développement d’un module de recommandations appliqué à une solution logicielle de veille (Big Data)

Tickets

Mar 31 – Apr 1 all-day

Annonce en lien avec l’Action/le Réseau : Formation

Laboratoire/Entreprise : Coexel
Durée : 4-6 mois
Contact : vincent.boisard@coexel.com
Date limite de publication : 2020-03-31

Contexte :
Les outils de veille technologique et stratégique permettent de délivrer des services de recherches d’information et de notifications de données ciblées, que ce soit en direct ou en temps réel. Ces données ciblées correspondent à des évolutions technologiques visibles sur le Web pour lequel un expert du domaine souhaite rester au courant de la concurrence ou des usages dans son périmètre.

La difficulté pour ces outils de veille est de devoir traiter d’une part les données avec à la fois la multitude de domaines d’expertise pour répondre à la demande des experts, acquérir et gérer un grand volume de données à récupérer sur le Web, analyser le contenu des informations pour en ressortir de la pertinence. Et d’autre part, gérer le profil des experts sur leurs usages de recherche, d’interactions avec la plateforme de veille, mais également les connaissances de l’expert sur son environnement, comme sa propre base de connaissances ou un réseau d’experts.

La société Coexel se positionne dans ce domaine de la veille technologique & stratégique en proposant la plateforme MyTwip dédiée à ne nombreux domaines d’expertise, avec un moteur de recherche dédié, intégrant des analyses sémantiques basées sur une ontologie pour classifier automatiquement les informations par domaines d’expertise, du traitement de textes pour identifier des signaux faibles pour détecter ces évolutions technologiques pertinentes, ou de l’extraction de connaissances pour relier les concepts liés à une information.

Sujet :
Afin de mieux intégrer l’expert dans le processus de veille, nous envisageons d’intégrer le profil utilisateur, l’expert, au sein même de l’environnement de recherche à différents niveaux. Concrètement, le projet consiste en la mise en place d’un système de recommandations se basant sur les précédentes interactions de l’utilisateur. Celles-ci, de nature hétérogène ( recherches, lecture détaillée, documents, notations, suppressions, commentaires, validations manuelles ) permettent de caractériser le besoin de l’expert et, par conséquent, de lui suggérer de nouveaux documents ou nouvelles sources susceptibles de l’intéresser.
Il s’agit donc de trouver une pondération pertinente de ces différentes interactions afin de définir précisément le profil de l’expert et, une fois celui-ci spécifié, d’identifier sources et documents les plus proches de lui. Il y a donc une notion de distance à affiner entre les différentes entités mises en jeu ( documents, sources, profils d’experts ) et entre plusieurs instances d’une même entité ( on peut ainsi envisager d’étudier la proximité entre deux profils d’experts P1 et P2 afin de recommander à P1 les documents validés par P2 dans le cas où P1 et P2 seraient suffisamment similaires )
Ainsi, la croisée de ces différents critères produit un système complexe dont le mélange particulier a pour but de produire des informations pertinentes aussi bien par recherche à la volée qu’en temps-réel. Cette combinaison subtile n’est pas traitée dans la littérature, en effet nous comptons pouvoir produire des recommandations pertinentes de manière efficace en temps réel avec des profils multidimensionnels en se basant à la fois sur des historiques d’événements et sur des graphes de connaissances ou un réseau social.

Ce défi à relever repose sur certains verrous que nous devons soulever :
• Définir une mesure de pertinence de recommandations reposant sur un profil utilisateur riche, reposant sur son historique étendu (données explicites & implicites), son réseau social et son graphe de connaissances ;
• Définir un système optimisé pour la recherche d’information et la recommandation de veille technologique, combinant temps-réel et traitements lourds pour des milliers d’expert.

Profil du candidat :
Connaissances requises :
– Maîtrise générale des Bases de Données relationnelles.
– Maîtrise générale du langage Python et du format JSON
– Connaissance des concepts de recherche d’information, métadonnées et web-sémantique.
– Capacité à gérer efficacement un workflow conséquent

Connaissances appréciables :
– Expérience de l’outil de gestion de projet Redmine
– Expérience de la BDD No-SQL ElasticSearch.

Qualités nécessaires :
– Motivation
– Rigueur
– Autonomie

Formation et compétences requises :
De formation informatique (Bac+5 minimum), vous avez une expérience significative dans le développement et avez une expérience dans le déploiement et la gestion de projets ou souhaitez évoluer vers ce type de poste.

Adresse d’emploi :
131 avenue du Maréchal Foch 83000 TOULON

Document attaché : 200117-Stage-Module-Recommandations-COEXEL.pdf

Categories: Stages

Elaboration du modèle conceptuel des jeux pervasifs adaptables avec la prise en compte des états émotionnels des joueurs

Tickets

Mar 31 – Apr 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : CEDRIC, Conservatoire National des Arts et Métiers
Durée : 6 mois
Contact : elena.kornyshova@cnam.fr
Date limite de publication : 2020-03-31

Contexte :
Le champ des jeux affectifs est nouveau. Il s’appuie sur l’intégration de nouveaux moyens à développer dans les jeux afin d’adaptabilité. [1] et [2] présentent une méthodologie unifiée pour la conception des jeux affectifs utilisant le plus tôt possible le mécanisme de boucle émotionnelle. Ils repèrent des variations à l’aide de mesures physiologiques et appliquent un modèle issu d’un ensemble construit considéré comme en relation avec les émotions. Leur étude montre combien la dimension émotionnelle de l’utilisateur est importante mais difficile à gérer.
Le profil du joueur, y compris ses émotions, impacte la conception des jeux. Afin de proposer une meilleure expérience aux joueurs et de proposer un jeu particularisé, le jeu doit être adaptable en fonction du contexte global du joueur. Nous sommes dans une approche holistique qui combine à la fois l’individu et ses émotions, et, les influences de l’entourage qui va du bâtiment lui-même à l’atmosphère que dégage le lieu. Très peu de travaux ont été faits pour la conception et le développement des jeux adaptables dynamiquement. [3] formalise le concept des jeux appliqués aux visites de musées. Ce travail modélise le jeu de visite et propose un processus d’équilibrage entre la dimension ludique et la dimension non ludique (la visite) de ce type de jeux. [3] propose des patrons de mission qui servent d’éléments réutilisables lors de la conception des jeux, mais qui ne couvrent qu’une partie du processus de conception.

Sujet :
Il s’agit dans ce stage d’élaborer un modèle conceptuel du jeu pervasif adaptable basé sur les émotions. Ce modèle, éventuellement réalisé sous forme d’une ontologie, doit couvrir toute la variété des facteurs qui impactent le jeu tels que le profil de l’utilisateur et ses données physiologiques exprimant son état émotionnel. Cette ontologie doit être construite de façon à ce qu’elle soit adaptée à la démarche situationnelle nécessaire pour la composition dynamique du jeu.

Profil du candidat :
Passionné par les jeux

Formation et compétences requises :
Master 2 en Informatique
Modélisation conceptuelle
Ingénierie des systèmes d’information

Adresse d’emploi :
CEDRIC, Conservatoire National des Arts et Métiers, Paris, 75003, 2, rue Conté.

Document attaché : Stage_Modélisation_JeuxPervasifs_Madics.pdf

Categories: Stages

Équité, discrimination et explicabilité des traitements de données

Tickets

Mar 31 – Apr 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Télécom SudParis, laboratoire Samovar (sites Évry ou Palaiseau)
Durée : 5 à 6 mois
Contact : Amel.Bouzeghoub@telecom-sudparis.eu
Date limite de publication : 2020-03-31

Contexte :
Devant la quantité grandissante de données disponibles, de nombreuses applications nouvelles sont proposées dans des domaines en lien avec l’intelligence artificielle, les Big Data ou encore l’Internet des objets. Ces applications font appel à de l’apprentissage automatique, des algorithmes de recommandation, ou de la classification par exemple, et sont de plus en plus utilisées dans tous les domaines de la société [1]. Cependant, les prises de décision effectuées de manière autonome par ces applications, sans intervention humaine, soulèvent des défis d’ordre éthique auxquels s’intéresse de plus en plus la communauté scientifique. Des conférences récentes telles que la conférence ACM Conference on Fairness, Accountability, and Transparency ont été mises en place pour réunir différentes communautés de recherche afin de proposer des solutions interdisciplinaires pour des algorithmes garantissant l’équité et l’absence de biais notamment. Récemment, un groupe de travail de la commission européenne a défini des recommandations pour une intelligence artificielle de confiance [2].
Ce stage concerne plusieurs aspects liés aux données et aux algorithmes pour des prises de décisions équitables, sans biais et auto-explicatives. Il s’agira de comprendre les risques de discrimination dans les traitements de données et de proposer des solutions pour en limiter l’impact.

Sujet :
Ce stage concerne plusieurs aspects liés aux données et aux algorithmes pour des prises de décisions équitables, sans biais et auto-explicatives. Il s’agira de comprendre les risques de discrimination dans les traitements de données et de proposer des solutions pour en limiter l’impact.

https://www-public.imtbs-tsp.eu/~chabrido/sujet_Master2.html

Profil du candidat :
Informatique, niveau Master ou 5ème année ingénieur

Formation et compétences requises :
Nous recherchons des étudiants ayant de solides compétences en informatique, programmation et Linux. Une bonne connaissance en traitement de données est un plus.
Le ou la candidate doit démontrer un certain intérêt pour la recherche, un esprit critique et de la rigueur.

Adresse d’emploi :
Télécom SudParis
site d’Evry :
9 rue Charles Fourier, 91011 Evry
Site de Palaiseau :
19 place Marguerite Perey, 91120 Palaiseau

Document attaché :

Categories: Stages

Integration of a constraint extraction mechanism into a collaborative clustering process

Tickets

Mar 31 – Apr 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICUbe – Université de Strasbourg
Durée : 5-6 mois
Contact : gancarski@unistra.fr
Date limite de publication : 2020-03-31

Contexte :
Analysing satellite image time-series using supervised methods requires that thematic classes are perfectly known and defined, and that the expert is able to provide a sufficient set of training data in terms of both number and quality. Faced with the difficulty of obtaining enough examples for the such an analysis, new clustering methods use constraints to guide the clustering process [1,3,4,5]. In particular, in our team, we have developed SAMARAH an innovative method of collaborative interactive clustering under constraints [2]. This method allows the expert to add constraints “on the fly” to guide the process in order to produce clusters closer to the expert’s “intuition”, i.e. potential thematic classes. Thus, the SAMARAH collaborative method developed by ICube allows constraints to be considered incrementally.
Nevertheless, selecting which piece of additional information (object to be labelled, new constraint to apply, etc) is most relevant, i.e. that has a positive impact on the current result, is often very difficult for the expert. Indeed, to define new constraints, the expert almost exclusively uses a visualisation of the scene. Experiments show that, on the one hand, the expert focus on relatively large regions of the image and, on the other hand, they have no way of knowing whether the constraints that are proposed are consistent with each other and relevant a priori. In fact, selecting new information is an important scientific problem, especially since it is essential to optimise the manner in which to obtain this new information from an expert. If they do not see a rapid improvement of the solution following their help, they will quickly lose confidence in the system. Paradoxically, the potential disruptions to the current solution (by the new information) should be limited in order not to disorient the expert. To this end, the expert must be assisted with advice or propositions for new constraints by the method in an active way [6,7].

Sujet :
The objective of this internship is to study and implement mechanisms to propose potentially relevant constraints. This can be done, for example, using two approaches [1]: dependent on, and independent from the clustering algorithm. Ideas in the algorithm dependent direction are, to use the difference between results due to the heterogeneity of methods in SAMARAH, and/or by developing new measures based on the inconsistency [8] and informativeness [9] measures. Directions in the algorithm independent direction are to use a complexity measure, for example, based on trees of minimal weight to identify points at the boundaries between clusters and use them to define constraints, or by developing new measures similar to coherence [9] for time-series.
For the consolidation of proposals and thematic validation, the intern will be able to rely on the work undertaken between ICube and SERTIT. Different fields of application are envisaged such as (non-exhaustively):
1. Detection and monitoring of tree cuts in the Vosges mountains: the detection of clear cuts has already been the subject of previous studies. The case of selective cutting, which is much more complex, could be studied.
2. Monitoring of (re)vegetation around new infrastructure: this will involve identifying vegetation revitalisation/reinstallation classes around newly created infrastructure and then monitoring the evolution of this multi-annual vegetation.
The proposed mechanism(s) will be integrated into the FODOMUST-MULTICUBE platform [10] dedicated to the multi-temporal analysis of remote sensing data.

Profil du candidat :
Second year student of a Master’s of Computer Science degree,
Gratification : 550€ per month

Formation et compétences requises :
The candidate must have good skills in data analysis and more particularly in supervised or unsupervised classification of time series. Skills in remote sensing image analysis are welcome.

Adresse d’emploi :
ICube – SDC Team
Pierre Gançarski – Thoma Lampert
Pôle API
67 400 Illkirch

Document attaché : Sujet_HIATUS_ENG.pdf

Categories: Stages

Mesure automatique de la fonction cardiaque à partir d’IRM par méthodes d’apprentissage

Tickets

Mar 31 – Apr 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire d’Informatique et Systèmes, Université de Toulon
Durée : 4 à 6 mois
Contact : adeline.paiement@univ-tln.fr
Date limite de publication : 2020-03-31

Contexte :
Le stage se situe dans un contexte de partenariat multidisciplinaire avec le Bristol Heart Institute (BHI, Royaume-Uni). Le but de ce partenariat est d’améliorer l’évaluation de la fonction cardiaque à l’aide d’une nouvelle mesure, plus directe, de la qualité des battements du cœur. Cette nouvelle mesure devra être totalement automatisée afin de libérer du temps pour les spécialistes. Elle devra aussi être précise et robuste.

Les mesures proxy utilisées actuellement pour évaluer la fonction cardiaque (volume des ventricules, fraction d’éjection, etc.) sont obtenues après reconstruction 3D dynamique du cœur, laquelle est ensuite utilisée pour calculer divers volumes et les mesures proxy qui en découlent. Cette reconstruction est une étape contraignante qui demande beaucoup de temps aux radiologues et cardiologues.

De plus les mesures proxy étant par définition indirectes, elles ne sont pas totalement satisfaisantes pour évaluer la mobilité du muscle cardiaque.

Le stage s’inscrit donc dans un projet de développement d’une nouvelle mesure de la fonction cardiaque, basée directement sur la modélisation de la déformation du cœur.

Sujet :
Des travaux préliminaires ont permis de :

1) développer une méthodologie de quantification de la qualité de certains mouvements : http://www.bmva.org/bmvc/2014/files/paper058.pdf

2) faire un premier pas vers l’application de cette méthode au mouvement de battement du cœur, en démontrant qu’il est possible de produire un modèle de déformation du cœur adapté à cette méthodologie : https://miua2018.soton.ac.uk/documents/papers/MIUA2018_026.pdf

Pendant le stage, nous continuerons ces travaux afin d’obtenir une méthode de quantification de la qualité de battement du cœur.

Le stage comprendra les étapes suivantes :
1) Reconstruction du cœur de patients du BHI en 3D et 4D à partir d’IRMs déjà segmentées au BHI.

2) Construction d’une représentation simplifiée de la déformation du cœur (‘manifold learning’) selon la méthode présentée ici : https://miua2018.soton.ac.uk/documents/papers/MIUA2018_026.pdf . Les diagnostiques des patients du BHI étant connus, il sera possible de vérifier que cette représentation permet bien de distinguer les différentes pathologies.

puis au choix :

3a) Suppression de l’étape de reconstruction en apprenant un mapping direct entre l’image IRM et la représentation de l’étape 2 : entrainement d’un réseau de neurones profond comme dans : http://openaccess.thecvf.com/content_iccv_2015_workshops/w11/papers/Crabbe_Skeleton-Free_Body_Pose_ICCV_2015_paper.pdf .

3b) Construction d’un modèle de mouvement normal du cœur selon la méthode de : http://www.bmva.org/bmvc/2014/files/paper058.pdf , et utilisation de ce modèle pour calculer un score de qualité du battement du cœur.

Profil du candidat :
Ce stage est principalement destiné à un étudiant de niveau Master 2, dans un cursus informatique, mathématiques appliquées, ou école d’ingénieur.

Formation et compétences requises :
Pendant ce stage, des méthodes de modélisation markovienne, d’apprentissage de manifold, et de deep learning seront utilisées. Il n’est pas attendu du stagiaire qu’il soit un utilisateur chevronné de ces techniques, mais il devra avoir envie d’apprendre. Des bases solides en mathématiques et statistique seront nécessaires pour cet apprentissage.
Il est fortement recommandé de lire les articles cités ci-dessus pour vous assurer que vous souhaitez bien travailler avec ces méthodes.

Une bonne maîtrise de la programmation python est absolument nécessaire.

Adresse d’emploi :
Laboratoire d’Informatique et Systèmes, équipe DYNamiques de l’Information (DYNI)

Université de Toulon, Campus de La Garde – La Valette, Avenue de l’Université, 83130 LA GARDE

Document attaché :

Categories: Stages

Fouille de textes par Machines Relationnelles Profondes / Text Mining with Deep Relational Machines

Tickets

Mar 31 @ 15:55 – 16:55

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIS UMR CNRS 7220, Aix-Marseille Université (AMU)
Durée : 5 mois/Months
Contact : bernard.espinasse@lis-lab.fr
Date limite de publication : 1 juin 2020

Contexte :
La fouille de textes (Text-Mining) utilise de plus en plus de techniques issues de l’apprentissage profond pour des tâches de traitement automatique des langues (TAL) de très bas niveau comme l’extraction d’information (entités nommées ou relations) ou des tâches de plus haut niveau comme la simplification de textes, le résumé automatique.
Ces techniques d’apprentissage profond utilisant diverses architectures de réseaux de neurones (CNN, RCC, LSTM, …) permettent d’atteindre des performances intéressantes. Ces performances peuvent être améliorées par l’intégration de caractéristiques linguistiques comme les dépendances syntaxiques (Espinasse et al., 2019). Cependant les performances de ces techniques relevant de l’apprentissage profond semblent plafonner. D’autres techniques de TAL, symboliques tirent mieux partie de la linguistique, de ressources sémantiques externes (ontologies), avec notamment l’usage d’un apprentissage relationnel comme dans (Lima et al., 2019) (Verbeke et al., 2014). Pour outrepasser les limites des techniques par apprentissage profond, leur combinaison avec ces techniques symboliques s’avère judicieuse.

Sujet :
Fouille de textes par Machines Relationnelles Profondes /
Text Mining with Deep Relational Machines

cf document attaché / cf attached document

Profil du candidat :
Master 2 en informatique

Formation et compétences requises :
Bases du traitement automatique des langues, Python, apprentissage,

Adresse d’emploi :
Marseille, Campus de St Jérôme, LIS UMR CNRS

Document attaché : Sujet-Master-2-MRD-7fev20.pdf

Categories: Stages

Apr

Wed

2020

Application de méthodes de Séparation Aveugle de Sources aux enregistrements audio des boîtes noires

Tickets

Apr 1 – Apr 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : BEA (le Bourget) ou LISIC (Calais)
Durée : 6 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2020-04-01

Contexte :
Ce stage s’intègre dans les activités de R&D du Laboratoire Audio CVR du Département Technique du Bureau d’Enquêtes et d’Analyses (BEA) [1]. Le BEA est l’organisme officiel en charge de la conduite des enquêtes de sécurité à la suite d’accidents ou d’incidents aériens. De renommée internationale le BEA et en particulier son département technique, a la responsabilité d’analyser les données issues des enregistreurs phoniques ou CVR (pour Cockpit Voice Recorder) plus communément appelées les “boîtes noires” contenant les échanges vocaux et les alarmes émises dans le poste de pilotage.

Sujet :
Enjeux :

Les CVR sont des équipements renforcés protégeant une information importante pour la détermination des facteurs contributifs à la survenue d’un accident ou d’un incident aérien. Pour cette raison la qualité audio des enregistrements, l’audibilité des alarmes du cockpit et l’intelligibilité des échanges vocaux sont cruciales pour les enquêteurs du BEA.

Les limitations de conception des CVR contraignent les constructeurs d’avion à mélanger les sources sonores audibles dans le cockpit et dans les casques des pilotes (émissions et réceptions radio, échanges sur l’intercom, annonces aux passagers, alarmes sonores, etc) en un unique canal audio envoyé vers le CVR [2], qui en fait une acquisition numérique et protège cette donnée en cas d’accident. Ainsi l’activation simultanée de plusieurs sources sonores peut conduire à une réduction significative de l’intelligibilité des échanges vocaux, voire un masquage complet d’une ou de plusieurs sources audio.

L’extraction d’informations dans les données CVR s’appuie sur l’expérience des analystes audio du BEA et sur leur capacité à détecter des sources sonores enfouies dans des mélanges audio difficiles [3]. Le laboratoire audio du BEA souhaite dans un futur proche explorer les approches de Séparation Aveugle de Sources pour supporter ces travaux très complexes.

Structure et objectifs du stage :

1. Réaliser une étude bibliographique des méthodes de Séparation Aveugle de Sources applicable à des mélanges audio;
2. Développer ou acquérir les licences et les codes informatiques des méthodes les plus pertinentes et prometteuses;
3. Évaluer ces méthodes sur un corpus d’enregistrements audio non-sensibles;
4. Analyser les résultats obtenus, critiquer les méthodes disponibles et caractériser le fossé technologique;
5. Communiquer sur les résultats obtenus et rédiger la documentation finale du stage.

Encadrement du stage et points de contact :

Ce stage sera encadré conjointement par un enquêteur du Laboratoire audio CVR du BEA et par un enseignant-chercheur de l’équipe SPeciFI du LISIC de l’ULCO, spécialiste du domaine. Le stagiaire travaillera avec ces deux équipes, depuis le site de son choix, i.e. dans les locaux du BEA au Bourget, ou ceux du LISIC à Calais.

Les candidats exprimeront dans un premier temps leur intérêt pour ce stage par un courriel auquel ils annexeront les documents pouvant supporter leur candidature (lettre(s) de recommandation, relevés de notes, rapport de projet).

Contact BEA :
Dr. Benjamin Bigot
Enquêteur de sécurité – Analyste CVR
benjamin.bigot [at] bea.aero

Contact ULCO :
Dr. Matthieu Puigt
Maître de Conférences
matthieu.puigt [at] univ-littoral.fr

Références :
[1] Aeronews.tv, Comment le BEA répare les boîtes noires, https://www.youtube.com/watch?v=SIejrcrQboQ
[2] Captain Joe, BLACK BOX/Flight Data Recorder/COCKPIT VOICE RECORDER explained by Captain Joe, https://youtu.be/lPiWlBG16Wo
[3] Guide sur la vérification des enregistrements CVR, https://www.bea.aero/fileadmin/user_upload/Guidance_on_CVR_recording_Inspection__1_.pdf

Profil du candidat :
Curieux et très à l’aise en programmation (Matlab, Python), vous êtes inscrits en deuxième année de Master ou troisième année d’école d’ingénieurs en sciences de données (traitement du signal et des images, machine learning, intelligence artificielle), informatique ou mathématiques appliquées.

Formation et compétences requises :
Curieux et très à l’aise en programmation (Matlab, Python), vous êtes inscrits en deuxième année de Master ou troisième année d’école d’ingénieurs en sciences de données (traitement du signal et des images, machine learning, intelligence artificielle), informatique ou mathématiques appliquées.

Adresse d’emploi :
BEA, 10 Rue de Paris Bâtiment 153, 93350 Le Bourget
OU
LISIC, 50 rue F. Buisson, BP 719, 62228 Calais Cedex

Document attaché :

Categories: Stages

ACDC with deep learning : Automatic Crater Detection and Characterization with deep learning

Tickets

Apr 1 – Apr 2 all-day

Annonce en lien avec l’Action/le Réseau : Formation

Laboratoire/Entreprise : GEOPS
Durée : 6 months max
Contact : frederic.schmidt@u-psud.fr
Date limite de publication : 2020-04-01

Contexte :
This study takes place in the data deluge from the numerous space missions across the Solar System. The project proposes to develop a tool to automatically detect and characterize the most ubiquitous feature on planetary body : craters.

Sujet :
The aim is to developed a tool to define precise size and position of all craters in the scene, whatever the illumination conditions, the type of sensor and the scale. As a second goal, the project will have to determine the crater characteristics, such primary / secondary (ejecta from a previous impact, not from a direct impactor), presence / absence of rays, erosion level…
This study will take advantage of the machine learning and deep learning libraries available as open source to propose the most versatile and robust detection method. We propose to develop a new tool dedicated to this task. In addition, we propose to organize a worldwide challenge for any researcher/students as an open source strategy, in a framework called RAMP. This platform is designed for collaborative work and gives access to the source code of the participants (not only the results).
Such software pipeline is required to tackle fundamental questions in planetary science to study the surface processes across the Solar System. It will be a crucial tool to precisely date the surface and open a new era for onboard decisions on landing or targeting, to maximize the science return of future deep space missions.

Profil du candidat :
Last year engineer or M2 master student.

Formation et compétences requises :
The candidate must have a engineer or master grade in machine learning/data mining or in planetary science. Double competence in both fields will be encouraged. An excellent level of programming skills is required (Python, linux). We expect the candidate to have a good level of communication in English (written and oral).

Adresse d’emploi :
UMR8148 GEOPS
Bât 509, Université Paris Saclay
91405 ORSAY, FRANCE

Document attaché : ACDC.pdf

Categories: Stages

February – April 2020 Feb – Apr 2020

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Présentation Générale

Manifestations à venir

Actions, Ateliers et Groupes de Travail :