Présentation Générale

 



           
Huitième édition du Symposium MaDICS

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Une Session Poster sera spécialement consacrée aux jeunes chercheuses et jeunes chercheurs souhaitant présenter leurs travaux en analyse et gestion de données et dans les domaines interdisciplinaires autour de la Science des Données. Cette session sera également l’occasion d’échanger avec des collègues académiques et des acteurs industriels sur les thématiques de recherche présentées.

Dates importantes :

  • Soumission de posters : au plus tard le 23 mars 2026
  • Retour : 9 avril 2026
  • Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


May
1
Sat
2021
Conception d’outils pour la visualisation de trajectoires spatiales agrégées
May 1 – May 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N
Durée : 2/6 mois
Contact : francois.queyroi@univ-nantes.fr
Date limite de publication : 2021-05-01

Contexte :
Le projet régional S&N (Sequences & Networks) a pour objectif l’étude et la conception d’outils pour l’analyse de trajectoires (déplacement routiers, maritimes etc.). Ces traces peuvent être définies comme des séquences discrètes d’événements (e.g. les différents ports visités par un navire). Dans ce cadre, le projet S&N s’intéresse aux relations indirectes entre lieux e.g. sachant qu’un navire vient de Shanghai et est actuellement à Singapour, quelle est sa prochaine destination ? On va ainsi chercher à dépasser la représentation usuelle des déplacements sous la forme de graphes (voir Fig. 1 pdf joint) en utilisant des « réseaux d’ordre supérieur » (voir Fig. 2 pdf joint).

Sujet :
L’objectif du stage est de proposer des outils permettant de visualiser efficacement les séquences spatiales. Des diagrammes comme les « alluvial graphs » (voir Fig. 2c et 2f pdf joint) sont parfois utilisés dans ce contexte. Toutefois la taille des jeux de données rend ce type de visualisation difficile. On va donc s’intéresser à l’agrégation automatique des événements / lieux permettant d’obtenir des modèles qui représentent bien les relations indirectes entre lieux. Ainsi, par exemple, si les navires venant des ports chinois ont des destinations similaires en quittant le port de Singapour, on pourra les considérer comme un objet unique dans le diagramme. Ce travail se basera sur des travaux existants sur la modélisation de trajectoires.

Profil du candidat :
Nous cherchons un.e étudiant.e en L3/M1/M2 informatique (ou équivalent) intéressé.e et ayant des compétences dans l’analyse de données.
– bonne maîtrise de Python
– capacités rédactionnelles
– bon niveau d’Anglais

Formation et compétences requises :
L3/M1/M2 informatique (ou équivalent)

Adresse d’emploi :
Polytech Nantes, Rue Christian Pauc, 44300 Nantes

Document attaché : 202012161413_sujet_master2_2021_fr.pdf

May
3
Mon
2021
Stage Machine Learning Airbus/I2M
May 3 – May 4 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : AIRBUS / Institut de Mathématiques de Marseille
Durée : 6 mois
Contact : badihghattas@gmail.com
Date limite de publication : 2021-05-03

Contexte :
Lors de la mise en service de la première version du logiciel de traitement des pannes d’un
hélicoptère, on constate la détection et l’enregistrement de l’ordre de quelques centaines de pannes
par vol par les systèmes avioniques alors que selon le taux de défaillance théorique global hélicoptère
le nombre de vraies pannes avioniques se situe entre 0 et 1 par vol. Ces détections de fausses
occurrences de pannes polluent l’analyse de données et empêche un traitement efficace des vraies
pannes détectées.
Les données d’entrées sont d’une part, un journal d’évènement contenant les informations :
nom et numéro d’identification de la panne, type d’évènement : apparition ou disparition, temps de
l’évènement et d’autre part les données de contexte correspondants aux données de capteurs de type
réel, enregistrées en continu.

Sujet :
Machine learning pour la ségrégation automatisée des fausses pannes avioniques

Profil du candidat :
Ecole d’ingénieur (Statistiques, Informatique, DataScience) ou Master Data Science.

Formation et compétences requises :
La mise au point de l’outil de prédiction requiert des compétences en développement de moyens d’apprentissage automatique supervisé et non supervisé (clustering, arbres de décision, …) et de modélisation statistique plus classique.
• Le traitement des données de la base centralisée Airbus requiert des compétences SQL, et en langage de programmation (java ou python).

Adresse d’emploi :
A l’Institut de Mathématiques de Marseille à Luminy, avec des déplacements réguliers chez Airbus à Marignane.

Document attaché : 202103031023_Stage-Airbus-I2M..pdf

May
7
Fri
2021
Application of Machine Learning techniques to classify hydroacoustic events in large acoustic databa
May 7 – May 8 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UBO/IUEM/LGO
Durée : 24
Contact : sara.bazin@univ-brest.fr
Date limite de publication : 2021-05-07

Contexte :
Nous avons soumis un sujet de post-doc Marie-Curie pour développer des algorithmes de reconnaissance automatique par apprentissage machine (ML) de signaux de données hydroacoustiques (séismes notamment). Nous disposons de 10 ans d’enregistrements du réseau OHASISBIO dans l’océan indien (https://www-iuem.univ-brest.fr/lgo/les-chantiers/ohasisbio/).
Lien vers l’annonce Euraxess : https://euraxess.ec.europa.eu/jobs/623070
Les candidat.e.s devront avoir passé au moins 12 mois à l’étranger lors des trois dernières années.

Sujet :
Mooring networks of autonomous hydrophones is an effective way for monitoring the ocean soundscape and its sources: undersea earthquakes and volcanic eruptions, marine mammals, iceberg cracks, sea-state, ship noise… For more than 10 years, our laboratory has been maintaining hydroacoustic networks in the open ocean, composed of few hydrophones moored in the sound channel, which acts as an acoustic waveguide, carrying acoustic waves over thousands of kilometers.
In the Indian Ocean, the OHASISBIO network comprises 7 to 9 distant hydrophones continuously recording low-frequency sounds (0-120Hz) since 2010. Its objective is to monitor the seismic activity of mid-ocean ridges, but also the presence and migration patterns of large whales, and the oceanic ambient noise in general. Indeed, mid-oceanic spreading centers generate a large number of earthquakes and thus acoustic waves, indicative of the intervening seafloor spreading processes. Moreover, large baleen whales produce many loud and distinctive calls and songs, which provides clues as to when and where species dwell and migrate. Other sounds of interest are cryogenic sounds produced by icebergs or man-made noises (ship traffic, seismic exploration).
Over the years, passive acoustic monitoring of the ocean results in very large data sets (e.g. 25G/yr/instrument x 10 instr. x 10 years). The preliminary but indispensable, and time consuming step in the data analysis consists in identifying the different types of acoustic events. To achieve a more complete and efficient analysis, we wish to develop a deep learning application for event detection and signal discrimination in our acoustic database.
The fellow will hence develop an automatic detection and classification tool for acoustic signals recorded in the ocean, based on machine learning techniques. Among the wide range of approaches for intelligent classification, we seek for the implementation that would best extract information from our growing acoustic database.
Supervised learning consists in teaching a model how to make classification predictions, here: earthquake, icequake, seismic-shot or whale-call. Parts of the OHASISBIO dataset have already been manually processed and classified, and will serve for training the model.
Once events are detected and classified on several hydrophones, their source can be localized based on their arrival times, the geometry of the network, and the sound-speed in the ocean. Ultimately, resulting seismic catalogs will depict the spatial and temporal seismicity that will help understanding the dynamics of seafloor spreading. Bioacoustic catalogs will be used to establish statistics on the presence of marine mammals and its evolution over the years, a key to developing conservation measures. Ocean noise pollution by man-made noise is becoming a major issue and its evolution has yet to be characterized in the long term. These are among the outcomes expected from a thorough, systematic and enhanced analysis of continuous acoustic recordings in the open ocean, through machine learning techniques.

Profil du candidat :
Applicants must have a maximum of 8 years full-time equivalent experience in research, measured from the date applicants were in possession of a doctoral degree. Years of experience outside research and career breaks (e.g. due to parental leave), will not be taken into account.
Nationality & Mobility rules: Applicants can be of any nationality but must not have resided more than 12 months in France in the 36 months immediately prior to the MSCA-PF call deadline (September 15th, 2021)

Formation et compétences requises :
– Skills in Machine Learning algorithms and their implementation
– Skills in large dataset analysis and signal processing
– Post-doctoral publication(s) in peer reviewed journals, related to these fields
– Experience in acoustics or geoscience will be a plus
– Required Language: English (French is not required)

Adresse d’emploi :
Institut Universitaire Européen de le Mer (Université de Brest), Plouzané, France

May
21
Fri
2021
Fouille de modèle et visualisation de données pour explorer les avenirs d’une zone au Sénégal
May 21 – May 22 all-day

Offre en lien avec l’Action/le Réseau : FENDER/– — –

Laboratoire/Entreprise : CIRAD (Le Centre de coopération internationale en
Durée : 5 à 6 mois
Contact : camille.jahel@cirad.fr
Date limite de publication : 2021-05-21

Contexte :
La zone des Niayes fournit 70% des produits horticoles à Dakar, profitant d’une nappe phréatique peu profonde, d’un climat favorable et de sols fertiles. Mais ces dernières années ont été marquées par une baisse importante du niveau de la nappe et une salinisation progressive des terres par invasion marine, du fait d’une diminution de la pluviométrie. A cela s’ajoute des problématiques de surexploitation des ressources hydriques par les exploitations agricoles, les agro-industries et les exploitations minières qui ne cessent de s’agrandir. Les prévisions climatiques pour les prochaines années, particulièrement alarmantes pour le Sénégal, tendent à montrer que ces tendances risquent de s’amplifier, menaçant directement toutes les exploitations agricoles de la zone.
Il est donc urgent de prendre la mesure de ces changements pour tenter de les atténuer. Dans ce contexte, une série d’ateliers de prospective ont été menés en 2018, qui ont permis de dessiner les contours de scénarios d’évolution des Niayes (www.niayes2040.fr). Mais ces scénarios sont dans un registre narratif et qualitatif et doivent maintenant être illustrés d’indicateurs quantitatifs.
Pour cela, une équipe multidisciplinaire de modélisateurs et thématiciens ont écrit un modèle des dynamiques de la zone des Niayes, à l’aide de la plateforme de modélisation spatiale Ocelet (www.ocelet.fr). Le modèle articule plusieurs modules, et permet de simuler des dynamiques de la nappe phréatique, l’étalement urbain, l’avancée du domaine cultivé, les productions agricoles, les revenus agricoles et les emplois agricoles. Le modèle a été construit de manière à reproduire les dynamiques de ces différents modules observés ces 15 dernières années. Il s’agit pour le stagiaire de calibrer le modèle, d’explorer la diversité des résultats en entrée et en sortie de modèle et enfin de l’utiliser pour simuler les différents scénarios plausibles.

Sujet :
La première partie de ce stage sera la calibration du modèle, en comparant les sorties du modèle pour différents jeux de paramètres aux données d’observation terrain (station d’enregistrement piézométriques, étalement urbain, productions agricoles). Le stagiaire sera amené à effectuer des analyses de sensibilité pour évaluer les réactions du modèle aux variations de conditions initiales. Il cherchera également à mesurer les contributions des différents paramètres d’entrées aux sorties du modèle. Enfin en mobilisant des algorithmes évolutionnaires (NSGA2, PSE), le modèle sera mis sous contrainte pour comprendre les situations optimales et les situations critiques du système. Le stagiaire s’appuiera pour cela des approches développées par la communauté OpenMole (openmole.org) d’exploration de modèle.
Une fois le modèle calibré et vérifié, il s’agira d’identifier dans les résultats de sortie du modèle ceux qui correspondent aux scénarios qualitatifs identifiés par les acteurs en 2018 (approche experte). A partir de cet espace des sorties et en utilisant une des méthodes telle qu’OSE, le stagiaire identifiera dans l’espace des entrées les jeux de paramètres qui conduisent aux espaces des sorties considérées par les experts. Pour cela, des séries de simulations seront lancées sur des périodes simulées de 20 ans, en fonction de jeux de paramètres cohérents avec les scénarios qualitatifs produits plus tôt et en insérant différentes « ruptures » dans les simulations (par exemple, introduction d’un nouveau paramètre en cours de simulation). Ce travail d’exploration et d’analyse de l’espace des sorties sera mené par le stagiaire, en s’inspirant là aussi des travaux de la communauté d’OpenMole.
Si le temps le permet, le stagiaire sera alors à même de produire une interface de visualisation des trajectoires territoriales qui permette aux décideurs et aux chercheurs d’identifier les bifurcations dans les scénarios simulés parmi les avenirs plausibles de la zone des Niayes. Le travail de visualisation des données en sortie – comme par exemple, des cartes d’occurrence de phénomène pour un même scénario, ou une présentation de l’espace des possibles, etc. – fournira le contenu à la plateforme de visualisation.

Profil du candidat :
Le stagiaire devra maîtriser au moins un langage informatique et aura des connaissances en analyse de données. Un intérêt pour les thématiques environnementales, de changement climatique et socio-économiques sera un plus.

Formation et compétences requises :
M1 ou M2 en informatique, analyse de données ou sciences environnementales (avec option info).

Adresse d’emploi :
Maison de la télédétection
500 Rue Jean François Breton, 34090 Montpellier

Document attaché : 202104281633_Fouille de modèle et visualisation de données pour explorer les avenirs plausibles de la zone des Niayes au Sénégal_vf.docx

May
31
Mon
2021
Embedding Representations of Electronic Medical Records
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CHU de Lille – INCLUDE
Durée : 6 months
Contact : include@chru-lille.fr
Date limite de publication : 2021-05-31

Contexte :
1. Medical Context

The High Council on Public Health estimates that 15 million people in France suffer from one or more chronic diseases. This number has increased substantially in recent years, for two main reasons: population ageing, and improved treatments (meaning that formerly fatal, acute diseases have become chronic conditions). In the move towards personalized medicine, there is an increasing need for tools that can detect chronic diseases, provide prognostic information, and predict the occurrence of complications and exacerbations leading to hospitalization.
Furthermore, medical nosology is becoming increasingly complex. The numbers of disease entities, diagnostic tests, biomarkers and treatment modalities have increased exponentially over recent years. As a result, clinical decision-making has also become more complex, and requires the integration and synthesis of a large amount of clinical information. Based on the patient’s complaint and initial signs and symptoms, the physician seeks to rule out a number of potentially serious differential diagnoses. The most useful disease characteristics are identified; when the probability of one of the diagnoses reaches a predetermined level of acceptability, the process is stopped, and the diagnosis is accepted. In some senses, the physician acts as a classifier.
All French hospitals collect medical and administrative data as part of hospital invoicing. Their electronic medical records (EMRs) notably contain original data on lab results, drug prescriptions, and clinical notes. Furthermore, information on outpatients and causes of death are provided as part of the SNDS (Système National des Données de Santé). It is now possible to consider linking outpatient and inpatient data, for a full analysis of the care pathways followed by patients with chronic diseases. Most of the today’s research projects have mainly used structured SNDS data. The search for predictive elements in EMRs requires a focus on more complex, unstructured data such as free text, event sequences, and changes over time in laboratory parameters. Structured information is coded using terminologies with a high number of component items (for example, there are 32,000 codes in the International Classification of Diseases, 10th Edition (ICD-10)); some of these correspond to very similar medical concepts, and could be grouped together and summarized.

2. Methodological context

Unsupervised and weakly-supervised statistical learning methods make it possible to consider building unified representations by synthesizing information from heterogeneous and (in some cases) unstructured data associated with patients. This can be done via “embedding” transformations that provide an alternative representation of the initial objects within a structured mathematical space. The typical purpose of an embedding is to represent initial objects in a small space that preserves or even reveals the structure of the relationships between objects. This is achieved via the introduction of a mathematical distance and/or a reduction in dimension with respect to the initial space.
In the case of natural language in general and words in particular, embedding makes it possible to replace words (represented by a simple numerical index within the vocabulary, or by vectors whose dimension V is that of the vocabulary) by vectors in a Euclidean space of dimension m (where m <<< V) whose relative positions reflect linguistic properties (e.g. semantics or syntactics). This embedding can be based exclusively on informational criteria, e.g. using the GloVE algorithm ([1]); this consists in (i) factoring the co-occurrence matrix of words within a given corpus, and (ii) using one of the resulting matrices as a representation of words in a space of a chosen dimension. In other cases (word2vec [2], BERT [3], etc.), we will rely on an artificial neural network trained on one or more linguistic tasks - the prediction of a hidden word from those surrounding it in a given sentence, for example. Embedding will then corresponds to one of the intermediate representations learned by this network at the end of its training. The methods initially developed to produce "word embedding" in natural language could be transposed to other types of data and objects. In a medical context, it makes sense to produce embeddings of a nomenclature's items, so as to represent mathematically their relationships and notably capture similarities and possible redundancies between items. This can for example be applied (separately) to drugs, symptoms, exams or medical acts. In turn, these representations are of value in developing (for example) decision support and alert systems. For quantitative measures, such as those in a standardized biological exam, embedding methods can be desirable to construct vectors synthetizing multivariate information, at a given date and/or through time. For these data, an embedding can be constructed using simple methods such as PCA or t-SNE, or more complex models such as auto-encoder artificial neural networks, or even adaptations of some network architectures and tasks initially conceived for word embedding. Lastly, following recent research on combining embeddings of different types of related data (e.g. Mixture-of-Embedding-Experts (MEE) [4], Mixture-of-Experts (MOE) [5], or Multi-channel Variational Auto-encoder [6]), learned representations from heterogeneous medical data could be combined into a "patient embedding" representation. The latter (built from massive data in warehouses) could then be transferred to other contexts, providing greater statistical power and thus reducing the number of participants needed for prospective research. Bibliography: [1] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. GloVe: Global Vectors for Word Representation. [2] Tomas Mikolov, Ilya sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. Distributed Representations of Words and Phrases and their Compositionality. arXiv:1310.4546 [cs.CL] [3] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805 [cs.CL] [4] Antoine Miech, Ivan Laptev, and Josef Sivic. 2018. Learning a Text-Video Embedding from Incomplete and Heterogeneous Data. arXiv:1804.02516 [cs.CV] [5] Xin Wang, Fisher Yu, Lisa Dunlap, Yi-An Ma, Ruth Wang, Azalia Mirhoseini, Trevor Darrell, and Joseph E. Gonzalez. 2018. Deep Mixture of Experts via Shallow Embedding. arXiv:1806.01531 [cs.CV] [6] Luigi Antelmi, Nicholas Ayache, Philippe Robert, and Marco Lorenzi. 2019. Sparse Multi-Channel Variational Autoencoder for the Joint Analysis of Heterogeneous Data. ICML 2019. hal-02154181

Sujet :
3. Objectives of the internship

Main objective
The main objective will be the construction of embedding representations for various types of medical data, starting with drugs (based on prescriptions) and biology results (for a set of standard exams). These embeddings will then be used as inputs for supervised machine learning methods in order to predict the occurrence of a health outcome, in a classical biomedical research context. Comparisons to baseline models making use of the “raw” data will be conducted to assess the interest in building (and possibly transferring) embeddings to gain predictive power.
This objective will require the intern to reflect (possibly relying on a literature review) on the adequate embedding methods for each type of data depending on its specificities, to implement the embedding (using open-source software and/or new implementations), and to train both baseline and embedding-based machine learning predictive models. Research on optimal model classes and/or hyper-parameters may be conducted both at the embedding and classification steps.

Additional objectives
Depending on the time, the results and the personal inclinations of the intern, a variety of follow-up and complementary objectives may be pursued:
(a) Embed additional types of data.
Diagnostic and/or medical act codes may be considered for embedding. As for clinical notes (text), existing work conducted in the team may be leveraged, or new solutions may be explored.
(b) Define (and implement) additional tasks to assess the quality of the embeddings.
This open topic, which may involve a literature review, could either leverage available information, or produce specifications for a task involving data annotation to be obtained from clinicians.
(c) Construct a “patient embedding”, aggregating multi-channel information.
This exploratory topic, which should involve a literature review, will aim at producing a “unified” representation of patient data to be leveraged for prediction tasks (and/or additional ones). This global embedding may either be constructed by aggregating data-type-wise embeddings, or by starting back from the raw data.
(d) Reflect on explicability concerns emerging from using embeddings as inputs in a supervised task.
This open topic, which could involve a literature review, may be taken in a variety of directions: searching for embedding and prediction methods that enable deriving clinical knowledge from trained models; defining application cases that do not suffer from the potential lack of explicability arising from using embeddings; etc.

4. INCLUDE and the Lille University Hospital

With a community of 16,000 professionals, the Lille University Hospital is one of the largest campuses of northern Europe dedicated to healthcare, and has become a reference for teaching, innovation and research over the recent years. In 2017, more than 5,000 patients were included in clinical studies, representing a budget of nearly 70 million euros. During the year 2019, INCLUDE, the Integration Centre for the Lille University Hospital for Data Exploration, was authorized by the CNIL to reuse patients’ data (e.g. through routine EMRs) for clinical and methodological research. Data integration is carried out within the data warehouse while the statistical development (in every sense, including machine learning and deep learning) is provided by a team of data scientists with significant computing resources (GPU server). Thanks to the extremely rich scientific environment available on the campus, INCLUDE actively collaborates with various clinical research teams – but also teams from INRIA, INSERM and the University of Lille, to explore the potential of artificial intelligence techniques in healthcare.
Data and practical concerns
The dataset used for this internship will consist in biomedical measurements, drugs prescriptions and clinical notes for a wide group of patients of the Lille University Hospital between 2008 and 2019. This data is currently held in the hospital’s data warehouse, administered by INCLUDE, and is therefore ready to be made available securely on a self-hosted computational infrastructure; an authorization from the CNIL allows its lawful statistical exploitation. The data will not comprise information allowing to identify individuals (identity variables will be dropped, an ad hoc patient id will be used to align data tables, and text will undergo a de-identification process removing sensitive information).
The internship will take place at INCLUDE, with an articulation between remote and office work depending on the sanitary situation and on national and institutional rules and recommendations. Secure remote access to computational resources holding the data will be provided at any rate.
Supervision and support will be handled by both clinicians and data scientists, respectively providing with expert knowledge of the data and biomedical studies in general, and with scientific and technical knowledge and assistance.

Profil du candidat :
Equivalent of a M1 or M2 in Data Science / Computer Science / Statistics.

Formation et compétences requises :
Required:
* Programming in Python (or R), with a focus on scientific libraries
* Theoretical and practical knowledge in Machine Learning

Would be a plus:
* Theoretical and practical knowledge in Deep Learning
* Knowledge of Git and associated development practices
* Interest for and/or prior experience with health data and clinical research

Adresse d’emploi :
CHU de Lille,
Institut Coeur Poumon,
5 Boulevard du Pr Jules Leclerc
59000 Lille

Document attaché : 202102251432_stage_patient_embedding.pdf

Enrichissement de ressources sémantiques du domaine par des connaissances de sens commun.
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIPN
Durée : 5 mois
Contact : manel.zarrouk@lipn.univ-paris13.fr
Date limite de publication : 2021-05-31

Contexte :
Le projet BNI (Bibliothèque Numérique des Idées) [1] offre des fonctionnalités d’accès riches en exploitant des modèles sémantiques dans le domaine de la philosophie. La plateforme indexe actuellement les œuvres de Adam Smith et Francis Hutcheson. Deux types de ressources sémantiques sont exploitées : des thésaurus et des grilles de lecture qui sont des structures arborescentes qui cartographient le champ de pensée des auteurs.

Sujet :
L’objectif du stage est l’enrichissement des ressources sémantiques produites par des connaissances générales qui permet de mettre à profit leur complémentarité.

Cet enrichissement est envisagé en deux parties :
– L’enrichissement statique qui consiste en l’augmentation des ressources du domaine par des entités lexicales et des relations lexico-sémantiques en voisinage direct avec les nœuds déjà existants. Pour ceci nous utiliserons le réseau lexico-sémantique JeuxDeMots (JDM) [2] comme base de connaissance générale.
– L’enrichissement dynamique, qui peut s’appuyer sur des mécanismes d’inférence pour proposer automatiquement de nouvelles relations à partir de celles qui existaient déjà dans le réseau [3]. D’autres pistes sont envisagées qui intègrent l’apprentissage automatique.

Les différentes étapes du travail à réaliser sont les suivantes :
– Mise en place de techniques d’alignement lexical de l’état de l’art
– État de l’art sur les techniques d’enrichissement de connaissances
– Mise en œuvre d’enrichissement statique
– Mise en œuvre et comparaison d’enrichissement dynamique
– Évaluation des propositions dans le cadre du projet

Profil du candidat :
Master 2 en Informatique (orienté recherche).
Bon niveau en Anglais exigé.
Ce stage est proposé à des étudiants qui disposeraient d’un bon niveau académique, d’une curiosité scientifique affirmée et qui envisagent une orientation professionnelle future dans le domaine de la recherche.

Formation et compétences requises :
– Domaines techniques : Intelligence Artificielle, Traitement automatique des Langues, Ingénierie des Connaissances, Extraction d’information à partir de textes, Apprentissage automatique.
– Compétences en développement : Java, Python, PHP

Adresse d’emploi :
Ce stage d’une durée de 5 mois se déroulera au Laboratoire d’Informatique de Paris Nord (LIPN) dans l’équipe Représentation des Connaissances et Langage Naturel (RCLN). Les travaux de l’équipe visent à articuler langage et connaissances pour améliorer les processus d’acquisition de connaissances, d’analyse textuelle, d’exploitation et d’exploration des corpus. L’encadrement sera assuré par Haïfa Zargayouna et Manel Zarrouk. Compte tenu du contexte sanitaire, des arrangements de travail à distance sont envisageables.

Jun
30
Wed
2021
Apprentissage de distance d’éditions entre graphes par Réseaux de Neurones
Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : GREYC/LITIS/LAMSADE
Durée : 6 mois
Contact : benoit.gauzere@insa-rouen.fr
Date limite de publication : 2021-06-30

Contexte :
Le stage est rémunéré et pourra se dérouler soit à Rouen (LITIS) ou à Caen
(GREYC). En cas d’empêchement un stage à domicile sera également possible
avec des points réguliers en visio conférence.
Le stage pourra se poursuivre en thèse selon les résultats obtenus et les
financements disponibles. Plusieurs demandes de financement (ANR, thèse IA,
thèse normale) sont actuellement en cours.

Sujet :
Le sujet du stage consiste à étudier la mise en œuvre de réseaux de neurones sur graphes pour l’apprentissage des coûts associés à la distance d’édition entre graphes. Plus de détails dans le pdf joint.

Profil du candidat :
Les qualités attendues du stagiaire sont :
— Connaissance de Python et de Pytorch ou toute autre bibliothèque de
réseaux de neurones,
— Capacités à lire et comprendre des articles scientifiques (en anglais),
— Autonomie dans le travail,

Formation et compétences requises :
M2/école d’ingénieur en informatique et/ou apprentissage automatique

Adresse d’emploi :
ENSICAEN ou INSA de Rouen

Document attaché : 202101251255_stage.pdf

Composant d’intégration de données multi-source pour la plateforme de données sémantiques DataNoos.
Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT, Institut de Recherche en Informatique de Tou
Durée : 5/6 mois
Contact : pascal.dayre@irit.fr
Date limite de publication : 2021-06-30

Contexte :
A l’heure actuelle les entreprises ou les unités de recherche souhaitent faire de nouvelles agrégations de données existantes pour créer de la valeur, prendre des décisions ou produire de nouvelles connaissances.
L’intégration de données est le processus qui consiste à combiner et à aligner des données provenant de différentes sources.
L’intégration de données augmente la valeur des données disponibles et permet de constituer de nouveaux jeux de données en fonction des buts recherchés.
Nous considérerons un ensemble de sources de données, une plateforme d’intégration de données offrant un accès unifié à un ensemble de jeux de données disponibles sur internet.
La plateforme sera celle du projet DataNoos (https://datanoos.univ-toulouse.fr/).

Sujet :
Le travail demandé est de concevoir et de développer le composant d’intégration de données multi-source de la plateforme de données sémantisées DataNoos.

La plateforme DataNoos permet actuellement l’alignement de méta-données.
Il est nécessaire néanmoins de développer un composant sous forme d’une couche de service offrant les fonctionnalités suivantes pour la connecter à des e-infrastructures existantes:
• la recherche des sources de données
• l’intégration de sources de données
• la recherche de jeu de données
• l’importation et/ou le référencement des thésaurus / vocabulaires contrôlés /ontologies
• l’importation des méta-données des jeux de données et des référentiels
• l’alignement des méta-données dans un référentiel de méta-données local
• l’importation des données dans un référentiel de données local
• l’importation de référentiel de service et de workflow

Nous nous placerons dans le cadre du web des données pour la gestion des méta-données et des ETL sémantique pour leur moissonnage. Le cas d’application sera celui de la science ouverte notamment lors d’une recherche interdisciplinaire nécessitant l’accès et l’intégration de données multi-sources multi-domaines.

La constitution d’un catalogue des productions de l’université Toulousaine sera demandé comme délivrable.

Profil du candidat :
Stage M2 ou stage ingénieur

Formation et compétences requises :
Technologies du W3C.
UML
Python / Django
javascript / framework
Architecture orientée service: API REST

Adresse d’emploi :
Développement Logiciel des systèmes distribués (connaissance des
architectures distribuées et des technologies du net)

[Stage M2] Apprentissage automatique pour l’analyse de simulations de rupture de gouttes
Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CORIA / LITIS
Durée : 6 mois
Contact : simon.bernard@univ-rouen.fr
Date limite de publication : 2021-06-30

Contexte :
L’atomisation est présente dans de nombreuses applications telles que l’injection de carburant, l’irrigation par aspersion, le séchage par pulvérisation ou l’extinction des incendies. Ce processus est généralement divisé en deux régimes : le régime d’atomisation primaire, où le jet se déstabilise en créant de grandes structures liquides et le régime d’atomisation secondaire, où ces grandes structures se divisent en petites gouttes sphériques. Ces gouttelettes finales restent sphériques à cause de l’effet dominant de la tension de surface. La prédiction précise de la distribution finale de la taille des gouttes est nécessaire pour améliorer les applications concernées par l’atomisation. En particulier, la taille des gouttes est l’un des principaux facteurs des émissions finales des moteurs automobiles.
Afin de réaliser cette prédiction il faut établir des modèles de rupture secondaire qui permettent de savoir, à partir de l’état d’une goutte, la probabilité de rupture. De nombreux modèles ont été proposés dans la littérature. Les modèles actuels sont basés sur des corrélations empiriques prenant en compte des paramètres comme la turbulence environnante ou la vitesse de glissement. La diversité des effets provocant la rupture fait qu’à ce jour aucun modèle n’a permis une prédiction fiable sur l’ensemble de régimes utilisés dans l’industrie.
Le but de ce stage est d’utiliser les algorithmes d’apprentissage machine (Machine Learning) pour produire de meilleures prédictions de l’atomisation secondaire.

Sujet :
Le contexte applicatif posent plusieurs défis à l’apprentissage automatique. Tout d’abord, le nombre de gouttes étudiées est limité par le coût de génération qui reste non négligeable. On envisage la génération de quelques milliers de gouttes pour réaliser notre étude, ce qui, au regard de la tâche d’apprentissage est relativement faible. En particulier, ce volume de donnée est bien en deçà des volumes généralement nécessaires à l’apprentissage profond (Deep Learning). Bien que ce soit difficile à estimer de façon précise, car dépendant à la fois du problème et de la méthode utilisée, nous savons que la quantité de données nécessaire à l’apprentissage profond est plutôt de l’ordre de plusieurs millions de données. Ensuite, chaque donnée (goutte) de la base d’apprentissage est décrite par un volumede 64x64x64 voxels, eux-même décrits par 6 descripteurs numériques. Cela implique que la dimension du problème d’apprentissage est de l’ordre du million, ce qui est bien supérieur aux nombre de données disponibles. Ces situations sont connues pour être particulièrement difficiles à traiter en apprentissage machine et nécessite des méthodes dédiées. Finalement, la base d’apprentissage sera constituée d’un nombre très inégal de gouttes qui subissent une rupture au cours du temps et de gouttes stables. Ce déséquilibre est une difficulté supplémentaire, qui nécessite également des méthodes d’apprentissage spécifiques.
Ces trois problématiques d’apprentissage, i.e. l’apprentissage en grande dimension, avec de petits échantillons et en présence de données débalancées ont déjà été étudiés par le passé au Laboratoire LITIS, et solutionnées notamment avec des méthodes de forêts aléatoires et d’ensembles de classifieurs. Ces travaux ont démontré l’efficacité de ces approches pour ces types de problèmes, c’est pourquoi nous les envisageons pour ce projet, sans pour autant s’y restreindre.
Ce stage sera financé par l’ANR DropBreak et peut déboucher sur un contrat d’ingénieur d’études de 6 mois financées dans le cadre d’un projet RIN (Région Normandie – Union Européenne). Le contenu de ce contrat de 6 mois est dans la continuité des tâches proposées dans le stage.
Résultats attendus pour la rédaction du rapport de stage :
• Étude bibliographique des outils d’apprentissage machine adaptées,
• Préconisation d’une procédure d’apprentissage adaptée pour la problématique physique posée.

Profil du candidat :
Étudiant en Master 2 ou dernière année d’école d’ingénieurs, d’un cursus mathématique/informatique, idéalement avec une spécialisation en science des données.

Formation et compétences requises :
Compétences attendues:
• Bonnes connaissances des méthodes d’apprentissage machine.
• Programmation Python
• Goût pour la physique.

Adresse d’emploi :
Ce stage a lieu au laboratoire de physique CORIA et/ou au laboratoire d’informatique LITIS (selon autorisations d’accès), tous deux à l’Université de Rouen Normandie, campus du Madrillet.
En fonction de l’évolution de la situation sanitaire, il pourrait avoir lieu entièrement ou en partie en télétravail mais le candidat devra avoir la possibilité de se rendre sur place si besoin.

Document attaché : 202012160835_StageM2-2021-CORIA-LITIS.pdf

Jul
28
Wed
2021
Construction d’un graphe de connaissances à partir des relations extraites dans des cas cliniques
Jul 28 – Jul 29 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO
Durée : 6 mois (max)
Contact : mirian@univ-orleans.fr
Date limite de publication : 2021-07-28

Contexte :
Stage financé par la fédération ICVL (Informatique Centre Val de Loire)

Calendrier du recrutement:

+ Date limite des candidatures: 3 janvier
+ Éventuelles auditions: 6 janvier
+ Notifications: 7 janvier

Les candidatures (CV et les relevés de notes) sont à envoyer, au plus tôt, aux encandrants (voir emails contacts)

Contacts : nhiot@ennov.com, anne-lyse.minard@univ-orleans.fr, mirian@univ-orleans.fr, agata.savary@univ-tours.fr

Sujet :
Le stage proposé portera sur l’extraction des relations et l’instanciation de graphes, et s’inscrira dans la continuité d’un stage de M2 réalisé au 1er semestre 2020. Ce dernier a conduit au développement d’un système de reconnaissances des entités médicales et de la réalisation d’une première étude de la problématique de l’extraction des relations.

Détails dans le fichier attaché

Profil du candidat :
– Étudiants de master en TAL ou master en informatique avec un intérêt fort pour le TAL

Formation et compétences requises :
– Bonne connaissance de python et des méthodes de TAL (parsing, text mining, etc.)
– Capacité de travail en équipe pluridisciplinaire

Adresse d’emploi :
LIFO – Batiment IIIA – Rue Léonard de Vinci – BP6759
45067 Orléans Cedex 2

Document attaché : 202012221026_ANNONCE_stage-TAL-BD.pdf

Plateforme internet d’accès aux données pour les Observatoires Hommes-Milieux du CNRS-INEE
Jul 28 – Jul 29 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT, Institut de Recherche en Informatique de Tou
Durée : 5 à 6 mois (date
Contact : pascal.dayre@irit.fr
Date limite de publication : 2021-07-28

Contexte :
Contexte de la science ouverte
Les principes FAIR fournissent des lignes directrices pour améliorer la facilité le repérage [F], l’accessibilité [A], l’interopérabilité [I] et la réutilisation [R] des ressources numériques scientifiques. 
Pour ce faire, il est nécessaire de mettre en place des éco-systèmes numériques intégrant des ressources et des services en nombre toujours plus grand et facilitant la “FAIRisation” des données de la recherche.

Contexte métier
Le dispositif de recherche (LabEx DRIIHM) rassemble 13 observatoires scientifiques, les observatoires « hommes-milieux » (OHM) en France et à l’international. Depuis plusieurs années, les scientifiques impliqués étudient les dynamiques environnementales, culturelles et sociétales sur ces territoires, à différentes échelles spatiales et temporelles.

Des données hétérogènes sont produites chaque année par les équipes de recherche multidisciplinaires (>100 projets annuels lauréats). Elles font essentiellement partie de la “longue traîne des données”, elles ne disposent donc pas d’infrastructure facilitant leur gestion et leur partage. Au-delà de leurs incontournables stockage et catalogage, il est crucial d’améliorer le partage et l’ouverture de ces données pour favoriser les analyses croisées interdisciplinaires et communiquer les résultats auprès de la société.

Le projet ANR SO-DRIIHM (2020-2023) offre un nouvel élan visant à :
1. Informer la communauté scientifique des bénéfices du partage et de l’ouverture des données
2. Créer un portail web qui facilite l’accès aux ressources existantes et la démarche de diffusion de la donnée.

Le stage s’inscrit dans le second objectif du projet SO-DRIIHM avec la création d’un premier prototype DATA-DRIIHM.

Sujet :
Description du travail demandé
La science ouverte s’appuie sur les principes FAIR (Findable Accessible Interoperable Reusable). Ces principes doivent être mis en œuvre dans un environnement facilitant la recherche, l’accès, l’utilisation et la gestion des ressources numériques afférentes.

Il s’agit de concevoir et de développer un environnement « virtuel » de travail composé de :
1/  le portail web pour la mise en œuvre des cas d’usage des principes FAIR (frontend).
2/ Web APIs pour implémenter une couche intergicielle de service (middleware) permettant l’intégration et l’accès aux différents services existants de l’éco-système numérique de la recherche aux niveaux national et international comme les services institutionnels ou les services des e-infrastructures de recherche pour alimenter le portail web (backend).

Au cours de ce stage, nous nous concentrerons principalement sur la mise en œuvre des fonctionnalités de “facilité le repérage” [F – Findable] et l’accessibilité [A – Accessible] des données selon les principes FAIR. Il s’agit  de faciliter la découverte, l’exploration et l’accès des données disponibles sur les zones géographiques d’emprise des observatoires. Il sera demandé de contribuer à la spécification, de concevoir et de développer cet environnement pour les données des différentes disciplines scientifiques des observatoires. Nous parlons ici de données ou de ressources numériques au sens large.

L’IHM devra permettre les cas d’usage suivants (organisés autour du principe [F] de FAIR) sur ordinateur et sur smartphone:
[F]> Enregistrer un annuaire de référentiels de données comme re3data.org
[F]> Trouver des entrepôts de données selon une thématique scientifique
[F]> Trouver des jeux de données dans des référentiels tiers et dans un référentiel pour la longue traîne de données sur les emprises géographiques des 13 observatoires
[F]> Trouver des publications dans des référentiels tiers
[A]> Accéder par téléchargement et par visualiser en ligne d’un jeu de données sélectionné
[A]> Accéder par téléchargement et par visualiser en ligne d’une publication sélectionnée

Le portail web offrira à l’utilisateur une IHM et un espace personnel de travail permettant d’afficher et de sélectionner la liste des référentiels de données, des disciplines et de lancer des recherches en paramétrant le service de recherche par la sélection de son observatoire OHM et par la sélection des disciplines scientifiques, de mots-clés et une emprise spatiale et/ou temporelle. 
L’utilisateur pourra alors raffiner sa requête puis télécharger, visualiser les données, jeux de données par jeux de données, ou faire une visualisation croisée sur l’e-infrastructure DATA-DRIIHM.
L’utilisateur pourra réutiliser son historique de recherche.

La couche de service web devra permettre de :
    – construire un registre des services de catalogage de données, 
    – paramétrer et enregistrer  les requêtes fédérées pour récupérer la liste des méta-données et les accès aux données pour chacun des services de référentiels de données ou de catalogues de données,
    – Exécuter les requêtes fédérées et restituer comme résultat les méta-données, un lien de téléchargement, un lien de visualisation de chaque jeu de données et un lien source de données pour permettre la visualisation croisée multi-sources dans l’e-infrastructure DATA-DRIIHM.

Une démonstration sur l’exploration, l’utilisation des données de la recherche, de leurs services associés, des publications dans le cadre du LabEx DRIIHM sera un attendu. Nous nous intéressons à des scénarios d’usage faisant appels à des données d’observatoire et de la longue traîne des sciences de l’univers, sciences de l’environnement et sciences humaines et sociales.

Les développements se feront selon l’état de l’art des développements internet comme par exemple les web API, les spécifications d’Open API (https://www.openapis.org/), REST pour le backend et HTML5 et les frameworks javascript pour le frontend compatible ordinateur et smartphone. Nous utiliserons les technologies du web sémantique et du W3C pour descrire et utiliser les ressources (cf. RDF, RDFS, OWL, DCAT https://www.w3.org/TR/vocab-dcat-3/)

Les livrables suivants sont attendus :
• les spécifications de l’IHM (frontend) et de la couche de service (backend)
• la conception générale et détaillée
• le code et la documentation détaillée
• les tests et le scénario de livraison
• le manuel utilisateur
• le manuel administrateur de la couche de service
• le manuel de déploiement
• Une machine virtuelle pour l’environnement de développement
• Une machine virtuelle et/ou des conteneurs Docker pour le déploiement

Profil du candidat :
M2 en informatique ou dernière année d’école d’ingénieur avec une spécialité de développement informatique internet et systèmes d’information distribués.

Formation et compétences requises :
Compétences dans le développement de plateformes internet distribuées basées sur le web sémantique.
Compétences et formation requises:
• Le cadre de Description des Ressources du W3C : JSON, Web sémantique, Sparql, RDF, RDFS, OWL, DCAT https://www.w3.org/TR/vocab-dcat-3/, …
• Modélisation du logiciel UML
• Architectures orientées services SOA voir ROA (micro-services), REST
• Frontend : HTML5, javascript, frameworks.
• Backend : web API, web services, SPARQL endpoints (https://www.openapis.org/)

• Pour le déploiement, les conteneurs Dockers seront privilégiés afin de pouvoir faire un déploiement dans le CLOUD

Adresse d’emploi :
118 Route de Narbonne, F-31062 TOULOUSE CEDEX 9 https://www.irit.fr/informations-pratiques/acceder-a-lirit/ 

Document attaché : 202012221504_SO-DRIIHM_stage_2021_20201222.pdf

Sep
29
Wed
2021
Intégration des résultats issus des prétraitements automatisés de données en IRM en vue d’une créati
Sep 29 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre de Recherche en Neurosciences de Lyon (CRNL
Durée : 4 mois
Contact : gaelle.leroux@cnrs.fr
Date limite de publication : 2022-01-31

Contexte :
Depuis la loi numérique de 2016 et le plan S de 2018, les laboratoires de recherche sont amenés à mettre en œuvre la science ouverte. Le stage se déroulera au Centre de Recherche en Neurosciences de Lyon (CRNL). L’activité du stage permettra de proposer des outils pour des données de neuroimagerie en utilisant les standards de la communauté (XNAT, BIDS, etc.).

Le service commun est ouvert aux 19 équipes du Centre. Il a pour objectif d’aider des projets en neuroImagerie et de participer à la mise en œuvre de la science ouverte. Le service compte actuellement 2 ingénieures.

Sujet :
• Mise en place d’outils de mise en commun des étapes de contrôle qualité
• Aide au traitement automatiques des données physiologiques
• Présenter aux utilisateurs.trices l’outil en fin de stage
• Rédiger une documentation en ligne pour admin
• Rédiger une documentation en ligne pour les utilisateurs.trices

Profil du candidat :
– Capacités à comprendre et s’exprimer en Anglais
– Connaissances du contrôle de version Git
– Organisation rigoureuse dans le travail

Formation et compétences requises :
– M2/école d’ingénieur

Adresse d’emploi :
https://www.crnl.fr/fr/page-base/acces

Document attaché : 202106171417_2021_offre_stage_4mois_AssInge_SCImagerie – FetGB.pdf

Sep
30
Thu
2021
Stage M2 – Réseaux Bayésiens – Détection d’Outliers – Apprentissage incrémental –
Sep 30 – Oct 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N
Durée : 6 mois
Contact : philippe.leray@univ-nantes.fr
Date limite de publication : 2021-09-30

Contexte :
L’équipe DUKe (Data User Knowledge) du LS2N, UMR CNRS 6004, est l’une des principales équipes du laboratoire dans le thème « science des données et de la décision », forte de ses compétences en manipulation de données, en fouille de données et en interaction. Dans ce cadre, l’équipe a développé de nombreux algorithmes d’apprentissage et de manipulation de modèles graphiques probabilistes (réseaux bayésiens, réseaux bayésiens dynamiques, réseaux bayésiens relationnels).
L’équipe DUKe travaille en collaboration avec Talend, leader mondial des solutions d’intégration big data et cloud, sur l’utilisation de modèles graphiques pour détecter et corriger des anomalies dans les données.
Nous avons ainsi proposé une approche centrée autour de l’apprentissage de réseaux bayésiens permettant de découvrir automatiquement des anomalies dans des données tabulaires mixtes (discrètes et continues) [1].

Sujet :
Nous avons proposé une architecture basée sur l’utilisation de réseaux bayésiens pour l’apprentissage de dépendances probabilistes et la prise en compte de dépendances fonctionnelles, et l’identification de valeurs
anormales dans un jeu de données. L’objectif du stage est d’étendre l’architecture réalisée dans un contexte incrémental, où les données peuvent arriver par lot, où des variables peuvent être ajoutées et/ou enlevées, et
où des propositions de correction d’anomalies par l’utilisateur peuvent faire évoluer le modèle existant

Profil du candidat :
Master 2 en Informatique
5ème année école d’ingénieur

Formation et compétences requises :
Compétences :
· Concepts de probabilité, statistiques
· Programmation C++

Adresse d’emploi :
Le stage peut se dérouler en télétravail en raison des conditions sanitaires

Document attaché : 202012151624_StageM2R-2021-Talend.pdf

[Internship] Geolocalization of old street-view photographs using 2D and 3D information (UGE-IGN)
Sep 30 – Oct 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LaSTIG
Durée : 6 months
Contact : valerie.gouet@ign.fr
Date limite de publication : 2021-09-30

Contexte :
*** Link to the full description: https://www.umr-lastig.fr/vgouet/News/sujet_stage_geoloc_ALEGORIA-2021.pdf

*** Keywords

Computer vision, photogrammetry, geolocalization, pose estimation, web visualization, street-view imagery.

*** Context

The proposed internship is part of a French research project (ANR ALEGORIA ) that brings together several research laboratories, including LaSTIG from IGN (the French Mapping Agency), LIRIS from Ecole Centrale de Lyon, LAVUE from University Paris-Nanterre, LIRSA from Le Cnam, the French National Archives and the museum Nicéphore Niépce. The aim of the project is to valorize the national iconographic collections which describe the French territory at different times, starting from the between-wars period until today. The photographic collections consist of aerial multi-date imagery (e.g. postcards, old photographs), acquired at different points of view: vertical, oblique and terrestrial. Despite their content richness, their documentation and spatial geolocalization remain poor or even unavailable. Hence, the ALEGORIA project aims at developing methods that will facilitate their structuring and exploitation by putting in practice automated processing methods dedicated to their indexing, interlinking and visualization.

Sujet :
*** Subject

This internship will focus on the geolocalization process for street-view (terrestrial) images. They have their own specificities, not entirely addressed with the ALEGORIA tools already developed for aerial imagery, such as the more present occlusions as well as the great proximity of the camera to the scene and the 3D associated models that may induce distortions and sensitivity to the models precision. The main objective of the work will consist in exploiting the 2D and 3D data available, given by images, 3D point clouds (LiDAR data) and 3D building models, to improve the geolocalization process of street-view images and apply it to ancient photographs.

In this internship, several types of data are made available to perform the geolocalization, on a dedicated area as use case (Chalon-sur-Saône, location of the Musée Nicéphore Niépce): ancient photographs, recent geolocalized views of the city at the street level, 3D LiDAR points clouds and 3D building models.

The internship work is divided into 3 parts:
1. The study of state-of-the-art automatic and semi-automatic methods to geolocalize views using multimodal data as presented before. A focus on applications for multidate views would be a bonus.
2. Discovering and improving the already developed tool to have a baseline for street-level contents:
– adapt it for a better handling of street-view images ;
– modify it to exploit street-level 3D point clouds for the semi-automatic georeferencing process.
3. Choosing and implementing an existing automatic method and a semi-automatic method of geolocalization to visualize and compare their results against the aforementioned baseline in order to eventually integrate them in the pipeline once improved to better suit the needs of the specific street-view level photographs geolocalization problem.

Profil du candidat :
*** Skills

Bac+5 in computer science, applied math or geomatics (master or engineering school); good knowledge in image processing or photogrammetry/computer vision, as well as good skills in C/C++ programming or Python and web development.

Formation et compétences requises :
*** Submitting your candidature

Before January 15th 2021, send by e-mail to the contacts in a single PDF file:
– CV
– motivation letter
– 2 recommendation letters, or persons to contact
– Transcript of grades from the last two years of study
– A list of courses followed and passed in the last two years

Adresse d’emploi :
*** Organization

* Workplace: IGN, LaSTIG lab, Paris area, Saint-Mandé (73 avenue de Paris, metro Saint-Mandé, Line 1), France. IGN (French Mapping Agency) is a Public Administrative Institution part of the French Ministry for Ecology and Sustainable Development. IGN is the national reference operator for the mapping of the territory. The LaSTIG is one of the research laboratories of IGN, attached to University Gustave Eiffel. It gathers more than 100 researchers centered on geographical information, 35 of them focusing in image analysis, computer vision, AI, photogrammetry and remote sensing.
* Salary: yes.

*** Contact

– Emile Blettery, PhD student, LaSTIG – Ville de Paris – emile.blettery@ign.fr
– Valérie Gouet-Brunet, researcher, LaSTIG – valerie.gouet@ign.fr, https://www.umr-lastig.fr/vgouet/

Nov
1
Mon
2021
Les réseaux profonds pour les données temporelles multivariées.Application « Jumeau Numériques » sur
Nov 1 – Nov 2 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : LIPN, UMR CNRS 7030
Durée : 6 mois
Contact : mustapha.lebbah@univ-paris13.fr
Date limite de publication : 2021-11-01

Contexte :
Possibilité de poursuivre en thèse CIFRE avec SAFRAN.
Ce sujet de stage de recherche a pour objectif de mener à un projet CIFRE avec SAFRAN en informatique scientifique et algorithmique qui aura pour but d’intégrer de nouveaux algorithmes sous la méthodologie développée précédemment [4,5].

Sujet :
A travers ce sujet de stage de recherche niveau M2, nous souhaitons tester la viabilité d’une méthodologie neuronale moderne basée sur les architectures profondes (Deep learning), les réseaux récurrents et appliquée aujourd’hui avec succès sur le traitement de textes (traduction, chat-bots, etc.) et l’analyse de signaux audio (sous-titrage automatique). Deux approches sont possibles, une approche anticipative qui identifie un état latent se superposant à l’observation et qui permettrait d’estimer la transition d’une observation à l’autre (de type LSTM ou GRU) [1,2,3]. Une autre proposition est de construire un auto-encodeur récurrent capable de reproduire à l’inverse une série d’observations de manière analogue aux outils utilisés pour l’interprétation des séquences de mots (réseaux transformers utilisant des couches d’attention). Ces deux approches nécessitent d’explorer simultanément plusieurs ensembles de séquences multivariées. Il va falloir apprendre à traiter efficacement les signaux temporels multivariés issus des données de vol.

Le stage de recherche se déroulera en 3 phases :
-Étudier l’état actuel de l’art sur l’apprentissage profonds et données temporelles multi-variés,
-Examiner l’état actuel de l’art des outils logiciels et des architectures pour traiter de grande masses de données temporelles multi-variées. Cela comprend les progiciels et les bibliothèques utiles pour construire, former et déployer des modèles sur des données réelles. Cette phase sera réalisée en étroite collaboration avec la Start-up HephIA.
-Sur la base des études précédentes, implémenter un ou plusieurs algorithmes/architecture. Les résultats obtenus pendant le stage peuvent conduire à des contributions à des logiciels libres, voire à une publication scientifique, en fonction des compétences et de la motivation du/de la stagiaire.

Profil du candidat :
Fin de cycle d’Ingénieur d’une grande école, M2 de data science, statistique et/ou intelligence artificielle.

Formation et compétences requises :
Bonne expérience en programmation, et en particulier du framework PyTorch/deeplearning4j.
Comment déposer sa candidature : le dossier de candidature en PDF comportera les éléments suivants :
-CV ; Relevés de notes ; Lettre de motivation
Le dossier de candidature est à envoyer par mail à Hanene.Azzag@lipn.univ-paris13.fr, Mustapha.lebbah@univ-Paris13.fr, (objet du mail [Stage-LIPN-SAFRAN-22])

Adresse d’emploi :
Laboratoire d’Informatique de Paris-Nord (LIPN),
CNRS(UMR 7030),
99, av. J-B Clément
F-93430, Villetaneuse

Document attaché : 202111010827_Sujet-stage-recherche-LIPN-SAFRAN.pdf

Nov
15
Mon
2021
Recalage d’Images Médicales par Apprentissage profond
Nov 15 – Nov 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CREATIS
Durée : 6 mois
Contact : michael.sdika@creatis.insa-lyon.fr
Date limite de publication : 2021-11-15

Contexte :
Le recalage d’image est un outil permettant d’aligner des images entre elles. C’est souvent une étape préliminaire essentielle pour l’ ́etude de pathologie cérébrale basée sur l’imagerie, permettant de positionner, orienter voire de déformer les cerveaux de différent sujets pour les replacer dans un système de coordonnées commun.
Lorsque la transformation recherchée est affine, les outils actuels de recalage donnent des résultats souvent satisfaisant mais échouent notamment lorsque:
•l’initialisation est mauvaise
•il y a de forts artefacts d’imagerie
•une pathologie implique un changement important de l’apparence du cerveau
•seule une partie du cerveau est présente dans l’image (image rognée)

Les outils classique de recalage sont souvent basée sur des approches itérative d’optimisation mathématique de mais de plus en plus de méthodes actuelles se basent sur des approches par pprentissage profond [Boveiri].

Sujet :

L’objectif du stage est de mettre en place et d’entraı̂ner un réseau de neurones permettant faire le recalage linéaire d’une image de cerveau sur un espace de référence standard. L’objectif principale sera que l’estimation soit la plus robuste possible mais aussi que le réseau soit léger. On pourra par exemple s’intéresser à une bonne façon de paramétrer la transformation mais aussi à aux couches équivariantes dans un réseau de neurones [Finzi], au réseau à capsules [Sabour, Lensen, Gu]. Le réseau de recalage linéaire sera intégré au pipeline de pré-traitement du cerveau de l’équipe MYRIAD de CREATIS.
Données: plusieurs jeux de données d’imagerie cérébrales publiques impliquant différentes pathologies, protocoles d’acquisition et modalités sont déjà utilisés dans l’équipe et seront utilisés pour le stage. Une solide procédure d’augmentation de données permettra d’améliorer encore la robustesse de notre méthode.

Profil du candidat :

Formation et compétences requises :
Le candidat recruté devra avoir une formation dans un des domaines suivants et de bonnes connaissances dans les deux autres:
• Machine learning (deep learning)
• Traitement d’images
• Mathématiques appliquées
Il devra aussi avoir de solides compétences en développement logiciel et être en mesure d’implémenter les méthodes proposées.

Adresse d’emploi :
Le stage se déroulera au laboratoire CREATIS à Lyon sur le campus de la Doua.

Les documents à joindre à la candidature sont :
• curriculum vitae
• lettre de motivation
• résultats académiques récents

Document attaché : 202110270849_internship-registration-2022.pdf

Nov
16
Tue
2021
Conception et mise en œuvre de l’interface d’analyse d’un lac de données web
Nov 16 – Nov 17 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : ERIC
Durée : 5-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2021-11-16

Contexte :
Le projet LIFRANUM (LIttératures FRAncophones NUMériques), porté par le laboratoire MARGE, vise à identifier, indexer et analyser des productions littéraires nativement numériques dans l’aire francophone. Pour cela, l’outil de référence de l’archivage web Heritrix a en premier lieu permis de constituer un corpus sous forme de fichiers de conservation au format Web ARChive (WARC). Des métadonnées des pages HTML ont ensuite été extraites des fichiers WARC (contenu textuel, fichier PDF, images, vidéo, etc.) et indexées dans Solr.

Par ailleurs, en s’appuyant sur des blogs appartenant à des auteurs identifiés, un deuxième corpus (fichiers JSON) a été constitué via les API de WordPress et Blogger. Des informations, pages, posts et commentaires ont été extraits et constituent la série de métadonnées, métadonnées stockées et indexées dans MongoDB.

Sujet :
L’objectif de ce stage est de concevoir et mettre en œuvre une interface web commune aux deux types de sources de métadonnées (celles issues des WARC et celles provenant des API de blogs) pour permettre aux chercheur·es du laboratoire MARGE de requêter et d’analyser les données sous-jacentes. Il faudra pour cela :
• étudier l’architecture de données déjà en place ;
• concevoir un schéma d’alignement des métadonnées des WARC et des API ;
• concevoir et mettre en œuvre une interface graphique permettant de rechercher, via les métadonnées consolidées, les données (à la manière d’un moteur de recherche) ;
• proposer des visualisations « toutes faites » (mais paramétrables) ou ad-hoc, en lien avec les chercheur·es du laboratoire MARGE.

Profil du candidat :
Technologies big data, programmation web, gestion de données, data visualization, rigueur.

Formation et compétences requises :
Master informatique

Adresse d’emploi :
Université Lyon 2
Laboratoire ERIC
5 avenue Pierre Mendès France
69676 Bron Cedex

Document attaché : 202110220934_stage-lifranum-interface-warc.pdf

Nov
30
Tue
2021
Apprentissage statistique à partir de données temporelles pour l’étude de la biodiversité
Nov 30 – Dec 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR CNRS LMNO, Caen
Durée : 4 à 6 mois
Contact : faicel.chamroukhi@unicaen.fr
Date limite de publication : 2021-11-30

Contexte :
Ce stage se situe dans le cadre du projet ANR SMILES-Statistical Modeling and Inference for unsupervised Learning at largE-Scale, qui est un projet collaboratif de recherche financé par l’Agence Nationale de la Recherche (ANR) dans le cadre de la stratégie nationale de recherche en Intelligence Artificielle. SMILES réunit des chercheurs de quatre organismes de recherche, l’UMR CNRS LMNO, l’UMR CNRS LMRS, l’UMR CNRS LIS et l’équipe-projet INRIA Modal.

Sujet :
Le stage se déroulera au LMNO – Laboratoire de Mathématiques Nicolas Oresme à Caen, en lien avec des questions relatives à l’étude de la diversité actuellement abordées en collabora- tion avec la DREAL-Direction régionale de l’Environnement, de l’Aménagement et du Loge- ment pour l’étude de biodiversité. Il portera sur des activités de recherche et de développe- ment, et de construction et enrichissement de bases données. L’objectif est de montrer l’apport d’approches statistiques, principalement non-supervisées, à l’approfondissement de la connais- sance d’écosystèmes, notamment fluviatiles, en Normandie et au niveau national, ainsi qu’à la construction d’indicateurs de bio-diversité à partir de modèles statistiques à variables latentes.
Un exemple de cas d’étude concerne l’étude de données de thermie de cours d’eau nor- mands, dont les données sont des séries temporelles récoltées à partir de sondes thermiques, avec l’objectif d’identifier, entre autres, des facteurs qui expliquent la thermie des cours d’eau.
Les tâches prévues dans le stages sont principalement les suivantes:
• Regroupement et mise en forme de bases de données (spatio)temporelles
• modélisation et inférence statistiques non-supervisées (modèles de mélanges, cluster- ing/segmentation, analyse en facteurs indépendants, etc)
Ce stage pourrait être poursuivi avec une thèse, en fonction du profil du candidat et sous réserve de l’obtention d’un financement de thèse.

Profil du candidat :
De formation Bac+5 M2R ou en école d’ingénieurs, avec spécialisation en statistique, science de données, machine learning, ou équivalent

Formation et compétences requises :
avec des bonnes connaissance en modélisation et inférence statistique, Programmation en Matlab, R, ou Python

Adresse d’emploi :
Université de Caen, Boulevard du Maréchal Juin, Campus 2, Caen

Document attaché : 202110191325_M:EngInternship-2022-LMNO-ANR-SMILES.pdf

Détection par deep learning des numéros de parcelles dans le cadastre napoléonie
Nov 30 – Dec 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire GeF/laboratoire CEDRIC
Durée : 6 mois
Contact : nicolas.audebert@cnam.fr
Date limite de publication : 2021-11-30

Contexte :
Les plans cadastraux anciens représentent une mine d’informations sur un territoire, par exemple pour l’analyse de l’évolution du parcellaire au cours du temps en lien avec les politiques d’aménagement. Ces plans correspondent à la numérisation de feuilles au format papier de qualités très inégales selon leur année de création et les conditions de leur conservation. Une avancée considérable pour l’analyse fine de l’évolution du territoire par les historiens, géographes, urbanistes, aménagistes et sociologues, viendrait sans conteste de la construction d’une base de données multi-dates du cadastre « ancien » au cadastre « actuel ». A ce jour, il n’existe pas à notre connaissance d’outils permettant l’analyse automatique du contenu de ces planches en vue de les intégrer dans un SIG (Système d’Informations Géographiques).

Aussi, le laboratoire GeF mène depuis 2016 des travaux de recherche sur le développement d’une chaîne semi-automatique d’analyse des images du cadastre ancien appelée « GeFVectoMoCad » (pour Géoréférencement, Vectorisation et Mosaïquage du Cadastre) à partir d’outils libres, dont le langage Python. Cette chaîne comporte plusieurs étapes : 1) la vectorisation, 2) le géoréférencement et 3) le mosaïquage des planches cadastrales anciennes.

Sujet :
L’étape de vectorisation est cruciale pour la réussite du processus et repose actuellement sur l’emploi d’algorithmes classiques de détection de segments qui constituent ici les limites de parcelles, comme le « Line Segment Detector » et la Transformée de Hough Probabiliste. Ces segments sont ensuite convertis en polygones fermés formant les parcelles. Bien qu’efficace et intégrant des post-traitements adaptés, cette approche n’est pas exempte d’erreurs notamment avec de la sur-segmentation et de la sous-segmentation [Follin et al., 2021]. Elle requiert donc des corrections manuelles a posteriori.

L’amélioration de ces résultats peut notamment passer par la détection des numéros de parcelles. En effet chaque parcelle est associée à un numéro unique écrit à la main. Les numéros de parcelles extraits pourront être confrontés aux polygones des parcelles pour détecter les incohérences, et donc les éventuelles erreurs de segmentation, et les corriger.

Une approche par apprentissage profond ou « Deep Learning » (DL) semble adaptée à la détection des caractères manuscrits (digits). La reconnaissance de caractères écrits à la main est un des premiers cas traités par les réseaux de neurones convolutifs. [LeCun et al., 1989] a ainsi proposé une approche de type DL pour la reconnaissance des chiffres pour le service postal des États-Unis. Ce sujet étant plutôt bien maîtrisé, les problématiques du stage sont :

La production d’un jeu de données suffisamment volumineux pour entraîner des modèles profonds de reconnaissance de caractères. Cela pourra notamment passer par la génération d’images synthétiques et l’usage de techniques d’adaptation de domaine pour rendre ces images similaires aux planches de cadastres numérisées.

Le choix et la mise en œuvre d’’un ou plusieurs réseaux profonds de reconnaissance de chiffres manuscrits. On pourra notamment étudier des détecteurs génériques (YOLO [Redmon et al., 2015], Mask-RCNN [He et al. 2017]) mais aussi des architectures spécifiques à la reconnaissance de caractères (CharGrid-OCR [Reisswig et al., 2019], Calamari [Wick et al., 2018]).

Une fois les chiffres détectés, les numéros devront ensuite être reconstruits. Le parcellaire sera alors représentée sous forme de graphe avec pour sommets les parcelles et pour arêtes les relations d’adjacence. Chaque sommet sera associé éventuellement à un (ou plusieurs) numéro de parcelle. On pourra s’appuyer sur ce graphe pour détecter des incohérences (absence ou multiplicité de numéro) et réfléchir aux corrections à apporter.

Des travaux récents en traitement d’images ont prouvé l’intérêt de méthodes basées sur le DL pour l’extraction de textes [Laumer et al. 2020] et de nombres manuscrits [Kusetogullari et al., 2020] sur des documents anciens.

Plusieurs jeux de données existent. MNIST (Modified National Institute of Standards and Technology) contenant des chiffres manuscrits et USPS (United-States Postal Service) qui regroupe des chiffres mais aussi des lettres et des mots se présentent sous forme d’images respectivement en noir et blanc et en niveaux de gris. ARDIS (ARkiv Digital Sweden) correspond à des chiffres écrits à la main issus de registres religieux suédois et DIDA, extension d’ARDIS, contient des chiffres manuscrits issus de documents historiques suédois. Ces deux derniers jeux de données sont sous forme d’images en couleurs et se rapprochent le plus de nos données.

Un stage de fin d’études a été mené au laboratoire GeF en 2021 et a permis de réaliser de premières expérimentations. Elles ont consisté en la génération d’un jeu de données reprenant des chiffres de ARDIS et la mise en œuvre d’un réseau adoptant une architecture Faster-RCNN. Les résultats obtenus sur nos données, bien qu’encourageants, sont perfectibles.

Profil du candidat :
Nous recherchons pour ce stage un·e candidat·e de niveau M2 ou dernière année d’école d’ingénieur avec une formation en géomatique et/ou en apprentissage automatique.

Formation et compétences requises :
Le ou la candidat·e idéal·e a une appétence pour la recherche et des bases en apprentissage profond. Sans être indispensable, un intérêt pour les données géographiques est un point positif pour ce stage. Une connaissance de la programmation avec Python est nécessaire. Une première expérience avec une bibliothèque d’apprentissage profond (TensorFlow ou PyTorch) est un plus.

Adresse d’emploi :
Le stage se déroulera au laboratoire GeF situé au Mans, avec des visites à prévoir au laboratoire CEDRIC à Paris.

Document attaché : 202110071605_2022-Stage_CEDRIC_GeF.pdf

INRAE
Nov 30 – Dec 1 all-day

Offre en lien avec l’Action/le Réseau : BigData4Astro/Doctorants

Laboratoire/Entreprise : Romea team, INRAE Clermont-Ferrand
Durée : 6 mois
Contact : zhongkai.zhang@inrae.fr
Date limite de publication : 2021-11-30

Contexte :
Mobile robot control can be achieved by either model-based or data-driven methods. Model-based methods have stability guarantee, but they need analytical models with a higher accuracy. It is usually difficult to obtain an accurate model for high-speed and off-road mobile robots because of the presence of sliding. Data-driven methods need a huge amount of data instead of an accurate model, but they lack of stability guarantee. It is natural to combine both methods for control design in order to get the advantages of each method. Existing hybrid methods
assume that the data is enough to predict the model, which is usually not guaranteed in real application. Therefore, the main objective of this master project is to investigate a methodology to combine data-driven model(Bayesian neural network) with model-based control(model predictive control) to achieve stable path following tasks, even if the amount of data is not enough to recover the robot model. Results aims at adapting an off-road mobile robot behaviour to the diversity of encountered situations in an agricultural context. The proposed trainee will take part of experiments conducted on different robot available at INRAE.

Sujet :
Hybrid Data-driven/Model-based Methods for Mobile Robot Control

Profil du candidat :
see the attached document

Formation et compétences requises :
Technical Skills: machine learning, control theory, robotics
Software: Python, C++, Pytorch, ROS
Language: English

Adresse d’emploi :
CLermont-Ferrand

Document attaché : 202111290803_Hybrid Data-driven and Model-based Methods for Mobile Robot Control.pdf