Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Jun
30
Sat
2018
Apprentissage du comportement, cas du jeu vidéo
Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube
Durée : 6 mois
Contact : nicolas.lachiche@unistra.fr
Date limite de publication : 2018-06-30

Contexte :
Dans le cadre d’un projet entre les équipes SDC et CSTB du laboratoire ICube, à Strasbourg, nous travaillons sur l’apprentissage de comportements et souhaitons dans un premier temps étudier le cas du jeu vidéo.

Sujet :
L’étudiant étudiera la combinaison de travaux récents dans nos deux équipes.

Profil du candidat :
Informaticien ou data scientist

Formation et compétences requises :
Des compétences et expériences en intelligence artificielle et plus particulièrement en machine learning, seront appréciées.

Adresse d’emploi :
ICube
300 bd Brant
67412 Illkirch

Document attaché :

Jul
1
Sun
2018
Caractérisation de motifs du plissement cortical par apprentissage automatique sur graphes.
Jul 1 – Jul 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Institut de Neurosciences de la Timone, Marseille
Durée : 4-6 mois
Contact : sylvain.takerkart@univ-amu.fr
Date limite de publication : 2018-07-01

Contexte :
En neurosciences, caractériser la forme du cerveau est un domaine scientifique primordial pour la compréhension des processus du développement cérébral et des anomalies de forme observées dans les maladies psychiatriques et neurologiques. Pour cet objectif, il est connu que l’étude du plissement cortical en gyrus et sillons est particulièrement pertinente.

Nous avons récemment développé une nouvelle méthode qui permet de mener à bien des études de morphologie cérébrale au travers de l’étude de motifs locaux du plissement cortical mesuré en imagerie par résonance magnétique (IRM) [1]. Dans cette méthode, l’organisation spatiale de tels motifs est modélisée sous forme de graphes attribués comme illustré sur la figure 1, ce qui demande le développement d’outils quantitatifs pour permettre de les caractériser. Dans cet article, ceci est fait en introduisant un nouveau noyau de graphe, ce qui permet d’envisager l’utilisation des nombreuses méthodes à noyaux pour répondre à des questions variées telles que la classification, la régression etc.

[1] Structural Graph-Based Morphometry: a multiscale searchlight framework based on sulcal pits
S Takerkart, G Auzias, L Brun, O Coulon – Medical Image Analysis, 2017

Sujet :
Ce stage visera donc à poursuivre ce travail, avec plusieurs objectifs complémentaires :
– au niveau méthodologique, il faudra développer des outils pour faciliter l’interprétation des résultats ; pour cela, nous envisageons de nous tourner vers des méthodes d’apprentissage automatique de type manifold learning, kernel regression.
– au niveau logiciel, il faudra implémenter ces outils en python.
– au niveau applicatif, le stagiaire appliquera ces nouveaux outils sur des données disponibles à l’INT comprenant plus de 1000 IRM pour lesquelles les graphes ont déjà été calculés, afin de détecter des marqueurs précoces du développement sain (chez une population de jeunes enfants) et pathologiques (en essayant de caractériser les déficiences chez des patients autistes).

Profil du candidat :
M2 ou élève ingénieur.e dernière année

Formation et compétences requises :
Compétences requises:
– apprentissage statistique, classification (par ex. Support Vector Machines, deep learning…)
– notions de traitement d’image et d’imagerie médicale
– bon niveau en programmation (python)
– bon niveau en anglais
– pas besoin de connaissances en neurosciences, mais un intérêt pour le contexte est bien sûr nécessaire.

Adresse d’emploi :
Institut de Neurosciences de la Timone
27 bvd Jean Moulin
13005 Marseille

Document attaché :

Développement d’un modèle prédictif de récupération après traumatisme crânien sévère.
Jul 1 – Jul 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Institut de Neurosciences de la Timone, Marseille
Durée : 4-6 mois
Contact : sylvain.takerkart@univ-amu.fr
Date limite de publication : 2018-07-01

Contexte :
Aujourd’hui la prise en charge des patients admis en réanimation après un traumatisme crânien sévère est soumise à la grande incertitude sur la récupération à long terme. Dans ce contexte, l’accès à des outils diagnostiques et pronostiques fiables et performants est un progrès majeur qu’accompagne la start-up BrainTale (http://www.braintale.fr/) en collaboration avec le groupe COMA, groupe de recherche associant le département d’anesthésie-réanimation de l’Hôpital de la Pitié-Salpêtrière (APHP, Paris) et le Laboratoire d’Imagerie Biomédicale (Sorbonnes Université, Paris), et avec l’équipe MECA de l’Institut de Neurosciences de la Timone (INT, Marseille; http://www.meca-brain.org/). L’approche innovante proposée aujourd’hui se base sur un traitement calibré des données d’IRM permettant des mesures robustes d’altérations microstructurelles cérébrales à partir de descripteurs définis a priori et de solutions d’apprentissage statistique adaptées se nourrissant d’une base de données de patients cérébrolésés unique au monde.

Sujet :
Dans la continuité de ces travaux, ce stage s’inscrit dans une collaboration entre l’équipe MECA et BrainTale qui se base sur la combinaison de connaissances en neurosciences et de méthodes d’intelligence artificielle innovantes. Le projet du / de la stagiaire consistera à améliorer le modèle pronostic existant en développant un nouveau pipeline basé sur une extraction de caractéristiques aléatoire et une stratégie ensembliste d’apprentissage. Le stage se déroulera à Marseille au sein de l’INT.

Ce travail pourra éventuellement donner suite à une prolongation dans le cadre d’une thèse CIFRE.

Profil du candidat :
M2 ou ingénieur dernière année

Formation et compétences requises :
Compétences requises :
– apprentissage statistique, classification (par ex. Support Vector Machines, deep learning…)
– très bon niveau en programmation (python ou C/C++)
– bon niveau en anglais
– notions de traitement d’image et/ou d’imagerie médicale
– pas besoin de connaissances en neurosciences, mais un intérêt pour le domaine serait un plus.

Adresse d’emploi :
Institut de Neurosciences de la Timone
27 boulevard Jean Moulin
13005 Marseille

Document attaché :

Dec
1
Sat
2018
Segmentation de queues de marées au voisinage de galaxies en interaction
Dec 1 – Dec 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube & Observatoire de Strasbourg
Durée : Mars 2019 -July 2019
Contact : mireille.louys@unistra.fr
Date limite de publication : 2018-12-01

Contexte :
Les algorithmes de détection classiques, tels Sextractor, ont été développés pour dépister les sources relativement compactes, mais pas les structures ayant un S/N par pixel très faible. Ont toutefois émergé récemment de nouveaux algorithmes ad hoc, aptes à connecter des pixels appartenant au même objet, en particulier NoiseChisel
(https://www.gnu.org/software/gnuastro/manual/html_node/NoiseChisel.html) , Akhlaghi and Ichikawa [2015]. Basé sur des techniques de dilation et érosion, NoiseChisel est particulièrement rapide et performant pour dépister des structures très faibles par rapport au fond du ciel. L’étape suivante de segmentation des objets (séparation de galaxies se chevauchant, de régions physiquement distinctes au sein d’une même galaxie, ou de halos d’étoiles d’avant plan contaminant les galaxies) reste toutefois imprécise et nécessite des ajustements fins manuels particulièrement fastidieux.

Sujet :
L’objet du stage est d’améliorer l’étape de segmentation à l intérieur des zones considérées comme objets, d’utiliser les cartes construite par NoiseChisel pour segmenter le fond de ciel et de cartographier les sous structures de type queues de marées, coquilles, halo, bulbe, etc, par une segmentation markovienne en quad-arbre, appliquée aux pixels des régions annotées comme objet par rapport au ciel.
Les régions détectées pourront ensuite être comparées aux annotations fournies par les astronomes experts.

Profil du candidat :
Niveau Master 2 , en traitement d’images , science des données ou en astrophysique.

Formation et compétences requises :
Des candidats ayant de solides compétences en analyse de données, traitement du signal et des images et en mathématiques appliquées sont attendus. Une formation en astrophysique est également un plus. Des compétences en programmation informatique sont indispensables.

Adresse d’emploi :
Laboratoire Icube , Pole Api ,
300 Bd Sébastien Brant, 67400 Illkirch-Graffenstaden
and
Observatoire de Strasbourg , 11, rue de l Université , 67000 Strasbourg

Document attaché : Stage3MasterAstro-IPSEO-2018-11-19.pdf

Dec
12
Wed
2018
Détection des valeurs manquantes déguisées et redressement des dépendances fonctionnelles
Dec 12 – Dec 13 all-day

Annonce en lien avec l’Action/le Réseau : ARQUADS

Laboratoire/Entreprise : Laboratoire d’Informatique et des Systèmes (LIS UMR CNRS 7020), Marseille
Durée : 4 à 5 mois
Contact : Noël Novelli (noel.novelli@lis-lab.fr) et Laure Berti-Equille (laure.berti@lis-lab.fr)
Date limite de publication : 20181212

Contexte :
Le stage se déroulera au LIS à Marseille dans le cadre du projet ANR QualiHealth financé par l’ANR (2018-2022) qui s’intéresse à la qualité des données de Santé en partenariat avec l’Institut Cochin, l’Hôpital Européen Georges-Pompidou, les laboratoires de recherche LIRIS (porteur), LIMOS et la société Gnubila.

Sujet :
Les valeurs manquantes “déguisées” [1] sont des valeurs par défaut utilisées à tort et par obligation pour remplacer des valeurs à l’origine manquantes pour lesquelles l’utilisateur ne connaît pas ou ne souhaite pas renseigner la vraie valeur. Par exemple, lors de la saisie d’un formulaire, de nombreux utilisateurs noteront le 1er janvier par défaut comme date de naissance sur le champs imposé par le formulaire. On pourra alors éventuellement observer que la distribution des valeurs de dates de naissances est quelque peu “anormale” mais comment identifier, de façon automatique dans les données, les personnes qui sont vraiment nées le 1er janvier et les distinguer des autres ? Comment corriger les données erronées ? Des approches ont été proposées pour cela [2] et certaines reposent sur la découverte de dépendances fonctionnelles dans les données [3]. Cependant, elles ne sont pas robustes au problème des valeurs manquantes “déguisées”.
L’objectif du stage consistera donc à prendre du recul sur ces approches pour proposer une solution plus robuste. Il sera demandé au (à la) candidat(e) retenu(e) de réaliser un état de l’art des approches actuelles avec leurs implémentations et de proposer une solution robuste. Cette solution sera implémentée et testée sur des données réelles et synthétiques. Enfin, elle sera comparée aux approches existantes en mettant en place des expérimentations adéquates.

Références
[1] R. K. Pearson. The problem of disguised missing values. SIGKDD 2006. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.443.6794&rep=rep1&type=pdf
[2] M. Hua and J. Pei. Cleaning Disguised Missing Data: A Heuristic Approach. KDD 2007. https://www.cs.sfu.ca/~jpei/publications/dmv-kdd07.pdf
[3] L. Berti-Équille, H. Harmouch, F. Naumann, N. Novelli, S. Thirumuruganathan, Discovery of Genuine Functional Dependencies from Relational Data with Missing Values. Proceedings of VLDB 2018. http://www.vldb.org/pvldb/vol11/p880-berti-equille.pdf

Profil du candidat :
Etudiant(e) de Master 2 ou de dernière année d’école d’ingénieur sur un cursus d’informatique.
Bon niveau en informatique et plus précisément en bases de données, analyse des données et algorithmique.
Bon niveau en Python.
Bon niveau de communication scientifique à l’écrit et oral, notamment en anglais.

Formation et compétences requises :
L’étudiant retenu devra présenter de bonnes compétences dans le domaine des systèmes de gestion de données massives, l’analyse des données et l’algorithmique. Elle ou il devra avoir un très bon cursus universitaire et une forte motivation pour la recherche afin de permettre une éventuelle poursuite en thèse à l’issue du stage.

Adresse d’emploi :
Laboratoire d’Informatique et des Systèmes (LIS UMR CNRS 7020)
Marseille

Document attaché :

Dec
31
Mon
2018
Organ detection in multi-modality medical images via deep domain adaptation
Dec 31 2018 – Jan 1 2019 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Creatis – INSA-Lyon
Durée : 6 mois
Contact : razmig.kechichian@creatis.insa-lyon.fr
Date limite de publication : 2018-12-31

Contexte :
Organ detection and localization in medical images are important tasks in both clinical procedures and as an intermediate step in image analysis algorithms, such as image segmentation. Multi-modality methods are of particular interest for robust organ detection in heterogeneous datasets stored in PACS systems of healthcare and medical research centers. Such datasets are often of large size and diverse content challenging the task of efficient organ detection.

Sujet :
We seek a fast multi-modality object detection method capable of localizing up to 2 dozens of thoracic and abdominal organs in 3D radiological images (CT and MRI). Recent deep learning-based object detection methods [2-4] were proven to be very effective in the supervised setting where hundreds of annotated training examples are available for each object class. In medical imaging, such large annotated datasets are rare and annotations are expensive, therefore supervised deep learning methods that estimate millions of deep network parameters would fail.

Data augmentation techniques, both image transformation-based [8,12] and, more recently, GAN (generative adversarial network) -based [9-11] can help alleviate the lack of annotated data by generating additional examples similar to those in available training sets. On the other hand, annotations are often available and more abundant for certain image modalities, such as contrasted CT. Organ detectors learned on these source images could be transferred or adapted to target images, such as MRI, comprising similar anatomies by domain adaptation methods [1]. Existing domain adaptive object detection methods often adapt a learned classification and detection model by fine-tuning deep network parameters such as [5]. Recent adversarial approaches propose particularly interesting alternatives. In [7] for example, a convolutional neural network (CNN) -based detector learned on a source domain is adapted to the target domain through GAN-generated examples resembling the target domain carrying source labels and pseudo labels in the target domain. In [6], the supervised CNN detector is extended via 2 adversarial pathways to tackle image and instance-level shift in the target domain.

The aim of this project is therefore to study and propose an efficient cross-modality organ detection method for medical images capable of adapting supervised detectors learned in a source modality, possibly via data augmentation to counter the lack of annotated data, to a target modality, possibly in an adversarial manner.

Profil du candidat :
We are looking for a motivated collaborator capable of critical thinking, able to work autonomously as well as in a collective setting, having interest for medical imaging and good sense of responsibility (and humor ;). The candidate should be studying towards completing a master degree in computer science or a related engineering field. She should have a solid background in applied mathematics, image processing and computer science, in addition to good programming skills, preferably in Python programming language. A working knowledge of deep learning methods is necessary.

Formation et compétences requises :
See above.

Adresse d’emploi :
CREATIS – INSA-Lyon, bât. B. Pascal
7 avenue Jean Capelle 69100 Villeurbanne

Document attaché : sujet-stage-kechichian.pdf

Jan
4
Fri
2019
Stage Data Scientist
Jan 4 – Jan 5 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : TRAXENS
Durée : 6 Mois
Contact : r.khouani@traxens.com
Date limite de publication : 01/04/2019

Contexte :
IOT for logistics, « Real Data for logistics excellence ».
Traxens fournit, collecte et distribue la meilleure donnée au monde sur les unités de transport logistiques, permettant à tous les acteurs du transport multimodal d’améliorer leurs coûts et d’optimiser leurs performances. Traxens a mené un programme de R & D de 3 ans pour développer une solution verticale comprenant le boitier connecté, la plateforme de données et les applications métiers afin de produire de la donnée en temps réel partout dans le monde et de la rendre la plus intelligente possible. CMA CGM, MSC et SNCF font confiance à Traxens et déploient sur leurs flottes logistiques depuis 2017. Nous rejoindre pour un stage c’est l’opportunité de découvrir le monde de l’IoT et ses applications B2B, s’intégrer dans une équipe jeune, solidaire et passionnée. Les opportunités de recrutement sont fréquentes.

Sujet :
L’objectif principal est de réaliser un algorithme prédictif sur la recommandation de zones d’intérêt (ZOI dans le vocabulaire Traxens) à partir de trajectoire GPS, mouvements, ouverture de porte, accélérations et tout autre donnée générée par le boitier TRAXENS.

L’algorithme devra permettre d’identifier automatiquement si une unité logistique (conteneur) entre/sort d’une ZOI et de quel type of ZOI il s’agit. (Exemple de types de ZOI : Port maritime, Dépôt, aire de chargement/déchargement etc …)

Missions :

Extraction de la donnée à partir de différentes sources,
Préparation de la donnée brute en donnée qualifiée,
Analyse statistique,
Établissement de modèles prédictifs,
Interprétation des résultats,
Optimisation et apprentissage en continue.

Littérature :
https://www.tandfonline.com/doi/citedby/10.1080/13658816.2015.1005094

https://www.sciencedirect.com/science/article/pii/S0198971515000587?via%3Dihub

https://link.springer.com/content/pdf/10.1007%2Fs40534-015-0079-x.pdf

Profil du candidat :
Vous possédez une maîtrise des langages scripts (Python, Scala, etc.).
Une première expérience en transport maritime ou logistique serait un plus.
Votre entourage vous décrit comme curieux et impliqué.Vous êtes bon communicant et aimer travailler en équipe.Vous aimez les challenges intellectuels auxquels vous trouvez des solutions innovantes grâce à votre excellente capacité d’analyse.

Formation et compétences requises :
Diplômé(e) d’une école d’ingénieur ou Master 2 en Intelligence Artificielle & Apprentissage Automatique ou Mathématiques informatiques/statistiques.

Adresse d’emploi :
Marseille

Document attaché : TRX-ANA-Offre-de-stage-data-scientist-20190127.pdf

Jan
31
Thu
2019
Generative Adversarial Networks pour le design génératif
Jan 31 – Feb 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Centre d’études et de recherche en Informatique et Communications (CEDRIC) – Cnam Paris
Durée : 6 mois
Contact : michel.crucianu@cnam.fr
Date limite de publication : 2019-01-31

Contexte :
Les réseaux antagonistes génératifs (generative adversarial networks, GANs), introduits en 2014 par [5] sont des modèles génératifs qui cherchent à modéliser une distribution de probabilités à partir de données. Un GAN est basé sur la compétition entre deux composantes (le plus souvent des réseaux de neurones profonds), un « générateur » et un « discriminateur » . Le générateur produit des données candidates (par ex. des images) et le discriminateur cherche à déterminer si les données présentées sont issues de la « vraie » distribution ou non. Les données « authentiques » de départ servent à entraı̂ner le discriminateur avant le début de la compétition. Suit une étape d’apprentissage commune (à la fois pour le générateur et pour le discriminateur) durant laquelle le générateur cherche à tromper le discriminateur en produisant des candidats qui ressemblent de plus en plus aux données authentiques, alors que le discriminateur s’améliore aussi en essayant de détecter comme non authentiques tous les candidats produits par le générateur. Cette étape d’apprentissage étant connue pour être difficile et souvent instable, de nombreux travaux ont visé à améliorer la qualité de cet apprentissage, voir par ex. l’introduction des Wasserstein GAN [1, 6].

Sujet :
Les GANs sont principalement employés pour générer des images réalistes (visages, animaux, scènes, etc.), sans tenir compte de la structure interne de ces images, c’est à dire des objets présents et des relations entre ces objets. Quelques applications au design d’objets (voir par ex. [3]) emploient la même méthodologie pour la génération d’images d’objets. Utilisés dans [7] pour la génération d’objets 3D, les GAN produisent des objets qui sont des volumes composés de voxels (éléments de volume) mais suivant une approche similaire, qui ignore la structure interne de ces objets. Peu de travaux s’intéressent à la génération d’objets composés et emploient pour cela une architecture hiérarchique, voir par ex. [2].

Le premier objectif du stage proposé, correspondant à une première étape du travail, est d’évaluer des versions récentes des GAN, comme les Wasserstein GAN [1, 6], sur des images d’objets composés (constitués de composantes qui présentent des relations particulières entre elles), sans tenir compte de cette structure. Les résultats de cette phase doivent servir de référence aux développements ultérieurs.

Le second objectif du stage est de chercher à modéliser par apprentissage la structure des objets composés et à la prendre en compte lors du processus génératif. Les résultats issus de cette seconde phase du travail seront comparés à la référence obtenue lors de la première phase.

Suivant le temps disponible, il est envisageable de s’intéresser aussi à la séparation entre « style » et structure, suivant les idées de [4] ou [8].

[1] Martı́n Arjovsky, Soumith Chintala, and Léon Bottou. Wasserstein generative adversarial networks. In Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017, pages 214–223, 2017.
[2] Wei Chen, Ashwin Jeyaseelan, and Mark Fuge. Synthesizing designs with inter-part dependencies using hierarchical generative adversarial networks. In ASME 2018 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference, Quebec City, Canada, Aug 2018. ASME.
[3] Jaime Deverall. Using generative adversarial networks to design shoes : The preliminary steps. In New Product Design with Popular Fashion Style Discovery Using Machine Learning: Proceedings of the Artificial Intelligence on Fashion and Textiles (AIFT) Conference 2018, Hong Kong, July 3–6, 2018, 01 2018.
[4] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2414–2423, June 2016.
[5] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Proceedings of the 27th International Conference on Neural Information Processing Systems – Volume 2, NIPS’14, pages 2672–2680, Cambridge, MA, USA, 2014. MIT Press.
[6] Ishaan Gulrajani, Faruk Ahmed, Martı́n Arjovsky, Vincent Dumoulin, and Aaron C. Courville. Improved training of wasserstein gans. CoRR, abs/1704.00028, 2017.
[7] Jiajun Wu, Chengkai Zhang, Tianfan Xue, William T Freeman, and Joshua B Tenenbaum. Learning a probabilistic latent space of object shapes via 3d generative-adversarial modeling. In Advances in Neural Information Processing Systems, pages 82–90, 2016.
[8] Rui Zhang, Sheng Tang, Yu Li, Junbo Guo, Yongdong Zhang, Jintao Li, and Shuicheng Yan. Style separation and synthesis via generative adversarial networks. In Proceedings of the 26th ACM International Conference on Multimedia, MM ’18, pages 183–191, New York, NY, USA, 2018. ACM.

Profil du candidat :
Le (la) candidat(e) doit avoir une bonne maı̂trise du domaine de l’apprentissage statistique et de l’apprentissage profond, avec à la base de bonnes connaissances mathématiques. De bonnes capacités à programmer en Python sont également nécessaires, l’emploi de modèles d’apprentissage profond nécessitant l’utilisation de librairies comme TensorFlow, PyTorch, etc. avec portage du code sur GPU.
Envoyez vos candidatures (avec CV, lettre de motivation, notes obtenues) à Michel Crucianu, Marin Ferecatu et Nicolas Thome (courriels : prénom.nom@cnam.fr).

Formation et compétences requises :
Le (la) candidat(e) doit avoir une bonne maı̂trise du domaine de l’apprentissage statistique et de l’apprentissage profond, avec à la base de bonnes connaissances mathématiques. De bonnes capacités à programmer en Python sont également nécessaires, l’emploi de modèles d’apprentissage profond nécessitant l’utilisation de librairies comme TensorFlow, PyTorch, etc. avec portage du code sur GPU.
Envoyez vos candidatures (avec CV, lettre de motivation, notes obtenues) à Michel Crucianu, Marin Ferecatu et Nicolas Thome (courriels : prénom.nom@cnam.fr).

Adresse d’emploi :
Le stage débutera au printemps 2019 et durera 6 mois, sous la co-direction de Michel Crucianu, Marin Ferecatu (équipe Vertigo) et Nicolas Thome (équipe MSDMA).
Le stage se déroulera au CNAM Paris (http://www.cnam.fr/) dans les équipes de recherche Vertigo et MSDMA du laboratoire CEDRIC (http://cedric.cnam.fr/). Plusieurs enseignants-chercheurs, doctorants et post-doctorants du CEDRIC travaillent sur l’apprentissage profond et certains sur les GANs.

Document attaché : stageSGAN.pdf

Interpretability models for fault identification and diagnosis in connected manufacturing
Jan 31 – Feb 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire LADIS du CEA LIST et CEDRIC -Cnam
Durée : 6 mois
Contact : pierre.blanchart@cea.fr
Date limite de publication : 2019-01-31

Contexte :
Modern factories operation and optimization rely on fine-grained monitoring of machines and products. Besides classical purposes such as energy optimization and smart production planning, there is a high demand for systems able to detect and isolate the location of faults occurring in production chains. Thus, there has been a tremendous effort to design computational intelligences able to represent the underlying dynamics of such complex systems, with the goal of detecting, identifying and possibly explaining the occurrence of faults while the system is in operation.

Sujet :
Within the teams of the CEA/LADIS, we have been investigating fault detection models working on a global set of engineered features extracted from sensor measurements at the workstations level. We deployed such models on several real life datasets, coming both from our projects partners and from fault detection challenges in which we participated. More recently, we have been looking into making the decision of those models interpretable, without impacting the performance of the original fault detection models. The purpose is to answer the following questions : ”Is there a fault ?”, ”where/when did it happen ?”, ”why did it happen ?”. While the first question is answered by the fault detection model itself, the two others cannot be answered without explaining/interpreting the decision taken by this model.
In this internship, we propose to build on the work realized in our teams to add interpretability to a specific class of models known as gradient boosted trees [1] that were used as fault detection models. Since they are decision tree-based models, they keep some interpretability in the sense that they analyze individual features sequentially, without any non-linear transformation of the original feature space. But, the trained models are nevertheless too heavy to be analyzed directly by a human operator. The expected task would thus be to design machine learning models that learn to interpret forests/tree based fault detection models learned on massive data and large feature spaces, and produce a human readable diagnosis related to a fault occurrence.
The data as well as the fault detection models would be provided to the candidate. Preliminary works regarding interpretability (including development code) have been performed [2], which would serve as a basis to start the internship. In particular, recurrent neural network-based sequential models [3] analyzing paths inside decision trees have been investigated as
a possible solution. The internship would be axed on investigating similar models, and, as such, is more leaned towards research than development.

[1] Tianqi Chen and Carlos Guestrin. 2016. XGBoost: A Scalable Tree Boosting System. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’16). ACM, New York, NY, USA, 785-794. DOI: https://doi.org/10.1145/2939672.2939785
[2] Blanchart P., Gouy-Pailler C. (2017) WHODID: Web-Based Interface for Human-Assisted Factory Operations in Fault Detection, Identification and Diagnosis. In: Altun Y. et al. (eds) Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2017. Lecture Notes in Computer Science, vol 10536. Springer.
[3] Sepp Hochreiter and Jürgen Schmidhuber. 1997. Long Short-Term Memory. Neural Comput. 9, 8 (November 1997), 1735-1780.

Profil du candidat :
The candidate should have a background in machine learning / deep learning and a general background in data/statistical analysis. Programming skills in a usual prototype language such as R, Matlab or Python are required as well. The internship is proposed for candidates following a master of science program.

Formation et compétences requises :
The candidate should have a background in machine learning / deep learning and a general background in data/statistical analysis. Programming skills in a usual prototype language such as R, Matlab or Python are required as well. The internship is proposed for candidates following a master of science program.

Adresse d’emploi :
The internship is to take place in the Laboratoire LADIS of the CEA LIST, located on the campus of Saclay, and will be co-supervised by Marin Ferecatu and Michel Crucianu from the VERTIGO Team of the CEDRIC – Conservatoire National des Arts et Métiers (CNAM). The internship is to last 5-6 months and is intended for master of science students in their second year. To apply, please send your candidature via email (curriculum + short cover letter) to pierre.blanchart@cea.fr and michel.crucianu@cnam.fr

Document attaché : stage_manufacturing.pdf

Stage : Building footprint detection in satellite imagery using deep learning and image segmentation
Jan 31 – Feb 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube / Université de Strasbourg
Durée : 6 mois
Contact :
Date limite de publication : 2019-01-31

Contexte :
SERTIT, a service platform of ICube, known for its ISO certified rapid mapping service, is seeking to accelerate its mapping activities through artificial intelligence. This service assists in post-crisis emergency management (e.g. ground rescue, reconstruction efforts …).

Sujet :
– Users need to map buildings during rapid mapping after a disaster strikes
– Collaborate with research teams to transfer techniques from medical imaging to remote sensing
– Develop new innovative solutions to automatically extract building footprints using:
* Deep Learning
* Object based segmentation algorithms
* A combination of the above

Profil du candidat :
Undergraduate student of a computer science/geomatics degree or similar

Formation et compétences requises :
– Experience with the Python scientific computing ecosystem (Pandas, numpy, scikit-learn, scikit-image, etc.)
– Knowledge of Machine Learning workflows and techniques (e.g. best practices around training data management, understand basics of numerical optimization)
– Familiarity with Linux environments
– Have excellent communication skills and a strong team player
– Good knowledge of English, French is not mandatory
– Can-do attitude!

Adresse d’emploi :
ICube
300 boulevard Sébastien Brant
CS 10413
67412 Illkirch Cedex

Document attaché : Stage-2019-Offre-EN.pdf

Feb
1
Fri
2019
Simulation distribuée de modèles structure-fonction de plantes
Feb 1 – Feb 2 all-day

Annonce en lien avec l’Action/le Réseau : ReProVirtuFlowFormation

Laboratoire/Entreprise : AGAP / Zenith
Durée : 6 mois
Contact : christophe.pradal@inria.fr
Date limite de publication : 2019-02-01

Contexte :
Pour satisfaire les demandes sociétales pour une agriculture plus durable et écologique dans un contexte de changement climatique, des modèles simulant la croissance et le fonctionnement des plantes (FSPM) sont
développés par la communauté scientifique. Les L-systèmes, un formalisme de grammaire formelle permettant
la réécriture efficace d’arborescences, se sont imposés dans la définition de ce type de modèle. Dans le cadre
de la plateforme libre OpenAlea, l’équipe M2P2 développe depuis plusieurs années le framework logiciel L-Py
qui combine les L-systems avec le langage de modélisation Python et permet de simuler efficacement des
modèles complexes. Cependant, le niveau de détails des modèles FSPM, généralement définis à l’échelle de
l’organe, induit une complexité et un temps de calcul prohibitif lorsqu’il s’agit de simuler le développement, le
fonctionnement et la compétition de couverts (centaines de plantes en interaction), même de taille modeste
(Evers, 2016). Une structure de donnée complémentaire de graphe multi-échelles, appelée MTG, permet la
manipulation d’une plante ou d’un ensemble de plantes à plusieurs niveaux d’abstraction permettant ainsi de
simplifier certains calculs. Pourtant la simulation d’un couvert reste difficilement accessible avec les
simulateurs actuels.

Sujet :
Le challenge auquel nous essayons de répondre est de simuler efficacement un ensemble de plantes variées en
interaction. Pour cela, il est nécessaire de se doter d’un formalisme permettant la distribution des calculs sur
des infrastructures de calcul parallèles (Pradal et al., 2017). L’objectif de ce stage est d’analyser différentes
stratégies de parallélisation pour simuler en 3D la croissance et le fonctionnement de peuplement sur
architecture à mémoire partagée, mais aussi en environnement distribué. Un des enjeux est d’adapter le
formalisme de modélisation pour permettre la communication et la synchronisation entre différents
composants de la simulation.
Le travail de l’étudiant(e) consistera en :
– Parallélisation du moteur de réécriture L-systèmes dans le logiciel L-Py
– Définition d’un protocole d’échange d’informations et de synchronisation entre différents composants de
la simulation.
– Formalisation d’une stratégie de distribution des calculs sur plusieurs machines ou clusters en utilisant les
MTGs.
– Définition de cas d’utilisations (Use Cases) pour analyser les performances des différentes approches de
parallélisation à partir de modèles existants (simulation de peuplement, couplage de modèle racinaire et
aérien de plante).

Profil du candidat :
– Informaticien(ne) avec un goût pour la simulation 3D des plantes. Aptitude à travailler en équipe.
– Bonne connaissance du C++ et Python.
– Connaissance en calculs parallèles et distribués.

Formation et compétences requises :
Master 2, Ecole d’ingénieur

Adresse d’emploi :
Montpellier

Document attaché : offre-stage-calcul-distribue-fspm-2019.pdf

Feb
3
Sun
2019
Évolution de réseaux sociaux personnels en ligne : nouvelles techniques et comparaisons.
Feb 3 – Feb 4 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire ETIS, équipe MIDI – https://www-etis.ensea.fr/fr/equipe-midi.html
Durée : 6 mois
Contact : claudia.marinica@ensea.fr
Date limite de publication : 2019-02-03

Contexte :
L’équipe MIDI (Multimedia Indexation et Data Integration) du laboratoire ETIS – ENSEA/UCP/CNRS 8051 est la principale équipe du laboratoire dans le domaine de la science de données et l’analyse de données multimédia.
Ce stage se situe dans la continuation d’un travail de thèse qui devrait être soutenue courant 2019 ; nous avons obtenus plusieurs résultats que nous souhaitons valider en utilisant de différents techniques.

Sujet :
Les réseaux sociaux online permettent aujourd’hui aux utilisateurs d’être en contact direct, de s’échanger des messages, informations, etc. ; ces réseaux évoluent avec l’évolution de la vie des utilisateurs. De plus, un réseau social peut être vu comme le regroupement de plusieurs réseaux plus petits et centrés sur un individu à la fois. Ces réseaux portent le nom de réseaux personnels en ligne [1], car ils sont composés d’un individu central (le ego) et de plusieurs individus (les alters) avec lesquels le ego est connecté de manière directe ou indirecte.
Pour aller plus loin, les réseaux personnels (comme les réseaux sociaux classiques) évoluent dans le temps, mais étant donné que leur étude est très récente, il n’est toujours pas clair si leur évolution est comparable à celle des réseaux classiques. Dans les travaux que nous avons réalisés dans [2], nous avons étudié l’évolution des réseaux de collaboration (comme DBLP) en analysant l’évolution des valeurs d’un certain nombre de métrique dans le temps, et nous sommes actuellement en train de proposer un modèle d’évolution dédié.
Ce sujet aborde deux points : (1) l’étude de l’évolution des réseaux personnels en utilisant d’autres techniques afin de pouvoir comparer les résultats obtenus et les valider, et (2) rendre disponibles à la communauté les outils que nous avons développés au fil de nos travaux.
Le premier point concerne l’utilisation des techniques de fouilles de données afin de comprendre l’évolution des réseaux personnels. En effet, une représentation spécifique des réseaux sociaux à temps t pourrait nous permettre d’extraire des informations du style « si un réseau a gagné 2 nœuds en temps t, il a la tendance de gagner 2 nœuds en temps t+1 ». Dans ce contexte, plusieurs défis peuvent être soulignés comme le choix de la technique de fouille de données et la modélisation des données afin de pouvoir appliquer la technique choisie. Ces deux défis sont clairement liés, et diverses techniques peuvent être utilisées en fonction du résultat étendu.
Le deuxième point concerne le développement d’un outil pour l’analyse de l’évolution des réseaux personnels présents dans un réseau social ; cet outil serait utilisable par les experts qui étudient un réseau social spécifique et qui voudront comprendre comment les réseaux personnels inclus dans le réseau social évoluent dans le temps. Ce point se basera sur des développements déjà existant réalisés dans le cadre d’une thèse.

Profil du candidat :
Nous cherchons en candidat qui apprécie à la fois la recherche et le développement car dans ce sujet concerne les deux aspects.
Il s’agit d’un stage pour un étudiant en Master 2.

Formation et compétences requises :
Le candidat doit être familier (un minimum avec les techniques de fouille de motifs fréquents et/ou avec l’analyse de réseaux sociaux/analyse de graphes).
Des compétences de mise en place d’une application web sont nécessaire, ainsi que dans le langage Java afin de pouvoir porter ce qui a déjà été développé dans une application web.

Adresse d’emploi :
2, avenue Adolphe-Chauvin, Cergy-Pontoise (région parisienne)

Document attaché : sujet_stage.pdf

Feb
11
Mon
2019
Offre de stage LabHC
Feb 11 – Feb 12 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire Hubert Curien
Durée : 4 – 6 months
Contact : christine.largeron@univ-st-etienne.fr
Date limite de publication : 2019-02-11

Contexte :
This project aims to understand how people’s stance on contentious issues is influenced by the information diffusions they are exposed to. Our incipient research concerning the discussion on Reddit around Brexit indicates that users change their attitude depending on what content they are exposed to. In this project, we intend to uncover the precise interaction patterns that are most effective in swaying user attitude, and accurately predict what would be a users’ opinion in the close future, based on their past actions and the discussion they were exposed to recently.

Sujet :
This project proposes to jointly use social community detection developed at the University Jean Monnet [7,8], and information diffusions analysis tools [9] currently under development at the University of Technology Sydney to analyse user activity within particular discussion topics together with their stance. More precisely, in this project we will develop upon recently proposed information diffusion mechanisms [5,6] to build spatio-temporal modelling tools, which allow understanding the diffusion paths of information through particular online communities. This project will advance both the theoretical knowledge in the spatio-temporal modelling information diffusion and detecting online communities, and also will build an online platform for visualising in real time the spread of particular discussion topics via popular platforms (e.g. Twitter). The students in this project will employ two readily available datasets around Brexit: a Reddit dataset and a Twitter dataset.
Opportunities. The work in this project will follow upon incipient analysis on the same datasets, and profiling measure which show the feasibility of the approach. The student who will undertake this project will be based in St Etienne, at the Hubert Curien laboratory.

Profil du candidat :
Student in last year of engineering school or Master 2 Computer Science with skills in Data mining / Machine learning

Formation et compétences requises :
Good math skills: probabilities and stochastic calculus; linear algebra
Good programming skills
Background Machine Learning and/or Data Science methods;
Performing (computer) experiments and analysing results
Git, R/Python, desire to make sense of real data and solve real issues

Adresse d’emploi :
Laboratoire Hubert Curien
Université Jean Monnet – Saint-Etienne
18 rue Lauras
42000 Saint-Etienne

Document attaché : 2019_10_02_M2_Largeron_Rizoiu_2019-2020.pdf

Feb
13
Wed
2019
TOWARDS AN OPTIMIZED AND GENERIC STORAGE MODEL FOR ASTRONOMICAL DATA IN SPARK
Feb 13 – Feb 14 all-day

Annonce en lien avec l’Action/le Réseau : MAESTRO

Laboratoire/Entreprise : DAVID – Université de Versailles
Durée : 5 à 6 mois
Contact : Karine.Zeitouni@uvsq.fr
Date limite de publication : 2019-02-13

Contexte :
Applications in universe science are among the most demanding of Big Data technology. Indeed, recent new programs for sky and earth surveying
will produce peta bytes of data. Exploratory analysis of these data is crucial to enable scientists and practitioners to better understand their data and optimize various processes. This requires ecient database systems to manage and query these unprecedented amount of data.
Efficient query processing of astronomical data leads to optimize the data representation. Today, the most used formats in astronomy are FITS, HDF5, or simple csv, mainly for data exchange purpose. Besides, Parquet format, recommended by the Apache consortium, is becoming a de facto standard adopted by a large variety of Big Data tools, and NoSQL system. However, there exists a gap between the astronomical standard formats and Parquet, as a matter of fact. More importantly, due to the amount of astronomical data, it adds a significant over-cost to the loading process in NoSQL systems like Spark, since the data should be converted from FITS to the format adopted in the target system.

Sujet :
The main objective of this internship is to ll this gap by proposing an optimized generic storage in Spark to represent at least FITS and HDF5 data formats into Spark DataFrame. A focus, in the proposed solution is to take the advantages of FITS/HDF5 data organization for optimizing current existing astronomical operators. The proposed design should be scalable
and support incremental upload of large datasets, and optimize the related performance. The internship will take place as follows:
– At first, the trainee will get acquainted with the team’s knowledge about ASTROIDE (a distributed data server for big astronomical data https://cnesuvsqastroide.github.io) and NoSQL technologies required by the project.
– Next, she/he will propose a baseline solution, not necessarily optimal from the querying point of view, but more optimal to load FITS and HDF5 into DataFrame.
-Finally, she/he will optimize further both the ingestion and the query performances and compare them to the baseline.

Profil du candidat :
We seek highly motivated and ambitious candidates with a deep interest in working on big data technology, with strong object oriented programming skills. The candidate should be familiar with Unix scripting environment and tools like git, maven, . . . This internship may open the way to a PhD thesis in collaboration between DAVID Lab at UVSQ/Paris-Saclay University and the CNES (Centre National d’Etudes Spatiales). A good background in data mining / machine learning is a plus for the purpose of the PhD thesis.

Formation et compétences requises :
Open for MASTER 2 level students or equivalent in computer science in the domain of data engineering or data science.

Adresse d’emploi :
DAVID Laboratory (located in Versailles city – France), University of
Versailles Saint-Quentin / University of Paris-Saclay.
45 Avenue des Etats-Unis – 78000 Versailles, France.
web: www.david.uvsq.fr

Document attaché : Master_Internship_Versailles.pdf

Feb
28
Thu
2019
Analyse conjointe de nomenclatures d’occupation du sol pour la classification d’images satellites
Feb 28 – Mar 1 all-day

Annonce en lien avec l’Action/le Réseau : Formation

Laboratoire/Entreprise : IGN/LaSTIG
Durée : 5 mois
Contact : clement.mallet@ign.fr
Date limite de publication : 2019-02-28

Contexte :
La classification de l’occupation ou de l’usage des sols à partir d’images satellites consiste à prédire pour chaque pixel de l’image la classe la plus probable parmi un jeu d’étiquettes
prédéfinies (nomenclature). Cette nomenclature varie selon les usages et les résolutions spatiales. Parfois la nomenclature est hiérarchique : elle gagne en détails avec la profondeur de
l’arbre des étiquettes (« végétation haute » → « espèces d’arbres » ; « cultures → types de culture »).
La plupart du temps, dans un contexte supervisé de mise à jour ou de détection de changements, la nomenclature est issue de bases de données géographiques (BD) existantes (format vecteur). Ces bases de données sont très utiles pour effectuer l’apprentissage des classes existantes pour la tâche de discrimination des différentes classes de la nomenclature.
Il existe un grand nombre de BD avec des emprises et des précisions spatiales (mondiales, européennes, nationales, locales) et sémantiques (occupation ou usage du sol, e.g., «bâtiments » ou « résidentiel »/ « commercial ») très différentes. Entre ces bases de données, on note des classes couvrant des concepts similaires (par exemple, « forêts »), emboîtés (« urbain dense » et « bati ») ou présentes dans une seule BD et discriminables à partir d’une seule
source de données image.
Aujourd’hui, on souhaite définir des nomenclatures pour la classification des images satellites reprenant des concepts de plusieurs bases de données à la fois. Il faut donc être capable :
● de mettre en correspondance les classes appartenant à plusieurs bases de données géographiques ;
● de définir quelles classes parmi toutes celles fournies par les BD peuvent co-exister pour une classification d’images efficace ;
● d’évaluer quelles classes ne peuvent pas être discriminer à une échelle spatiale donnée.

Le stage se déroule dans le cadre de l’ANR MAESTRIA (2019-2022).

Sujet :
L’objectif du stage est de mettre en correspondance des classes appartenant à plusieurs bases de données géographiques existantes (Europe, France, occupation des sols régionales). Cela
se fera à travers l’analyse sémantique de ces BD mais également l’analyse des images satellites que l’on souhaite classer. Cela fournira un graphe de relations entre classes de ces bases de données et permettra de définir des nomenclatures plausibles.
La confrontation des classes des BD avec les images satellites dans un processus de classification supervisée devra en parallèle nous indiquer quelles classes ne peuvent être utilisées à une résolution spatiale donnée.
On comparera ces résultats aux besoins exprimés par plusieurs types d’utilisateurs avec qui nous entretenons des contacts avancés (ministères, scientifiques, collectivités locales, agences
cartographiques et spatiales).

Profil du candidat :
Le candidat doit avoir de bonnes connaissances en traitement d’images, apprentissage, télédétection.
Il doit être issu d’un Master 2 ou être en 3eme année d’école d’ingénieurs.

Formation et compétences requises :
Une bonne connaissance d’une langage de programmation (C++/Python) est nécessaire. Une appétence particulière pour les données géographiques et une connaissance sur les bases de
données géographiques est un plus.

Adresse d’emploi :
73 avenue de Paris
94160 Saint-Mandé

Document attaché : StageMAESTRIA2019.pdf

Fouille de textes (text-mining) de type Traitement Automatique du Langage Naturel et Analyse Sémantique
Feb 28 – Mar 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : SESSTIM UMR1252, Aix-Marseille Université
Durée : 5-6 mois
Contact : jean-charles.dufour@univ-amu.fr
Date limite de publication : 2019-02-28

Contexte :
Il sera question de participer à une partie de l’étude et des développements informatiques qui seront conduit dans le projet ApiAppS (cf. https://sesstim.univ-amu.fr/projet/apiapps) financé par l’Agence Nationale de la Recherche (2018-2020).
Une partie du projet ApiAppS consiste à développer, puis à intégrer un système d’aide à la prescription/ recommandation d’applications mobiles de santé adaptées aux profils des patients, ces derniers déduits à partir des informations contenues dans un dossier patient informatisé (DPI). Pour cela des règles d’inférence pourront être récupérés soit du portail des terminologies de Santé HeTOP (Health Terminology/Ontology Portal), de documents textuels non structurés ou dans du texte libre (exemple : sources fiables comme les recommandations de la HAS « Haute Autorité de Santé »)

Sujet :
Avec des techniques et outils de text mining TALN/analyse sémantique, le travail de stage consiste donc à :

• Prendre connaissance de la chaîne de traitement et de l’analyse à réaliser et proposer des pistes d’amélioration ;
• Contribuer à la priorisation des pistes d’amélioration avec les chercheurs ApiApps ;
• Concevoir, développer et évaluer des améliorations et compléments dans l’ontologie et la chaîne de traitement ;
• Positionner la solution mise en œuvre dans l’étude vis-à-vis des autres solutions déjà décrites dans la littérature scientifique sur d’autres projets.

Profil du candidat :
Etudiant(e) niveau ingénieur ou master 2 en informatique

Formation et compétences requises :
Compétences en modélisation des connaissances, en techniques de fouille de textes, en text-mining de type Traitement Automatique du Langage Naturel et Analyse Sémantique, ainsi que des techniques et outils du web sémantique.

Adresse d’emploi :
Faculté de Médecine, 27 Bd Jean Moulin, 13385 Marseille Cedex 5

Document attaché : Proposition-Stage-SESSTIM-ApiAppS-février2019.pdf

Mar
1
Fri
2019
Amélioration des données de microscopie en phase quantitative par techniques de réseaux convolutifs
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : SAMOVAR/Télécom SudParis
Durée : 6 mois
Contact : bernadette.dorizzi@telecom-sudparis.eu, Yaneck Gottesman@telecom-sudparis.eu
Date limite de publication : 20190301

Contexte :
Il s’agit d’une collaboration entre l’équipe ARMEDIA du laboratoire SAMOVAR (science des données) et l’équipe TIPIC (groupe optique). Au cours de ces 20 dernières années, les techniques d’holographie numérique ont énormément progressées. Elles permettent notamment l’observation de spécimens biologiques sans utilisation de marqueur (qui perturbent le fonctionnement des cellules) et donc sous des conditions proches de celles rencontrées dans le corps humain. Ce type d’imagerie dite ‘label-free’ ouvre de nouvelles perspectives pour la compréhension de l’évolution des cellules étudiées. Cela est souhaitable pour le développement de nouveaux médicaments ou encore la détection précoce de pathologies.
Malgré le formidable potentiel de ces techniques, plusieurs éléments freinent encore leur portée. Entre autres, 1) elles ne permettent pas d’enregistrer des spécimens à la fois sur de grands champs et à très haute résolution, 2) la précision de la phase enregistrée n’est pas toujours satisfaisante (stabilité de la mesure et bruit).
Pour dépasser les limitations actuelles nous avons développé un nouveau type de microscope reposant sur une imagerie à ouverture synthétique permettant de dépasser les limites de résolution classiques, mais la qualité des images résultantes reste encore limitée.

Sujet :
Bien qu’il ne s’agisse pas à proprement parler d’une technique d’holographie numérique, elle acquière des informations similaires (intensité et phase). Dès lors elle doit permettre de réutiliser certaines techniques d’exploitation des images holographiques déjà disponibles et en particulier celles disponibles pour l’amélioration de la phase enregistrée. L’objectif du stage proposé est d’utiliser la force des techniques de réseaux de neurones convolutionnels pour améliorer la qualité des images. Ce stage se décomposera en deux tâches. La première repose sur l’enregistrement du même échantillon sous différentes conditions de mise au point. La redondance d’information sur l’échantillon sera exploitée pour réduire le bruit de phase global (minimisation de l’erreur totale) et produire une image de bonne qualité qui servira de réalité terrain dans la deuxième phase. La seconde approche concerne la reconstruction de la phase quantitative par réseaux de neurones à convolution. Elle utilisera la réalité terrain obtenue précédemment pour l’apprentissage.

Travail demandé :
Dans un premier temps, le stagiaire cherchera à comprendre (partiellement) le fonctionnement du microscope développé et s’appropriera les algorithmes d’holographie numériques à mettre en place (bibliographie). Il s’agira de spécifier et d’implémenter les algorithmes à mettre en place pour exploiter les images de ce microscope.
Dans un second temps, pour la mise en oeuvre des réseaux de neurones, les codes informatiques (sous Matlab ou éventuellement sous python) seront implémentés, en utilisant des bibliothèques existantes.
Enfin, les performances obtenues en amélioration de la phase quantitative seront testées et analysées à l’aide de critères à préciser sur des données expérimentales. Pour cela, une base d’apprentissage sera constituée.

Profil du candidat :
Ingénieur grande école ou Master II, spécialité traitement du signal et des images ou informatique ou optique.

Formation et compétences requises :
Rigoureux, méthodique et relativement autonome le candidat aura une précédente expérience en programmation Matlab ou Pyhton. Doté d’un bon relationnel, le candidat saura évoluer dans une équipe pluridisciplinaire (optique, traitement des images, biologie) et aura à cœur de présenter régulièrement l’avancement de ses travaux.

Adresse d’emploi :
Telecom SudParis, site Nano-Innov, 8 avenue de la Vauve, 91120, Palaiseau

Document attaché :

Approche dirigée par les modèles pour la démoralisation de schéma NoSQL
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : ADOC

Laboratoire/Entreprise : CEDRIC/CNAM
Durée : 5 mois
Contact : faten.atigui@cnam.fr
Date limite de publication : 2019-03-01

Contexte :
Les systèmes d’information doivent faire face à une quantité toujours plus grande de données, et cherche à prendre en compte toutes les dimensions de leur éco-système afin de répondre aux exigences du métier. Ce volume toujours plus grand, complexe et dynamique (connu comme les 3V) a mis à mal les techniques traditionnelles de bases de données relationnelles et les entrepôts de données. Ainsi, pour des problèmes de passage à l’échelle, les bases de données NoSQL (HBase, Cassandra, MongoDB, Néo4J, etc.) ont vu le jour depuis une dizaine d’années et tentent de répondre à ces besoins. De nouvelles solutions sont proposées chaque année en vue de cibler une optimisation particulière, toutefois, ces fonctionnalités restent ad-hoc.

En conséquence, le choix de la bonne solution NoSQL en fonction des besoins métiers est fondamental pour le système d’information. Il peut avoir d’énormes impacts sur le passage à l’échelle et la pérennité de la solution. Ce choix implique une connaissance précise du besoin, en matière de volumes et dynamicité des données, de diversité d’interrogations et de contraintes sur le système. De plus, être capable de faire la corrélation entre les besoins et les solutions demande une réelle expertise sur le marché de la Data, ce qui très souvent s’avère donner une orientation commerciale plutôt que qualitative.

L’objectif de nos travaux de recherche est donc de proposer une approche d’aide au choix d’orientation technologique et de conception d’un système d’information, en reposant sur une méthodologie de modélisation des données, simulation de distribution des données et un modèle de coût adaptatif (pour intégrer de nouvelles fonctionnalités NoSQL). Nous nous intéressons à la fois à un niveau d’abstraction pour la modélisation de SI, mais également à un niveau physique pour favoriser l’optimisation du système. Ces deux approches traditionnellement séparées (architecture ANSI-SPARC) se doivent d’interagir finement pour s’adapter à un contexte d’optimisation extrêmement contraint et complexe.

Sujet :
Le stage débutera par l’étude des méthodes de dénormalisation de schéma conceptuels (entités/associations ou diagrammes de classes UML) pour le NoSQL de la littérature [1,2,3,4], ainsi que les différentes solutions NoSQL existantes [5,6,7] pour comprendre les fonctionnalités spécifiques de chacune. Ensuite, l’objectif de ce stage est de :
1. Compléter l’étude de l’état de l’art proposépar [8];
2. Proposer une approche dirigée par les modèles permettant de guider le choix du modèle logique et du système NoSQL en se basant principalement sur le modèle conceptuel (diagramme de classes) et les besoins de l’utilisateur formalisés sous forme de requêtes SQL. L’idée est d’étudier les types d’associations spécifiques à UML : agrégation, composition, héritage, etc. ainsi que leur impact sur l’imbrication ou l’éclatement de schémas ;
3. Comparer les résultats issus des recommandations basées sur les modèles conceptuels aux résultats de recommandation basés sur les tests et les expérimentations [8]. Les expérimentations seront testées principalement sur la base MongoDB, mais une ouverture sur HBase est envisagée ;
4. Automatiser le processus de transformation du schéma conceptuel vers le schéma logique et puis en schéma physique.
La finalité est de proposer des orientations d’implémentation pondérées, tout en donnant les avantages et les inconvénients de chaque solution envisagée.

Profil du candidat :
Etudiant(e) de Master 2 ou de dernière année d’école d’ingénieur sur un cursus d’informatique
Bon niveau en informatique et plus précisément en systèmes d’information et bases de données, systèmes NoSQL.
Bon niveau de communication scientifique à l’écrit et oral, notamment en anglais

Formation et compétences requises :
L’étudiant retenu devra présenter de bonnes compétences dans le domaine des systèmes de gestion de données massives, l’analyse des données. Elle ou il devra avoir un très bon cursus universitaire et une forte motivation pour la recherche afin de permettre une éventuelle poursuite en thèse à l’issue du stage.

Adresse d’emploi :
CNAM
2 rue Conté, 75003 Paris

Document attaché : Sujet-Stage-Fusion-de-schemas-CEDRIC-CNAM-2019.pdf

Biodiversité et pratique de recherche : extraction automatique de mots-clés caractérisant les thématiques saillantes issues de données textuelles
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Cirad (Montpellier)
Durée : 5 à 6 mois
Contact : mathieu.roche@cirad.fr, christian.leclerc@cirad.fr
Date limite de publication : 2019-03-01

Contexte :
De nombreux travaux de fouille de textes permettent (i) de faire émerger les descripteurs linguistiques les plus significatifs (mots, syntagmes) à partir d’un corpus puis (ii) de les regrouper. Ceci permet de mettre en relief, de manière automatique, les thématiques abordées dans les textes facilitant l’organisation et l’indexation des documents, la recherche d’information, la compréhension et l’analyse des textes. Il permet aussi de comparer, pour une période donnée, les approches privilégiées par différentes unités de recherche, ou encore de décrire l’évolution de ces approches au cours du temps. Cette analyse portera sur Biodiversité et pratique de recherche au Cirad, avec l’objectif d’appliquer la méthode à d’autres thématiques, notamment le territoire et la mobilité.

Sujet :
La réalisation du premier point (identification des descripteurs linguistiques significatifs) s’appuie, en grande partie, sur l’utilisation de méthodes d’extraction de la terminologie à partir de textes, en combinant méthodes linguistiques et statistiques pour constituer une liste de descripteurs linguistiques. La deuxième étape du processus consiste à utiliser ces descripteurs afin de mettre en lumière les différentes thématiques abordées dans les textes. Pour découvrir des structures thématiques “cachées” dans les corpus de textes, les méthodes appelées “topic models” seront utilisées, notamment, le modèle probabiliste génératif LDA, i.e. Latent Dirichlet Allocation.

Dans ce contexte, les objectifs du stage sont déclinés selon 4 sous-tâches :
(1) Intégrer des outils de la littérature d’extraction de la terminologie (en particulier BioTex – http://tubo.lirmm.fr:8080/biotex) et des approches LDA dans le cadre du développement d’un système générique et utilisable par des non informaticiens.
(2) Intégrer et combiner des ressources sémantiques (vocabulaire contrôlé) fournies par les utilisateurs aux méthodes d’extraction de la terminologie.
(3) Étudier la valeur structurante des termes rares (queue de distribution) associées aux fonctions de rangs propres aux systèmes d’extraction de la terminologie. De nouvelles fonctions de rangs pourront alors être proposées, pour mettre en valeur les termes rares et pertinents.

Profil du candidat :
Master 2 ou École d’Ingénieur en Informatique / Science des Données

Formation et compétences requises :
Fouille de données, fouille de textes, Recherche d’Information

Adresse d’emploi :
Cirad – UMR TETIS
500, rue J.F. Breton
34093 Montpellier Cedex 5, France

Document attaché : stageM2_FdT_et_Biodiv_2019.pdf

Intégration d’informations sémantiques pour identifier les variables essentielles à partir de données textuelles hétérogènes : application à la Malherbologie
Mar 1 – Mar 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Cirad (Montpellier)
Durée : 5 à 6 mois
Contact : sandrine.auzoux@cirad.fr, mathieu.roche@cirad.fr
Date limite de publication : 2019-03-01

Contexte :
Les adventices (mauvaises herbes) sont une contrainte majeure de la production agricole tropicale, induisant des pertes de récoltes de 30 à 80%. Le calage des pratiques de désherbage dans les itinéraires techniques nécessite une bonne connaissance de leur comportement. Le développement de l’agroécologie en région tropicale nous amène à considérer les dimensions négatives et positives des adventices.

Le travail proposé dans le cadre de ce stage au Cirad (TETIS/AIDA) consiste à proposer et mettre en œuvre une méthode automatique d’identification de variables essentielles pour la gestion des adventices qui implique la mise en place de nouvelles pratiques agricoles et la mobilisation de la biodiversité. Nous définissons les variables essentielles comme une combinaison d’éléments caractéristiques, par exemple le climat, le milieu, la localisation et le nom vernaculaire.

Sujet :
Le but du stage est d’identifier, par des méthodes de fouille de textes, les variables essentielles de manière automatique à partir de données textuelles.

Dans le processus de fouille de textes à mettre en place, deux verrous scientifiques seront particulièrement étudiés :
– Adapter les méthodes de fouille de textes aux différents types de données mobilisées (scientifique vs. grand public).
– Intégrer des ressources sémantiques et scientifiques (par exemple, thésaurus) au processus proposé.

Dans ce cadre, le processus reposera sur 3 grandes étapes qui seront mises en place et évaluées avec des experts du domaine :

1) Acquisition de données textuelles en anglais par des méthodes semi-automatiques (web crawling / web scraping). Deux types de documents seront étudiés : (1) des documents « grand public » issus du web (blogs, sites touristiques, presse) et (2) des publications scientifiques (articles scientifiques).

2) Extraction de variables essentielles dans ces données par des méthodes adaptées au domaine de la Malherbologie. Ces méthodes s’appuieront sur l’intégration de connaissances sémantiques notamment spatiales (par exemple, Geonames, OpenStreetMap, etc.) et thématiques (par exemple, Agrovoc, dictionnaire des plantes, etc.)

3) Evaluation de ces informations dans un cadre pluridisciplinaire et mise en lien avec des bases de données de référence.

Profil du candidat :
Master 2 ou École d’Ingénieur en Informatique / Science des Données

Formation et compétences requises :
Intégration et gestions de données, Fouille de textes, Recherche d’Information

Adresse d’emploi :
Ce stage basé au Cirad à Montpellier (https://www.cirad.fr/) bénéficie d’une gratification mensuelle de 580 euros.

Cirad – UMR TETIS
500, rue J.F. Breton
34093 Montpellier Cedex 5, France

Document attaché : stageM2_FdT_et_Malherbologie.pdf