
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LS2N
Durée : 6 mois
Contact : philippe.leray@univ-nantes.fr
Date limite de publication : 2021-09-30
Contexte :
L’équipe DUKe (Data User Knowledge) du LS2N, UMR CNRS 6004, est l’une des principales équipes du laboratoire dans le thème « science des données et de la décision », forte de ses compétences en manipulation de données, en fouille de données et en interaction. Dans ce cadre, l’équipe a développé de nombreux algorithmes d’apprentissage et de manipulation de modèles graphiques probabilistes (réseaux bayésiens, réseaux bayésiens dynamiques, réseaux bayésiens relationnels).
L’équipe DUKe travaille en collaboration avec Talend, leader mondial des solutions d’intégration big data et cloud, sur l’utilisation de modèles graphiques pour détecter et corriger des anomalies dans les données.
Nous avons ainsi proposé une approche centrée autour de l’apprentissage de réseaux bayésiens permettant de découvrir automatiquement des anomalies dans des données tabulaires mixtes (discrètes et continues) [1].
Sujet :
Nous avons proposé une architecture basée sur l’utilisation de réseaux bayésiens pour l’apprentissage de dépendances probabilistes et la prise en compte de dépendances fonctionnelles, et l’identification de valeurs
anormales dans un jeu de données. L’objectif du stage est d’étendre l’architecture réalisée dans un contexte incrémental, où les données peuvent arriver par lot, où des variables peuvent être ajoutées et/ou enlevées, et
où des propositions de correction d’anomalies par l’utilisateur peuvent faire évoluer le modèle existant
Profil du candidat :
Master 2 en Informatique
5ème année école d’ingénieur
Formation et compétences requises :
Compétences :
· Concepts de probabilité, statistiques
· Programmation C++
Adresse d’emploi :
Le stage peut se dérouler en télétravail en raison des conditions sanitaires
Document attaché : 202012151624_StageM2R-2021-Talend.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LaSTIG
Durée : 6 months
Contact : valerie.gouet@ign.fr
Date limite de publication : 2021-09-30
Contexte :
*** Link to the full description: https://www.umr-lastig.fr/vgouet/News/sujet_stage_geoloc_ALEGORIA-2021.pdf
*** Keywords
Computer vision, photogrammetry, geolocalization, pose estimation, web visualization, street-view imagery.
*** Context
The proposed internship is part of a French research project (ANR ALEGORIA ) that brings together several research laboratories, including LaSTIG from IGN (the French Mapping Agency), LIRIS from Ecole Centrale de Lyon, LAVUE from University Paris-Nanterre, LIRSA from Le Cnam, the French National Archives and the museum Nicéphore Niépce. The aim of the project is to valorize the national iconographic collections which describe the French territory at different times, starting from the between-wars period until today. The photographic collections consist of aerial multi-date imagery (e.g. postcards, old photographs), acquired at different points of view: vertical, oblique and terrestrial. Despite their content richness, their documentation and spatial geolocalization remain poor or even unavailable. Hence, the ALEGORIA project aims at developing methods that will facilitate their structuring and exploitation by putting in practice automated processing methods dedicated to their indexing, interlinking and visualization.
Sujet :
*** Subject
This internship will focus on the geolocalization process for street-view (terrestrial) images. They have their own specificities, not entirely addressed with the ALEGORIA tools already developed for aerial imagery, such as the more present occlusions as well as the great proximity of the camera to the scene and the 3D associated models that may induce distortions and sensitivity to the models precision. The main objective of the work will consist in exploiting the 2D and 3D data available, given by images, 3D point clouds (LiDAR data) and 3D building models, to improve the geolocalization process of street-view images and apply it to ancient photographs.
In this internship, several types of data are made available to perform the geolocalization, on a dedicated area as use case (Chalon-sur-Saône, location of the Musée Nicéphore Niépce): ancient photographs, recent geolocalized views of the city at the street level, 3D LiDAR points clouds and 3D building models.
The internship work is divided into 3 parts:
1. The study of state-of-the-art automatic and semi-automatic methods to geolocalize views using multimodal data as presented before. A focus on applications for multidate views would be a bonus.
2. Discovering and improving the already developed tool to have a baseline for street-level contents:
– adapt it for a better handling of street-view images ;
– modify it to exploit street-level 3D point clouds for the semi-automatic georeferencing process.
3. Choosing and implementing an existing automatic method and a semi-automatic method of geolocalization to visualize and compare their results against the aforementioned baseline in order to eventually integrate them in the pipeline once improved to better suit the needs of the specific street-view level photographs geolocalization problem.
Profil du candidat :
*** Skills
Bac+5 in computer science, applied math or geomatics (master or engineering school); good knowledge in image processing or photogrammetry/computer vision, as well as good skills in C/C++ programming or Python and web development.
Formation et compétences requises :
*** Submitting your candidature
Before January 15th 2021, send by e-mail to the contacts in a single PDF file:
– CV
– motivation letter
– 2 recommendation letters, or persons to contact
– Transcript of grades from the last two years of study
– A list of courses followed and passed in the last two years
Adresse d’emploi :
*** Organization
* Workplace: IGN, LaSTIG lab, Paris area, Saint-Mandé (73 avenue de Paris, metro Saint-Mandé, Line 1), France. IGN (French Mapping Agency) is a Public Administrative Institution part of the French Ministry for Ecology and Sustainable Development. IGN is the national reference operator for the mapping of the territory. The LaSTIG is one of the research laboratories of IGN, attached to University Gustave Eiffel. It gathers more than 100 researchers centered on geographical information, 35 of them focusing in image analysis, computer vision, AI, photogrammetry and remote sensing.
* Salary: yes.
*** Contact
– Emile Blettery, PhD student, LaSTIG – Ville de Paris – emile.blettery@ign.fr
– Valérie Gouet-Brunet, researcher, LaSTIG – valerie.gouet@ign.fr, https://www.umr-lastig.fr/vgouet/
Offre en lien avec l’Action/le Réseau : MACLEAN/– — –
Laboratoire/Entreprise : LIPN, UMR CNRS 7030
Durée : 6 mois
Contact : mustapha.lebbah@univ-paris13.fr
Date limite de publication : 2021-11-01
Contexte :
Possibilité de poursuivre en thèse CIFRE avec SAFRAN.
Ce sujet de stage de recherche a pour objectif de mener à un projet CIFRE avec SAFRAN en informatique scientifique et algorithmique qui aura pour but d’intégrer de nouveaux algorithmes sous la méthodologie développée précédemment [4,5].
Sujet :
A travers ce sujet de stage de recherche niveau M2, nous souhaitons tester la viabilité d’une méthodologie neuronale moderne basée sur les architectures profondes (Deep learning), les réseaux récurrents et appliquée aujourd’hui avec succès sur le traitement de textes (traduction, chat-bots, etc.) et l’analyse de signaux audio (sous-titrage automatique). Deux approches sont possibles, une approche anticipative qui identifie un état latent se superposant à l’observation et qui permettrait d’estimer la transition d’une observation à l’autre (de type LSTM ou GRU) [1,2,3]. Une autre proposition est de construire un auto-encodeur récurrent capable de reproduire à l’inverse une série d’observations de manière analogue aux outils utilisés pour l’interprétation des séquences de mots (réseaux transformers utilisant des couches d’attention). Ces deux approches nécessitent d’explorer simultanément plusieurs ensembles de séquences multivariées. Il va falloir apprendre à traiter efficacement les signaux temporels multivariés issus des données de vol.
Le stage de recherche se déroulera en 3 phases :
-Étudier l’état actuel de l’art sur l’apprentissage profonds et données temporelles multi-variés,
-Examiner l’état actuel de l’art des outils logiciels et des architectures pour traiter de grande masses de données temporelles multi-variées. Cela comprend les progiciels et les bibliothèques utiles pour construire, former et déployer des modèles sur des données réelles. Cette phase sera réalisée en étroite collaboration avec la Start-up HephIA.
-Sur la base des études précédentes, implémenter un ou plusieurs algorithmes/architecture. Les résultats obtenus pendant le stage peuvent conduire à des contributions à des logiciels libres, voire à une publication scientifique, en fonction des compétences et de la motivation du/de la stagiaire.
Profil du candidat :
Fin de cycle d’Ingénieur d’une grande école, M2 de data science, statistique et/ou intelligence artificielle.
Formation et compétences requises :
Bonne expérience en programmation, et en particulier du framework PyTorch/deeplearning4j.
Comment déposer sa candidature : le dossier de candidature en PDF comportera les éléments suivants :
-CV ; Relevés de notes ; Lettre de motivation
Le dossier de candidature est à envoyer par mail à Hanene.Azzag@lipn.univ-paris13.fr, Mustapha.lebbah@univ-Paris13.fr, (objet du mail [Stage-LIPN-SAFRAN-22])
Adresse d’emploi :
Laboratoire d’Informatique de Paris-Nord (LIPN),
CNRS(UMR 7030),
99, av. J-B Clément
F-93430, Villetaneuse
Document attaché : 202111010827_Sujet-stage-recherche-LIPN-SAFRAN.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CREATIS
Durée : 6 mois
Contact : michael.sdika@creatis.insa-lyon.fr
Date limite de publication : 2021-11-15
Contexte :
Le recalage d’image est un outil permettant d’aligner des images entre elles. C’est souvent une étape préliminaire essentielle pour l’ ́etude de pathologie cérébrale basée sur l’imagerie, permettant de positionner, orienter voire de déformer les cerveaux de différent sujets pour les replacer dans un système de coordonnées commun.
Lorsque la transformation recherchée est affine, les outils actuels de recalage donnent des résultats souvent satisfaisant mais échouent notamment lorsque:
•l’initialisation est mauvaise
•il y a de forts artefacts d’imagerie
•une pathologie implique un changement important de l’apparence du cerveau
•seule une partie du cerveau est présente dans l’image (image rognée)
Les outils classique de recalage sont souvent basée sur des approches itérative d’optimisation mathématique de mais de plus en plus de méthodes actuelles se basent sur des approches par pprentissage profond [Boveiri].
Sujet :
L’objectif du stage est de mettre en place et d’entraı̂ner un réseau de neurones permettant faire le recalage linéaire d’une image de cerveau sur un espace de référence standard. L’objectif principale sera que l’estimation soit la plus robuste possible mais aussi que le réseau soit léger. On pourra par exemple s’intéresser à une bonne façon de paramétrer la transformation mais aussi à aux couches équivariantes dans un réseau de neurones [Finzi], au réseau à capsules [Sabour, Lensen, Gu]. Le réseau de recalage linéaire sera intégré au pipeline de pré-traitement du cerveau de l’équipe MYRIAD de CREATIS.
Données: plusieurs jeux de données d’imagerie cérébrales publiques impliquant différentes pathologies, protocoles d’acquisition et modalités sont déjà utilisés dans l’équipe et seront utilisés pour le stage. Une solide procédure d’augmentation de données permettra d’améliorer encore la robustesse de notre méthode.
Profil du candidat :
—
Formation et compétences requises :
Le candidat recruté devra avoir une formation dans un des domaines suivants et de bonnes connaissances dans les deux autres:
• Machine learning (deep learning)
• Traitement d’images
• Mathématiques appliquées
Il devra aussi avoir de solides compétences en développement logiciel et être en mesure d’implémenter les méthodes proposées.
Adresse d’emploi :
Le stage se déroulera au laboratoire CREATIS à Lyon sur le campus de la Doua.
Les documents à joindre à la candidature sont :
• curriculum vitae
• lettre de motivation
• résultats académiques récents
Document attaché : 202110270849_internship-registration-2022.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : ERIC
Durée : 5-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2021-11-16
Contexte :
Le projet LIFRANUM (LIttératures FRAncophones NUMériques), porté par le laboratoire MARGE, vise à identifier, indexer et analyser des productions littéraires nativement numériques dans l’aire francophone. Pour cela, l’outil de référence de l’archivage web Heritrix a en premier lieu permis de constituer un corpus sous forme de fichiers de conservation au format Web ARChive (WARC). Des métadonnées des pages HTML ont ensuite été extraites des fichiers WARC (contenu textuel, fichier PDF, images, vidéo, etc.) et indexées dans Solr.
Par ailleurs, en s’appuyant sur des blogs appartenant à des auteurs identifiés, un deuxième corpus (fichiers JSON) a été constitué via les API de WordPress et Blogger. Des informations, pages, posts et commentaires ont été extraits et constituent la série de métadonnées, métadonnées stockées et indexées dans MongoDB.
Sujet :
L’objectif de ce stage est de concevoir et mettre en œuvre une interface web commune aux deux types de sources de métadonnées (celles issues des WARC et celles provenant des API de blogs) pour permettre aux chercheur·es du laboratoire MARGE de requêter et d’analyser les données sous-jacentes. Il faudra pour cela :
• étudier l’architecture de données déjà en place ;
• concevoir un schéma d’alignement des métadonnées des WARC et des API ;
• concevoir et mettre en œuvre une interface graphique permettant de rechercher, via les métadonnées consolidées, les données (à la manière d’un moteur de recherche) ;
• proposer des visualisations « toutes faites » (mais paramétrables) ou ad-hoc, en lien avec les chercheur·es du laboratoire MARGE.
Profil du candidat :
Technologies big data, programmation web, gestion de données, data visualization, rigueur.
Formation et compétences requises :
Master informatique
Adresse d’emploi :
Université Lyon 2
Laboratoire ERIC
5 avenue Pierre Mendès France
69676 Bron Cedex
Document attaché : 202110220934_stage-lifranum-interface-warc.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : UMR CNRS LMNO, Caen
Durée : 4 à 6 mois
Contact : faicel.chamroukhi@unicaen.fr
Date limite de publication : 2021-11-30
Contexte :
Ce stage se situe dans le cadre du projet ANR SMILES-Statistical Modeling and Inference for unsupervised Learning at largE-Scale, qui est un projet collaboratif de recherche financé par l’Agence Nationale de la Recherche (ANR) dans le cadre de la stratégie nationale de recherche en Intelligence Artificielle. SMILES réunit des chercheurs de quatre organismes de recherche, l’UMR CNRS LMNO, l’UMR CNRS LMRS, l’UMR CNRS LIS et l’équipe-projet INRIA Modal.
Sujet :
Le stage se déroulera au LMNO – Laboratoire de Mathématiques Nicolas Oresme à Caen, en lien avec des questions relatives à l’étude de la diversité actuellement abordées en collabora- tion avec la DREAL-Direction régionale de l’Environnement, de l’Aménagement et du Loge- ment pour l’étude de biodiversité. Il portera sur des activités de recherche et de développe- ment, et de construction et enrichissement de bases données. L’objectif est de montrer l’apport d’approches statistiques, principalement non-supervisées, à l’approfondissement de la connais- sance d’écosystèmes, notamment fluviatiles, en Normandie et au niveau national, ainsi qu’à la construction d’indicateurs de bio-diversité à partir de modèles statistiques à variables latentes.
Un exemple de cas d’étude concerne l’étude de données de thermie de cours d’eau nor- mands, dont les données sont des séries temporelles récoltées à partir de sondes thermiques, avec l’objectif d’identifier, entre autres, des facteurs qui expliquent la thermie des cours d’eau.
Les tâches prévues dans le stages sont principalement les suivantes:
• Regroupement et mise en forme de bases de données (spatio)temporelles
• modélisation et inférence statistiques non-supervisées (modèles de mélanges, cluster- ing/segmentation, analyse en facteurs indépendants, etc)
Ce stage pourrait être poursuivi avec une thèse, en fonction du profil du candidat et sous réserve de l’obtention d’un financement de thèse.
Profil du candidat :
De formation Bac+5 M2R ou en école d’ingénieurs, avec spécialisation en statistique, science de données, machine learning, ou équivalent
Formation et compétences requises :
avec des bonnes connaissance en modélisation et inférence statistique, Programmation en Matlab, R, ou Python
Adresse d’emploi :
Université de Caen, Boulevard du Maréchal Juin, Campus 2, Caen
Document attaché : 202110191325_M:EngInternship-2022-LMNO-ANR-SMILES.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire GeF/laboratoire CEDRIC
Durée : 6 mois
Contact : nicolas.audebert@cnam.fr
Date limite de publication : 2021-11-30
Contexte :
Les plans cadastraux anciens représentent une mine d’informations sur un territoire, par exemple pour l’analyse de l’évolution du parcellaire au cours du temps en lien avec les politiques d’aménagement. Ces plans correspondent à la numérisation de feuilles au format papier de qualités très inégales selon leur année de création et les conditions de leur conservation. Une avancée considérable pour l’analyse fine de l’évolution du territoire par les historiens, géographes, urbanistes, aménagistes et sociologues, viendrait sans conteste de la construction d’une base de données multi-dates du cadastre « ancien » au cadastre « actuel ». A ce jour, il n’existe pas à notre connaissance d’outils permettant l’analyse automatique du contenu de ces planches en vue de les intégrer dans un SIG (Système d’Informations Géographiques).
Aussi, le laboratoire GeF mène depuis 2016 des travaux de recherche sur le développement d’une chaîne semi-automatique d’analyse des images du cadastre ancien appelée « GeFVectoMoCad » (pour Géoréférencement, Vectorisation et Mosaïquage du Cadastre) à partir d’outils libres, dont le langage Python. Cette chaîne comporte plusieurs étapes : 1) la vectorisation, 2) le géoréférencement et 3) le mosaïquage des planches cadastrales anciennes.
Sujet :
L’étape de vectorisation est cruciale pour la réussite du processus et repose actuellement sur l’emploi d’algorithmes classiques de détection de segments qui constituent ici les limites de parcelles, comme le « Line Segment Detector » et la Transformée de Hough Probabiliste. Ces segments sont ensuite convertis en polygones fermés formant les parcelles. Bien qu’efficace et intégrant des post-traitements adaptés, cette approche n’est pas exempte d’erreurs notamment avec de la sur-segmentation et de la sous-segmentation [Follin et al., 2021]. Elle requiert donc des corrections manuelles a posteriori.
L’amélioration de ces résultats peut notamment passer par la détection des numéros de parcelles. En effet chaque parcelle est associée à un numéro unique écrit à la main. Les numéros de parcelles extraits pourront être confrontés aux polygones des parcelles pour détecter les incohérences, et donc les éventuelles erreurs de segmentation, et les corriger.
Une approche par apprentissage profond ou « Deep Learning » (DL) semble adaptée à la détection des caractères manuscrits (digits). La reconnaissance de caractères écrits à la main est un des premiers cas traités par les réseaux de neurones convolutifs. [LeCun et al., 1989] a ainsi proposé une approche de type DL pour la reconnaissance des chiffres pour le service postal des États-Unis. Ce sujet étant plutôt bien maîtrisé, les problématiques du stage sont :
La production d’un jeu de données suffisamment volumineux pour entraîner des modèles profonds de reconnaissance de caractères. Cela pourra notamment passer par la génération d’images synthétiques et l’usage de techniques d’adaptation de domaine pour rendre ces images similaires aux planches de cadastres numérisées.
Le choix et la mise en œuvre d’’un ou plusieurs réseaux profonds de reconnaissance de chiffres manuscrits. On pourra notamment étudier des détecteurs génériques (YOLO [Redmon et al., 2015], Mask-RCNN [He et al. 2017]) mais aussi des architectures spécifiques à la reconnaissance de caractères (CharGrid-OCR [Reisswig et al., 2019], Calamari [Wick et al., 2018]).
Une fois les chiffres détectés, les numéros devront ensuite être reconstruits. Le parcellaire sera alors représentée sous forme de graphe avec pour sommets les parcelles et pour arêtes les relations d’adjacence. Chaque sommet sera associé éventuellement à un (ou plusieurs) numéro de parcelle. On pourra s’appuyer sur ce graphe pour détecter des incohérences (absence ou multiplicité de numéro) et réfléchir aux corrections à apporter.
Des travaux récents en traitement d’images ont prouvé l’intérêt de méthodes basées sur le DL pour l’extraction de textes [Laumer et al. 2020] et de nombres manuscrits [Kusetogullari et al., 2020] sur des documents anciens.
Plusieurs jeux de données existent. MNIST (Modified National Institute of Standards and Technology) contenant des chiffres manuscrits et USPS (United-States Postal Service) qui regroupe des chiffres mais aussi des lettres et des mots se présentent sous forme d’images respectivement en noir et blanc et en niveaux de gris. ARDIS (ARkiv Digital Sweden) correspond à des chiffres écrits à la main issus de registres religieux suédois et DIDA, extension d’ARDIS, contient des chiffres manuscrits issus de documents historiques suédois. Ces deux derniers jeux de données sont sous forme d’images en couleurs et se rapprochent le plus de nos données.
Un stage de fin d’études a été mené au laboratoire GeF en 2021 et a permis de réaliser de premières expérimentations. Elles ont consisté en la génération d’un jeu de données reprenant des chiffres de ARDIS et la mise en œuvre d’un réseau adoptant une architecture Faster-RCNN. Les résultats obtenus sur nos données, bien qu’encourageants, sont perfectibles.
Profil du candidat :
Nous recherchons pour ce stage un·e candidat·e de niveau M2 ou dernière année d’école d’ingénieur avec une formation en géomatique et/ou en apprentissage automatique.
Formation et compétences requises :
Le ou la candidat·e idéal·e a une appétence pour la recherche et des bases en apprentissage profond. Sans être indispensable, un intérêt pour les données géographiques est un point positif pour ce stage. Une connaissance de la programmation avec Python est nécessaire. Une première expérience avec une bibliothèque d’apprentissage profond (TensorFlow ou PyTorch) est un plus.
Adresse d’emploi :
Le stage se déroulera au laboratoire GeF situé au Mans, avec des visites à prévoir au laboratoire CEDRIC à Paris.
Document attaché : 202110071605_2022-Stage_CEDRIC_GeF.pdf
Offre en lien avec l’Action/le Réseau : BigData4Astro/Doctorants
Laboratoire/Entreprise : Romea team, INRAE Clermont-Ferrand
Durée : 6 mois
Contact : zhongkai.zhang@inrae.fr
Date limite de publication : 2021-11-30
Contexte :
Mobile robot control can be achieved by either model-based or data-driven methods. Model-based methods have stability guarantee, but they need analytical models with a higher accuracy. It is usually difficult to obtain an accurate model for high-speed and off-road mobile robots because of the presence of sliding. Data-driven methods need a huge amount of data instead of an accurate model, but they lack of stability guarantee. It is natural to combine both methods for control design in order to get the advantages of each method. Existing hybrid methods
assume that the data is enough to predict the model, which is usually not guaranteed in real application. Therefore, the main objective of this master project is to investigate a methodology to combine data-driven model(Bayesian neural network) with model-based control(model predictive control) to achieve stable path following tasks, even if the amount of data is not enough to recover the robot model. Results aims at adapting an off-road mobile robot behaviour to the diversity of encountered situations in an agricultural context. The proposed trainee will take part of experiments conducted on different robot available at INRAE.
Sujet :
Hybrid Data-driven/Model-based Methods for Mobile Robot Control
Profil du candidat :
see the attached document
Formation et compétences requises :
Technical Skills: machine learning, control theory, robotics
Software: Python, C++, Pytorch, ROS
Language: English
Adresse d’emploi :
CLermont-Ferrand
Document attaché : 202111290803_Hybrid Data-driven and Model-based Methods for Mobile Robot Control.pdf
Offre en lien avec l’Action/le Réseau : BigData4Astro/Doctorants
Laboratoire/Entreprise : Romea team, INRAE Clermong-Ferrand
Durée : 6 mois
Contact : zhongkai.zhang@inrae.fr
Date limite de publication : 2021-11-30
Contexte :
The equipment of 3D Lidar sensor for mobile robot navigation
allows to obtain real-time point clouds. Compared with 2D RGB
image, 3D point cloud describes more information of the environment. However, object detection from 3D point cloud is more changing than their 2D counterpart, especially for disordered point cloud. Object detection using supervised learning methods needs a huge annotated data, and when the background changes, new labels should be annotated again. Generative Adversarial Networks (GAN) have been proposed to reduce the annotation task by human for 2D image segmentation. Although GANs have been adapted for 3D point cloud generation, it is not clear how to achieve unsupervised object detection from point cloud using GANs. Therefore, the main objective of this master project is to explore an efficient GAN architecture to detect object of interest from 3D point cloud, and employ it in agricultural fields for the detection of plants, roads and obstacles. Results aims at the representation of agricultural environment and the guidance of off-road mobile robot. The proposed trainee will take part of experiments using a 3D Lidar sensor available at INRAE.
Sujet :
Object Detection in Agricultural Fields using 3D LiDAR Point Cloud
Profil du candidat :
M2 in AI or Robotics
Formation et compétences requises :
M2 in AI or Robotics:
Technical Skills: deep learning, computer vision, robotics
Software: Python, C++, Pytorch, ROS
Language: English
Adresse d’emploi :
Clermont-Ferrand
Document attaché : 202111290755_Object Detection in Agricultural Fields using 3D LiDAR Point Cloud.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRIMAS, MSD team
Durée : 6 months
Contact : maxime.devanne@uha.fr
Date limite de publication : 2021-11-30
Contexte :
Human motion analysis is crucial for studying people and understanding howthey behave, communicate and interact with real world environments. Dueto the complex nature of body movements as well as the high cost of motioncapture systems, acquisition of human motion is not straightforward and thusconstraints data production. Hopefully, recent approaches estimating humanposes from videos offer new opportunities to analyze skeleton-based human mo-tion. While skeleton-based human motion analysis has been extensivelystudied for behavior understanding like action recognition, some efforts are yetto be done for the task of human motion generation. Particularly, the automaticgeneration of motion sequences is beneficial for rapidly increasing the amountof data and improving Deep Learning-based analysis algorithms.
Since several years, new image generation paradigms have been possiblethanks to the appearance of Generative Adversarial Networks (GAN) which have proved to be extremely efficient for many image generation tasks and hu-man posture estimation. Although these networks are very efficient, theirexplainability and control still remain challenging tasks. Differently, other gen-erative models have also emerged by considering the data distribution duringtraining like Variational AutoEncoder (VAE) and Flow-based networks.However, when it comes to human motion, many challenges remain to be solved,in particular when passing from the static case to the dynamic case. Firstwork addressing deep generative models for human motion have considered mo-tion capture (mocap) data allowing to accurately extract body parts positionsalong the time. Hence, aforementioned generative architectures have been suc-cessively employed for generating mocap-based human motion sequences. Differently, we consider noisy skeleton data estimated from videos as it iseasily applicable in real-world scenarios for the general public.
Sujet :
The goal of this internship is to provide guidelines in building deep genera-tive models for skeleton-based human motion sequences. Inspiring from recenteffective Deep Learning-based approaches, the aim is to gener-ate full skeleton-based motion sequences without access to successive poses asprior information as it can be done in prediction tasks. It is therefore crucialto investigate how deep generative models can handle such noisy and possiblyincomplete data in order to generate novel motion sequences as natural andvariable as possible
In particular, the candidate will work on the following tasks:
– Deep Learning architectures for skeleton-based human motion: investigation and assessment of the influence of different deep network ar- chitectures for capturing complex human motion features. Particularly, the goal of this task is to theoretically and empirically analyze the per- formance of existing architectures like CNN, RNN and GCN for modeling skeleton-based human motion.
– Deep generative models adapted to skeleton data: based on stud- ies from the previous task, the goal is to build generative models upon the previously identified meaningful spaces where skeleton sequences are represented. Therefore, the candidate will investigate different generative models, like GAN, VAE and Flow-based models, in order to propose and develop a complete Deep Learning model for generating skeleton-based human motions.
– Evaluation of deep generative models: in order to validate the pro- posed model, experimental evaluation is crucial. In comparison to motion recognition where classification accuracy is a natural way to assess an ap- proach, evaluating the task of motion generation is not as straightforward. Dedicated metrics evaluating both naturalness and diversity of generated sequences as well as the impact of new generated sequences in a classifi- cation task will be considered.
Profil du candidat :
The candidate must fit the following requirements:
– Registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science
– Advanced skills in Python programming are mandatory
– Good skills in Machine Learning & Deep Learning using related
libraries (scikit-learn, Tensorflow, Pytorch, etc.) are required
– Knowledge and/or a first experience in human motion analysis will be appreciated
Formation et compétences requises :
The candidate must fit the following requirements:
– Registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science
– Advanced skills in Python programming are mandatory
– Good skills in Machine Learning & Deep Learning using related
libraries (scikit-learn, Tensorflow, Pytorch, etc.) are required
– Knowledge and/or a first experience in human motion analysis will be appreciated
Adresse d’emploi :
The proposed internship will be carried out within the MSD (Modeling and Data Science) team from the IRIMAS Institute. It will be part of the ANR DELEGATION project 1 starting in 2022 for 4 years. Hence, there is a great opportunity to continue with a PhD in our team on the same topic/pro ject.
For further information or for applying, candidates should send a CV, aca- demic records, personal projects (e.g. github repo) and a motivation letter to maxime.devanne@uha.fr.
Document attaché : 202110121631_internship_position_delegation_2022-2.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire ERIC / CABOT Financial
Durée : 5 à 6 mois
Contact : adrien.guille@univ-lyon2.fr
Date limite de publication : 2021-11-30
Contexte :
Le stage se situe dans le contexte d’une collaboration entre le laboratoire ERIC et Cabot Financial France. Cabot Financial France est la filiale française du groupe Encore Capital, leader mondial du rachat de créances. Le métier de Cabot est de racheter des créances impayées aux banques pour tenter ensuite de les recouvrer. En rachetant aux banques leurs créances douteuses, Cabot sécurise les bilans de celles-ci et contribue ainsi au bon fonctionnement de l’économie. L’objectif des opérations de recouvrement est de joindre les débiteurs pour mettre en place un plan soutenable d’apurement de leurs dettes. Les plateaux d’appels de Cabot passent ainsi chaque semaine plusieurs milliers d’appels téléphoniques qui peuvent déboucher sur des engagements des débiteurs.
Sujet :
L’objectif du stage est de proposer une solution pour prédire si un engagement pris au cours d’une conversation téléphonique sera tenu ou non. Plus exactement, il s’agit d’une tâche de classification définie sur des données textuelles, les conversations étant restranscrites. La difficulté à résoudre cette tâche réside dans la nature conversationnelle de ces textes et la nécessité de modéliser explicitement les interlocuteurs et leurs prises de parole. On se propose d’étudier les avancées récentes en matière de réseaux de neurones profonds pour l’apprentissage à partir du texte, et d’explorer de nouvelles architectures plus expressive, e.g. hiérarchiques, adaptées à la nature des textes considérés.
Profil du candidat :
Master 2 / Dernier année d’école d’ingénieur
Formation et compétences requises :
Apprentissage automatique
Traitement automatique de la langue
Adresse d’emploi :
Lyon ou Paris
Document attaché : 202111291412_Offre de stage – Cabot.pdf
Offre en lien avec l’Action/le Réseau : MACLEAN/– — –
Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : dino.ienco@inrae.fr
Date limite de publication : 2021-11-30
Contexte :
Nowadays, a plethora of satellite missions continuously collects remotely sensed images of the Earth surface via various modalities (e.g. SAR or optical) and at different spatial and temporal scales. Therefore, the same study area can be effectively covered by rich, multi-faceted and diverse information. Such information is of paramount importance in order to monitor spatio-temporal phenomena and produce land cover map to support sustainable agriculture as well as public policy decisions. In the last years, the remote sensing research community is turning its attention towards the use of deep learning (DL) approaches to integrate complementary sensor acquisitions available on the same study area [1] with the aim to leverage as much as possible the interplay between input sources exhibiting different spectral as well as spatial content to ameliorate the underlying mapping result. Unfortunately, DL models require a considerable amount of data to be trained and, in real world scenarios, it is difficult to acquire enough ground truth information each time that a land cover map (on a specific study area) should be produced. In order to acquire ground truth data on a study area, time-consuming (3 or 4 months) and labour-intensive field campaigns are deployed (i.e. costs are related to travels to and from the study area for a team of 4 or 5 people at least, access to a particular study area, etc…).
While a certain amount of research studies were conducted on how combine multi-source remote sensing information for land cover maps in a standard supervised learning setting [2,3], limited efforts were devoted to understand how much the trained machine learning models are transferable from a time period to a successive one (on the same study area) in order to reduce the cost associated to the acquisition of new ground truth data [4].
The objective of this internship will be the study and development of a methodological framework, based on deep learning approaches (Convolutional Neural networks and/or Recurrent Neural network) to cope with the transferability (temporal transfer learning) of a multi-source land cover mapping model from a period of time to a successive period of time (i.e. from one year to another year) on the same study area. To this end, the internship student will inspect recent trends and methods in the field of Unsupervised Domain Adaptation [5] (UDA) exploiting state of the art techniques from computer vision and signal processing [6,7].
Environment: The UMR TETIS (joint research unit involving INRAE, CIRAD, AgropParisTech and CNRS – www.) is an interdisciplinary laboratory that groups together people with different backgrounds (agronomy, ecology, remote sensing, signal processing, data science). It has acquired a consolidated experience in the development of machine learning approaches (CNN, RNN, GraphCNN, Attention Mechanism) to deal with the high complexity of remote sensing data for many environmental and agricultural application studies: land cover mapping, biophysical variables estimations (i.e. soil moisture), yield prediction, biodiversity characterization, forest monitoring, etc.
[1] D. Hong, L. Gao, N. Yokoya, J. Yao, J. Chanussot, Q. Du, B. Zhang: More Diverse Means Better: Multimodal Deep Learning Meets Remote-Sensing Imagery Classification. IEEE Trans. Geosci. Remote. Sens. 59(5): 4340-4354 (2021).
[2] P. Benedetti, D. Ienco, R. Gaetano, K. Ose, R. G. Pensa, S. Dupuy: M3Fusion: A Deep Learning Architecture for Multiscale Multimodal Multitemporal Satellite Data Fusion. IEEE J. Sel. Top. Appl. Earth Obs. Remote. Sens. 11(12): 4939-4949 (2018).
[3] Y. J. E. Gbodjo, O. Montet, D. Ienco, R. Gaetano and S. Dupuy: Multi-sensor land cover classification with sparsely annotated data based on Convolutional Neural Networks and Self-Distillation. IEEE J. Sel. Top. Appl. Earth Obs. Remote. Sens. -(-): — (2021).
[4] B. Tardy, J. Inglada, J. Michel: Assessment of Optimal Transport for Operational Land-Cover Mapping Using High-Resolution Satellite Images Time Series without Reference Data of the Mapping Period. Remote. Sens. 11(9): 1047 (2019).
[5] S. Zhao, X. Yue, S. Zhang, B. Li, H. Zhao, B. Wu, R. Krishna, J. E. Gonzalez, A. L. Sangiovanni-Vincentelli, S. A. Seshia, K. Keutzer: A Review of Single-Source Deep Unsupervised Visual Domain Adaptation. CoRR abs/2009.00155 (2020).
[6] Y. Ganin, E. Ustinova, H. Ajakan, P. Germain, H. Larochelle, F. Laviolette, M. Marchand, V. S. Lempitsky: Domain-Adversarial Training of Neural Networks. J. Mach. Learn. Res. 17: 59:1-59:35 (2016)
[7] E. Tzeng, J. Hoffman, K. Saenko, T. Darrell: Adversarial Discriminative Domain Adaptation. CVPR 2017: 2962-2971
[8] H. Ismail Fawaz, G. Forestier, J. Weber, L. Idoumghar, P.-A. Muller: Deep learning for time series classification: a review. Data Min. Knowl. Discov. 33(4): 917-963 (2019)
Sujet :
The objective of this internship will be the study and development of a methodological framework, based on deep learning approaches (Convolutional Neural networks and/or Recurrent Neural network) to cope with the transferability (temporal transfer learning) of a multi-source land cover mapping model from a period of time to a successive period of time (i.e. from one year to another year) on the same study area. To this end, the internship student will inspect recent trends and methods in the field of Unsupervised Domain Adaptation [5] (UDA) exploiting state of the art techniques from computer vision and signal processing [6,7].
The internship student will work in a tight connection with a team of research scientists (INRAE/CIRAD Researchers and a PhD student) in the general field of Unsupervised Domain Adaptation [5], multi-source remote sensing data [1,2,3] and multi-variate time series analysis [8]. The missions of the internship will be the follow:
– A detailed bibliography study about recent trends in multi-modal/source Unsupervised Domain Adaptation;
– Multi-source/Multi-modal image (Remote Sensing) data preprocessing to organize the data for the subsequent machine learning analysis;
– Study, design and development of a deep learning framework for multi-modal Unsupervised Domain Adaptation;
– Experimental evaluation of the proposed framework w.r.t. competing methods (implementation of the competing approaches or using available code on repository);
– Quantitative as well as qualitative analysis of the obtained results in order to identify the strong/weak points of the proposed framework;
– Release of the produced code on open-source platforms (i.e. github, gitlab, etc…) with the associated employed data.
[1] D. Hong, L. Gao, N. Yokoya, J. Yao, J. Chanussot, Q. Du, B. Zhang: More Diverse Means Better: Multimodal Deep Learning Meets Remote-Sensing Imagery Classification. IEEE Trans. Geosci. Remote. Sens. 59(5): 4340-4354 (2021).
[2] P. Benedetti, D. Ienco, R. Gaetano, K. Ose, R. G. Pensa, S. Dupuy: M3Fusion: A Deep Learning Architecture for Multiscale Multimodal Multitemporal Satellite Data Fusion. IEEE J. Sel. Top. Appl. Earth Obs. Remote. Sens. 11(12): 4939-4949 (2018).
[3] Y. J. E. Gbodjo, O. Montet, D. Ienco, R. Gaetano and S. Dupuy: Multi-sensor land cover classification with sparsely annotated data based on Convolutional Neural Networks and Self-Distillation. IEEE J. Sel. Top. Appl. Earth Obs. Remote. Sens. -(-): — (2021).
[4] B. Tardy, J. Inglada, J. Michel: Assessment of Optimal Transport for Operational Land-Cover Mapping Using High-Resolution Satellite Images Time Series without Reference Data of the Mapping Period. Remote. Sens. 11(9): 1047 (2019).
[5] S. Zhao, X. Yue, S. Zhang, B. Li, H. Zhao, B. Wu, R. Krishna, J. E. Gonzalez, A. L. Sangiovanni-Vincentelli, S. A. Seshia, K. Keutzer: A Review of Single-Source Deep Unsupervised Visual Domain Adaptation. CoRR abs/2009.00155 (2020).
[6] Y. Ganin, E. Ustinova, H. Ajakan, P. Germain, H. Larochelle, F. Laviolette, M. Marchand, V. S. Lempitsky: Domain-Adversarial Training of Neural Networks. J. Mach. Learn. Res. 17: 59:1-59:35 (2016)
[7] E. Tzeng, J. Hoffman, K. Saenko, T. Darrell: Adversarial Discriminative Domain Adaptation. CVPR 2017: 2962-2971
[8] H. Ismail Fawaz, G. Forestier, J. Weber, L. Idoumghar, P.-A. Muller: Deep learning for time series classification: a review. Data Min. Knowl. Discov. 33(4): 917-963 (2019)
Profil du candidat :
The ideal candidate is a student at Master 2 level or coming from an engineering school (still at the last year of attendance) with a good background in signal processing/image processing, machine learning and good programming skills in python (numpy, pandas, scikit-image, scikit-learn). A first experience with a deep learning library (PyTorch or Tensorflow) is a plus.
Formation et compétences requises :
The ideal candidate is a student at Master 2 level or coming from an engineering school (still at the last year of attendance) with a good background in signal processing/image processing, machine learning and good programming skills in python (numpy, pandas, scikit-image, scikit-learn). A first experience with a deep learning library (PyTorch or Tensorflow) is a plus.
Adresse d’emploi :
500, Rue Jean François Breton, 34093 Montpellier
Offre en lien avec l’Action/le Réseau : MACLEAN/– — –
Laboratoire/Entreprise : PACTE
Durée : 6
Contact : pauline.dusseux@univ-grenoble-alpes.fr
Date limite de publication : 2021-12-03
Contexte :
Dans le cadre des travaux menés au sein du programme Alpages sentinelles, plusieurs actions sont conduites pour mieux caractériser, quantifier et qualifier les végétations pastorales d’alpage, et raisonner ainsi les modalités de leur mobilisation par les systèmes pastoraux dans un contexte d’aléas climatiques croissants :
– Définition d’une typologie et élaboration d’un référentiel des végétations pastorales d’alpage, intégrant leur fonctionnalité pastorale et leur sensibilité aux contraintes climatiques.
– Définition d’une méthodologie d’analyse de la vulnérabilité d’un alpage au changement climatique, intégrant sa sensibilité au regard des végétations qui le composent.
– Étude des variations interannuelles de productivité des différents types de pelouses d’alpage.
Ces travaux s’appuient sur l’acquisition de données de terrain selon des protocoles nécessitant actuellement des moyens humains et financiers importants.
Dans ce cadre, les partenaires du programme Alpages Sentinelles s’interrogent sur les apports possibles d’une approche de la végétation d’alpage par télédétection :
La télédétection peut-elle permettre d’identifier et de cartographier des types de milieux pastoraux, au regard d’une typologie fonctionnelle préétablie au sein du programme « Alpages sentinelles » ?
La télédétection peut-elle permettre de suivre les dynamiques temporelles de ces milieux pastoraux : variations interannuelles de productivité, évolution de long terme ?
Sujet :
Le sujet de stage proposé s’intéresse à la contribution possible de la télédétection à la caractérisation et au suivi de la productivité des milieux pastoraux avec un objectif méthodologique fort portant sur les outils de classification et de régression à mobiliser pour traiter des séries temporelles de données de télédétection ainsi que les indices qui en sont dérivés. Les techniques qui seront adoptées pour cela seront issus du domaine de l’apprentissage automatique ainsi que de l’apprentissage profond (deep learning).
Ces informations contribueront à développer les applications opérationnelles attendues à terme pour le programme Alpages sentinelles, notamment pour faire évoluer les méthodes actuelles d’acquisition de certaines données et monter en puissance en termes de dispositif, notamment pour les suivis annuels de biomasse (mesures de hauteurs de végétation sur le terrain pour le moment).
Profil du candidat :
Master : Télédétection / Géomatique / Informatique
Les compétences attendues sont les suivantes :
– Connaissances fortes en programmation (Python)
– Connaissances en télédétection optique et en traitement d’image (GDAL, OTB)
– Connaissances en statistiques
– Maîtrise de l’anglais scientifique
– Des connaissances sur les milieux pastoraux seraient un plus
– Des connaissances sur des librairies Python comme Keras, Tensorflow ou Pytorch
seraient un plus
Formation et compétences requises :
Master : Télédétection / Géomatique / Informatique
Les compétences attendues sont les suivantes :
– Connaissances fortes en programmation (Python)
– Connaissances en télédétection optique et en traitement d’image (GDAL, OTB)
– Connaissances en statistiques
– Maîtrise de l’anglais scientifique
– Des connaissances sur les milieux pastoraux seraient un plus
– Des connaissances sur des librairies Python comme Keras, Tensorflow ou Pytorch
seraient un plus
Adresse d’emploi :
Sciences Po Grenoble
Pacte/IEP – BP 48 – 38040 Grenoble cedex 9
Document attaché : 202112011726_2022_Sujet stage M2 Télédétection Alpages Sentinelles.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRIT/Université Toulouse III
Durée : 5-6 mois
Contact : mokadem@irit.fr
Date limite de publication : 2021-12-05
Contexte :
Conception et implémentation d’une stratégie de réplication de données basée sur l’apprentissage par renforcement dans les systèmes Cloud
La popularité croissante des services et applications interconnectés (par exemple Internet des objets et les réseaux sociaux) ont conduit à la génération de gros volumes de données. Un des défis pour les applications est de pouvoir stocker et analyser ces données hétérogènes et réparties avec des coûts raisonnables d’infrastructure. Dans ce contexte, l’approche «Cloud Computing» permet de réduire considérablement ces coûts, soit en se basant sur des serveurs composés de machines à bas prix (Clouds privés), soit en louant des services auprès de fournisseurs Cloud suivant le modèle « pay-as-you-go » (Clouds publics). Pour les applications analysant ces données, les problèmes d’accès et de disponibilité de données sont très importants. Une technique bien connue pour traiter ces problèmes est la réplication de données qui consiste à stocker plusieurs copies de données, appelées répliques, sur plusieurs sites. Elle vise à : (i) augmenter la disponibilité des données, (ii) réduire la consommation de la bande passante et (iii) gérer efficacement la tolérance aux pannes [1]. De nombreuses stratégies de réplication de données ont été proposées dans les environnements cloud. Elles visent à obtenir les meilleures performances du système tout en satisfaisant un contrat de niveau de service (SLA), établi entre un fournisseur de cloud et ses locataires, i.e., les consommateurs. Principalement, un SLA comprend des objectifs de niveau de service (SLO) du locataire, par exemple, la disponibilité et la performance, qui doivent être satisfaits par le fournisseur. D’un autre coté, le fournisseur Cloud vise à maximiser son profit économique [2]. Il est alors important d’ajuster le nombre de répliques de manière dynamique afin de prendre en compte la rentabilité du fournisseur.
Afin d’assurer le dimensionnement automatique des ressources, de nombreux fournisseurs de Cloud se basent sur la réplication de données basée sur des seuils à cause de sa nature intuitive. A titre d’exemple, un seuil de temps de réponse, intégré dans le SLA, est préalablement négocié entre le fournisseur et ses locataires. Dans ce contexte, certains travaux se basent sur l’observation des valeurs de métriques afin de les comparer par la suite à des seuils fixés d’avance [1]. D’autres travaux [3] combinent l’approche des seuils avec la théorie de contrôle permettant l’obtention de seuils dynamiques en se basant sur une modélisation mathématique de la charge de travail. Enfin, certains travaux se basent sur la prédiction des valeurs de métriques tels que le score de réplication par intervalle [4] ou encore la charge de travail [5] afin de les comparer à des seuils prédéfinis. Cette prédiction s’appuie sur l’utilisation de techniques telles que les séries chronologiques ou encore sur l’exploitation du journal de requêtes afin de prédire les périodes à forte charge de travail et les données qui seront les plus populaires dans le futur [6]. En conséquence, des ressources peuvent être allouées à l’avance, par exemple la création de nouvelles répliques. Cependant, le choix des métriques à considérer et la fixation de seuils de manière efficace nécessite une intervention humaine afin de fixer le seuil pour chaque métrique et une connaissance approfondie des tendances actuelles de la charge de travail, ce qui n’est pas facile à réaliser.
Sujet :
Afin d’éviter l’intervention humaine lors de la définition des seuils, nous pourrons considérer une réplication de données basée sur l’apprentissage par renforcement [7]. Dans les algorithmes d’apprentissage par renforcement tel que le Q-learning, un agent autonome dispose d’un certain nombre d’actions possibles permettant le changement de l’état d’un environnement. Il reçoit alors une récompense (ou une pénalité) pour chacune de ses actions. Ensuite, cet agent doit mémoriser la séquence des actions qui maximise sa récompense totale. Néanmoins, cette approche nécessite une période d’apprentissage.
Seuls quelques travaux de dimensionnement automatique basés sur l’apprentissage par renforcement dans le Cloud sont dédiés à l’interrogation de bases de données relationnelles. La plupart se sont intéressé aux systèmes NoSQL [8]. Les méthodes existantes doivent alors être adaptées au contexte des bases de données relationnelles avec notamment, la prise en compte de nombreuses tâches dépendantes et des relations intermédiaires qui peuvent être stockées sur le disque.
L’objectif de ce stage est la conception d’une stratégie de réplication de données efficace basée sur l’apprentissage par renforcement. La stratégie proposée pourra s’appuyer sur un agent informatique qui pourra mémoriser certaines actions lui permettant de privilégier la création rentable (pour le fournisseur) d’une réplique d’une relation, tout en satisfaisant les objectifs des locataires. Il est donc important de proposer, puis d’implémenter via simulation [9], une stratégie de réplication permettant de répondre aux problématiques classiques telles que : (i) quelles données répliquer ? (ii) quand répliquer ces données ? (iii) où répliquer ces données mais aussi à des problématiques spécifiques aux environnements Cloud tels que (iv) déterminer le nombre de répliques nécessaires afin de satisfaire simultanément les objectifs du locataire, i.e., objectifs SLO, avec un profit économique pour le fournisseur de Cloud.
3. Mots clés
Gestion de données, Systèmes Cloud, Réplication de données, Apprentissage par renforcement, Modèle de coûts, Modèle économique, Performances.
4. Bibliographie
[1]. R. Mokadem, A. Hameurlain. A Data Replication Strategy with Tenant Performance and Provider Economic Profit Guarantees in Cloud Data Centers. Journal of Systems and Software (JSS), Elsevier, V. 159, (2020).
[2] Armbrust, M., Stoica, I., Zaharia, M., Fox, A., Grifh, R., Joseph, A.D., Katz, R., Konwinski, A., Lee, G., Patterson, D., Rabkin. A.: A view of cloud computing. Communications of the ACM. V. 53(4). pp. 50-58, (2010)
[3] H. Ghanbari, B. Simmons, M. Litoiu, G. Iszlai. Exploring alternative approaches to implement an elasticity policy. IEEE Int. Conf. on Cloud Computing (CLOUD), pp. 716–723. (2011)
[4] Li, C., Wang, Y., Chen, Y., and Luo, Y. Energy efficient fault-tolerant replica management policy with deadline and budget constraints in edge-cloud environment. Journal of Network and Computer Applications, V. 143 : pp. 152–166, (2019)
[5] Hsu, T.-Y. and Kshemkalyani, A. D. A Proactive, Cost-aware, Optimized Data Replication Strategy in Geodistributed Cloud Datastores. In Proceedings of the 12th IEEE/ACM International Conference on Utility and Cloud Computing, UCC’19, pp. 143–153, New York, NY, USA (2019)
[6] Liu, J., Shen, H., Narman, H. S., Lin, Z., and Li, Z. Popularity-aware Multi-failure Resilient and Cost-effective Replication for High Data Durability in Cloud Storage. IEEE Transactions on Parallel and Distributed Systems, V. 30 (10), pp. 2355-2369, (2018).
[7] L. Ferreira, F. Coelho, J. Pereira. Self-tunable DBMS Replication with Reinforcement Learning. Remke A., Schiavoni V. (eds) Distributed Applications and Interoperable Systems. DAIS 2020. Lecture Notes in Computer Science, V. 12135. Springer, Cham, pp. 131-145, (2020)
[8] A. Naskos, A. Gounaris, I. Konstantinou. Elton: a cloud resource scaling-out manager for nosql databases. 34th IEEE Int. Conf. on Data Engineering (ICDE), IEEE, pp.1641–1644. (2018)
[9] R.N. Calheiros, R. Ranjan, A. Beloglazov, C.A.F. De Rose, R. Buyya. CloudSim: A Toolkit for Modeling and Simulation of Cloud Computing Environments and Evaluation of Resource Provisioning Algorithms. Software: Practice and Experience. V. 41, N. 1, pp. 23-50. (2010)
Profil du candidat :
M2
Formation et compétences requises :
Connaissances en Bases de données
Programmation
Adresse d’emploi :
113 route de Narbonne, Université Paul Sabatier Toulouse 3, Toulouse
Document attaché : 202111221311_Proposition Stage_CIMI_Nov_2021.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : LIFO (Laboratoire d’Informatique Fondamentale d’
Durée : 4-6 mois
Contact : mirian@univ-orleans.fr
Date limite de publication : 2021-12-10
Contexte :
Stage dans le cadre de l’action DOING (Données Intelligentes) du GDR MADICS
Sujet :
Le but de cet stage serait de proposer une adaptation de la politique de mise à jour présentée dans [1] aux graphes d’attributs.
[1] Jacques Chabin, Mírian Halfeld Ferrari, Dominique Laurent: Consistent updating of databases with marked nulls. Knowl. Inf. Syst. 62(4): 1571-1609 (2020)
Profil du candidat :
L’ étudiant doit être intéressé par l’approfondissement de ses connaissances dans le domaine de bases de données. Niveau master
Encadrantes :
Mirian Halfeld Ferrari (LIFO, Orléans), mirian@univ-orleans.fr
Jacques Chabin (LIFO, Orléans), jacques.chabin@univ-orleans.fr
Formation et compétences requises :
Connaissances en bases de données
Bonnes bases théoriques
Adresse d’emploi :
Nous souhaitons que le stagiaire soit physiquement au LIFO, même si des périodes de télétravail peuvent être envisagées/ programmées.
Document attaché : 202111222249_UpdateGraph.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2021-12-15
Contexte :
La terre est une ressource rare et son épuisement est lié à une combinaison de facteurs démographiques et économiques. Ainsi, les changements d’habitudes alimentaires et l’augmentation de la population mondiale, qui entraînent une hausse de la demande alimentaire, s’inscrivent dans un contexte d’augmentation des prix du pétrole et de montée du capitalisme vert qui, à son tour, a un impact sur la demande de biocarburants. Un indicateur visible de ces phénomènes est l’augmentation, ces dernières années, des acquisitions de terres à grande échelle (ATGEs) par des entreprises privées ou des États. Ces investissements fonciers entraînent souvent des conflits avec la population locale et soulèvent des questions concernant les droits des personnes, le rôle des différents modèles de production et la gouvernance foncière. Pour un pays donné, les sources de données officielles et non officielles (par exemple, les évaluations réalisées par des ONG) peuvent souvent être incohérentes, et aucune d’entre elles ne peut constituer une représentation exacte de la situation réelle. Le Land Matrix Initiative collecte des données sur les ATGEs depuis 2009, qui constituent une base de données qui peut être considérée comme la plus complète sur les ATGE. Elle est gérée par un consortium de partenaires de recherche et de développement.
Sujet :
Des travaux de recherche récemment réalisés au CIRAD [1], basés sur l’utilisation des techniques d’analyse de réseaux complexes, ont montré comme des relations complexes existent entre les pays du monde, liées aux investissement fonciers dans différents secteurs (agriculture, minier, biocarburants, etc.). Néanmoins, dans la majorité des cas, il peut être difficile d’associer les investisseurs impliqués dans une transaction donnée à un pays spécifique, car les informations sur la propriété des entreprises privées et des fonds d’investissement sont souvent manquantes ou incomplètes. L’objectif de ce stage est d’étudier de façon approfondi le réseaux d’investisseur derrière les contrats d’acquisition foncière à large échelle. Plus spécifiquement, l’objectif primaire est d’effectuer un matching entre les investisseurs répertoriés dans Land Matrix, et des données de tiers provenant de bases de données spécifiques sur la propriété des entreprises privées et des fonds d’investissement (p.ex., relations hiérarchiques “qui possède qui”). Ensuite, ces informations pourront être modélisés dans des réseaux complexes et hétérogènes (p.ex., incluant informations sur les relations entre investisseurs, pays cibles, secteurs d’investissement, etc.) qui pourront être étudiés avec de techniques état de l’art pour l’analyse et l’extraction d’information à partir de ces objets (p.ex., méthodes de classement, centralité, clustering) [2,3].
Produits / résultats / attendus :
– Contribuer aux réseaux d’investisseurs à télécharger sur la Land Matrix, afin de les rendre plus transparents et visibles
– Contribuer à l’écriture d’un papier scientifique sur les résultats obtenus
[1] Interdonato R., Bourgoin J., Grislain Q., Zignani M., Gaito S., Giger M. 2020. The parable of arable land: Characterizing large scale land acquisitions through network analysis. PLOS One, 15 (10) : 31 p.
[2] Interdonato R., Magnani M., Perna D., Tagarelli A., Vega D. 2020. Multilayer network simplification: Approaches, models and methods. Computer Science Review, 36 : 20 p.
[3] Magnani M., Hanteer O., Interdonato R., Rossi L., Tagarelli A. 2021. Community detection in multiplex networks. ACM Computing Surveys, 5 (3) : 35 p.
Profil du candidat :
L’étudiant(e) sera spécialisé(e) dans la fouille des donnés, et plus spécifiquement dans l’analyse des réseaux complexes et fouille de graphes.
Il/elle devra être à l’aise en programmation, préférablement avec le langage Python. Il/elle devra apprécier la découverte et l’exploration méthodologique, la démarche scientifique, et fera preuve d’un bon esprit d’analyse critique.
Un bon sens du travail en équipe est fortement souhaité, ainsi que le goût pour les collaborations interdisciplinaires. Une bonne culture dans le domaine thématique de l’agriculture en milieu tropicale sera appréciée.
Formation et compétences requises :
L’étudiant(e) sera spécialisé(e) dans la fouille des donnés, et plus spécifiquement dans l’analyse des réseaux complexes et fouille de graphes.
Il/elle devra être à l’aise en programmation, préférablement avec le langage Python.
Adresse d’emploi :
500, rue Jen François Breton, 34000, Montpellier
Document attaché : 202110191240_Stage M2 Land Matrix 2022.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : LIFO
Durée : 4-6 mois
Contact : mirian@univ-orleans.fr
Date limite de publication : 2021-12-16
Contexte :
Dans le contexte de l’action DOING.
Sujet :
Ce stage a comme objectif la proposition d’une méthode semi-automatique pour traiter les questions des experts du domaine de la santé pour dériver des templates de requêtes science des données qui fournissent des réponses à ces questions.
Profil du candidat :
Niveau master
Formation et compétences requises :
Bonne notions de bases de données , théorie de langange, Intelligence artificielle
Adresse d’emploi :
LIFO
Document attaché : 202111301154_DSqueries-GetInfo.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : LIFO (Laboratoire d’Informatique Fondamentale d’
Durée : 4-6 mois
Contact : mirian@univ-orleans.fr
Date limite de publication : 2021-12-16
Contexte :
Stage proposé dans le cadre de l’action DOING.
Sujet :
Le stage a comme objectif l’étude de la conception d’un système d’interrogation capable d’offrir à ses utilisateurs des requêtes d’analyse prescriptive (Prescriptive Analytics en anglais)
Profil du candidat :
Niveau master
Formation et compétences requises :
De bonnes notions en bases de données et intelligence artificielle
Adresse d’emploi :
LIFO
Document attaché : 202111301150_DSqueries.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2021-12-31
Contexte :
Ce projet s’inscrit dans la thématique générale de la sécurité alimentaire en Afrique de l’Ouest considérée comme l’un des enjeux majeurs de développement de la région.
Aujourd’hui, de plus en plus de données issues de missions satellitaires sont disponibles. La possibilité d’acquérir plusieurs images satellitaires sur la même zone pendant le temps nous permet de générer des séries temporelles d’image satellitaires grâce auxquelles un suivi de la dynamique du développement des cultures sur une ou plusieurs années est aujourd’hui possible. Par exemple, la mission spatiale Sentinel, à travers les satellites Sentinel-1(a/b) et Sentinel-2(a/b), permet de produire des séries d’image satellitaire radar et optique à très haute résolution temporelle (chaque 5 jours) avec une résolution spatiale à 10 mètres. D’autres séries temporelles comme la température de brillance, les précipitations et les prix des céréales sont disponibles.
Des indicateurs dérivés d’enquêtes ménagères permettent aujourd’hui de mesurer la sécurité alimentaire, mais ils sont particulièrement difficiles à mettre en place dans les zones de conflit où les enquêtes ne peuvent se dérouler normalement.
Le développement de méthodes permettant de tirer parti de ces différentes sources d’information hétérogènes et d‘ordre temporelles reste encore un défi ouvert.
Sujet :
L’objectif de ce stage est de mettre en place et de réaliser un benchmark des méthodes permettant de traiter les informations temporelles multi sources afin d’estimer les indicateurs de sécurité alimentaire. Un focus sera mis sur des méthodes de machine/deep learning permettant d’estimer ces indicateurs de sécurité alimentaire dans les zones à risques et donc uniquement avec les données accessibles dans ces zones. Des méthodes de réseaux de neurones comme RNN, LSTM seront premièrement étudiées dans ce travail.
Profil du candidat :
Durée de 6 mois, à partir de février 2022
• Rigueur scientifique
• Curiosité et ouverture d’esprit
• Capacité d’analyse rédactionnelle et de synthèse
Formation et compétences requises :
• Connaissance/goût pour la programmation (une expérience en Python est requise)
• Intérêt pour l’agronomie/ science environnementale
Adresse d’emploi :
Le stage se déroulera au CIRAD, dans l’UMR TETIS (Territoire, Environnement, Télédétection et Information Spatiale), située dans les locaux de la Maison de la Télédétection à Montpellier, 500 Rue Jean François Breton.
Document attaché : 202111020841_Stage-M2.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : UMR AGAP, CIRAD
Durée : 6 mois
Contact : frederic.boudon@cirad.fr
Date limite de publication : 2021-12-31
Contexte :
La disponibilité de nouvelles technologies modifie profondément l’agriculture moderne et permet d’envisager des solutions innovantes aux problèmes posés par le réchauffement climatique. La télédétection, couplée au traitement de données par deep learning, ont un potentiel important pour aider à la caractérisation de variétés végétales et la sélection des plus résilientes. Dans ce contexte, le projet FRUITFLOW s’intéresse à comprendre les mécanismes de floraison chez deux espèces fruitières de grande importance économique : le pommier et le pêcher. Une des ambitions de ce projet est de développer une approche de deep learning pour prédire les dates de floraison chez le pommier, à l’aide d’images aériennes (dans le spectre du visible au proche infra-rouge), acquises par drone à des intervalles de temps réguliers.
Des premières études ont montré l’intérêt de solutions basées sur du deep learning pour la détection et le comptage des fleurs pour les cultures annuelles telles que le blé, le maïs, le sorgho, le riz et le coton. A partir de ces analyses, des méthodes d’estimations des dates de mise en place des épis (Desai et al. 2019, Zhao et al. 2021) ont été proposées. Ces solutions sont basées sur des approches de type réseaux CNN. En partant de ces travaux, nous souhaitons proposer un réseau qui permettra de prédire la date de floraison d’une collection de pommiers contenant de nombreuses variétés. L’originalité de notre approche est de considérer des plantes pérennes dont la floraison est en partie déterminée l’année précédente.
Le stage portera sur une population de diversité de pommiers, implantée en 2014 sur la station expérimentale INRAe Diascope (Mauguio). A différentes périodes de l’année 2021 (printemps et automne), des collectes d’images RVB et multi-spectrales ont été acquises sur le verger, grâce à des capteurs embarqués par drone, pour caractériser différentes phases du développement des arbres tel que la sénescence (changement de couleur puis chute des feuilles). Parallèlement à ces acquisitions, des notations expertes ont été réalisées sur les arbres à la floraison et à la sénescence. Au printemps 2022, des relevés des dates de floraison et de l’évolution de la phénologie seront réalisés.
Sujet :
L’objectif du stage est de développer un pipeline automatisé capable de prédire les dates de floraison à partir des images acquises en 2021 et des relevés du printemps. Les missions qui seront confiées au stagiaire seront :
Préparation des données sous forme d’ortho-mosaïques
Mise en place de méthodes de normalisation
Génération d’une base de données de patchs représentant chaque arbres en utilisant des information GPS
Développement et entraînement d’un réseau de neurones type CNN pour la prédiction des dates de floraison
Étude de sensibilité du modèle développé au nombre et type de dates d’acquisition considérées, au nombre et type de canaux RVB et multi-spectraux considérés.
Test sur des bases de données externes (pêchers en Espagne) des résultats de prédiction.
Pour réaliser ce travail l’étudiant.e disposera de jeux de données images (jeux de données d’images RVB et jeux de données d’images multi-spectrales acquises sur la saison 2021), des coordonnées des centres des arbres de la parcelle, des dates de floraison des arbres au printemps 2021 et celle de 2022 (acquisition au printemps 2022 par I. Farrera) et des données climatiques collectées sur la station expérimentale.
Profil du candidat :
Etudiant en master en science des données ou informatique
Formation et compétences requises :
– Connaissances en informatique : Machine Learning, Deep Learning, réseaux de neurones.
– Connaissances en mathématiques et en statistiques : méthodes de normalisation, etc.
– Compétences opérationnelles : bonnes capacités de codage (Python), des connaissances sur les frameworks d’apprentissage profond (Keras, Tensorflow, Py Torch, …), connaissance de Fiji
– Langues : français et/ou anglais courant
– Autonomie
– Curiosité pour la biologie;
Adresse d’emploi :
UMR AGAP, Avenue Agropolis, 34398 Montpellier
Document attaché : 202110060954_proposition imagerie-ML_2022.pdf
