MaDICS

Huitième édition du Symposium MaDICS

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Une Session Poster sera spécialement consacrée aux jeunes chercheuses et jeunes chercheurs souhaitant présenter leurs travaux en analyse et gestion de données et dans les domaines interdisciplinaires autour de la Science des Données. Cette session sera également l’occasion d’échanger avec des collègues académiques et des acteurs industriels sur les thématiques de recherche présentées.

Dates importantes :

Soumission de posters : au plus tard le 23 mars 2026
Retour : 9 avril 2026

Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…

Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.

Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus…
Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus…
Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus…
Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…

Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS

INRAE

Nov 30 – Dec 1 all-day

Offre en lien avec l’Action/le Réseau : BigData4Astro/Doctorants

Laboratoire/Entreprise : Romea team, INRAE Clermong-Ferrand
Durée : 6 mois
Contact : zhongkai.zhang@inrae.fr
Date limite de publication : 2021-11-30

Contexte :
The equipment of 3D Lidar sensor for mobile robot navigation
allows to obtain real-time point clouds. Compared with 2D RGB
image, 3D point cloud describes more information of the environment. However, object detection from 3D point cloud is more changing than their 2D counterpart, especially for disordered point cloud. Object detection using supervised learning methods needs a huge annotated data, and when the background changes, new labels should be annotated again. Generative Adversarial Networks (GAN) have been proposed to reduce the annotation task by human for 2D image segmentation. Although GANs have been adapted for 3D point cloud generation, it is not clear how to achieve unsupervised object detection from point cloud using GANs. Therefore, the main objective of this master project is to explore an efficient GAN architecture to detect object of interest from 3D point cloud, and employ it in agricultural fields for the detection of plants, roads and obstacles. Results aims at the representation of agricultural environment and the guidance of off-road mobile robot. The proposed trainee will take part of experiments using a 3D Lidar sensor available at INRAE.

Sujet :
Object Detection in Agricultural Fields using 3D LiDAR Point Cloud

Profil du candidat :
M2 in AI or Robotics

Formation et compétences requises :
M2 in AI or Robotics:

Technical Skills: deep learning, computer vision, robotics
Software: Python, C++, Pytorch, ROS
Language: English

Adresse d’emploi :
Clermont-Ferrand

Document attaché : 202111290755_Object Detection in Agricultural Fields using 3D LiDAR Point Cloud.pdf

Categories: Stages

Master Internship Position: Deep Learning architectures for generating skeleton-based human motion

Tickets

Nov 30 – Dec 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIMAS, MSD team
Durée : 6 months
Contact : maxime.devanne@uha.fr
Date limite de publication : 2021-11-30

Contexte :
Human motion analysis is crucial for studying people and understanding howthey behave, communicate and interact with real world environments. Dueto the complex nature of body movements as well as the high cost of motioncapture systems, acquisition of human motion is not straightforward and thusconstraints data production. Hopefully, recent approaches estimating humanposes from videos offer new opportunities to analyze skeleton-based human mo-tion. While skeleton-based human motion analysis has been extensivelystudied for behavior understanding like action recognition, some efforts are yetto be done for the task of human motion generation. Particularly, the automaticgeneration of motion sequences is beneficial for rapidly increasing the amountof data and improving Deep Learning-based analysis algorithms.
Since several years, new image generation paradigms have been possiblethanks to the appearance of Generative Adversarial Networks (GAN) which have proved to be extremely efficient for many image generation tasks and hu-man posture estimation. Although these networks are very efficient, theirexplainability and control still remain challenging tasks. Differently, other gen-erative models have also emerged by considering the data distribution duringtraining like Variational AutoEncoder (VAE) and Flow-based networks.However, when it comes to human motion, many challenges remain to be solved,in particular when passing from the static case to the dynamic case. Firstwork addressing deep generative models for human motion have considered mo-tion capture (mocap) data allowing to accurately extract body parts positionsalong the time. Hence, aforementioned generative architectures have been suc-cessively employed for generating mocap-based human motion sequences. Differently, we consider noisy skeleton data estimated from videos as it iseasily applicable in real-world scenarios for the general public.

Sujet :
The goal of this internship is to provide guidelines in building deep genera-tive models for skeleton-based human motion sequences. Inspiring from recenteffective Deep Learning-based approaches, the aim is to gener-ate full skeleton-based motion sequences without access to successive poses asprior information as it can be done in prediction tasks. It is therefore crucialto investigate how deep generative models can handle such noisy and possiblyincomplete data in order to generate novel motion sequences as natural andvariable as possible

In particular, the candidate will work on the following tasks:
– Deep Learning architectures for skeleton-based human motion: investigation and assessment of the influence of different deep network ar- chitectures for capturing complex human motion features. Particularly, the goal of this task is to theoretically and empirically analyze the per- formance of existing architectures like CNN, RNN and GCN for modeling skeleton-based human motion.
– Deep generative models adapted to skeleton data: based on stud- ies from the previous task, the goal is to build generative models upon the previously identified meaningful spaces where skeleton sequences are represented. Therefore, the candidate will investigate different generative models, like GAN, VAE and Flow-based models, in order to propose and develop a complete Deep Learning model for generating skeleton-based human motions.
– Evaluation of deep generative models: in order to validate the pro- posed model, experimental evaluation is crucial. In comparison to motion recognition where classification accuracy is a natural way to assess an ap- proach, evaluating the task of motion generation is not as straightforward. Dedicated metrics evaluating both naturalness and diversity of generated sequences as well as the impact of new generated sequences in a classifi- cation task will be considered.

Profil du candidat :
The candidate must fit the following requirements:
– Registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science
– Advanced skills in Python programming are mandatory
– Good skills in Machine Learning & Deep Learning using related
libraries (scikit-learn, Tensorflow, Pytorch, etc.) are required
– Knowledge and/or a first experience in human motion analysis will be appreciated

Formation et compétences requises :
The candidate must fit the following requirements:
– Registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science
– Advanced skills in Python programming are mandatory
– Good skills in Machine Learning & Deep Learning using related
libraries (scikit-learn, Tensorflow, Pytorch, etc.) are required
– Knowledge and/or a first experience in human motion analysis will be appreciated

Adresse d’emploi :
The proposed internship will be carried out within the MSD (Modeling and Data Science) team from the IRIMAS Institute. It will be part of the ANR DELEGATION project 1 starting in 2022 for 4 years. Hence, there is a great opportunity to continue with a PhD in our team on the same topic/pro ject.
For further information or for applying, candidates should send a CV, aca- demic records, personal projects (e.g. github repo) and a motivation letter to maxime.devanne@uha.fr.

Document attaché : 202110121631_internship_position_delegation_2022-2.pdf

Categories: Stages

Réseaux de neurones profonds pour l’analyse de conversations

Tickets

Nov 30 – Dec 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ERIC / CABOT Financial
Durée : 5 à 6 mois
Contact : adrien.guille@univ-lyon2.fr
Date limite de publication : 2021-11-30

Contexte :
Le stage se situe dans le contexte d’une collaboration entre le laboratoire ERIC et Cabot Financial France. Cabot Financial France est la filiale française du groupe Encore Capital, leader mondial du rachat de créances. Le métier de Cabot est de racheter des créances impayées aux banques pour tenter ensuite de les recouvrer. En rachetant aux banques leurs créances douteuses, Cabot sécurise les bilans de celles-ci et contribue ainsi au bon fonctionnement de l’économie. L’objectif des opérations de recouvrement est de joindre les débiteurs pour mettre en place un plan soutenable d’apurement de leurs dettes. Les plateaux d’appels de Cabot passent ainsi chaque semaine plusieurs milliers d’appels téléphoniques qui peuvent déboucher sur des engagements des débiteurs.

Sujet :
L’objectif du stage est de proposer une solution pour prédire si un engagement pris au cours d’une conversation téléphonique sera tenu ou non. Plus exactement, il s’agit d’une tâche de classification définie sur des données textuelles, les conversations étant restranscrites. La difficulté à résoudre cette tâche réside dans la nature conversationnelle de ces textes et la nécessité de modéliser explicitement les interlocuteurs et leurs prises de parole. On se propose d’étudier les avancées récentes en matière de réseaux de neurones profonds pour l’apprentissage à partir du texte, et d’explorer de nouvelles architectures plus expressive, e.g. hiérarchiques, adaptées à la nature des textes considérés.

Profil du candidat :
Master 2 / Dernier année d’école d’ingénieur

Formation et compétences requises :
Apprentissage automatique
Traitement automatique de la langue

Adresse d’emploi :
Lyon ou Paris

Document attaché : 202111291412_Offre de stage – Cabot.pdf

Categories: Stages

Temporal domain adaptation for land cover mapping from multi-modal remote sensing data

Tickets

Nov 30 – Dec 1 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : dino.ienco@inrae.fr
Date limite de publication : 2021-11-30

Contexte :
Nowadays, a plethora of satellite missions continuously collects remotely sensed images of the Earth surface via various modalities (e.g. SAR or optical) and at different spatial and temporal scales. Therefore, the same study area can be effectively covered by rich, multi-faceted and diverse information. Such information is of paramount importance in order to monitor spatio-temporal phenomena and produce land cover map to support sustainable agriculture as well as public policy decisions. In the last years, the remote sensing research community is turning its attention towards the use of deep learning (DL) approaches to integrate complementary sensor acquisitions available on the same study area [1] with the aim to leverage as much as possible the interplay between input sources exhibiting different spectral as well as spatial content to ameliorate the underlying mapping result. Unfortunately, DL models require a considerable amount of data to be trained and, in real world scenarios, it is difficult to acquire enough ground truth information each time that a land cover map (on a specific study area) should be produced. In order to acquire ground truth data on a study area, time-consuming (3 or 4 months) and labour-intensive field campaigns are deployed (i.e. costs are related to travels to and from the study area for a team of 4 or 5 people at least, access to a particular study area, etc…).

While a certain amount of research studies were conducted on how combine multi-source remote sensing information for land cover maps in a standard supervised learning setting [2,3], limited efforts were devoted to understand how much the trained machine learning models are transferable from a time period to a successive one (on the same study area) in order to reduce the cost associated to the acquisition of new ground truth data [4].

The objective of this internship will be the study and development of a methodological framework, based on deep learning approaches (Convolutional Neural networks and/or Recurrent Neural network) to cope with the transferability (temporal transfer learning) of a multi-source land cover mapping model from a period of time to a successive period of time (i.e. from one year to another year) on the same study area. To this end, the internship student will inspect recent trends and methods in the field of Unsupervised Domain Adaptation [5] (UDA) exploiting state of the art techniques from computer vision and signal processing [6,7].

Environment: The UMR TETIS (joint research unit involving INRAE, CIRAD, AgropParisTech and CNRS – www.) is an interdisciplinary laboratory that groups together people with different backgrounds (agronomy, ecology, remote sensing, signal processing, data science). It has acquired a consolidated experience in the development of machine learning approaches (CNN, RNN, GraphCNN, Attention Mechanism) to deal with the high complexity of remote sensing data for many environmental and agricultural application studies: land cover mapping, biophysical variables estimations (i.e. soil moisture), yield prediction, biodiversity characterization, forest monitoring, etc.

[1] D. Hong, L. Gao, N. Yokoya, J. Yao, J. Chanussot, Q. Du, B. Zhang: More Diverse Means Better: Multimodal Deep Learning Meets Remote-Sensing Imagery Classification. IEEE Trans. Geosci. Remote. Sens. 59(5): 4340-4354 (2021).

[2] P. Benedetti, D. Ienco, R. Gaetano, K. Ose, R. G. Pensa, S. Dupuy: M3Fusion: A Deep Learning Architecture for Multiscale Multimodal Multitemporal Satellite Data Fusion. IEEE J. Sel. Top. Appl. Earth Obs. Remote. Sens. 11(12): 4939-4949 (2018).

[3] Y. J. E. Gbodjo, O. Montet, D. Ienco, R. Gaetano and S. Dupuy: Multi-sensor land cover classification with sparsely annotated data based on Convolutional Neural Networks and Self-Distillation. IEEE J. Sel. Top. Appl. Earth Obs. Remote. Sens. -(-): — (2021).

[4] B. Tardy, J. Inglada, J. Michel: Assessment of Optimal Transport for Operational Land-Cover Mapping Using High-Resolution Satellite Images Time Series without Reference Data of the Mapping Period. Remote. Sens. 11(9): 1047 (2019).

[5] S. Zhao, X. Yue, S. Zhang, B. Li, H. Zhao, B. Wu, R. Krishna, J. E. Gonzalez, A. L. Sangiovanni-Vincentelli, S. A. Seshia, K. Keutzer: A Review of Single-Source Deep Unsupervised Visual Domain Adaptation. CoRR abs/2009.00155 (2020).

[6] Y. Ganin, E. Ustinova, H. Ajakan, P. Germain, H. Larochelle, F. Laviolette, M. Marchand, V. S. Lempitsky: Domain-Adversarial Training of Neural Networks. J. Mach. Learn. Res. 17: 59:1-59:35 (2016)

[7] E. Tzeng, J. Hoffman, K. Saenko, T. Darrell: Adversarial Discriminative Domain Adaptation. CVPR 2017: 2962-2971

[8] H. Ismail Fawaz, G. Forestier, J. Weber, L. Idoumghar, P.-A. Muller: Deep learning for time series classification: a review. Data Min. Knowl. Discov. 33(4): 917-963 (2019)

Sujet :
The objective of this internship will be the study and development of a methodological framework, based on deep learning approaches (Convolutional Neural networks and/or Recurrent Neural network) to cope with the transferability (temporal transfer learning) of a multi-source land cover mapping model from a period of time to a successive period of time (i.e. from one year to another year) on the same study area. To this end, the internship student will inspect recent trends and methods in the field of Unsupervised Domain Adaptation [5] (UDA) exploiting state of the art techniques from computer vision and signal processing [6,7].

The internship student will work in a tight connection with a team of research scientists (INRAE/CIRAD Researchers and a PhD student) in the general field of Unsupervised Domain Adaptation [5], multi-source remote sensing data [1,2,3] and multi-variate time series analysis [8]. The missions of the internship will be the follow:
– A detailed bibliography study about recent trends in multi-modal/source Unsupervised Domain Adaptation;
– Multi-source/Multi-modal image (Remote Sensing) data preprocessing to organize the data for the subsequent machine learning analysis;
– Study, design and development of a deep learning framework for multi-modal Unsupervised Domain Adaptation;
– Experimental evaluation of the proposed framework w.r.t. competing methods (implementation of the competing approaches or using available code on repository);
– Quantitative as well as qualitative analysis of the obtained results in order to identify the strong/weak points of the proposed framework;
– Release of the produced code on open-source platforms (i.e. github, gitlab, etc…) with the associated employed data.

[7] E. Tzeng, J. Hoffman, K. Saenko, T. Darrell: Adversarial Discriminative Domain Adaptation. CVPR 2017: 2962-2971

[8] H. Ismail Fawaz, G. Forestier, J. Weber, L. Idoumghar, P.-A. Muller: Deep learning for time series classification: a review. Data Min. Knowl. Discov. 33(4): 917-963 (2019)

Profil du candidat :
The ideal candidate is a student at Master 2 level or coming from an engineering school (still at the last year of attendance) with a good background in signal processing/image processing, machine learning and good programming skills in python (numpy, pandas, scikit-image, scikit-learn). A first experience with a deep learning library (PyTorch or Tensorflow) is a plus.

Formation et compétences requises :
The ideal candidate is a student at Master 2 level or coming from an engineering school (still at the last year of attendance) with a good background in signal processing/image processing, machine learning and good programming skills in python (numpy, pandas, scikit-image, scikit-learn). A first experience with a deep learning library (PyTorch or Tensorflow) is a plus.

Adresse d’emploi :
500, Rue Jean François Breton, 34093 Montpellier

Categories: Stages

Dec

Fri

2021

Télédétection pour le suivi des végétations pastorales d’alpage : Traitements et analyse

Tickets

Dec 3 – Dec 4 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : PACTE
Durée : 6
Contact : pauline.dusseux@univ-grenoble-alpes.fr
Date limite de publication : 2021-12-03

Contexte :
Dans le cadre des travaux menés au sein du programme Alpages sentinelles, plusieurs actions sont conduites pour mieux caractériser, quantifier et qualifier les végétations pastorales d’alpage, et raisonner ainsi les modalités de leur mobilisation par les systèmes pastoraux dans un contexte d’aléas climatiques croissants :
– Définition d’une typologie et élaboration d’un référentiel des végétations pastorales d’alpage, intégrant leur fonctionnalité pastorale et leur sensibilité aux contraintes climatiques.
– Définition d’une méthodologie d’analyse de la vulnérabilité d’un alpage au changement climatique, intégrant sa sensibilité au regard des végétations qui le composent.
– Étude des variations interannuelles de productivité des différents types de pelouses d’alpage.
Ces travaux s’appuient sur l’acquisition de données de terrain selon des protocoles nécessitant actuellement des moyens humains et financiers importants.
Dans ce cadre, les partenaires du programme Alpages Sentinelles s’interrogent sur les apports possibles d’une approche de la végétation d’alpage par télédétection :
La télédétection peut-elle permettre d’identifier et de cartographier des types de milieux pastoraux, au regard d’une typologie fonctionnelle préétablie au sein du programme « Alpages sentinelles » ?
La télédétection peut-elle permettre de suivre les dynamiques temporelles de ces milieux pastoraux : variations interannuelles de productivité, évolution de long terme ?

Sujet :
Le sujet de stage proposé s’intéresse à la contribution possible de la télédétection à la caractérisation et au suivi de la productivité des milieux pastoraux avec un objectif méthodologique fort portant sur les outils de classification et de régression à mobiliser pour traiter des séries temporelles de données de télédétection ainsi que les indices qui en sont dérivés. Les techniques qui seront adoptées pour cela seront issus du domaine de l’apprentissage automatique ainsi que de l’apprentissage profond (deep learning).
Ces informations contribueront à développer les applications opérationnelles attendues à terme pour le programme Alpages sentinelles, notamment pour faire évoluer les méthodes actuelles d’acquisition de certaines données et monter en puissance en termes de dispositif, notamment pour les suivis annuels de biomasse (mesures de hauteurs de végétation sur le terrain pour le moment).

Profil du candidat :
Master : Télédétection / Géomatique / Informatique

Les compétences attendues sont les suivantes :
– Connaissances fortes en programmation (Python)
– Connaissances en télédétection optique et en traitement d’image (GDAL, OTB)
– Connaissances en statistiques
– Maîtrise de l’anglais scientifique
– Des connaissances sur les milieux pastoraux seraient un plus
– Des connaissances sur des librairies Python comme Keras, Tensorflow ou Pytorch
seraient un plus

Formation et compétences requises :
Master : Télédétection / Géomatique / Informatique
Les compétences attendues sont les suivantes :
– Connaissances fortes en programmation (Python)
– Connaissances en télédétection optique et en traitement d’image (GDAL, OTB)
– Connaissances en statistiques
– Maîtrise de l’anglais scientifique
– Des connaissances sur les milieux pastoraux seraient un plus
– Des connaissances sur des librairies Python comme Keras, Tensorflow ou Pytorch
seraient un plus

Adresse d’emploi :
Sciences Po Grenoble
Pacte/IEP – BP 48 – 38040 Grenoble cedex 9

Document attaché : 202112011726_2022_Sujet stage M2 Télédétection Alpages Sentinelles.pdf

Categories: Stages

Dec

Sun

2021

Réplication de données basée sur l’apprentissage par renforcement dans le Cloud

Tickets

Dec 5 – Dec 6 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT/Université Toulouse III
Durée : 5-6 mois
Contact : mokadem@irit.fr
Date limite de publication : 2021-12-05

Contexte :
Conception et implémentation d’une stratégie de réplication de données basée sur l’apprentissage par renforcement dans les systèmes Cloud
La popularité croissante des services et applications interconnectés (par exemple Internet des objets et les réseaux sociaux) ont conduit à la génération de gros volumes de données. Un des défis pour les applications est de pouvoir stocker et analyser ces données hétérogènes et réparties avec des coûts raisonnables d’infrastructure. Dans ce contexte, l’approche «Cloud Computing» permet de réduire considérablement ces coûts, soit en se basant sur des serveurs composés de machines à bas prix (Clouds privés), soit en louant des services auprès de fournisseurs Cloud suivant le modèle « pay-as-you-go » (Clouds publics). Pour les applications analysant ces données, les problèmes d’accès et de disponibilité de données sont très importants. Une technique bien connue pour traiter ces problèmes est la réplication de données qui consiste à stocker plusieurs copies de données, appelées répliques, sur plusieurs sites. Elle vise à : (i) augmenter la disponibilité des données, (ii) réduire la consommation de la bande passante et (iii) gérer efficacement la tolérance aux pannes [1]. De nombreuses stratégies de réplication de données ont été proposées dans les environnements cloud. Elles visent à obtenir les meilleures performances du système tout en satisfaisant un contrat de niveau de service (SLA), établi entre un fournisseur de cloud et ses locataires, i.e., les consommateurs. Principalement, un SLA comprend des objectifs de niveau de service (SLO) du locataire, par exemple, la disponibilité et la performance, qui doivent être satisfaits par le fournisseur. D’un autre coté, le fournisseur Cloud vise à maximiser son profit économique [2]. Il est alors important d’ajuster le nombre de répliques de manière dynamique afin de prendre en compte la rentabilité du fournisseur.
Afin d’assurer le dimensionnement automatique des ressources, de nombreux fournisseurs de Cloud se basent sur la réplication de données basée sur des seuils à cause de sa nature intuitive. A titre d’exemple, un seuil de temps de réponse, intégré dans le SLA, est préalablement négocié entre le fournisseur et ses locataires. Dans ce contexte, certains travaux se basent sur l’observation des valeurs de métriques afin de les comparer par la suite à des seuils fixés d’avance [1]. D’autres travaux [3] combinent l’approche des seuils avec la théorie de contrôle permettant l’obtention de seuils dynamiques en se basant sur une modélisation mathématique de la charge de travail. Enfin, certains travaux se basent sur la prédiction des valeurs de métriques tels que le score de réplication par intervalle [4] ou encore la charge de travail [5] afin de les comparer à des seuils prédéfinis. Cette prédiction s’appuie sur l’utilisation de techniques telles que les séries chronologiques ou encore sur l’exploitation du journal de requêtes afin de prédire les périodes à forte charge de travail et les données qui seront les plus populaires dans le futur [6]. En conséquence, des ressources peuvent être allouées à l’avance, par exemple la création de nouvelles répliques. Cependant, le choix des métriques à considérer et la fixation de seuils de manière efficace nécessite une intervention humaine afin de fixer le seuil pour chaque métrique et une connaissance approfondie des tendances actuelles de la charge de travail, ce qui n’est pas facile à réaliser.

Sujet :
Afin d’éviter l’intervention humaine lors de la définition des seuils, nous pourrons considérer une réplication de données basée sur l’apprentissage par renforcement [7]. Dans les algorithmes d’apprentissage par renforcement tel que le Q-learning, un agent autonome dispose d’un certain nombre d’actions possibles permettant le changement de l’état d’un environnement. Il reçoit alors une récompense (ou une pénalité) pour chacune de ses actions. Ensuite, cet agent doit mémoriser la séquence des actions qui maximise sa récompense totale. Néanmoins, cette approche nécessite une période d’apprentissage.
Seuls quelques travaux de dimensionnement automatique basés sur l’apprentissage par renforcement dans le Cloud sont dédiés à l’interrogation de bases de données relationnelles. La plupart se sont intéressé aux systèmes NoSQL [8]. Les méthodes existantes doivent alors être adaptées au contexte des bases de données relationnelles avec notamment, la prise en compte de nombreuses tâches dépendantes et des relations intermédiaires qui peuvent être stockées sur le disque.
L’objectif de ce stage est la conception d’une stratégie de réplication de données efficace basée sur l’apprentissage par renforcement. La stratégie proposée pourra s’appuyer sur un agent informatique qui pourra mémoriser certaines actions lui permettant de privilégier la création rentable (pour le fournisseur) d’une réplique d’une relation, tout en satisfaisant les objectifs des locataires. Il est donc important de proposer, puis d’implémenter via simulation [9], une stratégie de réplication permettant de répondre aux problématiques classiques telles que : (i) quelles données répliquer ? (ii) quand répliquer ces données ? (iii) où répliquer ces données mais aussi à des problématiques spécifiques aux environnements Cloud tels que (iv) déterminer le nombre de répliques nécessaires afin de satisfaire simultanément les objectifs du locataire, i.e., objectifs SLO, avec un profit économique pour le fournisseur de Cloud.
3. Mots clés
Gestion de données, Systèmes Cloud, Réplication de données, Apprentissage par renforcement, Modèle de coûts, Modèle économique, Performances.
4. Bibliographie
[1]. R. Mokadem, A. Hameurlain. A Data Replication Strategy with Tenant Performance and Provider Economic Profit Guarantees in Cloud Data Centers. Journal of Systems and Software (JSS), Elsevier, V. 159, (2020).
[2] Armbrust, M., Stoica, I., Zaharia, M., Fox, A., Grifh, R., Joseph, A.D., Katz, R., Konwinski, A., Lee, G., Patterson, D., Rabkin. A.: A view of cloud computing. Communications of the ACM. V. 53(4). pp. 50-58, (2010)
[3] H. Ghanbari, B. Simmons, M. Litoiu, G. Iszlai. Exploring alternative approaches to implement an elasticity policy. IEEE Int. Conf. on Cloud Computing (CLOUD), pp. 716–723. (2011)
[4] Li, C., Wang, Y., Chen, Y., and Luo, Y. Energy efficient fault-tolerant replica management policy with deadline and budget constraints in edge-cloud environment. Journal of Network and Computer Applications, V. 143 : pp. 152–166, (2019)
[5] Hsu, T.-Y. and Kshemkalyani, A. D. A Proactive, Cost-aware, Optimized Data Replication Strategy in Geodistributed Cloud Datastores. In Proceedings of the 12th IEEE/ACM International Conference on Utility and Cloud Computing, UCC’19, pp. 143–153, New York, NY, USA (2019)
[6] Liu, J., Shen, H., Narman, H. S., Lin, Z., and Li, Z. Popularity-aware Multi-failure Resilient and Cost-effective Replication for High Data Durability in Cloud Storage. IEEE Transactions on Parallel and Distributed Systems, V. 30 (10), pp. 2355-2369, (2018).
[7] L. Ferreira, F. Coelho, J. Pereira. Self-tunable DBMS Replication with Reinforcement Learning. Remke A., Schiavoni V. (eds) Distributed Applications and Interoperable Systems. DAIS 2020. Lecture Notes in Computer Science, V. 12135. Springer, Cham, pp. 131-145, (2020)
[8] A. Naskos, A. Gounaris, I. Konstantinou. Elton: a cloud resource scaling-out manager for nosql databases. 34th IEEE Int. Conf. on Data Engineering (ICDE), IEEE, pp.1641–1644. (2018)
[9] R.N. Calheiros, R. Ranjan, A. Beloglazov, C.A.F. De Rose, R. Buyya. CloudSim: A Toolkit for Modeling and Simulation of Cloud Computing Environments and Evaluation of Resource Provisioning Algorithms. Software: Practice and Experience. V. 41, N. 1, pp. 23-50. (2010)

Profil du candidat :
M2

Formation et compétences requises :
Connaissances en Bases de données
Programmation

Adresse d’emploi :
113 route de Narbonne, Université Paul Sabatier Toulouse 3, Toulouse

Document attaché : 202111221311_Proposition Stage_CIMI_Nov_2021.pdf

Categories: Stages

Dec

Fri

2021

Mises à jour de bases de données graphe avec informations incomplètes

Tickets

Dec 10 – Dec 11 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO (Laboratoire d’Informatique Fondamentale d’
Durée : 4-6 mois
Contact : mirian@univ-orleans.fr
Date limite de publication : 2021-12-10

Contexte :
Stage dans le cadre de l’action DOING (Données Intelligentes) du GDR MADICS

Sujet :

Le but de cet stage serait de proposer une adaptation de la politique de mise à jour présentée dans [1] aux graphes d’attributs.

[1] Jacques Chabin, Mírian Halfeld Ferrari, Dominique Laurent: Consistent updating of databases with marked nulls. Knowl. Inf. Syst. 62(4): 1571-1609 (2020)

Profil du candidat :
L’ étudiant doit être intéressé par l’approfondissement de ses connaissances dans le domaine de bases de données. Niveau master

Encadrantes :
Mirian Halfeld Ferrari (LIFO, Orléans), mirian@univ-orleans.fr
Jacques Chabin (LIFO, Orléans), jacques.chabin@univ-orleans.fr

Formation et compétences requises :
Connaissances en bases de données
Bonnes bases théoriques

Adresse d’emploi :
Nous souhaitons que le stagiaire soit physiquement au LIFO, même si des périodes de télétravail peuvent être envisagées/ programmées.

Document attaché : 202111222249_UpdateGraph.pdf

Categories: Stages

Dec

Wed

2021

Analyse des réseaux d’investisseurs dans le contexte des acquisitions foncières à grande échelle

Tickets

Dec 15 – Dec 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2021-12-15

Contexte :
La terre est une ressource rare et son épuisement est lié à une combinaison de facteurs démographiques et économiques. Ainsi, les changements d’habitudes alimentaires et l’augmentation de la population mondiale, qui entraînent une hausse de la demande alimentaire, s’inscrivent dans un contexte d’augmentation des prix du pétrole et de montée du capitalisme vert qui, à son tour, a un impact sur la demande de biocarburants. Un indicateur visible de ces phénomènes est l’augmentation, ces dernières années, des acquisitions de terres à grande échelle (ATGEs) par des entreprises privées ou des États. Ces investissements fonciers entraînent souvent des conflits avec la population locale et soulèvent des questions concernant les droits des personnes, le rôle des différents modèles de production et la gouvernance foncière. Pour un pays donné, les sources de données officielles et non officielles (par exemple, les évaluations réalisées par des ONG) peuvent souvent être incohérentes, et aucune d’entre elles ne peut constituer une représentation exacte de la situation réelle. Le Land Matrix Initiative collecte des données sur les ATGEs depuis 2009, qui constituent une base de données qui peut être considérée comme la plus complète sur les ATGE. Elle est gérée par un consortium de partenaires de recherche et de développement.

Sujet :
Des travaux de recherche récemment réalisés au CIRAD [1], basés sur l’utilisation des techniques d’analyse de réseaux complexes, ont montré comme des relations complexes existent entre les pays du monde, liées aux investissement fonciers dans différents secteurs (agriculture, minier, biocarburants, etc.). Néanmoins, dans la majorité des cas, il peut être difficile d’associer les investisseurs impliqués dans une transaction donnée à un pays spécifique, car les informations sur la propriété des entreprises privées et des fonds d’investissement sont souvent manquantes ou incomplètes. L’objectif de ce stage est d’étudier de façon approfondi le réseaux d’investisseur derrière les contrats d’acquisition foncière à large échelle. Plus spécifiquement, l’objectif primaire est d’effectuer un matching entre les investisseurs répertoriés dans Land Matrix, et des données de tiers provenant de bases de données spécifiques sur la propriété des entreprises privées et des fonds d’investissement (p.ex., relations hiérarchiques “qui possède qui”). Ensuite, ces informations pourront être modélisés dans des réseaux complexes et hétérogènes (p.ex., incluant informations sur les relations entre investisseurs, pays cibles, secteurs d’investissement, etc.) qui pourront être étudiés avec de techniques état de l’art pour l’analyse et l’extraction d’information à partir de ces objets (p.ex., méthodes de classement, centralité, clustering) [2,3].
Produits / résultats / attendus :
– Contribuer aux réseaux d’investisseurs à télécharger sur la Land Matrix, afin de les rendre plus transparents et visibles
– Contribuer à l’écriture d’un papier scientifique sur les résultats obtenus

[1] Interdonato R., Bourgoin J., Grislain Q., Zignani M., Gaito S., Giger M. 2020. The parable of arable land: Characterizing large scale land acquisitions through network analysis. PLOS One, 15 (10) : 31 p.
[2] Interdonato R., Magnani M., Perna D., Tagarelli A., Vega D. 2020. Multilayer network simplification: Approaches, models and methods. Computer Science Review, 36 : 20 p.
[3] Magnani M., Hanteer O., Interdonato R., Rossi L., Tagarelli A. 2021. Community detection in multiplex networks. ACM Computing Surveys, 5 (3) : 35 p.

Profil du candidat :
L’étudiant(e) sera spécialisé(e) dans la fouille des donnés, et plus spécifiquement dans l’analyse des réseaux complexes et fouille de graphes.
Il/elle devra être à l’aise en programmation, préférablement avec le langage Python. Il/elle devra apprécier la découverte et l’exploration méthodologique, la démarche scientifique, et fera preuve d’un bon esprit d’analyse critique.
Un bon sens du travail en équipe est fortement souhaité, ainsi que le goût pour les collaborations interdisciplinaires. Une bonne culture dans le domaine thématique de l’agriculture en milieu tropicale sera appréciée.

Formation et compétences requises :
L’étudiant(e) sera spécialisé(e) dans la fouille des donnés, et plus spécifiquement dans l’analyse des réseaux complexes et fouille de graphes.
Il/elle devra être à l’aise en programmation, préférablement avec le langage Python.

Adresse d’emploi :
500, rue Jen François Breton, 34000, Montpellier

Document attaché : 202110191240_Stage M2 Land Matrix 2022.pdf

Categories: Stages

Dec

Thu

2021

Des besoins d’utilisateurs à la construction de requêtes ’sciences de données’ pour une base de donn

Tickets

Dec 16 – Dec 17 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO
Durée : 4-6 mois
Contact : mirian@univ-orleans.fr
Date limite de publication : 2021-12-16

Contexte :
Dans le contexte de l’action DOING.

Sujet :
Ce stage a comme objectif la proposition d’une méthode semi-automatique pour traiter les questions des experts du domaine de la santé pour dériver des templates de requêtes science des données qui fournissent des réponses à ces questions.

Profil du candidat :
Niveau master

Formation et compétences requises :
Bonne notions de bases de données , théorie de langange, Intelligence artificielle

Adresse d’emploi :
LIFO

Document attaché : 202111301154_DSqueries-GetInfo.pdf

Categories: Stages

Vers des requêtes science de données

Tickets

Dec 16 – Dec 17 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO (Laboratoire d’Informatique Fondamentale d’
Durée : 4-6 mois
Contact : mirian@univ-orleans.fr
Date limite de publication : 2021-12-16

Contexte :
Stage proposé dans le cadre de l’action DOING.

Sujet :
Le stage a comme objectif l’étude de la conception d’un système d’interrogation capable d’offrir à ses utilisateurs des requêtes d’analyse prescriptive (Prescriptive Analytics en anglais)

Profil du candidat :
Niveau master

Formation et compétences requises :
De bonnes notions en bases de données et intelligence artificielle

Adresse d’emploi :
LIFO

Document attaché : 202111301150_DSqueries.pdf

Categories: Stages

Dec

Fri

2021

Analyse de séries temporelles d’images satellitaires pour prédiction indices de sécurité alimentaire

Tickets

Dec 31 2021 – Jan 1 2022 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2021-12-31

Contexte :
Ce projet s’inscrit dans la thématique générale de la sécurité alimentaire en Afrique de l’Ouest considérée comme l’un des enjeux majeurs de développement de la région.
Aujourd’hui, de plus en plus de données issues de missions satellitaires sont disponibles. La possibilité d’acquérir plusieurs images satellitaires sur la même zone pendant le temps nous permet de générer des séries temporelles d’image satellitaires grâce auxquelles un suivi de la dynamique du développement des cultures sur une ou plusieurs années est aujourd’hui possible. Par exemple, la mission spatiale Sentinel, à travers les satellites Sentinel-1(a/b) et Sentinel-2(a/b), permet de produire des séries d’image satellitaire radar et optique à très haute résolution temporelle (chaque 5 jours) avec une résolution spatiale à 10 mètres. D’autres séries temporelles comme la température de brillance, les précipitations et les prix des céréales sont disponibles.
Des indicateurs dérivés d’enquêtes ménagères permettent aujourd’hui de mesurer la sécurité alimentaire, mais ils sont particulièrement difficiles à mettre en place dans les zones de conflit où les enquêtes ne peuvent se dérouler normalement.
Le développement de méthodes permettant de tirer parti de ces différentes sources d’information hétérogènes et d‘ordre temporelles reste encore un défi ouvert.

Sujet :
L’objectif de ce stage est de mettre en place et de réaliser un benchmark des méthodes permettant de traiter les informations temporelles multi sources afin d’estimer les indicateurs de sécurité alimentaire. Un focus sera mis sur des méthodes de machine/deep learning permettant d’estimer ces indicateurs de sécurité alimentaire dans les zones à risques et donc uniquement avec les données accessibles dans ces zones. Des méthodes de réseaux de neurones comme RNN, LSTM seront premièrement étudiées dans ce travail.

Profil du candidat :
Durée de 6 mois, à partir de février 2022

• Rigueur scientifique
• Curiosité et ouverture d’esprit
• Capacité d’analyse rédactionnelle et de synthèse

Formation et compétences requises :
• Connaissance/goût pour la programmation (une expérience en Python est requise)
• Intérêt pour l’agronomie/ science environnementale

Adresse d’emploi :
Le stage se déroulera au CIRAD, dans l’UMR TETIS (Territoire, Environnement, Télédétection et Information Spatiale), située dans les locaux de la Maison de la Télédétection à Montpellier, 500 Rue Jean François Breton.

Document attaché : 202111020841_Stage-M2.pdf

Categories: Stages

DeepFlowering: Prédiction des dates de floraison du pommier à partir d’images aériennes

Tickets

Dec 31 2021 – Jan 1 2022 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR AGAP, CIRAD
Durée : 6 mois
Contact : frederic.boudon@cirad.fr
Date limite de publication : 2021-12-31

Contexte :
La disponibilité de nouvelles technologies modifie profondément l’agriculture moderne et permet d’envisager des solutions innovantes aux problèmes posés par le réchauffement climatique. La télédétection, couplée au traitement de données par deep learning, ont un potentiel important pour aider à la caractérisation de variétés végétales et la sélection des plus résilientes. Dans ce contexte, le projet FRUITFLOW s’intéresse à comprendre les mécanismes de floraison chez deux espèces fruitières de grande importance économique : le pommier et le pêcher. Une des ambitions de ce projet est de développer une approche de deep learning pour prédire les dates de floraison chez le pommier, à l’aide d’images aériennes (dans le spectre du visible au proche infra-rouge), acquises par drone à des intervalles de temps réguliers.

Des premières études ont montré l’intérêt de solutions basées sur du deep learning pour la détection et le comptage des fleurs pour les cultures annuelles telles que le blé, le maïs, le sorgho, le riz et le coton. A partir de ces analyses, des méthodes d’estimations des dates de mise en place des épis (Desai et al. 2019, Zhao et al. 2021) ont été proposées. Ces solutions sont basées sur des approches de type réseaux CNN. En partant de ces travaux, nous souhaitons proposer un réseau qui permettra de prédire la date de floraison d’une collection de pommiers contenant de nombreuses variétés. L’originalité de notre approche est de considérer des plantes pérennes dont la floraison est en partie déterminée l’année précédente.

Le stage portera sur une population de diversité de pommiers, implantée en 2014 sur la station expérimentale INRAe Diascope (Mauguio). A différentes périodes de l’année 2021 (printemps et automne), des collectes d’images RVB et multi-spectrales ont été acquises sur le verger, grâce à des capteurs embarqués par drone, pour caractériser différentes phases du développement des arbres tel que la sénescence (changement de couleur puis chute des feuilles). Parallèlement à ces acquisitions, des notations expertes ont été réalisées sur les arbres à la floraison et à la sénescence. Au printemps 2022, des relevés des dates de floraison et de l’évolution de la phénologie seront réalisés.

Sujet :
L’objectif du stage est de développer un pipeline automatisé capable de prédire les dates de floraison à partir des images acquises en 2021 et des relevés du printemps. Les missions qui seront confiées au stagiaire seront :
Préparation des données sous forme d’ortho-mosaïques
Mise en place de méthodes de normalisation
Génération d’une base de données de patchs représentant chaque arbres en utilisant des information GPS
Développement et entraînement d’un réseau de neurones type CNN pour la prédiction des dates de floraison
Étude de sensibilité du modèle développé au nombre et type de dates d’acquisition considérées, au nombre et type de canaux RVB et multi-spectraux considérés.
Test sur des bases de données externes (pêchers en Espagne) des résultats de prédiction.

Pour réaliser ce travail l’étudiant.e disposera de jeux de données images (jeux de données d’images RVB et jeux de données d’images multi-spectrales acquises sur la saison 2021), des coordonnées des centres des arbres de la parcelle, des dates de floraison des arbres au printemps 2021 et celle de 2022 (acquisition au printemps 2022 par I. Farrera) et des données climatiques collectées sur la station expérimentale.

Profil du candidat :
Etudiant en master en science des données ou informatique

Formation et compétences requises :
– Connaissances en informatique : Machine Learning, Deep Learning, réseaux de neurones.
– Connaissances en mathématiques et en statistiques : méthodes de normalisation, etc.
– Compétences opérationnelles : bonnes capacités de codage (Python), des connaissances sur les frameworks d’apprentissage profond (Keras, Tensorflow, Py Torch, …), connaissance de Fiji
– Langues : français et/ou anglais courant
– Autonomie
– Curiosité pour la biologie;

Adresse d’emploi :
UMR AGAP, Avenue Agropolis, 34398 Montpellier

Document attaché : 202110060954_proposition imagerie-ML_2022.pdf

Categories: Stages

Extraction et catégorisation automatique de contenu de manuels scolaires

Tickets

Dec 31 2021 – Jan 1 2022 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire interdisciplinaire des sciences du num
Durée : 6 mois
Contact : guinaudeau@limsi.fr
Date limite de publication : 2021-12-31

Contexte :
Le projet ANR MALIN a pour objectif de rendre utilisables les manuels scolaires numériques par les enfants en situation de handicap dont l’inclusion dans les établissements scolaires ordinaires a été posée par la loi du 11 février 2005. En France, le manuel scolaire est un support pédagogique emblématique quasi systématiquement utilisé en classe afin d’accompagner de manière progressive et structurée l’acquisition des connaissances et compétences définies dans les programmes scolaires officiels de l’Éducation Nationale. Les manuels numériques actuellement disponibles nécessitent d’être adaptés pour être utilisés par les enfants en situation de handicap. Ces adaptations concernent aussi bien les aspects techniques que pédagogiques. Dans la plupart des cas, des parties seulement des manuels sont adaptées et les délais de livraison peuvent être de plusieurs mois. Ces contraintes ne permettent pas de rendre efficiente l’inclusion scolaire des enfants en situation de handicap. L’objectif du projet ANR MALIN est donc de développer des solutions techniques afin d’aboutir à l’automatisation de l’adaptation des manuels scolaires numériques pour les rendre accessibles (accès, traitement et interaction avec les contenus) aux élèves en situation de handicap.

Sujet :
Dans ce contexte, le/la stagiaire travaillera sur l’extraction des consignes des exercices ainsi que sur leur identification / catégorisation. L’objectif du stage consiste notamment à identifier les consignes de type “choix proposés” dans les différents exercices. Ces choix proposés pouvant prendre plusieurs formes, le/la stagiaire développera, à partir d’une chaîne d’extraction déjà existante et de données annotées manuellement, des techniques génériques, fondées sur des approches de traitement automatique des langues et tirant partie de l’efficacité des technologies d’apprentissage profond.

Ce stage s’inscrit dans le cadre d’un projet ANR et pourra se poursuivre par un doctorat de 3 ans. Le projet ANR repose sur une collaboration entre quatre laboratoires : LISN (Université Paris Saclay), MISC (Ecole CentraleSupelec), CEDRIC (CNAM), Inserm 1284 (CRI, Université de Paris). Le stagiaire travaillera en interaction avec deux autres stagiaires associés au projet.

Profil du candidat :
master et/ou ingénieur en informatique avec une spécialisation dans au moins un des domaines suivant:
traitement automatique des langues
apprentissage automatique

Formation et compétences requises :
maîtrise de Python (langage de prédilection du projet)
maîtrise de l’anglais (écrit et oral)
La connaissance de librairies d’apprentissage sera appréciée.

Adresse d’emploi :
Laboratoire interdisciplinaire des sciences du numérique – LISN
Campus Universitaire bâtiment 507
Rue du Belvédère
91400 Orsay

Document attaché : 202110291051_Sujet de stage ANR MALIN – LISN.pdf

Categories: Stages

Stage de Master : Deep Learning pour l’analyse de sentiment dans des témoignages textuels

Tickets

Dec 31 2021 – Jan 1 2022 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS lab., University of Rouen Normandy, Rouen, F
Durée : 6 mois
Contact : simon.bernard@univ-rouen.fr
Date limite de publication : 2021-12-31

Contexte :
L’équipe Apprentissage du laboratoire LITIS, le laboratoire d’informatique et d’intelligence artificielle de l’Université de Rouen Normandie, propose un stage de 6 mois de fin de Master ou de fin de cursus Ingénieur, à débuter en février/mars 2022. Ce stage est financé par le projet ANR CATCH (Compréhension Automatique de Témoignage de Capteurs Humains) qui implique le centre Recherche et Développement de l’entreprise Saagie, une entreprise spécialisée dans les solutions DataOp B2B, Atmo Normandie, l’association de surveillance de la qualité de l’air en Normandie, et le LITIS.

L’ambition du projet CATCH est de proposer des outils d’intelligence artificielle et de deep learning pour identifier et analyser automatiquement la multitude de témoignages humains liés à un accident industriel et à ses conséquences sur l’environnement et la santé. En impliquant la population dans la collecte et l’analyse des données, notamment via les réseaux sociaux, et en fournissant des moyens efficaces d’interprétation de ces données, la solution proposée devrait contribuer à apporter des réponses à la problématique préoccupante des accidents industriels et de leurs conséquences. Pour cela, l’objectif du projet est double :
1. Dresser une cartographie des nuisances dues à l’incident, afin de suivre la propagation et l’évolution des phénomènes dans le temps.
2. Analyser et caractériser le ressenti de la population et son évolution tout au long de la crise.
Pour ce faire, nous pouvons exploiter les témoignages recueillis sur la plateforme ODO d’Atmo Normandie, qui combine ces témoignages avec des informations géographiques, ainsi que des données extraites de la plateforme de micro-blogging Twitter.

Sujet :
Ce stage vise à contribuer à ces deux objectifs via l’analyse des sentiments exprimés dans les témoignages de ces données, déjà disponibles et annotées en ce qui concerne les données ODO, ou à annoter automatiquement pour les données Twitter. Les méthodes à l’état de l’art pour ce type de tâches en traitement automatique de la langue (TAL ou NLP pour Natural Language Processing) sont des méthodes d’apprentissage profond de type Transformers, notamment basées sur des principes d’apprentissage auto-supervisés (self-supervised learning) et des mécanismes d’attention. Donc, la première tâche de ce stage consistera à sélectionner, implémenter et appliquer une ou plusieurs de ces approches pour l’analyse de sentiment dans les données ODO. Il s’agira ensuite d’exploiter le ou les modèles les plus performants pour la génération de la cartographie, par exemple pour déterminer les zones géographiques les plus impactées par les retombées de l’indicent, et pour la caractérisation du ressenti de la population, par exemple pour détecter des sentiments pré-identifiés dans tous les témoignages à disposition.

Profil du candidat :
—

Formation et compétences requises :
– Étudiant en Master 2 ou en dernière année d’école d’ingénieurs, dans une spécialité de l’informatique ou des mathématiques appliquées
– Compétences requises en apprentissage automatique et en programmation (Python de préférence)

Adresse d’emploi :
LITIS,
UFR Sciences et Techniques,
Technopôle du Madrillet
Avenue de l’université
76801 Saint-Étienne-du-Rouvray

Les documents à joindre à la candidature sont :
• curriculum vitae
• lettre de motivation
• résultats académiques récents
• noms et coordonnées d’un ou de plusieurs enseignants référents

Document attaché : 202110261524_StageM2_ ANRCATCH_LITIS.pdf

Categories: Stages

Jan

Sat

2022

3D PRIAD : 3D Printer with Intelligent Anomaly Detection

Tickets

Jan 1 – Jan 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ICube, Equipe MLMS, Strasbourg
Durée : 6 mois
Contact : cedric.bobenrieth@ecam-strasbourg.eu
Date limite de publication : 2022-01-01

Contexte :
À l’apogée de l’industrie 4.0, la conception de nouvelles méthodes et applications permettant un suivi et un contrôle de la production est un réel enjeu. Le projet 3D-PRIAD se concentre spécifiquement sur les problématiques liées à la production par impression 3D.

En effet, il est nécessaire qu’une imprimante 3D puisse fonctionner de manière autonome en permanence tout en assurant une production de pièces de bonnes qualités, c’est-à-dire dépourvue de quelconques défauts d’impressions.

L’équipe MLMS (Machine Learning, Modeling & Simulation) propose donc un projet combinant le deep learning à l’analyse d’images, de modèles 3D, et de données issues de multiples capteurs sensorielles (thermique, poussière, pression de l’air, etc) afin de permettre un suivi en temps réel de la qualité de l’impression et la détection automatique d’anomalies.

La mission aura lieu sur 6 mois, entre février et août 2021, et se déroulera au sein de l’équipe MLMS du laboratoire ICube.

Sujet :
Ce stage s’inscrit dans le projet 3D-PRIAD et fait suite à des travaux déjà réalisés.
Vous aurez donc à votre disposition :
1) Un début de jeux de données, constituées de vidéos d’impressions 3D provenant de 5 caméras disposée autour de l’imprimante 3D de manière à couvrir tous les angles de vues (Front, Back, Left, Right et Top) accompagnées du GCode (modèle 3D) de l’impression en question, couvrant un ensemble de défauts d’impression. Ce jeu de données est déjà labellisé.

2) Une implémentation d’un réseau de neurones type YoloV4 entraîné sur ces données pour détecter par angle de vue des défauts d’impressions.

3) Le matériel nécessaire pour l’acquisition de plus de données d’impressions (caméras, imprimante 3D, matériel d’impression)

4) Le matériel nécessaire pour l’acquisition de données ambiantes (capteurs d’humidité, de température, de pression, de présence de poussière)

L’objectif global du stage est de mettre au point un réseau de neurones capable de faire de l’analyse préventive sur les impressions 3D, c’est-à-dire être capable de déterminer à l’aide des images issues des caméras et des données issues des capteurs extérieurs (donc multimodales) qu’un défaut d’impression va se produire avant que celui-ci ne se réalise.
Pour atteindre cet objectif, ce stage peut être décomposé selon les missions suivantes :
1) Finaliser la détection automatique des défauts d’impressions à l’aide des modèles YoloV4 : La détection étant faite actuellement individuellement sur une caméra, et uniquement en prenant en compte l’image 2D ; il est nécessaire d’améliorer cette détection en utilisant en combinant les 5 vues ainsi que le modèle 3D attendu.

2) Mettre en place un modèle d’apprentissage capable de prédire si une erreur d’impression va arriver à un instant T+1 en ayant comme données d’entrée les données des capteurs + images à l’instant T. Ce modèle utilisera le modèle finaliser en (1) pour permettre un apprentissage non-supervisé. (Cœur du stage)

3) Complétez le jeu de données d’impressions 3D et créer le jeu de données de capteurs ambiants.

Notez que puisque ce stage s’inscrit dans le cadre d’un projet de recherche actuel, le point (1) pourrait être finalisé avant l’arrivée du stagiaire.
Les livrables attendus en fin de stage sont :
1) Le réseau de prédiction de défaut d’impression
2) Un document de conception (en anglais)
3) Une documentation sur l’installation et l’utilisation de la solution mise en place par le stagiaire
4) Rapport de Master
5) Soutenance de stage

Profil du candidat :
L’offre s’adresse à un étudiant en M2, ou dernière année d’école d’ingénieur avec de fortes compétences en informatiques, et notamment en Python.

Des connaissances sur les réseaux de neurones, le traitement et l’analyse d’images et/ou la modélisation 3D sont un plus.

Formation et compétences requises :
Il est nécessaire d’avoir de fortes compétences en programmation, surtout en Python.

Des connaissances sur les réseaux de neurones, le traitement et l’analyse d’images et/ou la modélisation 3D sont un plus.

Adresse d’emploi :
Strasbourg, Place de l’hôpital

Document attaché : 202111241537_Sujet stage 3DPRIAD_Master2 Recherche.pdf

Categories: Stages

Analyse de données multimodales pour la détection précoce de la maladie d’Alzheimer

Tickets

Jan 1 – Jan 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : Institut Fresnel
Durée : 4-6 mois
Contact : remi.ANDRE@univ-amu.fr
Date limite de publication : 2022-01-01

Contexte :
La maladie d’Alzheimer est la maladie neurodégénérative la plus fréquente chez les personnes âgées. On estime qu’au moins 30 millions de personnes sont touchées par cette pathologie. Bien qu’il n’existe aucun traitement efficace à ce jour, on peut espérer retarder le début de la maladie et/ou atténuer les risques de la contracter en détectant suffisamment tôt des Déficiences Cognitives Légères (DCL). Plusieurs modalités d’imagerie médicale telles que l’Imagerie par Résonnance Magnétique (IRM), l’IRM fonctionnelle ou encore la Tomographie par Emission de Positron (TEP) permettent d’identifier de manière précoce des changements se produisant dans le cerveau. Les techniques d’aide au diagnostic clinique basées sur des approches d’apprentissage automatique sont aujourd’hui en plein essor. Un grand nombre de méthodes ont été développées particulièrement pour la détection de la maladie d’Alzheimer.

Sujet :
L’objectif de ce stage est de tirer simultanément avantage de plusieurs modalités d’imagerie médicale pour la détection précoce de la maladie d’Alzheimer. Le candidat retenu aura pour première tâche d’explorer différentes manières de fusionner l’information des différentes modalités dans un tableau multidimensionnel appelé tenseur. Les tenseurs peuvent être vu comme une généralisation des matrices. Les méthodes issues de l’algèbre multilinéaire sont alors des outils intéressants pour l’extraction de caractéristiques pertinentes. Le stagiaire devra comparer différentes méthodes tensorielles d’extraction de caractéristiques et déterminer lesquelles sont les plus pertinentes pour la détection de la maladie d’Alzheimer.

Profil du candidat :
Ce stage s’adresse aux étudiants en dernière école d’ingénieurs ou de Master en sciences de l’information ou de traitement du signal.

Formation et compétences requises :
Le candidat sélectionné devra avoir un goût prononcé pour l’apprentissage automatique et le traitement du signal et des images ainsi que pour les aspects mathématiques sous-jacents. De solides compétences en programmation et la maitrise des langages python et/ou matlab sont nécessaires à la réalisation du stage. Une sensibilité aux applications biomédicales sera appréciée.

Adresse d’emploi :
Institut Fresnel, Domaine Universitaire de Saint Jérôme, 13397 Marseille

Document attaché : 202111031051_Sujet_stage_Fresnel.pdf

Categories: Stages

Analyse de données textuelles sur la sécurité alimentaire en Afrique de l’Ouest

Tickets

Jan 1 – Jan 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2022-01-01

Contexte :

Le stage s’inscrit dans le cadre d’un projet pluridisciplinaire concernant la gestion des risques liés à la sécurité alimentaire en Afrique de l’Ouest, considérée comme l’un des enjeux majeurs de développement de la région. Parmi les raisons à l’origine de ce phénomène, nous pouvons citer une forte croissance démographique, une agriculture pluviale très dépendante des conditions pluviométriques, auxquels s’ajoutent des risques sécuritaires et sanitaires. Depuis les grandes sécheresses du début des années 70, plusieurs systèmes d’alerte précoce (SAP) de la sécurité alimentaire ont été développés sur la région pour permettre aux décideurs d’anticiper les crises, et d’aider à la planification des mesures d’urgence en ciblant les populations et/ou les zones à risques. Dans ces systèmes, l’information satellitaire est utilisée majoritairement pour dériver des anomalies d’indices de végétation à partir de séries temporelles d’images à basse résolution spatiale. Les organisations internationales en charge des différents systèmes de suivi et d’alerte, se réunissent mensuellement pour atteindre un consensus sur les conditions de la campagne agricole. Si les classifications sur l’état des cultures sont souvent cohérentes, il arrive que ces informations divergent ou soient en contradiction avec les observations de terrain (Becker-Reshef et al., 2020)1. Ces désaccords peuvent venir des différences en termes de couverture géographique, d’unités spatiales cartographiées, de mandat des organisations en charge des SAPs, et des méthodes mises en œuvre. Dans ce contexte, les données textuelles (par exemple, articles de journaux) représentent une source d’information inexploitée, qui peut être utilisée pour renforcer les SAPs et résoudre les situations de désaccord.

Sujet :
L’objectif de ce stage est d’utiliser et combiner des techniques avancées de fouille de texte et de traitement automatique du langage naturel (TALN) à un corpus de données textuelles sur le thème de la sécurité alimentaire en Afrique de l’Ouest, afin d’apporter des informations complémentaires permettant de lever des incohérences observées et d’établir un diagnostic sur l’état de la végétation. Plus précisément, étant donné un cas d’étude spécifique (par exemple, pays et/ou épisode de désaccord), dans une première étape, des méthodes de l’état de l’art de Topic Modeling seront utilisées pour obtenir des sous-ensembles de données thématiquement homogènes. Le stage sera focalisé sur des documents textuels en Français, ce qui représente un autre défi scientifique vu la mineur quantité de ressources dans l’état de l’art par rapport à l’Anglais.
Une fois ces clusters obtenus pour chaque cas d’étude, différentes approches pourront être testées pour la phase de recherche de consensus :
• Approches fondées sur des techniques de Sentiment Analysis et Opinion Mining afin de comparer les polarités d’opinion (positif, négatif, neutre) ;
• Approches supervisées fondées sur des techniques de Machine Learning. Dans ce cas, l’idée est d’exploiter des données labélisés pour entraîner un classificateur de textes, afin de reconnaître une situation favorable ou défavorable à l’état des cultures. Le classifieur sera ensuite utilisé pour classifier les sous-ensembles de documents textuels associé aux épisodes de désaccord.

Des modelés de langages pour la langue Française basés sur la technologie des Transformers (p.ex., CamemBERT, FlauBERT) pourront aussi être utilisés pour supporter les deux taches. Ces méthodes devront être combinées pour apporter des connaissances nouvelles. Dans ce travail, les différentes propositions devront intégrées les dimensions spatio-temporelles associées aux données textuelles qui devront être prises en compte dans les analyses réalisées. Ces dernières seront effectuées à partir de cas d’étude déterminés permettant d’évaluer les différentes propositions. Ainsi, le ou la stagiaire contribuera à la constitution d’un corpus de données textuelles sur la sécurité alimentaire en Afrique de l’Ouest liés aux cas d’étude. Enfin, le travail sera valorisé à travers l’écriture d’un article scientifique qui présentera les contributions méthodologiques et les résultats obtenus.

Divers :

Durée : 6 mois
Gratification : taux légal en vigueur
Localisations : TETIS (Maison de la Télédétection) à Montpellier

Candidature :

Envoyer un CV + relevés de notes des deux dernières années à roberto.interdonato@cirad.fr et
mathieu.roche@cirad.fr

Profil du candidat :
Etudiant M2

Formation et compétences requises :
Langage Python, outils NLP
Capacité de travail en équipe pluridisciplinaire.

Adresse d’emploi :
TETIS (Maison de la Télédétection), 500 Rue Jean François Breton, Montpellier

Document attaché : 202111030914_Sujet de stage_FRESA_2022_final.pdf

Categories: Stages

Apprentissage multi-tâche pour le traitement de la parole et de la langue dans le cadre de conversat

Tickets

Jan 1 – Jan 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Linagora
Durée : 5-6 mois
Contact : jhunter@linagora.com
Date limite de publication : 2022-01-01

Contexte :
L’équipe R&D (https://labs.linagora.com/) de la société LINAGORA (http://linagora.com) développe en open-source des outils d’assistance intelligente pour entreprises, y compris l’assistant vocal LinTO (https://linto.ai/), et LinSTT (https://github.com/linto-ai/linstt-engine), un outil de reconnaissance de la parole qui est capable de transcrire sous forme textuelle un signal vocal, ce qui nous permet de produire, de manière automatique, des transcriptions de réunion. Actuellement, nous travaillons sur un gestionnaire de conversation, Conversation Manager, une plateforme qui permettra à partir d’un enregistrement complet d’une réunion d’en déduire un résumé aussi pertinent que possible. L’idée est qu’un utilisateur du Conversation Manager va pouvoir d’abord visualiser, corriger et annoter une transcription proposée par notre système et ensuite exploiter le contenu de la transcription et ses annotations pour créer un résumé de manière semi-automatique.
Pour ce faire, il est impératif que la transcription proposée à l’utilisateur, avant l’étape de correction, soit aussi correcte et facile à visualiser que possible, ce qui peut être difficile pour les transcriptions de réunion où il y a plusieurs locuteurs et où les participants ont tendance à faire des interventions longues et mal structurées d’un point de vue grammatical. Pouvoir bien associer un tour de parole à son locuteur (segmentation et regroupement en locuteurs, ou diarisation en anglais) et ajouter les marques de ponctuation qui rendent le texte plus facile à lire sont très importants pour faire des transcriptions de haute qualité.
La diarisation et la ponctuation peuvent ensuite servir à améliorer les algorithmes de résumé automatique en aidant un système à découper le contenu d’une réunion en clauses individuelles — appelés segments discursifs. Ces segments fournissent des unités sémantiques qui seront passées ensuite aux algorithmes de résumé qui jugeront quels segments sont plus centraux à la conversation et du coup, au résumé final.

Références

Bredin, H., Laurent, A. (2021) End-To-End Speaker Segmentation for Overlap-Aware Resegmentation. Proc. Interspeech 2021, 3111-3115.

Muller, P., Braud, C., Morey, M. (2019) ToNy: Contextual embeddings for accurate multilingual discourse segmentation of full documents. Proceedings of the Workshop on Discourse Relation Parsing and Treebanking 2019, 115-124.

Sujet :
Pour ce stage, le stagiaire étudiera les trois tâches – la diarisation, la ponctuation, et la segmentation discursive – en parallèle avec une approche d’apprentissage multi-tâche. L’entraînement du modèle sera fait sur des données de conversation transcrites soit en français, soit en anglais. Nous commencerons avec des modèles existants de ponctuation et segmentation qui se basent sur une architecture de transformer + bi-LSTM ainsi qu’un modèle de diarisation. La nouveauté de ce stage consistera dans (a) l’approche multi-tâche pour étudier ces trois sujets en parallèle et (b) l’usage des informations acoustiques des enregistrements de conversation et de réunion (alors que les modèles de base pour la ponctuation et la segmentation discursive sont entraînés exclusivement sur du texte).
L’encadrement du stage : Le stagiaire sera encadré par Samir Tanfous de LINAGORA, mais travaillera en collaboration avec Julie Hunter de LINAGORA et plusieurs membres du laboratoire IRIT, notamment Philippe Muller de l’équipe Melodi (NLP) et Thomas Pellegrini et Hervé Bredin de l’équipe Samova (Traitement de la parole).

Profil du candidat :
Étudiants de M2 ou d’école d’ingénieur en dernière année, en informatique et IA avec des compétences en machine learning
De l’expérience en deep learning et PyTorch serait un plus
De l’expérience en speech processing et/ou NLP serait un plus

Formation et compétences requises :
Étudiants de M2 ou d’école d’ingénieur en dernière année, en informatique et IA avec des compétences en machine learning
De l’expérience en deep learning et PyTorch serait un plus
De l’expérience en speech processing et/ou NLP serait un plus

Adresse d’emploi :
LINAGORA, soit à Paris, soit à Toulouse

Categories: Stages

Offre de stage TinyML / Internship in TinyML (DeepLeaning + IoT)

Tickets

Jan 1 – Jan 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ISI / Institut Fayol / Mines Saint-Étienne
Durée : 5 mois / 5 months
Contact : guillaume.muller@univ-st-etienne.fr
Date limite de publication : 2022-01-01

Contexte :
1 Administrative Context
Mines Saint-Etienne (MSE), one of the graduate schools of Institut Mines-Télécom, the first group of graduate schools of engineering and management in France under the supervision of the Ministry of the
Economy, Industry and Digital Technology, is assigned missions of education, research and innovation, transfer to industry and scientific, technological and industrial culture.
MSE consists of 2,400 graduate and postgraduate students, 400 staff, a consolidated budget of €46M, three sites on the Saint-Etienne campus (Auvergne Rhone-Alpes region, Lyon Saint-Etienne metropolitan area), a campus in Gardanne (SUD region, Aix Marseille metropolitan area), a site in
Lyon within the digital campus of Auvergne Rhone-Alpes Region, six esearch units, five teaching and research centres and one of the leading French science community centres (La Rotonde €1M budget and +40,000 visitors per year). The Times Higher Education World University Ranking ranked us for 2022 in the 251-300 range for Engineering and Technology. Our work environment is characterised by high Faculty-to-Student, Staff-to-Faculty and PhD-to-Faculty ratios, as well as comprehensive state-of-the-art experimental and computational facilities for research, teaching and transfer to industry.
The Henri Fayol Institute, one of the school’s 5 training and research centers, brings together professors in industrial engineering, applied mathematics, computer science, environment and management
around the theme of overall business performance. The Henri Fayol Institute is strongly involved in flagship projects of the Industry of the Future and the City of the Future.

2 Scientific Context
In recent years, Artificial Intelligence, in particular Neural Networks (NN), has shown impressive results in many applications, often beating humans in many domains, from Games (AlphaGo. . . ) to Health Care (skin & eye cancer detection. . . ). However, training such models requires large amounts of computing power, thus of energy; sometimes more than a small city over a year (e.g. GPT-3). As energy is the main source of release of CO2 in the atmosphere, such technological progress unfortunately
goes along with the destruction of our planet. This goes in the opposite direction of UN’s Sustainable Development Goals, that we need to achieve quickly to ensure our survival as a whole society.

Sujet :
3 Topic: TinyML
The field of TinyML seeks to find ways of implementing Machine Learning (ML) models (particularly NN) on small devices, with limited CPU power, RAM capacity, Network bandwidth and Battery life. Techniques developed in this domain could provide elements for a global solution, thus allowing to continue producing positive social impacts with AI/ML/NN (better health care, optimized transportation. . . ), without destroying our planet.
This internship proposes to explore state of the art techniques for reducing both the size and the training time of a NN, using small devices to impose strict energy consumption constraints.

Keywords: Artificial Intelligence, Neural Network, Deep Learning, IoT, TinyML, Quantization, Pruning, Distillation, Training, Gradient Descent, Back-Propagation.

4 Organization
The internship will take place at Espace Fauriel in Saint-Etienne, in the ISI department of Institut Fayol.
The internship will follow a 3 steps plan:
1. The student will start with trying to reproduce the toy (but realistic) application which consists in designing a glove/bracelet that can recognize the characters drawn in the air by a person [Fre21].
Through this example the student will learn about techniques like Quantization, Pruning and Distillation. These techniques allow reducing the size of a Big NN that was previously learned on a standard computer. This solves the problem of the energy consumption at inference time,
but not at training time.
2. Then, the student will explore state of the art techniques for training a NN directly on a small device, based on researches like [Lin+22].
3. Based on these experiments, the student will be able to explore more realistic scenarios adapted to Industry 4.0 (e.g. the “Augmented Technician”) or Health Care (e.g. “Smart Orthosis”),
where we need both inference and training to be executed on-device, in order to detect custom gestures that can change over time.

References
[Fre21]Zack Freedman. AI Data Glove: Somatic. 2021. url: https://www.youtube.com/watch?
v=6raRftH9yxM.
[Lin+22]Ji Lin et al. “On-Device Training Under 256KB Memory”. In: arXiv preprint arXiv:2206.15472 (2022). url: https://tinyml.mit.edu/.

Profil du candidat :
Master 2 or last year engineering school student

Formation et compétences requises :
5 Job requirements
The student should have prior following skills:
• Solid background in Machine Learning, in particular Deep Learning
• Strong coding in Python skills
• Minimal background in IoT/Arduino
• Curiosity of anything technological/scientific & Motivation for Sustainable Development

6 Application
To apply, please send your CV, cover letter, and any other useful information before January, 15 2023 to guillaume.muller@emse.fr

Adresse d’emploi :
29 rue Ponchardier, 42100 Saint-Étienne, France

Document attaché : 202211211820_2022_11_02_TinyMLInternship.pdf

Categories: Stages

Jan

Fri

2022

Détection de la variation graphique dans une langue non standardisée (dialectes alsaciens)

Tickets

Jan 7 – Jan 8 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LiLPa (Linguistique, Langues et Parole), Universit
Durée : 4 à 6 mois
Contact : ruizfabo@unistra.fr
Date limite de publication : 2022-01-07

Contexte :
Les langues peu dotées présentent des défis spécifiques pour le Traitement Automatique des Langues (TAL) ; le manque de ressources textuelles volumineuses complique l’utilisation d’approches empiriques et, dans certains cas, comme celui de l’alsacien, l’absence d’une orthographe standardisée nécessite de gérer la variation graphique. Dans ce contexte, le projet MeThAL (Laboratoire LiLPa, Université de Strasbourg) est en train de créer un corpus large de théâtre en alsacien qui aidera à la création de ressources linguistiques pour les dialectes alsaciens ainsi qu’à une étude quantitative de la tradition dramatique alsacienne. Dans le cadre du projet, environ 4 000 pages de texte océrisé corrigé ont été produites, sur la base de numérisations en mode image créées par la Bibliothèque nationale et universitaire de Strasbourg. Une interface permet d’explorer les textes et métadonnées disponibles, et un sous-corpus de 300 000 tokens encodé selon les recommandations de la Text Encoding Initiative (TEI) a été publié. Pour pouvoir comparer le contenu des textes du corpus et effectuer des analyses thématiques ou textométriques, une représentation orthographique homogène du vocabulaire est nécessaire, et une neutralisation des variantes graphiques est incontournable. Elle serait aussi utile pour offrir une recherche en texte intégral sur le corpus.

Plusieurs approches ont été proposées pour la détection de la variation graphique. La plupart d’entre elles procèdent par normalisation, c’est-à-dire la transformation des variantes vers une forme standard. Une telle approche n’est pas applicable aux dialectes alsaciens, en raison de l’absence de standard orthographique stable. Millour & Fort (2019) ont utilisé le crowdsourcing pour collecter auprès des locuteurs de l’alsacien différentes graphies d’un mot donné. Les variantes alignées sont utilisées pour extraire automatiquement des règles de variation puis apparier automatiquement des graphies alternatives potentielles. Des méthodes non supervisées de clustering ont également été adoptées (Dasigi & Diab, 2011; Rafae et al., 2015). L’utilisation de ressources externes comme des lexiques bilingues ou des réseaux sémantiques multilingues a été proposée par Bernhard (2014). Il est également possible d’utiliser des méthodes supervisées, qui nécessitent toutefois des corpus annotés permettant d’identifier les variantes. Par exemple, Barteld et al. (2019) génèrent des variantes candidates qui sont ensuite filtrées à partir des n-grammes de caractères qu’elles contiennent et la similarité de leurs plongements de mots, ainsi que leurs contextes d’occurrence.

Sujet :
Dans le cadre du stage, il s’agira dans un premier temps d’explorer les habitudes de scripturalisation (utilisation de certains caractères et n-grammes de caractères) en fonction des métadonnées disponibles (auteur, lieu de naissance, lieu de publication, maison d’édition, date, genre). La discriminativité des tendances dégagées pourra être éprouvée sur des tâches de classification en fonction des métadonnées. Le corpus pourra éventuellement être enrichi à l’aide d’un étiquetage morphosyntaxique automatique, dont la qualité sera à évaluer, compte tenu des spécificités du corpus (genre, période) : un intérêt particulier du corpus est son caractère non-contemporain (1870-1940) ; il présente des divergences orthographiques par rapport aux pratiques actuelles qui demandent une adaptation des ressources existantes. Les activités suivantes sont prévues :

– Description approfondie du corpus (globale et par sous-corpus) : fréquence de caractères, de n-grammes, etc. (et, éventuellement, comparaison avec d’autres corpus de périodes plus récentes)
– Identification des propriétés discriminantes (p. ex. en proposant une représentation vectorielle des textes basée sur les différentes propriétés choisies)
– Induction de règles de variation et extraction automatique de paires de variantes au sein du corpus. Comparaison du résultat avec celui issu de l’application des règles obtenues par Millour & Fort, (2019) ; des différences sont attendues en raison des périodes des corpus respectifs
– Évaluation et proposition d’amélioration de la méthode

Références

Barteld, F., Biemann, C., & Zinsmeister, H. (2019). Token-based spelling variant detection in Middle Low German texts. Language Resources and Evaluation, 53(4), 677–706. https://doi.org/10.1007/s10579-018-09441-5

Bernhard, D. (2014). Adding Dialectal Lexicalisations to Linked Open Data Resources: The Example of Alsatian. Proceedings of the Workshop on Collaboration and Computing for Under Resourced Languages in the Linked Open Data Era (CCURL 2014), 23–29. https://hal.archives-ouvertes.fr/hal-00966820

Dasigi, P., & Diab, M. (2011). CODACT: Towards Identifying Orthographic Variants in Dialectal Arabic. Proceedings of 5th International Joint Conference on Natural Language Processing, 318–326. https://aclanthology.org/I11-1036

Millour, A. & Fort, K. (2019). Unsupervised Data Augmentation for Less-Resourced Languages with no Standardized Spelling, RANLP, 776–784. https://aclanthology.org/R19-1090.pdf

Rafae, A., Qayyum, A., Moeenuddin, M., Karim, A., Sajjad, H., & Kamiran, F. (2015). An Unsupervised Method for Discovering Lexical Variations in Roman Urdu Informal Text. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 823–828. https://doi.org/10.18653/v1/D15-1097

Profil du candidat :
Master en Informatique ou Traitement automatique des langues. Intérêt pour les problématiques du stage.

Formation et compétences requises :
Master en Informatique ou Traitement automatique des langues. Intérêt pour les problématiques du stage.

Adresse d’emploi :
Télétravail ou hybride au Laboratoire LiLPa (Linguistique, Langues et Parole, Université de Strasbourg). 61, av. des Vosges, 67000 Strasbourg.

Document attaché : 202112171335_stage_variation_alsacien.pdf

Categories: Stages

November 2021 – January 2022 Nov 2021 – Jan 2022

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Présentation Générale

Manifestations à venir

Actions, Ateliers et Groupes de Travail :