Amélioration de systèmes d’extraction de relations temporelles à partir de textes en langue naturelle : étude de l’injection de connaissances en vue de l’hybridation de systèmes par apprentissage profond

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO
Durée : 6 mois
Contact : anais.halftermeyer@univ-orleans.fr
Date limite de publication : 2024-02-29

Contexte :
Nous proposons, dans le cadre de ce sujet de stage financé, d’explorer l’intégration de connaissances dans un système par apprentissage profond, reposant sur un modèle de langue, à résoudre des tâches de raisonnement temporel. Nous proposons de travailler dans le cadre de l’extraction d’informations temporelles qui associe à un texte en langue naturelle une représentation synthétique des évènements qui y sont relatés. Une représentation classique de ce type de données est un graphe de relations temporelles entre les évènements relatés et/ou entre expressions temporelles [1].
Les récentes avancées du deep learning en matière de compétences langagières nous amène à nous interroger sur la maîtrise de l’humain sur les processus de résolution de tâche reposant sur la langue naturelle. Ces modèles ont des architectures de plus en plus complexes et sont de plus en plus gourmands en puissance de calcul et en données d’entraînement. Cependant ils restent insuffisants puisque les connaissances générales sur des relations temporelles ne sont pas exploitées pour mieux orienter les résultats, ainsi que pour expliquer ces résultats.

Un premier système [3] a proposé de construire un graphe temporel à partir de textes médicaux en s’appuyant de BERT, de la mise à profit de règles en logique probabiliste dans la phase d’apprentissage du modèle, ainsi qu’à la phase d’’inférence globale. Ce travail hybride a ouvert des pistes de recherche sur l’apport considérable que pouvait représenter la connaissance propre à la temporalité via le travail sur les règles. Afin de rendre plus performant les systèmes, [4] a proposé de tirer partie de l’analyse syntaxique des entrées avec succès. Dans la même lignée de [2], nous proposons de tirer partie de la représentation de la connaissance temporelle comme levier de performance et d’explicabilité du système dans sa totalité.

Sujet :
Nous nous intéressons à intégrer de la connaissance dans ces modèles afin de résoudre au mieux les tâches de raisonnement temporel, et ce via l’expression de contraintes afin de :
• tirer profit du meilleur des deux mondes que sont les contraintes et les modèles de langues acquis par deep learning
• proposer des modèles hybrides en partie explicables
• faire reposer nos systèmes sur une puissance de calcul maîtrisée combinée à une méthodologie reproductible d’injection de connaissances

Concrètement, étant donné un système d’apprentissage profond reposant sur un modèle de langue entraîné à traduire un texte en un graphe temporel représentant les évènements narrés dans le texte en entrée, l’injection de connaissances via l’expression de contraintes modifiera les sorties du système.
Nous cherchons à figer une méthodologie permettant d’injecter des connaissances de manière incrémentale afin de guider notre système tout en maîtrisant :
• la taille de notre modèle
• la taille de nos données d’entraînement
• la complexité de nos contraintes

Profil du candidat :
Idéalement, la personne recrutée terminera des études de niveau Master (Master 2) et disposera de connaissances théoriques et pratiques sur les techniques par apprentissage profond. Un intérêt pour la langue et son traitement automatique serait apprécié, sans être un pré-requis à recrutement.

Formation et compétences requises :
niveau Master (Master 2)

Adresse d’emploi :
LIFO Orléans campus de la Source

Document attaché : 202402081058_Sujet_Stage.pdf

Campagne de recrutement E.-C. : l’IRISA laboratoire d’accueil pour une vingtaine de postes MCF ou PR

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IRISA
Durée : Ind.
Contact : laurent.dorazio@irisa.fr
Date limite de publication : 2024-02-09

Contexte :
Bonjour,

Dans le cadre de la campagne synchronisée de recrutement des enseignants-chercheurs et enseignantes-chercheuses 2024, l’IRISA est laboratoire d’accueil pour une vingtaine de postes MCF ou PR, en lien avec les composantes de formation partenaires. Ces postes concernent à eux tous l’ensemble des thématiques et des équipes de l’UMR.

Les fiches des postes sont accessibles à l’adresse https://www.irisa.fr/campagne-demploi-2024-postes-mcfpr.

Liste des postes :
– PR Université de Rennes / ISTIC, 46-1 27e section : Informatique
– PR Université de Rennes / ISTIC, 46-1 27e section : Cybersécurité
– PR Université de Rennes / IUT Lannion, 46-1 27e section : Données, intelligence artificielle, apprentissage
– PR Université de Rennes / IUT Lannion, 46-3 61e section : Architectures systèmes IoT ; systèmes télécom
– PR Université Bretagne Sud / IUT de Vannes, 46-1 27e section : Génie logiciel
– PR Université Bretagne Sud / IUT de Vannes, 46-1 27e section : Informatique ; systèmes/réseaux/cybersécurité ou intelligence artificielle
– PR IMT-Atlantique : Sécurité
– MCF Université de Rennes / ISTIC, 26-1 27e section : Réseaux couches hautes / systèmes / cloud
– MCF Université de Rennes / ISTIC, 26-1 27e section : Langage, programmation, science du logiciel
– MCF Université de Rennes / ISTIC, 26-1 27e section : Cybersécurité
– MCF Université de Rennes / ISTIC, 26-1 27e section : Informatique et applications à la sobriété numérique
– MCF Université de Rennes / IUT Lannion, 26-1 27e section : Gestion de données, intelligence artificielle
– MCF Université de Rennes / ENSSAT Lannion, 26-1 27e section : Cybersécurité « cœur de réseaux »
– MCF Université de Rennes / ENSSAT Lannion, 26-1 27e section : Gestion de données, intelligence artificielle
– MCF Université de Rennes / IUT Saint-Malo, 26-1 27e section : Informatique ; réseaux, systèmes, cybersécurité
– MCF Université Bretagne Sud /IUT de Vannes, 26-1 27e section : Intelligence artificielle
– MCF Université Bretagne Sud /IUT de Vannes, 26-1 27e section : Systèmes/réseaux/sécurité, intelligence artificielle
– MCF Université Bretagne Sud /IUT de Vannes, 26-1 27e section : Systèmes/réseaux/sécurité, intelligence artificielle – poste susceptible d’être vacant
– MCF INSA Rennes, 26-1 27e section : Cybersécurité ou intelligence artificielle
– MCF IMT-Atlantique, 27e section : Réseaux

Sujet :
/

Profil du candidat :
/

Formation et compétences requises :
/

Adresse d’emploi :
/

Engineer Position in Deep Learning

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IMT Atlantique
Durée : 9 months
Contact : carlos.granero-belinchon@imt-atlantique.fr
Date limite de publication : 2024-07-07

Contexte :
Nowadays, several operational Land Surface Temperature (LST) products are available but limitations remain, notably because there is still a trade-off between spatial and temporal resolutions. Thermal sensors such as MODIS or Sentinel 3 (1km spatial resolution) provide a high revisit (daily) and ASTER or the LANDSAT series provide a low revisit with high spatial resolution (around 16 days at 90 m and 100 m). Consequently, upscaling the spatial resolution helps improving the data fusion between different sensors, the generation of LST temporal series as well as a finer-scale analysis for different applications such as the monitoring of vegetation stress, forest fires or urban heat islands
among others.

A large body of research has addressed this challenge with sharpening or disaggregation methods that are based on statistical relationships between high spatial resolution products and LST at low spatial
resolution (Granero-Belinchon et al. 2019). However, these statistical approaches lead to limitations such as the need of high resolution products acquired in the same area and close in time, or scale
invariant hypotheses which sometimes are not adapted.

Inspired by the existing research at the interface between AI and remote sensing, new AI-models continue to appear for the processing of spaceborne images, and more precisely for super-resolution
applications, notably with CNNs (Convolutional Neural Networks) and GANs (General Adversarial Networks) (Brodu et al. 2017, Gargiulo et al. 2019).

Nguyen et al. 2022 showed that important improvements are still needed to correctly adapt CNNs for LST super resolution to overcome the invariance scale hypothesis and the blurring effect. Thus, the
inclusion of a physical information can lead to better performances for LST super resolution.

Sujet :
This proposal focuses on the MODIS sensor due to the large state-of-the-art available on this mission, the dataset already processed by the involved partners and the recent studies on this sensor dealing
with the super resolution of its LST previously mentioned.

Following (Brodu et al. 2017) or (Gargiulo et al. 2019), a first approach consists in combining high resolution information in the VNIR domain (NDVI for example) with coarse resolution LST to train the model for super-resolution. We call this approach Dual image super resolution (DISR). The main advantage of this approach is the direct use of high resolution information for upscaling LST.

For Single image super resolution (SISR), learning will be performed at degraded resolution. Thus for example for LST upscaling from 1 km to 250 m, training will be done from 4 km to 1 km. This strategy is commonly used when no ground truth is available at the desired resolution (in our case LST
at 250 m), see (Nguyen et al. 2022). Consequently, a scale-invariance hypothesis is assumed, i.e. the learned model from 4 km to 1 km is valid when upscaling LST from 1 km to 250 m. However, scale-invariance is not necessarily exact and so this hypothesis must be corrected. We plan to overcome it by studying the statistical evolution of LST and reflectives indices such as NDVI across the involved scales and different landscapes (a hundred of meters to several kilometers) in order to deduce physical
laws allowing us to correct the scale invariance hypothesis of current AI super resolution methods in remote sensing. For doing so, LANDSAT 9 or ASTER data will be used.

Profil du candidat :
Engineer in deep learning

Formation et compétences requises :
Candidates are expected to have good knowledge in Deep Learning/Machine learning with strong experience in Neural Networks. Ideally, the candidate will have previous experience in remote sensing
and would have shown strong interest on these topics previously. Good skills in python, pytorch, pytorch lightning are also required, as well as a background in teamwork. Previous experience in a multidisciplinary research team will also be considered as positive.

Adresse d’emploi :
The candidate will work in collaboration with Carlos Granero-Belinchon and Lucas Drumetz from IMT Atlantique, Aurélie Michel and Xavier Briottet from Onera Toulouse, Thomas Corpetti from CNRS and Julien Michel from CNES. Thus, the research team is composed by physicist, and researchers on artificial intelligence, signal and image processing and remote sensing from different laboratories, leading to a multidisciplinary project. Moreover, the candidate will develop within the
OSE research team at IMT (https://cia-oceanix.github.io/) which is a dynamic research group on image processing and artificial intelligence for the study of the environment.

The position is a 9 months full-time appointment starting during 2024. Gross salary will depend on the experience of the candidate. The candidate will also benefit from French social insurance, and will have up to 45 days of annual leave. The candidate will be able to benefit up to 90 days of remote working per year.

The candidate will be based at the IMT Atlantique Campus (Brest) in a dynamic and stimulating working environment at five minutes walking from the beach.

Within the framework of the ANR Chair OCEANIX the candidate will have access to compute servers : Datarmor and servers from OSE at IMT Atlantique.

Motivated candidates should send a CV and a motivation letter to: carlos.granero-belinchon@imt-atlantique.fr.

Document attaché : 202402071225_IR_CNES_TOSCA.pdf

PhD topic – Towards Efficient foundation models for VHR satellite images.

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : UBS-IRISA/CNES
Durée : 36 mois
Contact : minh-tan.pham@irisa.fr
Date limite de publication : 2024-03-31

Contexte :
Remote sensing imagery for Earth observation (EO) has emerged as a dynamic research area, enabling precise identification, characterization, and interpretation of objects and materials on the Earth’s surface. The ongoing progress in satellite technology has led to the availability of numerous very-high-resolution (VHR) optical satellites, facilitating daily acquisitions. This enables the creation of highly detailed maps with sub-meter spatial resolution, benefiting various essential EO applications such as urban planning, swift disaster mapping, natural resource management, and wildlife monitoring.

In recent years, deep learning (DL) has found success in various machine learning and computer vision domains, including remote sensing (RS). Despite this, applying DL to real-world scenarios using VHR satellite images for operational purposes faces numerous challenges. The foremost challenge involves the difficulty of annotating domain-specific data, particularly in EO applications that demand expert knowledge. Generating precise and comprehensive labeled datasets for training deep models is a time-consuming and expensive endeavor. For instance, in rapid disaster mapping, acquiring accurate labels is nearly unfeasible due to the infrequent and unique nature of catastrophic events.
Another challenge comes from the significant domain shifts inherent in RS data, arising from diverse sensor characteristics (i.e., spatial resolution and spectral bands) and varied acquisition conditions. Lastly, the exploding size of deep models, with millions (or even billions) of parameters, raises concerns. Not only do they demand substantial computational and storage resources, but they also cause negative environmental issues.

Therefore, designing efficient models while maintaining high accuracy becomes essential in every EO application to reduce energy cost and more importantly, to minimize the environmental impact. These models are expected to be reusable or transferred with low resources. Recent studies have showed that self-supervised pretraining with unlabeled RS images outperforms popular ImageNet-pretrained models in EO downstream tasks, especially when labels are scarce. By leveraging self-supervised learning (SSL) on the abundance of multi-source unlabeled data, foundational models (FMs) have started their era by providing high performance on a wide range of downstream tasks. However, current trends of FMs in EO only focus on creating large vision FMs using substantial multi-source images (RingMo Billion-scale ViT), or large vision-language FMs (RemoteCLIP ). These models demand significant computational resources for training and deployment. Therefore, developing resource-efficient foundation models in the context of EO is imperative to mitigate environmental concerns in the future.

Sujet :
This PhD topic aims to develop efficient foundation models with a focus on EO applications using VHR satellite imagery. The main objectives are the three-folds (please see the details in the attached file).

Profil du candidat :
– MSc or Engineering degree with excellent academic track and proven research experience in one of the following fields: computer science, applied maths, signal and image processing;

Formation et compétences requises :
– Experience with machine learning, in particular deep learning;

– Interests for environment and earth observation applications;

– Skills and interest in programming (Python and frameworks such as Pytorch/Tensorflow will be appreciated);

– Excellent communication skills (spoken/written English) is required ;

Adresse d’emploi :
UBS (Université Bretagne Sud)/IRISA (UMR 6074), campus in Vannes 56000, France.

Document attaché : 202402061131_2024_PhD_IRISA_CNES_Temo.pdf

MCF Isima / Limos – sécurité informatique

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIMOS (https://limos.fr)
Durée : permanent
Contact : ftoumani@isima.fr
Date limite de publication : 2024-03-31

Contexte :
Poste de maître de conférences au laboratoire LIMOS (https://limos.fr) et à l’ISIMA (https://www.isima.fr)

Sujet :
Sécurité informatique.

Profil du candidat :
Profil Recherche.
Les activités de recherche seront menées au sein du thème Réseau et Sécurité, https://limos.fr/themes/4, de l’axe SIC du LIMOS (UMR 6158), qui souhaite renforcer ses activités dans le domaine de la conception et preuves de protocoles ainsi que de schémas cryptographiques. Les candidatures devront présenter des projets d’intégration solides et motivés, ciblant ces thématiques au sein de l’équipe sécurité du LIMOS.
Les dossiers qui démontrent un engagement envers la pluridisciplinarité, le développement de travaux en cryptographie, les méthodes formelles pour la sécurité, ou vie privée (Privacy) seront également examinés. De même,toute xpérience dans le domaine de la sécurité informatique sera valorisée. Une attention bienveillante sera accordée aux candidatures qui mettent en avant des réalisations en matière de sécurité appliquée. Enfin, les candidats ayant des aptitudes à travailler au sein de collaborations internationales sont fortement encouragées.

Profil Enseignement.
L’ISIMA (Institut Supérieur d’Informatique, de Modélisation et de leurs Applications) est une grande école d’Ingénieurs en Informatique de ClermontAuvergneINP,établissement-composantedel’UniversitéClermontAuvergneetmembredugroupeINP. L’ISIMAregroupeles formations de diplôme d’ingénieur en informatique (environ 430 étudiants), de master d’informatique (environ 150 étudiants) et de la licence d’informatique (environ 350 étudiants).
La personne recrutée sera susceptible d’intervenir dans tous les diplômes de l’ISIMA (diplôme d’ingénieur en informatique en formation initiale statut étudiant / apprenti, master en informatique, licence d’informatique). Une part significative des enseignements se fera sur le thème de la sécurité, notamment dans la filière “réseaux et sécurité” du diplôme d’ingénieur. Cette filière, labellisée SecNumEdu par l’ANSSI, met un fort accent sur tous les aspects de la sécurité informatique. On peut notamment citer des besoins dans les enseignements suivants :
– fondements de la sécurité informatique (dont théorie des codes et cryptographie),
– sécurité réseau (dont architecture d’un réseau sécurisé, sécurisation des services réseaux),
– programmation sécurisée (dont sécurité web, sécurité des systèmes d’exploitation, analyse de malwares, sécurité de l’embarqué, sécurité des objets connectés),
– sécurité du système d’information (dont politique de sécurité, tests d’intrusion).
Des enseignements dans d’autres domaines seront aussi proposés en fonction du profil du candidat (ex : algorithmique et programmation, bases de données, apprentissage automatique, systèmes d’exploitation, informatique théorique, recherche opérationnelle, etc.).
La candidate / le candidat s’intègrera à l’équipe pédagogique de l’ISIMA, constituée d’environ 45 enseignants et enseignants-chercheurs. La candidate / le candidat aura vocation à participer aux tâches collectives et aux missions d’intérêt général de l’école.
Les candidatures externes sont fortement encouragées.

Formation et compétences requises :
Doctorat en informatique

Adresse d’emploi :
LIMOS (https://limos.fr)
ISIMA (https://www.isima.fr)

[stage/thèse] [lip6, Paris] Perturbations du Trafic Maritime par des Mouvements Sociaux

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6 (CNRS et Sorbonne Université)
Durée : 6 mois
Contact : Matthieu.Latapy@lip6.fr
Date limite de publication : 2024-09-01

Contexte :
Alors qu’il joue un rôle essentiel dans les échanges de marchandises à travers le monde, le trafic maritime est régulièrement perturbé par des mouvements sociaux ou écologistes (grèves ou blocages dans les ports ou à bord des navires, comme les 10 jours de grève des dockers de la côte ouest des USA en 2002). Il est aussi perturbé par des accidents
(comme l’obstruction du canal de Suez par un navire échoué pendant 6 jours en 2021), des catastrophes naturelles (par exemple, le tremblement de terre à Kobé en 1995 ou la sécheresse au canal de Panama en août 2023), ou de la piraterie (plus de 300 actes recensés
par an).

Sujet :
L’impact de tels événements, ainsi que la robustesse du réseau d’échanges et ses fragilités, sont mal connus. En particulier, quelle est l’ampleur, la durée et la structure des perturbations ? Restent-elles locales ou se propagent-elles loin à travers le réseau, et sous
quelles conditions ? De petits événements peuvent-ils engendrer de grandes perturbations par des effets en cascades ? Comment le retour à la normale s’opère-t-il ? Y a-t-il des points particulièrement fragiles dans le réseau ? Les perturbations induites par des mouvements sociaux sont-elles similaires aux autres types de perturbations ? Existe-t-il des
sous-parties du réseau plus robustes que d’autres ?

Ce stage propose une approche orientée données pour répondre à ces questions et améliorer drastiquement les connaissances sur ces sujets.

Profil du candidat :
Master en informatique, ouverture interdisciplinaire (géographie, SHS), volonté de poursuivre en thèse.

Formation et compétences requises :
Analyse de données, manipulation de grandes données, graphes, réseaux.

Adresse d’emploi :
Paris centre

Document attaché : 202402051751_stage_reseaux_maritimes.pdf

Ingénieur.e en développement logiciel pour les données publiées en astronomie

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Observatoire Astronomique de Strasbourg
Durée : 1 an
Contact : gilles.landais@astro.unistra.fr
Date limite de publication : 2024-03-04

Contexte :
Le Centre de Données astronomiques de Strasbourg (CDS) gère d’importantes bases de données qui sont des références pour la communauté astronomique internationale. Le CDS développe des services en ligne qui permettent d’accéder à ces bases et à les exploiter (http://cds.unistra.fr/). Le CDS compte parmi ses utilisateurs les agences spatiales (l’Agence Spatiale Européenne (ESA) et la NASA), les principaux observatoires, tel que l’Observatoire Austral Européen (ESO), ainsi que l’ensemble des instituts de recherche en astrophysique possédant une composante observationnelle. Le CDS est fortement impliqué dans le mouvement national et international de la Science Ouverte. VizieR, en particulier, est une base de données de catalogues du ciel, qui traite plus de 500 000 requêtes par jour, reçues du monde entier.

Le service VizieR du CDS collecte, homogénéise et redistribue les catalogues d’objets astronomiques issus des publications scientifiques et de grands relevés des observatoires et des missions spatiales. Le service est reconnu par la communauté astronomique mondiale et est partenaire des principaux éditeurs de journaux en astronomie.
VizieR s’appuie sur une base de données qui réunit des données (principalement des tables) indexées et documentées. Les données sont distribuées via des services Web et des API conformes aux protocoles de l’Observatoire Virtuel International en Astronomie et sont diffusées dans des plateformes scientifiques incluant l’European Open Science Cloud (EOSC) et EUDAT B2FIND. La valeur ajoutée du service répond aux exigences des données ouvertes et offre aux scientifiques et aux auteurs un haut niveau d’interopérabilité des données.

Sujet :
Au sein d’une équipe d’ingénieurs informaticiens, de documentalistes et d’astronomes, vous êtes chargé(e) de développements informatiques/logiciels dans le cadre du service VizieR (service de référence internationale pour les catalogues astronomiques). Le candidat contribuera à l’évolution des processus de mise en ligne des tables publiées dans les articles scientifiques ou issues de grands relevés provenant des observatoires et des missions spatiales.

Profil du candidat :
– Bac+5 minimum
– Maîtrise des développements en C et Python dans un environnement Linux.
– Anglais lu et parlé indispensable et capacité à présenter son travail.

Formation et compétences requises :
– Maîtrise des développements en C et Python dans un environnement Linux.
– Bonnes connaissances en bases de données relationnelles (PostgreSQL) et du langage SQL.
– Connaissance d’un autre langage comme Java ou Rust serait un plus.

Adresse d’emploi :
11, rue de l’université
67000 Strasbourg

Annonce publiée sur le site de l’université de Strasbourg:
https://www.unistra.fr/universite/travailler-a-luniversite/personnels-administratifs-et-techniques/offres-demplois/

Econom’IA

Annonce en lien avec l’Action/le Réseau :

Thème :

Intellignce Artificielle en Economie

Présentation :

L’objectif de cette conférence est d’explorer et d’encourager les applications de pointe de l’intelligence artificielle (IA), du Text Mining, du Web Mining, de la visualisation de données et d’autres techniques innovantes dans tous les domaines de l’économie.
Econom’IA rassemble des chercheurs du monde académique ainsi que des entrepreneurs qui utilisent des techniques innovantes pour analyser les données économiques.

Cette conférence de 2 jours propose en matinée, des ateliers de formation pour découvrir de nouveaux outils et techniques . L’après-midi, lui, est consacré à des présentations et des discussions d’articles utilisant au moins une des techniques innovantes abordées en atelier.

Les 2 journées sont animées par des chercheurs reconnus dans le domaine.

Du : 2024-05-06

Au : 2024-05-07

Lieu : Bordeaux, France

Site Web : https://economia.sciencesconf.org/

Gestion de la performance et de la qualité de la détection parallèle des anomalies à large échelle

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIAS/SAE-ENSMA
Durée : 36 mois
Contact : amin.mesmoudi@univ-poitiers.fr
Date limite de publication : 2024-03-11

Contexte :
La détection automatique d’anomalies joue un rôle critique dans une variété de domaines, notamment la cybersécurité, la maintenance prédictive et la surveillance de systèmes complexes. Les progrès récents dans le domaine de l’apprentissage automatique ont ouvert de nouvelles perspectives pour le développement de méthodes prometteuses de détection d’anomalies, en particulier lorsqu’il s’agit de données complexes telles que les graphes [1,5,6,7,8] et les séries temporelles [2,3,4].
Dans ce contexte, la gestion efficace de gros volumes de données est devenue cruciale pour la détection d’anomalies à grande échelle. Les systèmes modernes génèrent une quantité massive de données en temps réel [6], ce qui rend impératif d’adapter les méthodes de détection d’anomalies pour traiter ces flux de données de manière efficace. Cela nécessite non seulement une préparation de données efficace pour nettoyer, intégrer et étiqueter les données, mais aussi une parallélisation habile de l’exécution des algorithmes de détection d’anomalies. En tirant parti de la puissance du calcul distribué et des infrastructures de traitement de données à grande échelle, nous pourrons améliorer la réactivité et l’évolutivité de nos approches de détection d’anomalies, ce qui est essentiel pour répondre aux besoins des applications modernes. Par conséquent, la conception des algorithmes de détection d’anomalie devrait, en plus de la prise en compte des questions liées à la qualité de la détection, se pencher sur des questions telles que : comment stocker, organiser et indexer les données complexes ? Comment combiner l’indexation et la gestion de la mémoire pour des jeux de données extrêmement volumineuses, distribuées et multidimensionnelles ?

Sujet :
Les techniques de détection d’anomalies doivent évoluer pour prendre en considération les environnements modernes de déploiement et ainsi faire face aux nouveaux défis engendrés par les données massives. Dans cette thèse, les contributions scientifiques attendues sont principalement liées à :
1) l’identification des goulots d’étranglement entravant les techniques de détection d’anomalies actuelles pour leur permettre de passer à l’échelle, et
2) le développement de nouvelles techniques de détection des anomalies qui prennent en charge la parallélisation massive des traitements sur de vastes volumes de données.

Profil du candidat :
Le candidat recherché devrait :
1. Être titulaire d’un diplôme de niveau Bac +5 en informatique ou en mathématiques appliquées, avec un intérêt pour la recherche.
2. Posséder une expertise en Machine Learning et en gestion de données à large échelle.
3. Avoir des compétences analytiques avancées et une capacité à résoudre des problèmes complexes.
4. Posséder une aptitude à communiquer à l’oral et à l’écrit en français et en anglais.

Formation et compétences requises :
Le candidat recherché devrait :
1. Être titulaire d’un diplôme de niveau Bac +5 en informatique ou en mathématiques appliquées, avec un intérêt pour la recherche.
2. Posséder une expertise en Machine Learning et en gestion de données à large échelle.
3. Avoir des compétences analytiques avancées et une capacité à résoudre des problèmes complexes.
4. Posséder une aptitude à communiquer à l’oral et à l’écrit en français et en anglais.

Adresse d’emploi :
Laboratoire LIAS – ISAE-ENSMA
Téléport 2 – 1 avenue Clément Ader
BP 40109
86961 Chasseneuil
France

Document attaché : 202402031347_2024_lias_idd_managing_performance_quality_anomaly_detection_en_fr(1).pdf