Auditing the mutations of online AI-models

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Inria Rennes/ PEReN
Durée : 3 years
Contact : gtredan@laas.fr
Date limite de publication : 2022-12-31

Contexte :
AI-based decision-making systems are now pervasive, serving populations in most parts of their online interactions (i.e., curation such as recommendation [3], pricing [1] or search algorithms [5]). These systems have demonstrated high level performances lately [10], so it comes with no surprise that having AI-based models to face users is now a common ground for the tech industry (called the platforms hereafter).

Yet, the massive use of AI-based model raises concerns, for instance regarding their potentially unfair and/or discriminatory decisions. It is then of a societal interest to develop methods to audit the behavior of an online model, to verify its lack of bias [12], proper use of user data [11], or compliance to laws [7]. The growing list of known audit methods is slowly consolidating into the emerging field of algorithmic audit of AI-based decision making algorithms, and multiple directions are yet to be explored for expanding that nascent field.

*Contact*

Lucas Verney, PEReN, lucas.verney@finances.gouv.fr
Erwan Le Merrer, Inria, erwan.le-merrer@inria.fr
Gilles Tredan, LAAS-CNRS, gtredan@laas.fr

Sujet :

*The notion of mutation and the distance to a landmark model*

While audits are by essence punctual, the audited models often continuously evolve, for instance because of reinforcement learning, retraining on new user inputs, or simply because of code updates pushed by the platform operators. An unexplored direction of interest, that might be crucial for instance to regulators, is to provide means to observe the mutation of an online model. Assume a platform model under scrutiny, and an auditor that has only access to that model solely by means of queries/responses. This is coined as a black-box access to a model in the literature. Through these basic actions, an open research question is the proper definition of what is a stable model,i.e., a model that is consistent in time with regards to its decisions, (and consequently does not mutate). While there has been a couple of approaches to define techniques of tampering-detection of a model [6, 4], this definition is bound to classifiers and to the sole capability of checking if the model is the same or if it is different.

*Objectives*

A more refined way would be to provide a quantification for mutation, that is a notion of a distance between two instances, one being a model, possibly owned locally by an auditor, the other being a variant of the model that has already mutated. How to define and design a practical and robust distance measure is the topic of this Ph.D thesis. This opens up multiple questions:
•How should such a setup be modeled (statistical modeling, use of information theory, similarities from the datamining field, etc), so that we are able to provide a well defined measure for that problem. Moreover, while standard approaches exist to evaluate the divergence between two models, those need to be adapted to the context. In particular, we seek practical approaches that estimate divergence using few requests.
An example of a modeling can rely on graphs. One can indeed structure the data collected from the observed model under relations forming a graph (see e.g., [8] in the context of the YouTube recommender), and compare that graph to the structure of a desirable graph with respect to the properties that are awaited from the platform.

•Such AI models are nowadays used in a large variety of tasks (such as classification, recommendation or search). How does the nature of the tasks influences the deviation estimation/detection ?

•Considering that the auditor tracks deviation tracking, with regards to a reference point, is it possible to identify the directionin the mutation? That is particularly interesting in order to assess if a model evolves towards compliance with law requirements.

•Taking the opposite (platform) side: are there ways to make this distance measurements impossible, or at least noisy, so that it is impossible for the auditor to issue valuable observations? (we will relate this to impossibility proofs). In other words, can we model adversarial platform behaviours that translateinto increased auditing difficulty ?

Profil du candidat :
*Work Plan*

•A state of the art will review past approaches to observe algorithms in a black-box. This relates to the fields of security (reverse engineering), machine learning (with e.g., adversarial examples), and computability [9].
•We plan to approach the problem by leveraging a large AI model made public (e.g.,https://pytorch.org/torchrec/), and mutate it by fine-tuning for instance, so that we can get intuition about the problem, and to allow testing the first distances we have identifed.

•Provide a first consistent benchmark from these various distances. In particular, an important aspectwill be their precision depending on the query budget necessary to obtain them (precision/cost tradeoffin the requests to the black-box)
•Once the optimum distance for our problem has been found, the followup work will be devoted to prevent its construction by designing countermeasures on the platform side. In short, design an adversary capable to create important noise in the measurement by the auditor. This can relate for instance to the notion of randomized smoothing in the domain of classifiers [2].
•This cat-and-mouse game between the auditor and the platform will structure and help create the impossibility proofs we are seeking to propose, in order to provide algorithmic landmarks for scientists and regulators.

*Ph.D. Thesis Supervision and Location*

The Ph.D. student will be welcomed in teams that are activelyworking on the topic of algorithmic auditing of AI models (both from the practical and theoretical sides),in Paris and/or in Rennes. The supervisory team will be the WIDE team in Inria Rennes. In particular, the Ph.D. student will have the opportunity to be welcomed for extended periods at PEReN (https://www.peren.gouv.fr/en/), a French government service developing and implementing algorithmic audit methods, conjointly with Inria, in order to enable benchmarking digital platforms compliance to legislations.

Formation et compétences requises :
*Desired skills for the Ph.D. candidate*

•Advanced skills in machine learning (classification, regression, adversarial examples)
•A strong formal and theoretical background. Interest in the design of algorithms is a plus.
•Good scripting skills (e.g., Python) and/or familiar with statistical analysis tools (e.g., R)

Adresse d’emploi :
Inria Rennes

Workshop “imaginecology 2”

Date : 2022-09-29 => 2022-09-30
Lieu : campus de l’université de Lyon à Villeurbanne. Les participations distantes seront également possibles (format hybride).

Le GdR EcoStat organise, avec le soutien de la MITI du CNRS, la deuxième
édition du workshop “imaginecology” :

https://imaginecology2.sciencesconf.org

Le workshop inclura trois présentations plénières et sera précédé de
mini-formations optionnelles. L’objectif est de créer et renforcer les
interactions entre personnes travaillant aux interfaces entre
intelligence artificielle et écologie. N’hésitez donc pas à venir
discuter et/ou proposer une courte intervention (5 minutes), pour
présenter vos travaux, données ou intérêts, ou même juste partager votre
problématique.

Lien direct

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Chercheur.se en Science des données et modélisation

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Cirad, UMR TETIS
Durée : CDI
Contact : mathieu.roche@cirad.fr
Date limite de publication : 2022-07-01

Contexte :
Le Cirad (Centre de Coopération Internationale en Recherche Agronomique pour le Développement) produit et transmet de nouvelles connaissances pour accompagner l’innovation et le développement agricole dans les pays du Sud avec ses partenaires. Il a pour objectif prioritaire de bâtir une agriculture durable des régions tropicales et méditerranéennes, adaptée aux changements climatiques, capable de nourrir 10 milliards d’êtres humains en 2050, tout en préservant l’environnement.

En savoir plus sur le Cirad : www.cirad.fr

Date de début : 01/11/2022

Sujet :
L’unité TETIS (Territoires, environnement, télédétection et information spatiale) recherche un.e Chercheur.se en Science des données et modélisation. Le poste a pour ambition d’améliorer les systèmes de veille et d’alerte en répondant à des enjeux sociétaux en santé et sécurité alimentaire.
– La veille en santé animale, et notamment la détection précoce d’émergences au niveau mondial d’agents pathogènes, est l’un des moyens permettant de prévenir ou d’anticiper l’introduction de dangers sanitaires en particulier dans un contexte One Health. Le but des systèmes de veille développés à TETIS en collaboration avec d’autres unités (en particulier ASTRE) est de disposer d’outils réactifs, complémentaires des sources officielles.
– Les systèmes de suivi de la sécurité alimentaire représentent un autre enjeu de prévention ou d’anticipation des risques en particulier au Sud. En effet, les risques agricoles sont d’autant plus aigus en Afrique de l’Ouest que les services nationaux de surveillance et de suivi peuvent être défaillants faute de moyens techniques et financiers. Bien que les données agro-climatiques aient été largement utilisées à cette fin, l’utilisation d’autres sources de données (enquêtes ménages, médias sociaux, presse, analyse de marché, suivi des prix) peut se révéler complémentaire voire majeur pour les systèmes d’alerte.
En collaboration avec les chercheurs en sciences des données et modélisation de l’UMR TETIS, vous concevrez et mettrez en oeuvre des méthodes originales croisant des approches orientées données (Science des données, apprentissage automatique, etc.) et orientées processus (modélisation de processus spatiaux et dynamiques en interaction à différentes échelles dans les territoires).

Dans un cadre pluridisciplinaire fondé sur les deux domaines d’application, vous ferez des propositions génériques de mise en relation fondées sur l’extraction, la sélection et l’exploitation de descripteurs thématiques, spatiaux et temporels issus des différentes sources de données. Ceci s’appuiera sur la mobilisation de méthodes de Sciences des Données et d’apprentissage automatique qui pourront être guidées par les connaissances expertes et les modèles existants. Enfin, une attention particulière sera apportée pour produire des méthodes avec une forme de « sémantisation » et d’explicabilité des résultats indispensables dans un cadre pluridisciplinaire et d’interaction avec les experts.

Profil du candidat :
De formation scientifique, vous êtes titulaire d’un doctorat en informatique.

Formation et compétences requises :
Les compétences attendues sont :
– Connaissances approfondies en sciences des données et/ou apprentissage automatique avec des connaissances sur les approches orientées processus (modélisation).
– Une expérience en extraction et combinaison de données hétérogènes multisources est souhaitée.
– Publications majeures en sciences des données.
– Bonne aptitude au travail en équipe et en réseau partenarial.
– Souci du transfert opérationnel des recherches, intérêt pour la formation et pour les interactions avec les acteur.rice.s/partenaires.
– Goût pour la pluridisciplinarité.
– Autonomie et leadership.
– Bonne pratique de l’anglais lu, écrit et parlé.
– Une expérience de 1 an ou plus après thèse est souhaitable.
– Une expérience de recherche à l’international serait un plus.

Adresse d’emploi :
== Localisation du poste

– Montpellier (UMR TETIS)
avec des possibilités d’affectation au Sud à l’échéance de 2 ans

== Renseignements sur le poste

Mathieu ROCHE
mathieu.roche@cirad.fr

Référence : P-ES-TETIS-2022-06-CDI-6412

Pour candidater : https://recrutement.cirad.fr/offre-de-emploi/emploi-chercheur-se-en-science-des-donnees-et-modelisation_6412.aspx

Date de fin de diffusion : 28/08/2022

Détection d’anomalies dans les textes par analyse statistique des distributions lexicales (Statistical analyses of lexical distributions with an application to anomaly detection in natural texts)

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISN (Paris Saclay) et ILLS (Montréal)
Durée : 36 mois
Contact : francois.yvon@limsi.fr
Date limite de publication : 2022-07-14

Contexte :
Le LISN (Laboratoire Interdisciplinaire des Sciences du Numérique) de
l’université Paris-Saclay et le laboratoire ILLS (International
Laboratory on Learning Systems) de l’université McGill conjointement
avec l’ETS Montréal et le MILA (Institut québécois d’intelligence
artificielle) au Canada(Plus d’information:
https://www.mcgill.ca/channels/fr/channels/news/un-laboratoire-international-dintelligence-artificielle-voit-le-jour-montreal-339253)
recherchent un.e candidat.e pour effectuer une thèse en cotutelle.

Titre de la thèse : Détection d’anomalies dans les textes par analyse
statistique des distributions lexicales (Statistical analyses of
lexical distributions with an application to anomaly detection in
natural texts)

L’encadrement de la thèse sera assuré par François Yvon (LISN, CNRS),
Pablo Piantanida (ILLS, CNRS – Université Paris-Saclay).

Sujet :
Les textes falsifiés, la désinformation et les mécanismes d’enfermement dans des bulles informationnelles apparaissent des problèmes de plus en plus critiques posés par l’algorithmisation de notre accès à l’information numérique. Des algorithmes de traitement automatique des langues médiatisent notre accès aux informations, en les triant, les classant, les filtrant selon des procédures opaques, avec pour objectif de susciter des réactions émotionnelles et conforter nos opinions. Sur les plateformes de médias sociaux, ces méthodes sont utilisées par des États, des entreprises et des particuliers malveillants pour produire des informations erronées, amplifier les doutes sur des données factuelles ou ternir la réputation de leurs concurrents ou adversaires, renforçant ainsi leurs propres positions stratégiques ou économiques. Ces pratiques de désinformation généralisées peuvent être le résultat de différents facteurs et incitations; cependant, toutes posent le même problème fondamental à l’humanité en brouillant la compréhension de ce qui est vrai et de ce qui est faux.

L’utilisation de modèles d’apprentissage profond, comme le modèle GPT-3 de OpenAI, pour la génération de textes à grande échelle, s’est généralisée ces dernières années. Avec ces méthodes, la génération du texte est effectuée par le biais d’une procédure autorégressive qui échantillonne des suites de mots à partir d’une distribution apprise pour imiter la “vraie” distribution de textes naturels. Ces modèles s’avèrent très supérieurs aux méthodes de génération traditionnelles, et ont démontré leur capacité à produire des textes cohérents et pertinents, parfois difficiles à distinguer de productions humaines. Employées de manière malveillante ou criminelle, elles sont donc susceptibles de constituer des armes de désinformation massive.

Pour lutter contre ces phénomènes, la première étape est le repérage des contenus les plus problèmatiques; nous nous focalisons dans cette thèse sur les contenus générés automatiquement. La détection de textes artificiels peut être considérée comme un cas particulier de la détection d’anomalies, définie au sens large comme la tâche consistant à identifier des exemples qui s’écartent des exemples habituels à un degré tel qu’ils éveillent les soupçons. Les recherches actuelles en matière de détection d’anomalies se concentrent en grande partie sur les classificateurs profonds (par exemple, la détection de points abberants, les attaques adverses) ou s’appuient sur la sortie de grands modèles de langue (LM) lorsque les étiquettes ne sont pas disponibles. Bien que ces axes de recherche soient attrayants, les faire passer à l’échelle exige une très grande quantité de calculs. En outre, ces méthodes reposent sur les hypothèses fondamentales suivantes : (1) les informations statistiques nécessaires à l’identification des anomalies sont disponibles dans le modèle entraîné, (2) l’incertitude du modèle est fiable, ce qui n’est généralement pas le cas, comme l’illustre la présence d’un petit changement dans la distribution des données d’entrée. Les approches basées sur les LMs ne sont pas performantes lorsqu’elles sont utilisées sur des grands fragments de texte, comme cela peut être nécessaire dans des applications pratiques (par exemple, la génération de longs documents, d’histoires ou de nouvelles), en raison du contexte de longueur fixe utilisé lors de l’entraînement du modèle de langue.

Cette thèse de doctorat se concentre sur le développement de méthodes hybrides de détection des anomalies en utilisant des techniques basées sur des réseaux de neurones profonds et des distributions de fréquence de mots qui sont linguistiquement fondées. La plupart des recherches menées à ce jour sur les modèles de langue se concentrent sur le traitement au niveau de la phrase et ne parviennent pas à capturer les dépendances à long terme au niveau du discours. Pour pallier ce problème, nous nous appuierons sur les distributions de fréquence de mots et les mesures d’information pour caractériser les longs documents, en modélisant des phénomènes tels que le très grand nombre de mots rares, ce qui conduit souvent à des phénomènes statistiques étranges comme les variations systématiques des fréquences moyennes lorsque le nombre d’observations augmente. Des concepts avancés de statistiques et de mesures d’information sont nécessaires pour comprendre l’analyse des distributions de fréquences de mots et pour capturer l’information au niveau du document. Des expériences approfondies sur des ensembles de données du monde réel seront réalisées pour démontrer la viabilité de notre approche.

Profil du candidat :
Pour consulter le sujet complet et déposer une candidature:
https://emploi.cnrs.fr/Offres/Doctorant/UMR9015-FRAYVO-009/Default.aspx

Le dossier de candidature devra contenir :
– CV détaillé,
– Lettre de motivation,
– Détails des relevés de notes (notamment M1 et M2),
– Éléments de bibliographie ou de réalisations personnelles
relevant d’une activité de recherche (ex projet de master,
sujet de stage recherche, etc),
– 2 lettres de recommandation.

Formation et compétences requises :
Master 2 ou équivalent avec une spécialisation dans un des domaines suivants: Mathématiques appliquées, Apprentissage Automatique, Intelligence Artificielle, Traitement automatique des langues.

Adresse d’emploi :
Laboratoire Interdisciplinaire des Sciences du Numérique, Campus de l’Université Paris Saclay

avec des périodes de séjour à Montréal.

3 EC permanents ESILV/DVRC – Apprentissage / HPC

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DVRC/ESILV
Durée : CDI
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2022-07-14

Contexte :
L’ESILV, Ecole Supérieure d’Ingénieurs Léonard de Vinci est une école d’ingénieurs généraliste au cœur des technologies du numérique. Elle recrute principalement au niveau Baccalauréat ainsi qu’au niveau des CPGE et forme des ingénieurs opérationnels s’insérant parfaitement dans le monde professionnel. Le projet pédagogique de l’ESILV s’articule autour des sciences et des technologies numériques ainsi qu’une forte transversalité avec 20% de son cursus en commun avec une école de management (EMLV) et une école du digital (IIM) dont un parcours Ingénieur Manager en 5 ans, double diplômant. Les spécialisations proposées portent sur la finance (ingénierie financière, actuariat et fintech), l’informatique (Data & IA, Objets connectés & sécurité), la mécanique (Modélisation & mécanique numérique, Industrie 4.0), l’énergie (Energie & villes durables) et la santé (Santé Biotech). Elle propose également deux Bachelors en Ingénierie Numérique et en Technologie & Management. 3300 élèves. L’ESILV est membre de la CGE, de l’UGEI, de la CDEFI, de Campus France et de Talents du Numérique

Sujet :
Pour résumer, 3 types de profils de chercheur :
Calcul Haute performance (HPC) et/ou Big Data Analytics (BDA), Distributed computing
La candidate ou le candidat recherché devra posséder des compétences fortes en Calcul Haute Performance et/ou en Big Data Analytics avec une coloration en Machine Learning. Ceux-ci incluent la conception, l’analyse et le développement de méthodes d’optimisation pour le Machine Learning, l’assimilation de données, l’algèbre linéaire numérique en grande dimension. Il est attendu des candidats qu’ils possèdent des aptitudes à développer/entreprendre des recherches au carrefour de ces disciplines.

Apprentissage machine, Machine Learning / Deep Learning / Convolutional Neural Network, par renforcement et incertitude,
Une thématique autour de l’apprentissage de données hétérogènes, multimodales ou de données sous forme de graphe serait appréciée.
Dans ce profil, bien que centré sur l’apprentissage machine et ses applications, la candidate ou le candidat devra mener une analyse basée sur des outils complémentaires pour mieux comprendre les mécanismes d’apprentissages et surmonter leurs défauts, en particulier l’explicabilité des résultats.
Les autres thèmes d’application sont ceux du laboratoire et de l’école : transition énergétique et environnementale, matériaux, finance/actuariat, santé.

Apprentissage automatique/statistique et/ou Optimisation en grande dimension
La candidate ou le candidat recherché devra posséder des compétences fortes dans le domaine du Machine Learning et du Statistical Learning. Ceux-ci incluent la conception, l’analyse et le développement de méthodes d’optimisation pour le Machine Learning, l’assimilation de données, l’algèbre linéaire numérique en grande dimension. Il est attendu des candidats qu’ils possèdent des aptitudes à développer/entreprendre des recherches au carrefour de ces disciplines.
Les autres thèmes d’application sont ceux du laboratoire et de l’école : transition énergétique et environnementale, matériaux, finance/actuariat, santé, tourisme.

Profil du candidat :
– Connaissances
□ Machine Learning,
□ Apprentissage automatique/statistique,
□ Calcul Haute performance, optimisation en grande dimension,
□ Distributed Computation,
□ Algorithmes d’intelligence artificielle,
□ Science des données et visualisation,
□ Enseignement supérieur,
□ Tissu économique et métiers.

– Connaissances opérationnelles
□ Méthodes pédagogiques (présentiel, classe inversée, distanciel avec outils digitaux, MOOC, SPOC, COOC …)
□ Outils bureautiques
□ Conduite de projet
□ Communication

– Connaissances comportementales
□ Réactivité et disponibilité
□ Excellent relationnel
□ Aisance orale
□ Autonomie

Formation et compétences requises :
Le/La candidat-e devra être titulaire d’un doctorat en informatique, une habilitation à diriger des recherches sera appréciée dans les sections CNU 27 et/ou 61

Adresse d’emploi :
12 avenue Léonard de Vinci, 92400 Courbevoie

Document attaché : 202206281625_EC Informatique_22_High Performance Computing &Big Data Analytics.pdf

Bayesian inversion with deep learning-driven priors – Application to spectral imaging problems

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut Denis Poisson (IDP), Université d’Orléan
Durée : 3 ans
Contact : diarra.fall@univ-orleans.fr
Date limite de publication : 2022-12-25

Contexte :
Spectral imaging finds applications in many different fields including remote sensing for Earth observation and in medicine.

In Earth observation, multiband imaging provides a detailed characterization of the observed scene by sensing the reflected electromagnetic spectrum in tens nay hundreds of spectral bands. This characterization can be leveraged for ecosystem monitoring, environmental suveillance or land cover mapping. However, multiband images face an unsurpassable trade-off which limits the intrinsic spatial resolution as spectral resolution increases. Several techniques have been developped in the remote sensing literature to overcome this limitation, namely spectral unmixing, subpixel mapping or pansharpening. All these tasks can be formulated as challenging inverse problems.

On the other hand, in medicine, functional near-infrared spectroscopy (fNIRS) is a noninvasive brain imaging technique used to measure evoked changes in cerebral blood oxygenation. Because it is more portable and less restrictive than other popular brain imaging such as functional magnetic resonance imaging (fMRI), fNIRS is widely used with children and other special populations. However, fNIRS has a lower spatial resolution compared to fMRI. Furthermore, the signals are corrupted by physiological noise and motion artefacts, and isolating the desired signals from the unwanted noises is a challenging inverse problem task.

Sujet :
Whatever the applicative contexts, the aforementioned restoration problems can be straighforwardly formulated in a Bayesian framework. Indeed the Bayesian paradigm provides a versatile statistical framework to formulate inverse problems. Formulating restoration problems within a Bayesian formalism allows the estimation to be endowed with an assessment of uncertainty, which is of great importance for several applications. However this formulation requires the definition of regularizations by introducing additional information to mitigate the lack of information brought by the observations. For ill-posed problems, the choice of the prior has a significant impact on the solution. Conventional approached generally use explicit priors designed to promote expected or desired properties of the signals and images to be restored. However, in practice, it can be difficult to explicitly define such a function that captures all the desired properties.

As an alternative, we propose to tackle these restoration problems in a Bayesian framework using implicitly priors specified by neural networks. For instance, implicit priors defined by the architecture of convolutional neural networks have been used in [1]. Variational auto-encoders proposed in [2] have been successfully used for learning priors in various imaging problems such as denoising and deblurring in [3]. Plug and play priors [4] appear also of great interest since they have have shown remarkably accurate results when combined with denoisers based on convolutional neural networks [5].

The proposed PhD thesis project aims at developing new Bayesian restoration methods for Earth observation and fNIRS data, using convolutional neural networks data-driven priors.
The proposed methods will be applied on hyperspectral mineralogical data from BRGM and acquired in the SOLSA H2020 project for rock analysis; and FNIRS data available at Centre Hospitalier Régional d’Orléans for studying human brain activity during motor execution.

More information : http://dobigeon.perso.enseeiht.fr/proposals/proposal_PhD_2022_AIiO.pdf

Profil du candidat :
Master or Engineering school student in applied mathematics, computer science or electrical engineering.

Formation et compétences requises :
The knowledge needed for this work includes a strong background in textbf{signal & image processing}, textbf{applied mathematics} (probability & statistics, optimization, etc.) and/or machine learning. Good scientific programming skills (e.g., Python or Matlab) and good communication skills in English, both written and oral are also expected.

Adresse d’emploi :
Institut Denis Poisson
Université d’Orléans
45100 Orléans

évaluation et classification des caractéristiques des couches de ballast pollué dans les voies ferroviaires – Traitement hybride par intelligence artificielle / FWFI (Full WaveForm Inversion).

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Laboratoire Auscultation, Modélisation et Expérime
Durée : 3 ans
Contact : amine.ihamouten@univ-eiffel.fr
Date limite de publication : 2022-10-01

Contexte :
Au sein d’Eurovia (Groupe Vinci), ETF est un acteur majeur de la conception, de la construction, du développement et de la maintenance d’infrastructures ferroviaires au service des citoyens en France et à l’international. La mission d’ETF est d’oeuvrer en faveur d’une mobilité ferroviaire sûre, rapide et respectueuse de l’environnement. Pour cela, les équipes d’ETF interviennent sur tous les types de réseaux ferrés : ligne à grande vitesse, ligne régionale, réseau portuaire et site industriel, réseau ferré urbain (tramway, métro).
En lien avec la régénération du réseau ferroviaire, SNCF-Réseau élabore, en fonction des besoins identifiés sur la base de diverses investigations in situ, des projets de Renouvellement de Voie et Ballast (RVB) des lignes existantes dans le but de leur redonner leurs performances nominales. Dans le cadre de ces projets, un certain nombre de prescriptions techniques relatives aux travaux à réaliser sont ainsi prescrites par SNCF Réseau qui confie ensuite la réalisation de ces derniers aux entreprises habilitées tel ETF.
Parmi ces prescriptions, celles relatives au renouvellement de la couche de ballast – opération consistant à dégarnir (i.e. excaver) les granulats anciens, « usés et pollués », puis à les remplacer par des granulats
neufs, « anguleux et sains » – peuvent poser un certain nombre de difficultés opérationnelles (respect de la profondeur de dégarnissage, respect de l’épaisseur de ballast sain, optimisation de l’apport de matériau neuf et de réemploi (à hauteur de 30 à 40 %), etc.). Ces différents écueils, dont l’origine apparait multiple (qualité et quantité des données d’entrée, temporalité des investigations par rapport aux travaux, présence d’objets enfouis, etc.), conduit in fine à des coûts directs et indirects importants pour ETF pouvant s’élever à plusieurs centaines de milliers d’euros (perte de rendement, usure / casse matérielle prématurée, immobilisation des ressources, pénalité de retard, etc).
Dans ce contexte, la problématique d’ETF est donc relative à l’identification et à l’anticipation de ces désagréments sur les futurs chantiers de RVB en vue de pouvoir, idéalement, s’en affranchir afin de limiter / maitriser les coûts associés. C’est avec ce dessein qu’ETF et l’Université Gustave Eiffel proposent conjointement ce sujet de thèse via une Convention Industrielle de Formation par la Recherche (CIFRE).
Sur la base d’un état de l’art préalablement réalisé, et de divers travaux antérieurs menés en interne au sein d’ETF, la technologie radar (à sauts de fréquence) a rapidement été identifiée comme une solution propice
à répondre aux attentes d’ETF (diagnostic non-destructif, vitesse d’auscultation, facilité d’intégration à l’environnement ferroviaire, etc.) ; en particulier lorsque cette technologie est couplée à des méthodes
automatiques de traitement et d’analyse répondant aux exigences de délais et de rendements opérationnels.
Cependant, dans son utilisation actuelle, cette méthode ne permet pas de répondre de manière optimisée à la problématique et nécessite un effort de recherche pour développer à une solution opérationnelle pour les équipes d’ETF.

Sujet :
Dans cette thèse, on se propose d’évaluer et de classifier les caractéristiques des couches de ballast par une analyse phénoménologique extra-fine du signal radar issu du Radar à Sauts de Fréquence (RSF) développé par le laboratoire Lames de l’université Gustave Eiffel. Cet objectif impliquera un investissement expérimental avec la réalisation de campagnes de mesures sur banc d’essais contrôlés. Cette thèse aura pour objectif en parallèle d’optimiser une approche croisée innovante basée sur le couplage entre la méthode d’inversion de formes d’onde et des méthodes d’apprentissage supervisé appliquées en approche globale aux signaux RSF. Ces travaux seront enfin appliqués à l’étude de plusieurs sites tests permettant d’évaluer à l’aveugle la pertinence des développements. L’objectif final consistera à développer une méthodologie complète basés sur les développements précédents intégrable aux activités opérationnelles d’ETF. Les différents points suivants seront abordés au cours de cette thèse :
1. Études bibliographique et paramétrique numérique :
• Méthodologies et techniques radar envisagées (état de l’art sur la physique et la propagation des ondes EM dans les milieux stratifiés, techniques d’Evaluation Non Destructives, modèles directs, problèmes
inverses, FWFI, FDTD et antennes),
• Classification par techniques d’apprentissages supervisées.
2. Mise en oeuvre d’un plan d’expérience conséquent en laboratoire de caractérisation de colmatage du ballast pour obtenir les premiers résultats en faisant varier certains paramètres (nombre de couches,
densité/granulométrie, épaisseur…). Confrontation des résultats obtenus sur des sites extérieurs tests.
3. Classification par méthodes d’apprentissages (semi-automatiques) :
• Binaire dans un premier temps : présence de couche de ballast pollué ou pas,
• Classification plus évoluée au regard de la nomenclature définie plus en amont dans la thèse (inférieur, dans l’intervalle ou supérieur au seuil/taux de colmatage préconisé et fixé entre autres par ETF).
4. Validation in situ des travaux par le développement d’un démonstrateur permettant de fournir une classification précise des couches de ballast et de pouvoir valider les exigences de normes.
5. Production d’un mémoire de thèse et valorisation des travaux dans le cadre de publications dans des journaux et conférences.

Profil du candidat :
Il est attendu que les candidat(e)s à ce sujet de thèse aient des compétences en propagation des ondes électromagnétiques, en traitement du signal et en utilisation des méthodes de Machine Learning.
Des compétences en génie civil et/ou en géophysique seront nécessaires pour une meilleure compréhension physique des phénomènes mis en jeu et des choix des modèles à hybrider.

Formation et compétences requises :
Bac+5 (Ecole d’ingénieur/Master Universitaire)

Adresse d’emploi :
Laboratoire Auscultation, Modélisation et Expérimentation sur les infraStructures de transport – Dépt. Matériaux et Structures (LAMES – MAST)
Université Gustave Eiffel, Campus de Nantes,
Allée des ponts et chaussées – CS 5004 44344
Bouguenais Cedex • FRANCE

Document attaché : 202206270752_Sujet_these_ASTEROIDE_ETF_UnivEiffel_AI-1.pdf

Détection et classification des réseaux enterrés par 3D-Radar : Matrix Pencil Method

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : Institut Pascal, UMR6602 Université Clermont Auver
Durée : 3 ans
Contact : khalil.drissi@uca.fr
Date limite de publication : 2022-10-01

Contexte :
La détection et la localisation des réseaux de services publics en contexte urbain sont devenues un sujet d’intérêt majeur depuis quelques années. La norme (NF S 70-003) exige la reconnaissance des réseaux et une localisation précise à moins de 11 cm par des sociétés certifiées. D’après les retours d’expérience des unités techniques du Ministère de la Transition écologique, aucune solution ne répond actuellement à ce besoin de cartographie des réseaux sur une grande surface à un coût acceptable pour les collectivités.
Pour une telle entreprise, une cartographie précise des réseaux combinant des méthodes physiques, méthodes d’intelligences artificielles (IA) et technologies innovantes adaptées à l’hybridation, offre un avantage indéniable pour optimiser le travail en termes de temps et de coûts. Cette étape entraînera des gains de fiabilité et contribuera à réduire les risques liés aux réseaux sensibles.
Le projet ANR PROMETHEUS (ANR-21-CE22-0019-03) cherche à introduire une telle solution méthodologique et technologique non invasive, basée sur la technologie radar géophysique 3D, pour structurer la cartographie urbaine des réseaux enterrés.
La thèse de doctorat s’inscrit dans l’action WP2 de PROMETHEUS et porte sur la détection des canalisations enterrées et leur suivi dynamique. La réponse électromagnétique du signal radar SFR-3D peut être utilisée comme caractéristique pour l’identification et la classification des cibles enterrées.
Cette réponse se focalise entre autre autour des résonances naturelles complexes (CNR) de ces cibles, elle rend aussi compte de l’impact du sol et du radar considéré.
Nous proposons d’identifier ces CNR en appliquant la méthode haute résolution (Matrix Pencil Method) dans le domaine fréquentiel. Cette méthode est capable d’encoder ces CNR en faisant émerger des
clusters de pôles et de résidus que l’on cherchera à associer aux objets enterrés, et potentiellement à l’effet du sol et du radar considéré.
Il est important de rappeler que les signatures brutes issues des réponses électromagnétiques des cibles seront modifiées par l’effet du couplage entre le radar (et la topologie de ses antennes) et les
milieux de propagation ce qui suggère de combiner ces signatures modifiées à une approche par réseau de neurones profonds pour un encodage adhoc et un suivi dynamique adapté.
Par ailleurs, l’encadrement de l’université Gustave Eiffel fournira des données expérimentales issues du radar à sauts de fréquence multi-antennes, ces données seront l’entrée des modèles supervisés que l’on
se propose de fournir pour les autres actions.
Une interaction régulière devra être menée avec les autres actions du projet PROMETHEUS pour une progression efficiente de ce travail de thèse.

Sujet :
Le(a) doctorant(e) sera impliqué(e) dans le projet ANR-PROMETHEUS. Il (elle) pourra ainsi bénéficier d’échanges fructueux avec l’ensemble des chercheurs mais aussi avec l’autre doctorant(e) recruté(e) qui se focalisera sur le développement d’une approche complémentaire à celle du WP3 qui consiste à inverser les signaux radar et à estimer les caractéristiques physiques de réseaux enterrés.
1. L’étude bibliographique comprendra deux parties :
• Bibliographie sur les techniques d’auscultation dédiées à la détection et localisation des réseaux notamment les méthodes radars et les méthodes haute résolution utilisées en traitement du signal,
• Bibliographie sur les méthodes d’apprentissage et leur adaptation aux applications de génie civil notamment les techniques de Deep Learning appliquées aux signaux GPR.
2. Mise en oeuvre de l’imagerie par radar à pénétration de sol pour cartographier les structures souterraines (premier lit en profondeur) avec des cas d’études simples et contrôlés en laboratoire puis des cas complexes sur sites réels.
A partir de l’écho propre acquis lors de l’émission-réception d’un appareil GPR multi-antennes (données brutes de A-scan, B-scan et C-scan en amplitude et en phase dans le domaine fréquentiel), on se propose de construire un corpus de signatures à partir de Matrix Pencil Method (MPM). Cette signature sera composée des résonances naturelles complexes (RCN) du réseau cible souterrain, probablement
modifiées par l’effet du GPR et/ou du sol.
3. Classification des signatures modifiées par des méthodes d’intelligence artificielle. Cette classification s’appuiera sur différents scénarios dont on évaluera la performance numériquement par des modélisations FDTD :
• GPR et/ou sol sans réseau cible enterré à partir de données A-Scan,
• GPR et/ou sol avec réseau cible enterré à partir de données A-Scan.
4. Suivi des signatures à partir des données B-Scan et C-Scan et optimisation de la redondance issue des différents scénarios cités ci-dessus.
5. Production d’un encodage lisible des données de mesure.

Profil du candidat :
Il est attendu que les candidat(e)s à ce sujet de thèse aient des compétences en propagation des ondes électromagnétiques, en traitement du signal et en utilisation des méthodes de Deep Learning.
Des compétences en mesure seront nécessaires pour une meilleure compréhension physique des phénomènes mis en jeu et des choix des modèles à hybrider.

Formation et compétences requises :
Bac +5

Adresse d’emploi :
Institut Pascal,
UMR6602 Université Clermont Auvergne,
Clermont Auvergne INP,
CNRS Campus Universitaire des Cézeaux,
4 Avenue Blaise Pascal 63178 AUBIERE

Document attaché : 202206270702_Sujet_these_Prometheus_WP2.pdf

Extraction et enrichissement de contenu multimodal – Application au cas des manuels scolaires

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Laboratoire CEDRIC du CNAM à Paris et Laboratoire
Durée : 36 mois
Contact : guinaudeau@limsi.fr
Date limite de publication : 2022-10-23

Contexte :
Le projet ANR MALIN a pour objectif de rendre utilisables les manuels scolaires numériques par les enfants en situation de handicap. En effet, les manuels numériques actuellement disponibles nécessitent d’être adaptés pour être accessibles à ces enfants. Ces adaptations concernent aussi bien les aspects techniques que pédagogiques. Dans la plupart des cas, les manuels sont adaptés de façon artisanale et les délais de livraison peuvent être de plusieurs mois. Ces contraintes ne permettent pas de rendre efficiente l’inclusion scolaire des enfants en situation de handicap. L’objectif du projet ANR MALIN est donc de développer des solutions techniques afin d’aboutir à l’automatisation de l’adaptation des manuels scolaires numériques pour les rendre accessibles (accès, traitement et interaction avec les contenus) aux élèves en situation de handicap.
Le projet ANR repose sur une collaboration entre quatre laboratoires : LISN (Université Paris Saclay), MICS (Ecole CentraleSupelec), CEDRIC (CNAM), Inserm 1284 (CRI, Université de Paris). Le doctorant ou la doctorante travaillera en interaction avec des stagiaires de master, des ingénieurs et un autre doctorant associés au projet.

Sujet :
Le premier objectif est de concevoir des approches d’extraction automatique de la structure d’un manuel (leçons, blocs d’exercices [eux-mêmes composés de consignes, enoncés, exemples…], memo, synthèse…) et de son contenu multimédia (textes, images, dessins, graphiques, équations, courbes…) à partir des fichiers fournis par les éditeurs (ceux-ci sont le plus souvent au format pdf). Plusieurs approches seront à envisager : une approche d’adaptation et d’enrichissement de systèmes de structuration automatique de documents textuels (segmentation thématique, segmentation discursive) prenant en compte la spécificité et la multi-modalité des données traitées et une approche basée sur le traitement automatique des images visant à identifier les différents blocs en se basant sur les caractéristiques de l’image, connue sous le nom de « Document Layout Segmentation and Analysis » [1, 2]. Des approches récentes d’apprentissage profond seront testées sur des jeux de données annotées manuellement afin d’adapter des modèles existants et obtenir des résultats d’extraction satisfaisants.

Le second objectif est d’analyser le contenu de chaque bloc extrait dans l’étape précédente afin de les catégoriser en activités pédagogiques. Ainsi pour chaque exercice, il faudra déterminer quelle(s) activité(s) pédagogique(s) devra(ont) être mise(s) en œuvre pour le réaliser. Dans cet objectif, le doctorant ou la doctorante devra développer des techniques d’apprentissage spécifiques novatrices, supervisées ou non, à la rencontre entre le traitement du langage naturel et la linguistique d’une part et l’analyse de données multimédia d’autre part [3, 4]. Dans ce cas, les modalités visuelles et textuelles seront représentées dans un espace commun pour effectuer une classification multimodale. L’une des pistes à explorer consiste à employer des modèles appris sur des données et des problématiques similaires en français et de travailler sur l’adaptation (fine-tuning) de ces modèles à partir d’un petit jeu de données annotées [5, 6, 7].

Profil du candidat :
● Master en informatique ou TAL avec une spécialisation dans au moins un des domaines suivants :
○ traitement automatique des langues
○ apprentissage automatique

Formation et compétences requises :
● Maîtrise de Python (langage de prédilection du projet)
La connaissance des principales librairies d’apprentissage sera appréciée.

Adresse d’emploi :
Laboratoire CEDRIC du CNAM à Paris et Laboratoire Interdisciplinaire des Sciences du Numérique (LISN) à Orsay

Document attaché : 202206230848_SujetThèseMALIN.pdf

Poste permanent Inria : Ingénieur(e) développement logiciel spécialiste en calcul scientifique pour

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre Inria de Lyon – Equipe-Projet DANTE
Durée : Poste permanent
Contact : remi.gribonval@inria.fr
Date limite de publication : 2022-07-18

Contexte :
L’équipe-projet Inria DANTE (https://team.inria.fr/dante) du LIP à l’ENS de Lyon bénéficie cette année d’un poste permanent d’ingénieur(e) Inria.

La première affectation au sein de notre équipe porte sur une durée de 4 ans renouvelable. La personne recrutée s’intègrera par ailleurs au collectif des ingénieurs permanents de l’institut, représenté au niveau d’un centre par le Service d’Expérimentation et de Développement (SED).

Calendrier:
Recueil des candidatures : du 15 juin 2022 au 17 juillet 2022
Recevabilité : du 18 juillet au 22 juillet
Admissibilité (étude des dossiers par les jurys) : du 5 au 16 septembre 2022
Admission (épreuve écrite & entretien oral avec les jurys) : du 19 septembre au 14 octobre 2022
Nomination : 1er décembre 2022

Pour des détails sur les concours externes Inria : https://www.inria.fr/fr/concours-externes

Poste concerné: 2022-DT-LYS-2 : Ingénieur.e développement logiciel spécialiste en calcul scientifique pour l’apprentissage et le traitement du signal – corps IR – BAP E

Pour postuler : https://candidat.inria.fr/SelectCandidat/selectcandidat.html?locale=fr#modify-application;idOffre=314

Sujet :
L’équipe concernée, DANTE, a pour principal objectif de développer des techniques d’apprentissage et des algorithmes de traitement du signal munis de solides fondements théoriques, physiquement interprétables, et économes en ressources. Parmi ces techniques d’IA, le développement de la librairie logicielle Faµst de calcul matriciel à grande échelle est un projet central pour l’équipe. La maîtrise durable de ce développement technologique ciblant les codes entre traitement du signal, apprentissage et calcul scientifique avec utilisation de matrices creuses est un enjeu structurant important pour l’équipe.

Pour mener ses travaux, DANTE s’appuie sur une culture à l’interface entre traitement du signal et apprentissage, et sur une expertise théorique et algorithmique autour de la notion de parcimonie, des graphes, et de l’optimisation à grande échelle. Via des partenariats choisis, les méthodes développées ont des applications potentielles allant de l’IA frugale sur des dispositifs embarqués (par exemple des véhicules autonomes) à l’imagerie médicale (IRM haute-résolution), l’astrophysique, ou les sciences sociales computationnelles (modélisation et analyse de phénomènes de contagion).

Profil du candidat :
Profil recherché en développement logiciel spécialiste en calcul scientifique pour l’apprentissage et le traitement du signal.

Formation et compétences requises :
Niveau de diplôme exigé : Thèse ou équivalent
Autre diplôme apprécié : Bac+5 ou équivalent

Adresse d’emploi :
Lyon

Document attaché : 202206221444_2022-DT-LYS-2_0.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Archives

Auditing the mutations of online AI-models

Workshop “imaginecology 2”

Chercheur.se en Science des données et modélisation

Détection d’anomalies dans les textes par analyse statistique des distributions lexicales (Statistical analyses of lexical distributions with an application to anomaly detection in natural texts)

3 EC permanents ESILV/DVRC – Apprentissage / HPC

Bayesian inversion with deep learning-driven priors – Application to spectral imaging problems

évaluation et classification des caractéristiques des couches de ballast pollué dans les voies ferroviaires – Traitement hybride par intelligence artificielle / FWFI (Full WaveForm Inversion).

Détection et classification des réseaux enterrés par 3D-Radar : Matrix Pencil Method

Extraction et enrichissement de contenu multimodal – Application au cas des manuels scolaires

Poste permanent Inria : Ingénieur(e) développement logiciel spécialiste en calcul scientifique pour