Maître-assistant associé en Sciences des données : Apprentissage statistique et Aide à la Décision au service de l’Industrie et des territoires du futur.

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Ecole des Mines de Saint-Etienne
Durée : 12 mois
Contact : batton@emse.fr
Date limite de publication : 2022-07-17

Contexte :
L’École Nationale Supérieure des Mines de Saint-Étienne (Mines Saint-Etienne), École de l’Institut Mines Télécom, sous tutelle du Ministère de l’Économie, des Finances et de la Relance est chargée de missions de formation, de recherche et d’innovation, de transfert vers l’industrie et de culture scientifique, technique et industrielle.
Le poste proposé est ouvert au sein du département GMI avec des activités de recherche développées dans l’UMR CNRS 6158 LIMOS qui regroupe l’ensemble des chercheurs en sciences des données et mathématiques appliquées. Il s’agit d’un poste contractuel d’enseignant chercheur d’un durée de 1 an.

Sujet :
Poste de maître-assistant associé en Sciences des données : Apprentissage statistique et Aide à la Décision au service de l’Industrie et des territoires du futur.

Maître-assistant associé en Sciences des données : Apprentissage statistique et Aide à la Décision au service de l’Industrie et des territoires du futur

Profil du candidat :
Doctorat avec une expérience en enseignement dans les domaines des mathématiques ( cf fiche) (moniteur, vacataire et/ou ATER) à un niveau de second ou troisième cycle sera appréciée.

Formation et compétences requises :
Le candidat devra être titulaire d’un doctorat Mathématiques appliquées ou en Science des données (telles les sections CNU n° 24 – 26 – 61 )

Adresse d’emploi :
Ecole des Mines de Saint-Etienne
42023 Saint-Etienne

Document attaché : 202207081307_MSE_ENTITE_concours_maître_assistant_2022-06-20_sciences_des_données.pdf

CIFRE – Cybersecurity with Machine Learning for industrial networks

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube – T&S
Durée : 3 ans
Contact : lafabregue@unistra.fr
Date limite de publication : 2022-12-31

Contexte :
Industry 4.0 is the novel industrial revolution, where objects are connected to a global network infrastructure. Fieldbus (e.g., CAN, modbus, TSN) interconnect the different devices to controllers. These objects are constrained in memory and computational capacity and may endanger the network infrastructure if they are corrupted. They may even jeopardize the safety of industrial applications.
Thus, cybersecurity for the Industrial Internet of Things is a major concern, while most of the technologies in this area have not been designed with this problem in mind. For instance, CAN communications are neither ciphered, nor authenticated.
We need to deploy Intrusion Detection Systems able to detect anomalies, i.e., when the infrastructure doesn’t behave as expected. It may come from e.g., a human misconfiguration, an attack.

Sujet :
Penetration testing already exploits Machine Learning techniques to detect and identify attacks. Indeed, signature-based solutions are not sufficient since they may disguise themselves into a legal traffic flow but inserting noise.
We want to go there further, to identify anomalies that may be e.g., attacks, misconfigurations, faults. Industrial networks are known to be predictable and we must identify outliers. Some work exists that consider the spatial and temporal correlations but they are application specific, i.e., they need to manipulate directly data chunks. Approaches exist that exploit a RNN to identify anomalies but we are convinced that industrial networks are predictable, and techniques that exploit this predictability should be more accurate. The network controller that has a complete knowledge of the network topology may efficiently detect intrusions.
The objective of this PhD thesis is to first propose techniques to identify automatically patterns when exploiting the list of packets transmitted in the network infrastructure. Indeed, a networked control application relies on a control loop (sensor to controller to actuator) to control the Cyber Physical System (CPS). It is important to characterize each of these control loops (period, source / destination, correlations, etc.). The PhD student will both exploit existing datasets as well as the networked control system testbed deployed at Technology & Strategy.
Then, we will derive Network Intrusion Detection Systems (IDS) to identify anomalies for each of these control loops, extending what has been done for home networks, or generic IP networks. We need to propose techniques to define what corresponds to a normal state, and what corresponds to an outlier / anomaly. The proposition must be sufficiently robust to detect sophisticated attacks such as the Schedule-Based Attacks.

Profil du candidat :
Master in computer science or similar fields, with an affinity for Machine Learning.

Formation et compétences requises :
Applicants should have solid skills in:
• Excellent knowledge of Machine Learning techniques (not only as a user);
• Excellent data science language skills (R, or Python);
• Background knowledge to implement measurements in a real production line;
• Excellent communication and writing skills. Note that knowledge of French is not required for this position.
Knowledge of the following technologies is not mandatory but will be considered as a plus:
• Knowledges in industrial networking protocols and stacks;
• Knowledges of embedded software

Adresse d’emploi :
The PhD student will be co-hosted by Technology & Strategy and the University of Strasbourg, both located in Strasbourg, France.
Technology & Strategy was created in 2008 in Strasbourg. Specialized in Engineering, IT, Digital and Project Management, Technology & Strategy is a reference partner for its customers in the development of innovative projects. Technology & Strategy also has an integrated engineering service to meet the requirements of its customers who are primarily R&D departments of industrial companies.
With a strong international focus and a Franco-German DNA, Technology & Strategy is proud of its 1,800 employees and is present with more than 40 nationalities in 16 offices in 6 countries (France, Germany, Switzerland, Belgium, UK, South East Asia). Technology & Strategy is proud to keep its headquarters in the East of France, near Strasbourg.

Founded in the 16th century, the University of Strasbourg has a long history of excellence in higher education, rooted in Renaissance humanism. The University of Strasbourg is a public research university located in Strasbourg, with over 52,000 students. You will integrate the ICube laboratory attached to the University.

Applications should be submitted by email to tands-cifre@icube.unistra.fr.
They must include:
• A Curriculum Vitae;
• List of 2 or 3 references to contact (position, email address);
• Transcripts of undergraduate and graduate studies;
• Link to MSc thesis, and publications if applicable;
• Link to personal software repositories (e.g. GitHub)
Please prefix the filenames of your application with your lastname.

Document attaché : 202207070957_Fichier_TS-cybersec-iiot.pdf

Développeur/développeuse et gestionnaire d’une base de connaissance sémantique d’une plateforme d’accès aux données ouvertes

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT
Durée : 12 mois
Contact : pascal.dayre@irit.fr
Date limite de publication : 2022-12-31

Contexte :
Dans le cadre du projet ANR So-DRIIHM, vous interviendrez dans le développement d’une plateforme pour la science ouverte. La science ouverte est un mouvement dans la continuité de ll’open-data pour l’ouverture et le partage des productions de la recherche comme les données, les publications et les codes à la communauté scientifique et plus largement à la société.
Vous êtes intéressé.e par les technologies de l’internet et du web sémantique.

Sujet :
Il s’agit de travailler sur la base de données sémantique d’une plateforme d’accès aux ressources de la science ouverte.

Vous interviendrez sur la modélisation et la gestion de la base de données et l’exposition du graphe de connaissance correspondant pour être consommé par les services de la plateforme.

• Administration d’un sparql endpoint (graphDB)
• Gestion de la base de données des métadonnées de la plateforme
• Importation de données sémantiques (ETL)
• Modélisation de base de données sémantiques graphes
• Exposition d’un graphe de connaissance selon une API REST
• API REST
• Ecriture de programme python de test des API
• Tests automatiques de non régression
• Documentation
• Collaboration avec des développeurs full stack

Profil du candidat :
Bac+5 ou forte compétence reconnue par des contributions actives à des logiciels libres relatif au sujet de ce poste

Formation et compétences requises :
• Formation de développement informatique ou une expérience de développement reconnue
• Formation en base de données
• Formation en web des données : connaissance des bases de données graphes et du web des données (RDF/RDFS, OWL, sparQL)
• Expérience en Python, en javascript, en shell
• Connaissance des bases de données graphes et du web des données (RDF/RDFS, OWL, sparQL)
• Connaissance d’une méthodologie de développement logiciel
• Savoir lire et comprendre les spécifications du W3C
• Curieux.se  , Motivé.e pour apprendre
• Intéressé.e par le mouvement du logiciel libre, de la science ouverte

Adresse d’emploi :
Vous serez accueilli.e à l’IRIT, l’Institut de Recherche en Informatique de Toulouse (118 route de
Narbonne 31062 TOULOUSE CEDEX 9) pour développer la base de connaissance d’une
plateforme internet de recherche, d’accès et de publication de données d’observations socio-
environnementales pour une large communauté interdisciplinaire de recherche.

Apprentissage pour l’étude de l’activité électrophysiologie haute-résolution

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LaTIM / LabSTICC
Durée : 36 mois
Contact : francois.rousseau@imt-atlantique.fr
Date limite de publication : 2022-12-31

Contexte :
Lab

La recherche à IMT Atlantique concerne près de 800 personnes, dont 290 enseignants et chercheurs et 300 doctorants, et porte sur les technologies du numériques, de l’énergie et de l’environnement. Il couvre toutes les disciplines (des sciences physiques aux sciences humaines et sociales en passant par celles de l’information et du savoir) et couvre tous les domaines des sciences et des technologies de l’information et de la communication.

La thèse se déroulera au laboratoire LaTIM (INSERM U1101), sur le campus de Brest, en collaboration avec le Lab-STICC (Brest).

Date de début : Octobre 2022
Financement : Union européenne (projet CEREBRO)

Sujet :
Description

Description du projet :
Le projet EIC Pathfinder CEREBRO (an electric Contrast medium for computationally intensive Electroencephalographies for high REsolution BRain imaging withOut skull trepanation) vise le développement d’une nouvelle modalité d’imagerie de l’anatomie et de l’activité électrophysiologique du cerveau, qui est essentielle pour de nombreuses applications, notamment la dosimétrie électromagnétique, la neurostimulation, les interfaces cerveau-ordinateur et le diagnostic de maladies telles que le cancer, l’épilepsie et la maladie de Parkinson.

L’imagerie de l’activité cérébrale peut être réalisée à l’aide d’un électroencéphalographe (EEG), mais en raison des effets de blindage du crâne, la résolution spatiale des relevés est limitée. Une solution fréquente pour surmonter ce problème consiste à implanter des électrodes directement sous le crâne (ECoG) ou sur le cortex. L’imagerie qui en résulte est de meilleure qualité, mais elle n’est que locale.

CEREBRO verra la conception et le design d’une nouvelle modalité d’imagerie basée sur un milieu de contraste électromagnétique qui permettra de contourner l’effet de blindage du crâne, permettant ainsi une imagerie à haute résolution spatiale de l’activité cérébrale dans son ensemble, tout en préservant la haute résolution temporelle des modalités d’imagerie directe de l’activité électrophysiologique.

Les informations qui seront rendues accessibles à la communauté médicale n’ont jamais été extraites auparavant et devraient permettre des percées importantes dans le domaine des neurosciences et des soins aux patients.

Description du sujet :
Ce travail de thèse vise à étendre les algorithmes statiques de source inverse en neuroimagerie au régime des hautes fréquences. Ces extensions reposeront sur le remplacement du “problème direct” statique par un problème dynamique (pour lequel le solveur sera spécifiquement développé). Les courants statiques sont remplacés par des courants oscillants et le potentiel est remplacé par le champ électromagnétique harmonique. Il s’agit clairement d’un cadre sans précédent pour la neuro-imagerie, mais la stabilité à haute fréquence est très attendue puisque le problème mathématique de la neuro-imagerie à haute fréquence pourrait être considéré comme une contrepartie vectorielle de l’imagerie de la source acoustique dans l’eau pour laquelle il existe des algorithmes de source inverse très efficaces.

Dans ce but, il s’agira d’implémenter des algorithmes de source inverse à haute fréquence utilisés par exemple en océanographie et de les utiliser en neuro-imagerie. Contrairement au cas statique qui est mathématiquement mal posé (pour des distributions de sources générales), les problèmes de sources inverses multifréquences sont bien posés. On s’attend donc à ce que l’imagerie en présence des micro-tiges, en plus de compenser les différences de RSB entre les lectures EEG invasives et non invasives, réduise également le caractère mal posé, ce qui permettra d’augmenter encore la précision.

Ce travail de thèse vise à apporter une contribution sur les méthodes de résolution de problèmes inverses à l’aide de techniques d’apprentissage profond. Il s’agira de mettre en place une formulation variationnelle pour l’estimation des propriétés électrophysiologies des tissus cérébraux à partir de données dans le cadre de l’apprentissage profond afin d’apprendre conjointement le terme de régularisation (a priori) et le solveur associé au problème de minimisation.

Profil du candidat :
Ingénieur ou M2 en apprentissage, mathématiques appliquées, traitement du signal et des images.

Formation et compétences requises :
Les compétences requises pour mener à bien ce travail concernent l’apprentissage machine, le traitement d’images, et les mathématiques appliquées. Des connaissances en informatique et en programmation (Python) seront également requises afin de développer les algorithmes associés.

Adresse d’emploi :
IMT Atlantique, Campus de Brest.

Document attaché : 202207050741_2022-Cerebro_french.pdf

Auditing the mutations of online AI-models

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Inria Rennes/ PEReN
Durée : 3 years
Contact : gtredan@laas.fr
Date limite de publication : 2022-12-31

Contexte :
AI-based decision-making systems are now pervasive, serving populations in most parts of their online interactions (i.e., curation such as recommendation [3], pricing [1] or search algorithms [5]). These systems have demonstrated high level performances lately [10], so it comes with no surprise that having AI-based models to face users is now a common ground for the tech industry (called the platforms hereafter).

Yet, the massive use of AI-based model raises concerns, for instance regarding their potentially unfair and/or discriminatory decisions. It is then of a societal interest to develop methods to audit the behavior of an online model, to verify its lack of bias [12], proper use of user data [11], or compliance to laws [7]. The growing list of known audit methods is slowly consolidating into the emerging field of algorithmic audit of AI-based decision making algorithms, and multiple directions are yet to be explored for expanding that nascent field.

*Contact*

Lucas Verney, PEReN, lucas.verney@finances.gouv.fr
Erwan Le Merrer, Inria, erwan.le-merrer@inria.fr
Gilles Tredan, LAAS-CNRS, gtredan@laas.fr

Sujet :

*The notion of mutation and the distance to a landmark model*

While audits are by essence punctual, the audited models often continuously evolve, for instance because of reinforcement learning, retraining on new user inputs, or simply because of code updates pushed by the platform operators. An unexplored direction of interest, that might be crucial for instance to regulators, is to provide means to observe the mutation of an online model. Assume a platform model under scrutiny, and an auditor that has only access to that model solely by means of queries/responses. This is coined as a black-box access to a model in the literature. Through these basic actions, an open research question is the proper definition of what is a stable model,i.e., a model that is consistent in time with regards to its decisions, (and consequently does not mutate). While there has been a couple of approaches to define techniques of tampering-detection of a model [6, 4], this definition is bound to classifiers and to the sole capability of checking if the model is the same or if it is different.

*Objectives*

A more refined way would be to provide a quantification for mutation, that is a notion of a distance between two instances, one being a model, possibly owned locally by an auditor, the other being a variant of the model that has already mutated. How to define and design a practical and robust distance measure is the topic of this Ph.D thesis. This opens up multiple questions:
•How should such a setup be modeled (statistical modeling, use of information theory, similarities from the datamining field, etc), so that we are able to provide a well defined measure for that problem. Moreover, while standard approaches exist to evaluate the divergence between two models, those need to be adapted to the context. In particular, we seek practical approaches that estimate divergence using few requests.
An example of a modeling can rely on graphs. One can indeed structure the data collected from the observed model under relations forming a graph (see e.g., [8] in the context of the YouTube recommender), and compare that graph to the structure of a desirable graph with respect to the properties that are awaited from the platform.

•Such AI models are nowadays used in a large variety of tasks (such as classification, recommendation or search). How does the nature of the tasks influences the deviation estimation/detection ?

•Considering that the auditor tracks deviation tracking, with regards to a reference point, is it possible to identify the directionin the mutation? That is particularly interesting in order to assess if a model evolves towards compliance with law requirements.

•Taking the opposite (platform) side: are there ways to make this distance measurements impossible, or at least noisy, so that it is impossible for the auditor to issue valuable observations? (we will relate this to impossibility proofs). In other words, can we model adversarial platform behaviours that translateinto increased auditing difficulty ?

Profil du candidat :
*Work Plan*

•A state of the art will review past approaches to observe algorithms in a black-box. This relates to the fields of security (reverse engineering), machine learning (with e.g., adversarial examples), and computability [9].
•We plan to approach the problem by leveraging a large AI model made public (e.g.,https://pytorch.org/torchrec/), and mutate it by fine-tuning for instance, so that we can get intuition about the problem, and to allow testing the first distances we have identifed.

•Provide a first consistent benchmark from these various distances. In particular, an important aspectwill be their precision depending on the query budget necessary to obtain them (precision/cost tradeoffin the requests to the black-box)
•Once the optimum distance for our problem has been found, the followup work will be devoted to prevent its construction by designing countermeasures on the platform side. In short, design an adversary capable to create important noise in the measurement by the auditor. This can relate for instance to the notion of randomized smoothing in the domain of classifiers [2].
•This cat-and-mouse game between the auditor and the platform will structure and help create the impossibility proofs we are seeking to propose, in order to provide algorithmic landmarks for scientists and regulators.

*Ph.D. Thesis Supervision and Location*

The Ph.D. student will be welcomed in teams that are activelyworking on the topic of algorithmic auditing of AI models (both from the practical and theoretical sides),in Paris and/or in Rennes. The supervisory team will be the WIDE team in Inria Rennes. In particular, the Ph.D. student will have the opportunity to be welcomed for extended periods at PEReN (https://www.peren.gouv.fr/en/), a French government service developing and implementing algorithmic audit methods, conjointly with Inria, in order to enable benchmarking digital platforms compliance to legislations.

Formation et compétences requises :
*Desired skills for the Ph.D. candidate*

•Advanced skills in machine learning (classification, regression, adversarial examples)
•A strong formal and theoretical background. Interest in the design of algorithms is a plus.
•Good scripting skills (e.g., Python) and/or familiar with statistical analysis tools (e.g., R)

Adresse d’emploi :
Inria Rennes

Workshop “imaginecology 2”

Date : 2022-09-29 => 2022-09-30
Lieu : campus de l’université de Lyon à Villeurbanne. Les participations distantes seront également possibles (format hybride).

Le GdR EcoStat organise, avec le soutien de la MITI du CNRS, la deuxième
édition du workshop “imaginecology” :

https://imaginecology2.sciencesconf.org

Le workshop inclura trois présentations plénières et sera précédé de
mini-formations optionnelles. L’objectif est de créer et renforcer les
interactions entre personnes travaillant aux interfaces entre
intelligence artificielle et écologie. N’hésitez donc pas à venir
discuter et/ou proposer une courte intervention (5 minutes), pour
présenter vos travaux, données ou intérêts, ou même juste partager votre
problématique.

Lien direct

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Chercheur.se en Science des données et modélisation

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Cirad, UMR TETIS
Durée : CDI
Contact : mathieu.roche@cirad.fr
Date limite de publication : 2022-07-01

Contexte :
Le Cirad (Centre de Coopération Internationale en Recherche Agronomique pour le Développement) produit et transmet de nouvelles connaissances pour accompagner l’innovation et le développement agricole dans les pays du Sud avec ses partenaires. Il a pour objectif prioritaire de bâtir une agriculture durable des régions tropicales et méditerranéennes, adaptée aux changements climatiques, capable de nourrir 10 milliards d’êtres humains en 2050, tout en préservant l’environnement.

En savoir plus sur le Cirad : www.cirad.fr

Date de début : 01/11/2022

Sujet :
L’unité TETIS (Territoires, environnement, télédétection et information spatiale) recherche un.e Chercheur.se en Science des données et modélisation. Le poste a pour ambition d’améliorer les systèmes de veille et d’alerte en répondant à des enjeux sociétaux en santé et sécurité alimentaire.
– La veille en santé animale, et notamment la détection précoce d’émergences au niveau mondial d’agents pathogènes, est l’un des moyens permettant de prévenir ou d’anticiper l’introduction de dangers sanitaires en particulier dans un contexte One Health. Le but des systèmes de veille développés à TETIS en collaboration avec d’autres unités (en particulier ASTRE) est de disposer d’outils réactifs, complémentaires des sources officielles.
– Les systèmes de suivi de la sécurité alimentaire représentent un autre enjeu de prévention ou d’anticipation des risques en particulier au Sud. En effet, les risques agricoles sont d’autant plus aigus en Afrique de l’Ouest que les services nationaux de surveillance et de suivi peuvent être défaillants faute de moyens techniques et financiers. Bien que les données agro-climatiques aient été largement utilisées à cette fin, l’utilisation d’autres sources de données (enquêtes ménages, médias sociaux, presse, analyse de marché, suivi des prix) peut se révéler complémentaire voire majeur pour les systèmes d’alerte.
En collaboration avec les chercheurs en sciences des données et modélisation de l’UMR TETIS, vous concevrez et mettrez en oeuvre des méthodes originales croisant des approches orientées données (Science des données, apprentissage automatique, etc.) et orientées processus (modélisation de processus spatiaux et dynamiques en interaction à différentes échelles dans les territoires).

Dans un cadre pluridisciplinaire fondé sur les deux domaines d’application, vous ferez des propositions génériques de mise en relation fondées sur l’extraction, la sélection et l’exploitation de descripteurs thématiques, spatiaux et temporels issus des différentes sources de données. Ceci s’appuiera sur la mobilisation de méthodes de Sciences des Données et d’apprentissage automatique qui pourront être guidées par les connaissances expertes et les modèles existants. Enfin, une attention particulière sera apportée pour produire des méthodes avec une forme de « sémantisation » et d’explicabilité des résultats indispensables dans un cadre pluridisciplinaire et d’interaction avec les experts.

Profil du candidat :
De formation scientifique, vous êtes titulaire d’un doctorat en informatique.

Formation et compétences requises :
Les compétences attendues sont :
– Connaissances approfondies en sciences des données et/ou apprentissage automatique avec des connaissances sur les approches orientées processus (modélisation).
– Une expérience en extraction et combinaison de données hétérogènes multisources est souhaitée.
– Publications majeures en sciences des données.
– Bonne aptitude au travail en équipe et en réseau partenarial.
– Souci du transfert opérationnel des recherches, intérêt pour la formation et pour les interactions avec les acteur.rice.s/partenaires.
– Goût pour la pluridisciplinarité.
– Autonomie et leadership.
– Bonne pratique de l’anglais lu, écrit et parlé.
– Une expérience de 1 an ou plus après thèse est souhaitable.
– Une expérience de recherche à l’international serait un plus.

Adresse d’emploi :
== Localisation du poste

– Montpellier (UMR TETIS)
avec des possibilités d’affectation au Sud à l’échéance de 2 ans

== Renseignements sur le poste

Mathieu ROCHE
mathieu.roche@cirad.fr

Référence : P-ES-TETIS-2022-06-CDI-6412

Pour candidater : https://recrutement.cirad.fr/offre-de-emploi/emploi-chercheur-se-en-science-des-donnees-et-modelisation_6412.aspx

Date de fin de diffusion : 28/08/2022

Détection d’anomalies dans les textes par analyse statistique des distributions lexicales (Statistical analyses of lexical distributions with an application to anomaly detection in natural texts)

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISN (Paris Saclay) et ILLS (Montréal)
Durée : 36 mois
Contact : francois.yvon@limsi.fr
Date limite de publication : 2022-07-14

Contexte :
Le LISN (Laboratoire Interdisciplinaire des Sciences du Numérique) de
l’université Paris-Saclay et le laboratoire ILLS (International
Laboratory on Learning Systems) de l’université McGill conjointement
avec l’ETS Montréal et le MILA (Institut québécois d’intelligence
artificielle) au Canada(Plus d’information:
https://www.mcgill.ca/channels/fr/channels/news/un-laboratoire-international-dintelligence-artificielle-voit-le-jour-montreal-339253)
recherchent un.e candidat.e pour effectuer une thèse en cotutelle.

Titre de la thèse : Détection d’anomalies dans les textes par analyse
statistique des distributions lexicales (Statistical analyses of
lexical distributions with an application to anomaly detection in
natural texts)

L’encadrement de la thèse sera assuré par François Yvon (LISN, CNRS),
Pablo Piantanida (ILLS, CNRS – Université Paris-Saclay).

Sujet :
Les textes falsifiés, la désinformation et les mécanismes d’enfermement dans des bulles informationnelles apparaissent des problèmes de plus en plus critiques posés par l’algorithmisation de notre accès à l’information numérique. Des algorithmes de traitement automatique des langues médiatisent notre accès aux informations, en les triant, les classant, les filtrant selon des procédures opaques, avec pour objectif de susciter des réactions émotionnelles et conforter nos opinions. Sur les plateformes de médias sociaux, ces méthodes sont utilisées par des États, des entreprises et des particuliers malveillants pour produire des informations erronées, amplifier les doutes sur des données factuelles ou ternir la réputation de leurs concurrents ou adversaires, renforçant ainsi leurs propres positions stratégiques ou économiques. Ces pratiques de désinformation généralisées peuvent être le résultat de différents facteurs et incitations; cependant, toutes posent le même problème fondamental à l’humanité en brouillant la compréhension de ce qui est vrai et de ce qui est faux.

L’utilisation de modèles d’apprentissage profond, comme le modèle GPT-3 de OpenAI, pour la génération de textes à grande échelle, s’est généralisée ces dernières années. Avec ces méthodes, la génération du texte est effectuée par le biais d’une procédure autorégressive qui échantillonne des suites de mots à partir d’une distribution apprise pour imiter la “vraie” distribution de textes naturels. Ces modèles s’avèrent très supérieurs aux méthodes de génération traditionnelles, et ont démontré leur capacité à produire des textes cohérents et pertinents, parfois difficiles à distinguer de productions humaines. Employées de manière malveillante ou criminelle, elles sont donc susceptibles de constituer des armes de désinformation massive.

Pour lutter contre ces phénomènes, la première étape est le repérage des contenus les plus problèmatiques; nous nous focalisons dans cette thèse sur les contenus générés automatiquement. La détection de textes artificiels peut être considérée comme un cas particulier de la détection d’anomalies, définie au sens large comme la tâche consistant à identifier des exemples qui s’écartent des exemples habituels à un degré tel qu’ils éveillent les soupçons. Les recherches actuelles en matière de détection d’anomalies se concentrent en grande partie sur les classificateurs profonds (par exemple, la détection de points abberants, les attaques adverses) ou s’appuient sur la sortie de grands modèles de langue (LM) lorsque les étiquettes ne sont pas disponibles. Bien que ces axes de recherche soient attrayants, les faire passer à l’échelle exige une très grande quantité de calculs. En outre, ces méthodes reposent sur les hypothèses fondamentales suivantes : (1) les informations statistiques nécessaires à l’identification des anomalies sont disponibles dans le modèle entraîné, (2) l’incertitude du modèle est fiable, ce qui n’est généralement pas le cas, comme l’illustre la présence d’un petit changement dans la distribution des données d’entrée. Les approches basées sur les LMs ne sont pas performantes lorsqu’elles sont utilisées sur des grands fragments de texte, comme cela peut être nécessaire dans des applications pratiques (par exemple, la génération de longs documents, d’histoires ou de nouvelles), en raison du contexte de longueur fixe utilisé lors de l’entraînement du modèle de langue.

Cette thèse de doctorat se concentre sur le développement de méthodes hybrides de détection des anomalies en utilisant des techniques basées sur des réseaux de neurones profonds et des distributions de fréquence de mots qui sont linguistiquement fondées. La plupart des recherches menées à ce jour sur les modèles de langue se concentrent sur le traitement au niveau de la phrase et ne parviennent pas à capturer les dépendances à long terme au niveau du discours. Pour pallier ce problème, nous nous appuierons sur les distributions de fréquence de mots et les mesures d’information pour caractériser les longs documents, en modélisant des phénomènes tels que le très grand nombre de mots rares, ce qui conduit souvent à des phénomènes statistiques étranges comme les variations systématiques des fréquences moyennes lorsque le nombre d’observations augmente. Des concepts avancés de statistiques et de mesures d’information sont nécessaires pour comprendre l’analyse des distributions de fréquences de mots et pour capturer l’information au niveau du document. Des expériences approfondies sur des ensembles de données du monde réel seront réalisées pour démontrer la viabilité de notre approche.

Profil du candidat :
Pour consulter le sujet complet et déposer une candidature:
https://emploi.cnrs.fr/Offres/Doctorant/UMR9015-FRAYVO-009/Default.aspx

Le dossier de candidature devra contenir :
– CV détaillé,
– Lettre de motivation,
– Détails des relevés de notes (notamment M1 et M2),
– Éléments de bibliographie ou de réalisations personnelles
relevant d’une activité de recherche (ex projet de master,
sujet de stage recherche, etc),
– 2 lettres de recommandation.

Formation et compétences requises :
Master 2 ou équivalent avec une spécialisation dans un des domaines suivants: Mathématiques appliquées, Apprentissage Automatique, Intelligence Artificielle, Traitement automatique des langues.

Adresse d’emploi :
Laboratoire Interdisciplinaire des Sciences du Numérique, Campus de l’Université Paris Saclay

avec des périodes de séjour à Montréal.

3 EC permanents ESILV/DVRC – Apprentissage / HPC

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DVRC/ESILV
Durée : CDI
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2022-07-14

Contexte :
L’ESILV, Ecole Supérieure d’Ingénieurs Léonard de Vinci est une école d’ingénieurs généraliste au cœur des technologies du numérique. Elle recrute principalement au niveau Baccalauréat ainsi qu’au niveau des CPGE et forme des ingénieurs opérationnels s’insérant parfaitement dans le monde professionnel. Le projet pédagogique de l’ESILV s’articule autour des sciences et des technologies numériques ainsi qu’une forte transversalité avec 20% de son cursus en commun avec une école de management (EMLV) et une école du digital (IIM) dont un parcours Ingénieur Manager en 5 ans, double diplômant. Les spécialisations proposées portent sur la finance (ingénierie financière, actuariat et fintech), l’informatique (Data & IA, Objets connectés & sécurité), la mécanique (Modélisation & mécanique numérique, Industrie 4.0), l’énergie (Energie & villes durables) et la santé (Santé Biotech). Elle propose également deux Bachelors en Ingénierie Numérique et en Technologie & Management. 3300 élèves. L’ESILV est membre de la CGE, de l’UGEI, de la CDEFI, de Campus France et de Talents du Numérique

Sujet :
Pour résumer, 3 types de profils de chercheur :
Calcul Haute performance (HPC) et/ou Big Data Analytics (BDA), Distributed computing
La candidate ou le candidat recherché devra posséder des compétences fortes en Calcul Haute Performance et/ou en Big Data Analytics avec une coloration en Machine Learning. Ceux-ci incluent la conception, l’analyse et le développement de méthodes d’optimisation pour le Machine Learning, l’assimilation de données, l’algèbre linéaire numérique en grande dimension. Il est attendu des candidats qu’ils possèdent des aptitudes à développer/entreprendre des recherches au carrefour de ces disciplines.

Apprentissage machine, Machine Learning / Deep Learning / Convolutional Neural Network, par renforcement et incertitude,
Une thématique autour de l’apprentissage de données hétérogènes, multimodales ou de données sous forme de graphe serait appréciée.
Dans ce profil, bien que centré sur l’apprentissage machine et ses applications, la candidate ou le candidat devra mener une analyse basée sur des outils complémentaires pour mieux comprendre les mécanismes d’apprentissages et surmonter leurs défauts, en particulier l’explicabilité des résultats.
Les autres thèmes d’application sont ceux du laboratoire et de l’école : transition énergétique et environnementale, matériaux, finance/actuariat, santé.

Apprentissage automatique/statistique et/ou Optimisation en grande dimension
La candidate ou le candidat recherché devra posséder des compétences fortes dans le domaine du Machine Learning et du Statistical Learning. Ceux-ci incluent la conception, l’analyse et le développement de méthodes d’optimisation pour le Machine Learning, l’assimilation de données, l’algèbre linéaire numérique en grande dimension. Il est attendu des candidats qu’ils possèdent des aptitudes à développer/entreprendre des recherches au carrefour de ces disciplines.
Les autres thèmes d’application sont ceux du laboratoire et de l’école : transition énergétique et environnementale, matériaux, finance/actuariat, santé, tourisme.

Profil du candidat :
– Connaissances
□ Machine Learning,
□ Apprentissage automatique/statistique,
□ Calcul Haute performance, optimisation en grande dimension,
□ Distributed Computation,
□ Algorithmes d’intelligence artificielle,
□ Science des données et visualisation,
□ Enseignement supérieur,
□ Tissu économique et métiers.

– Connaissances opérationnelles
□ Méthodes pédagogiques (présentiel, classe inversée, distanciel avec outils digitaux, MOOC, SPOC, COOC …)
□ Outils bureautiques
□ Conduite de projet
□ Communication

– Connaissances comportementales
□ Réactivité et disponibilité
□ Excellent relationnel
□ Aisance orale
□ Autonomie

Formation et compétences requises :
Le/La candidat-e devra être titulaire d’un doctorat en informatique, une habilitation à diriger des recherches sera appréciée dans les sections CNU 27 et/ou 61

Adresse d’emploi :
12 avenue Léonard de Vinci, 92400 Courbevoie

Document attaché : 202206281625_EC Informatique_22_High Performance Computing &Big Data Analytics.pdf

Bayesian inversion with deep learning-driven priors – Application to spectral imaging problems

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut Denis Poisson (IDP), Université d’Orléan
Durée : 3 ans
Contact : diarra.fall@univ-orleans.fr
Date limite de publication : 2022-12-25

Contexte :
Spectral imaging finds applications in many different fields including remote sensing for Earth observation and in medicine.

In Earth observation, multiband imaging provides a detailed characterization of the observed scene by sensing the reflected electromagnetic spectrum in tens nay hundreds of spectral bands. This characterization can be leveraged for ecosystem monitoring, environmental suveillance or land cover mapping. However, multiband images face an unsurpassable trade-off which limits the intrinsic spatial resolution as spectral resolution increases. Several techniques have been developped in the remote sensing literature to overcome this limitation, namely spectral unmixing, subpixel mapping or pansharpening. All these tasks can be formulated as challenging inverse problems.

On the other hand, in medicine, functional near-infrared spectroscopy (fNIRS) is a noninvasive brain imaging technique used to measure evoked changes in cerebral blood oxygenation. Because it is more portable and less restrictive than other popular brain imaging such as functional magnetic resonance imaging (fMRI), fNIRS is widely used with children and other special populations. However, fNIRS has a lower spatial resolution compared to fMRI. Furthermore, the signals are corrupted by physiological noise and motion artefacts, and isolating the desired signals from the unwanted noises is a challenging inverse problem task.

Sujet :
Whatever the applicative contexts, the aforementioned restoration problems can be straighforwardly formulated in a Bayesian framework. Indeed the Bayesian paradigm provides a versatile statistical framework to formulate inverse problems. Formulating restoration problems within a Bayesian formalism allows the estimation to be endowed with an assessment of uncertainty, which is of great importance for several applications. However this formulation requires the definition of regularizations by introducing additional information to mitigate the lack of information brought by the observations. For ill-posed problems, the choice of the prior has a significant impact on the solution. Conventional approached generally use explicit priors designed to promote expected or desired properties of the signals and images to be restored. However, in practice, it can be difficult to explicitly define such a function that captures all the desired properties.

As an alternative, we propose to tackle these restoration problems in a Bayesian framework using implicitly priors specified by neural networks. For instance, implicit priors defined by the architecture of convolutional neural networks have been used in [1]. Variational auto-encoders proposed in [2] have been successfully used for learning priors in various imaging problems such as denoising and deblurring in [3]. Plug and play priors [4] appear also of great interest since they have have shown remarkably accurate results when combined with denoisers based on convolutional neural networks [5].

The proposed PhD thesis project aims at developing new Bayesian restoration methods for Earth observation and fNIRS data, using convolutional neural networks data-driven priors.
The proposed methods will be applied on hyperspectral mineralogical data from BRGM and acquired in the SOLSA H2020 project for rock analysis; and FNIRS data available at Centre Hospitalier Régional d’Orléans for studying human brain activity during motor execution.

More information : http://dobigeon.perso.enseeiht.fr/proposals/proposal_PhD_2022_AIiO.pdf

Profil du candidat :
Master or Engineering school student in applied mathematics, computer science or electrical engineering.

Formation et compétences requises :
The knowledge needed for this work includes a strong background in textbf{signal & image processing}, textbf{applied mathematics} (probability & statistics, optimization, etc.) and/or machine learning. Good scientific programming skills (e.g., Python or Matlab) and good communication skills in English, both written and oral are also expected.

Adresse d’emploi :
Institut Denis Poisson
Université d’Orléans
45100 Orléans

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Archives

Maître-assistant associé en Sciences des données : Apprentissage statistique et Aide à la Décision au service de l’Industrie et des territoires du futur.

CIFRE – Cybersecurity with Machine Learning for industrial networks

Développeur/développeuse et gestionnaire d’une base de connaissance sémantique d’une plateforme d’accès aux données ouvertes

Apprentissage pour l’étude de l’activité électrophysiologie haute-résolution

Auditing the mutations of online AI-models

Workshop “imaginecology 2”

Chercheur.se en Science des données et modélisation

Détection d’anomalies dans les textes par analyse statistique des distributions lexicales (Statistical analyses of lexical distributions with an application to anomaly detection in natural texts)

3 EC permanents ESILV/DVRC – Apprentissage / HPC

Bayesian inversion with deep learning-driven priors – Application to spectral imaging problems