Détection d’anomalies dans les textes par analyse statistique des distributions lexicales (Statistical analyses of lexical distributions with an application to anomaly detection in natural texts)

When:

14/07/2022 – 15/07/2022 all-day

2022-07-14T02:00:00+02:00

2022-07-15T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISN (Paris Saclay) et ILLS (Montréal)
Durée : 36 mois
Contact : francois.yvon@limsi.fr
Date limite de publication : 2022-07-14

Contexte :
Le LISN (Laboratoire Interdisciplinaire des Sciences du Numérique) de
l’université Paris-Saclay et le laboratoire ILLS (International
Laboratory on Learning Systems) de l’université McGill conjointement
avec l’ETS Montréal et le MILA (Institut québécois d’intelligence
artificielle) au Canada(Plus d’information:
https://www.mcgill.ca/channels/fr/channels/news/un-laboratoire-international-dintelligence-artificielle-voit-le-jour-montreal-339253)
recherchent un.e candidat.e pour effectuer une thèse en cotutelle.

Titre de la thèse : Détection d’anomalies dans les textes par analyse
statistique des distributions lexicales (Statistical analyses of
lexical distributions with an application to anomaly detection in
natural texts)

L’encadrement de la thèse sera assuré par François Yvon (LISN, CNRS),
Pablo Piantanida (ILLS, CNRS – Université Paris-Saclay).

Sujet :
Les textes falsifiés, la désinformation et les mécanismes d’enfermement dans des bulles informationnelles apparaissent des problèmes de plus en plus critiques posés par l’algorithmisation de notre accès à l’information numérique. Des algorithmes de traitement automatique des langues médiatisent notre accès aux informations, en les triant, les classant, les filtrant selon des procédures opaques, avec pour objectif de susciter des réactions émotionnelles et conforter nos opinions. Sur les plateformes de médias sociaux, ces méthodes sont utilisées par des États, des entreprises et des particuliers malveillants pour produire des informations erronées, amplifier les doutes sur des données factuelles ou ternir la réputation de leurs concurrents ou adversaires, renforçant ainsi leurs propres positions stratégiques ou économiques. Ces pratiques de désinformation généralisées peuvent être le résultat de différents facteurs et incitations; cependant, toutes posent le même problème fondamental à l’humanité en brouillant la compréhension de ce qui est vrai et de ce qui est faux.

L’utilisation de modèles d’apprentissage profond, comme le modèle GPT-3 de OpenAI, pour la génération de textes à grande échelle, s’est généralisée ces dernières années. Avec ces méthodes, la génération du texte est effectuée par le biais d’une procédure autorégressive qui échantillonne des suites de mots à partir d’une distribution apprise pour imiter la “vraie” distribution de textes naturels. Ces modèles s’avèrent très supérieurs aux méthodes de génération traditionnelles, et ont démontré leur capacité à produire des textes cohérents et pertinents, parfois difficiles à distinguer de productions humaines. Employées de manière malveillante ou criminelle, elles sont donc susceptibles de constituer des armes de désinformation massive.

Pour lutter contre ces phénomènes, la première étape est le repérage des contenus les plus problèmatiques; nous nous focalisons dans cette thèse sur les contenus générés automatiquement. La détection de textes artificiels peut être considérée comme un cas particulier de la détection d’anomalies, définie au sens large comme la tâche consistant à identifier des exemples qui s’écartent des exemples habituels à un degré tel qu’ils éveillent les soupçons. Les recherches actuelles en matière de détection d’anomalies se concentrent en grande partie sur les classificateurs profonds (par exemple, la détection de points abberants, les attaques adverses) ou s’appuient sur la sortie de grands modèles de langue (LM) lorsque les étiquettes ne sont pas disponibles. Bien que ces axes de recherche soient attrayants, les faire passer à l’échelle exige une très grande quantité de calculs. En outre, ces méthodes reposent sur les hypothèses fondamentales suivantes : (1) les informations statistiques nécessaires à l’identification des anomalies sont disponibles dans le modèle entraîné, (2) l’incertitude du modèle est fiable, ce qui n’est généralement pas le cas, comme l’illustre la présence d’un petit changement dans la distribution des données d’entrée. Les approches basées sur les LMs ne sont pas performantes lorsqu’elles sont utilisées sur des grands fragments de texte, comme cela peut être nécessaire dans des applications pratiques (par exemple, la génération de longs documents, d’histoires ou de nouvelles), en raison du contexte de longueur fixe utilisé lors de l’entraînement du modèle de langue.

Cette thèse de doctorat se concentre sur le développement de méthodes hybrides de détection des anomalies en utilisant des techniques basées sur des réseaux de neurones profonds et des distributions de fréquence de mots qui sont linguistiquement fondées. La plupart des recherches menées à ce jour sur les modèles de langue se concentrent sur le traitement au niveau de la phrase et ne parviennent pas à capturer les dépendances à long terme au niveau du discours. Pour pallier ce problème, nous nous appuierons sur les distributions de fréquence de mots et les mesures d’information pour caractériser les longs documents, en modélisant des phénomènes tels que le très grand nombre de mots rares, ce qui conduit souvent à des phénomènes statistiques étranges comme les variations systématiques des fréquences moyennes lorsque le nombre d’observations augmente. Des concepts avancés de statistiques et de mesures d’information sont nécessaires pour comprendre l’analyse des distributions de fréquences de mots et pour capturer l’information au niveau du document. Des expériences approfondies sur des ensembles de données du monde réel seront réalisées pour démontrer la viabilité de notre approche.

Profil du candidat :
Pour consulter le sujet complet et déposer une candidature:
https://emploi.cnrs.fr/Offres/Doctorant/UMR9015-FRAYVO-009/Default.aspx

Le dossier de candidature devra contenir :
– CV détaillé,
– Lettre de motivation,
– Détails des relevés de notes (notamment M1 et M2),
– Éléments de bibliographie ou de réalisations personnelles
relevant d’une activité de recherche (ex projet de master,
sujet de stage recherche, etc),
– 2 lettres de recommandation.

Formation et compétences requises :
Master 2 ou équivalent avec une spécialisation dans un des domaines suivants: Mathématiques appliquées, Apprentissage Automatique, Intelligence Artificielle, Traitement automatique des langues.

Adresse d’emploi :
Laboratoire Interdisciplinaire des Sciences du Numérique, Campus de l’Université Paris Saclay

avec des périodes de séjour à Montréal.

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Détection d’anomalies dans les textes par analyse statistique des distributions lexicales (Statistical analyses of lexical distributions with an application to anomaly detection in natural texts)