Détection de fausses nouvelles (fake news) fondée sur les informations textuelles et structurées

When:
01/04/2019 – 02/04/2019 all-day
2019-04-01T02:00:00+02:00
2019-04-02T02:00:00+02:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIRMM et TETIS
Durée : 5-6 mois
Contact : mathieu.roche@cirad.fr, todorov@lirmm.fr
Date limite de publication : 2019-04-01

Contexte :
Les fausses nouvelles (fake news) sont devenues un problème de plus en plus important, tant du point de vue de la société que de celui de la recherche. De nombreuses approches récentes [1,2] dans diverses communautés scientifiques portent sur des problèmes tels que la vérification des faits, la détection de la pertinence ou de point de vue dans des documents par rapport à des assertions particulières.

Dans ce contexte, 3 laboratoires français et allemands (dont le LIRMM et TETIS à Montpellier) ont uni leur efforts pour collecter et publier sous la forme de graphe de connaissances les données et méta-données contenues dans un grand nombre de site de fact-checking (tels que Politifact ou Snopes). En résulte la base ClaimsKG, un graphe de connaissances contenant plus de 24K assertions annotées et liées qui facilite la création de requêtes structurées sur les assertions, leurs valeurs de vérité (True, False, etc.), leurs auteurs, dates de publication, etc.

Sujet :
Ce stage aura pour but d’exploiter cette ressource et de proposer des contributions méthodologiques fondées sur des analyses statistiques approfondies :

(i) Intégration de nouveaux descripteurs (descripteurs dits exogènes, word embeddings, etc.) pour améliorer l’identification de “fake news” dans un processus d’apprentissage automatique.

(ii) Mise en place d’un processus de clustering d’assertions dans le but d’identifier les descripteurs clés utiles pour discriminer les fake news. Notons que le clustering visera à regrouper les assertions qui portent sur le même événement ou bien sur des événements similaires/liés.

Plan de travail :
1) Etat de l’art du domaine de vérification automatique d’assertions à la base de méthodes d’apprentissage automatique.
2) Etudes de l’état de l’existant, en particulier la ressource ClaimsKG.
Proposition de méthodes d’identification des descripteurs les plus pertinents pour la détection de fake news.
3) Rédaction d’un papier scientifique à soumettre à une conférence internationale

Profil du candidat :
– Bon niveau de programmation (java / python)
– Des bases en science de données, machine learning et web sémantique
– Bon niveau en anglais

Formation et compétences requises :
Master 2 en informatique

Adresse d’emploi :
Le travail s’effectuera à TETIS et au LIRMM à Montpellier dans le cadre d’une collaboration avec l’Institut de sciences sociologiques GESIS à Cologne (Allemagne).

Le stage aura une durée de 5 à 6 mois à partir du mois de février 2019
Gratification : taux légal en vigueur

Document attaché :