LEMON

Action LEMON

anaLysE et dynaMique des messages et cONversations radicales sur Internet

Responsables

Thématiques

fouille de données, apprentissage, deep learning, sociolinguistique, traitement du langage naturel, représentation des connaissances, ontologies, sociologie, sciences de l’éducation

Données concernées

données issues de sources ouvertes : corpus de tweets collectés avec des mots-clés spécifiques, collections de blogs et forums en lien avec les idéologies extrêmes (extrême droite, white supremacy, etc…), données issues de réseau sociaux (interaction, graphes de réseaux). L’action considère principalement des données textuelles, non structurées, en Français et Anglais.

Mots clés

données sociales, caractérisation du contenu, détection et dynamique d’opinion, propagande, cyberviolence, idéologies extrêmes

Contexte scientifique

L’action regroupe des chercheurs en SHS (sociologie, sciences de l’éducation), socio linguistique, traitement du langage naturel et intelligence artificielle autour de plusieurs défis sociétaux, scientifiques et techniques.

Le principal défi sociétal est l’exploration des données sociales en lien avec la production et la diffusion du contenu spécifique aux idéologies extrêmes : mouvements identitaires, extrême droite, radicalisation. Dans le domaine de la sociologie, de nombreux auteurs s’accordent pour identifier l’exposition au contenu virtuel comme un facteur majeur de plusieurs processus impactant la vie réelle : cyberviolence en milieu scolaire, radicalisation et terrorisme. Tandis que les méthodes traditionnelles des sociologues (interviews et questionnaires avec des sujets représentatifs) permettent d’avoir un aperçu du processus dans sa dimension sociale, l’exploration des données produites sur Internet rajoute une dimension nouvelle, capable de transgresser les limites des régions géographiques et le cercle des liens sociaux.

Pour le traitement des données sociales, l’action adopte des méthodes numériques et symboliques visan : la classification (SVM), la caractérisation du contenu (TF/ID, extraction de motifs, identification de patrons lexico-syntaxiques), les fouilles de textes (extraction de règles d’associations), l’apprentissage pour la détection de contenu (deep learning, word2Vec) et des méthodes du traitement du langage naturel pour analyser des aspects linguistiques : subjectivité, opinions, émotions. Pour des domaines restreints tel que l’extrême droite, par exemple, LEMON pourra également construire des ontologies décrivant le domaine selon le point de vue expert et analyser sa déclinaison à travers le contenu en ligne.

Les défis scientifiques impactent chaque thématique : pour le traitement du langage, le défi est lié à la mise au point de méthodes capables de traiter des contenus fortement hétérogènes et bruités par des abréviations, insertion de smileys ou encore le mélange de phrases en plusieurs langues. Pour les méthodes d’apprentissage, un défi majeur reste l’adaptation à un domaine en permanente évolution à la fois dans son contenu (topics émergeants) et sa forme (nouvelles structures discursives). Un verrou transversal est la constitution d’un socle cohérent des connaissances soutenu par une model formel mettant en évidence à la fois les indices et facteurs de risque fournis par les modèles sociologiques ainsi que leur ancrage linguistique dans les données sociales collectés sur Internet.

Etant donné le caractère sensible de certaines collections de données, l’action LEMON bénéficie du support de 4 projets : PRACTICIES et PERICLES sont deux projets H2020 investiguant le phénomène de radicalisation y compris sur Internet ; SAFRON est un projet Européen récemment terminé dédié à l’analyse des discours racoleurs et de propagande sur Internet ; RISKTRACK est un projet européen, investiguant la propagation des idéologies au sein des communautés virtuelles.

L’action impacte directement le domaine de la sécurité : veille informationnelle et stratégique, renseignement, sécurité globale.

LEMON s’inscrit dans le continuum « données, connaissances, interactions » adopté par le GDR MADICS et permet notamment des interactions entre les participants pour : identifier sur Internet des sources du contenu radicalisé et collecter des messages, conversations, blogs, etc. ; constituer une base de données brutes pour mettre au point les méthodes et algorithmes d’extraction ; explorer cette base pour retrouver des patterns linguistiques, syntagmes, indicateurs sociolinguistiques ; construire des ontologies afin de dépasser la description linguistique des données en modélisant des concepts, topics, opinions, degrés d’incertitude) ; faciliter l’interactions des sociologues et experts du domaine avec les données et modèles construits afin de valider leurs hypothèses (associations de facteurs de risque, corrélation des indices, retour vers le corpus) ; produire des résultats exploitables dans différents contextes applicatifs tels que la construction des contre discours et la mise ou point de message à destination des catégories vulnérables.

LEMON réunit un panel de partenaires divers : laboratoires de recherche (Univ. Toulouse 2), LIDILEM (Univ. Grenoble), MoDyCo (Univ. Paris Dauphine), ERTIM (INALCO), LIPN (Univ. Paris 13, LIRIS (Univ. Lyon 1), Laboratoire Ligérien de Linguistique (Univ. D’Orleans), des industriels Thales TRT, Airbus DS et ONERA (EPIC). L’ancrage dans le domaine applicatif est réalisé grâce à la présence de deux partenaires appartenant à la société civile : l’IFRI, l’Institut Français des relations Internationales un centre de recherche et de débat abordant notamment le terrorisme, et Act’FOR une association consacrée aux phénomènes sociétaux en lien avec la radicalisation et organisant des ateliers de sensibilisation auprès des jeunes

L’action est fondée sur une approche multidisciplinaire qui permettra une fertilisation croisée des techniques et méthodes et une meilleure visibilité des résultats qui seront diffusés dans plusieurs communautés.

Site de l’Action LEMON en cours de construction…


Évènements à venir