SimpleText

 

Atelier SimpleText – GDR IA (2021)

Simplification et Vulgarisation des Textes Scientifiques

Responsables

Correspondant ComDIR : Frédéric Bimbot

Thématiques

Traitement automatique de la langue naturelle, Recherche d’information, Journalisme scientifique, Vulgarisation scientifique

Données concernées

Articles scientifiques, Résumés des articles scientifiques, Articles Wikipedia, Articles du journalisme scientifique

Mots clés

Contexte scientifique

La culture scientifique, y compris les questions liées à la santé, est importante pour que les citoyens puissent prendre de bonnes décisions, évaluer la qualité de l’information, maintenir leur santé physiologique et mentale, et éviter de tomber dans les pièges des charlatans.

Par exemple, les histoires que les individus trouvent crédibles peuvent déterminer leur réponse à la pandémie COVID-19, y compris l’application de la distanciation sociale et l’utilisation de faux traitements médicaux dangereux. Malheureusement, les textes diffusés sur des médias sociaux qui maximisent leur viralité (propagation) en sollicitant nos émotions sont souvent plus directement accessibles que les publications scientifiques qui poursuivent un idéal d’objectivation et de recul.

L’amélioration de la compréhensibilité des textes et leur adaptation à différents publics reste un problème non résolu. Malgré l’existence des jeux de données comme WebSPlit et WikiSplit, la simplification automatique de textes est réduite à la tâche “Split and Rephrase” (Aharoni and Goldberg, 2018; Botha et al., 2018; Narayan et al., 2017). Un autre jeu de données existant est basé sur Simple Wikipedia (Coster and Kauchak, 2011). Bien qu’il y ait eu quelques tentatives pour aborder la question de la compréhensibilité du texte, elles sont principalement basées sur des formules de lisibilité, dont la capacité à réduire la difficulté du texte n’est pas démontrée de manière convaincante (Collins-Thompson and Callan, 2004; Leroy et al., 2013; Flesch, 1948; Gunning, 1968; Si and Callan, 2001). Les recherches récentes appliquent les modèles Transformers (BERT) pour simplifier des phrases (Fang and Stevens, 2019; Maruyama and Yamamoto, 2019; Zhao et al., 2018). Contrairement aux travaux précédents, l’atelier SimpleText visera le problème de manque de connaissances qui peut être un empêchement grave pour la compréhension du texte scientifique (O’Reilly et al., 2019).

L’amélioration de la compréhensibilité des textes et leur adaptation à différents publics posent des défis sociétaux, techniques et d’évaluation.

Il existe un large éventail de défis sociétaux importants que SimpleText vise à décrire plus précisément. La science ouverte est l’une d’entre elles. Rendre la recherche réellement ouverte et accessible à tous implique de les fournir sous une forme lisible et compréhensible au lecteur (Fecher and Friesike, 2014).

La simplification de textes doit également résoudre des défis techniques comme la sélection de passages importants, le résumé de ces passages, la lisibilité des textes, etc. SimpleText vise à un panorama de ses défis techniques en mobilisant différentes disciplines scientifiques concernées.

L’usage, l’usabilité et l’évaluation des textes simplifiés est un autre pan des sujets qu’abordera l’atelier SimpleText.

La vulgarisation scientifique est liée au journalisme scientifique. Contrairement à l’Action MADICS MADONA (Maîtriser l’Analyse interactive de DOnnées pour la NArration journalistique) qui vise la génération d’un article à partir de l’analyse des données structurée, l’atelier SimpleText est orienté vers la génération d’un article basée sur les données textuelles (publications scientifiques et leurs résumés).

 

Site de l’Atelier SimpleText en cours de construction…


Évènements à venir