Action SimpleText (2021-2024)
Simplification et Adaptation de Textes
Responsables
- Liana Ermakova, HCTI, Univ. Bretagne Occidentale
- Olivier Augereau, Lab-STICC, INS2i
- Eric Sanjuan, LIA, INS2i
Correspondant ComDIR : Frédéric Bimbot
Thématiques
Recherche d’information, Journalisme scientifique, Vulgarisation scientifique, Rédaction technique, Communication multimodale de la science, Open Science
Données concernées
Articles scientifiques; Résumés des articles scientifiques; Articles Wikipedia; Articles du journalisme scientifique; Articles de vulgarisation scientifique; Document techniques; Cartes mentales; Infographie; Données de eye-tracking
Mots clés
Big data, Simplification et adaptation de textes, Vulgarisation scientifique, Résumé multi documents, Contextualisation, Rédaction technique, Fouille de données
Contexte scientifique
Les méthodes traditionnelles de simplification de textes tentent d’éliminer les concepts et constructions complexes. Cependant, ce n’est pas toujours possible, notamment dans le cas de la littérature scientifique. De plus, le manque de connaissances de base peut devenir un obstacle à la compréhension de la lecture et il existe un seuil de connaissances permettant la compréhension de la lecture. Ainsi, contrairement à ce qui est proposé dans la littérature, nous développons la question suivante : quelles informations issues de l’article scientifique et des sources externes (explication) doivent être fournies dans le texte simplifié. La simplification de textes scientifiques suppose de faciliter la compréhension des lecteurs de contenus complexes en établissant des liens avec le lexique de base, en évitant de perdre les liens entre les notions du domaine, car le manque de connaissances de base peut constituer un obstacle majeur à la compréhension du texte.
Selon Dimensions, plus de ~680K articles scientifiques sur COVID-19 ont été publiés récemment. Pour faire face à ce volume de données, une vue d’ensemble concise, c’est-à-dire un résumé, est nécessaire. Les articles de vulgarisation scientifique sont généralement beaucoup plus courts que les publications scientifiques. Ainsi, le résumé est déjà une étape vers la simplification du texte. Bien que les modèles de l’état de l’art comme BERT soient très performants dans la plupart des tâches liées au TAL, ils sont limités dans le traitement des textes longs.
Alors que les résumés structurés constituent une tendance émergente car généralement considérés comme plus informatifs par les experts, les non-experts sont généralement intéressés par d’autres types d’informations, plus contextuelles, non nécessaires à l’expert. De plus, différents niveaux de simplification, de détails et d’explications peuvent être appliqués. Par exemple, pour un article scientifique donné, la plateforme Papier-Mâché publie deux niveaux de simplification : curiosité et avancée.
La sélection des passages est une tâche cruciale mais peu étudiée dans la simplification des documents, surtout en ce qui concerne le public cible, car les travaux existants se concentrent principalement sur les simplifications au niveau des mots/phrases (simplification des mots et constructions difficiles) ou des phrases.
Enfin, une trop grande simplification peut introduire des rapprochements abusifs entre concepts et une source de confusion. Les approches neuronales par plongement lexical dans un espace euclidien permettent la mise en relation de l’ensemble du vocabulaire de par son usage. Elles sont par nature dans l’incapacité d’estimer la réelle significativité d’une association. Nous avons alors entrepris d’expérimenter un modèle probabiliste de Dirichlet associé à test de Kendall pour disposer d’un test statistique de significativité. Cette démarche nécessite une nouvelle collaboration avec la communauté statistique que nous avons entrepris avec le laboratoire de Mathématiques d’Avignon.
Différentes mesures d’évaluation de la complexité de textes et de termes seront étudiées, notamment par l’analyse du mouvement des yeux des lecteurs grâce à l’oculométrie (eye-trackers).
Nous mènerons une réflexion également sur des pistes d’intégration pédagogique d’outils de génération automatique de visuels (cartes mentales ou autres).
Liens avec les experts métiers et les champs d’application, défis sociétaux associés:
- La simplification des textes est utilisée dans le domaine de la traduction, localisation et rédaction technique.
- SimpleText collabore avec l’entreprise TechScribe (rédaction technique automatisée), le Bureau de Traduction Universitaire de l’Université de Bretagne Occidentale (pré-édition, simplification de passages, explication de termes complexes). Nous avons l’accord de principe de collaboration de l’entreprise Amstratgraph. Nous sommes en contact avec Brest Métropole, journal de la vulgarisation scientifique Sciences et Avenir, l’événement de science grand public Science en Theizh
- Avoir des connaissances scientifiques est une aptitude importante pour les gens. C’est l’une des clés de l’esprit critique, de la prise de décision objective et du jugement de la validité et de la signification des résultats et des arguments, qui permet de discerner les faits de la fiction. Ainsi, posséder des connaissances scientifiques de base peut également contribuer à préserver sa santé, tant physiologique que mentale.
- La pandémie de COVID-19 en est un bon exemple. Comprendre le problème lui-même, connaître et appliquer les règles de distanciation sociale et les politiques sanitaires, choisir d’utiliser ou d’éviter tel ou tel traitement ou procédure de prévention peut devenir crucial. Dans le contexte d’une pandémie, l’information qualifiée et opportune doit atteindre tout le monde et être accessible. C’est ce qui motive des projets tels qu’EasyCovid (https://easycovid19.org/).