SimpleText

 

Action SimpleText (2021-2026)

Simplification et Adaptation de Textes

Responsables

Correspondant ComDIR : Frédéric Bimbot

Thématiques

Recherche d’information, Journalisme scientifique, Vulgarisation scientifique, Rédaction technique, Communication multimodale de la science, Open Science

Données concernées

Articles scientifiques; Résumés des articles scientifiques; Articles Wikipedia; Articles du journalisme scientifique; Articles de vulgarisation scientifique; Document techniques; Textes générés par l’IA; Documents juridiques; Documents administratifs

Mots clés

Big data, Simplification et adaptation de textes, Vulgarisation scientifique, Résumé multi documents, Contextualisation, Rédaction technique, Fouille de données, Terminologie, Altération de l’information / hallucinations des LLMs, communication administrative

Contexte scientifique

Le grand public tend à éviter les sources fiables, comme la littérature scientifique, à cause de leur langage complexe et des connaissances préalables requises. Cela pousse souvent les non-experts vers des sources superficielles sur Internet, notamment sur les réseaux sociaux, qui privilégient des raisons commerciales ou politiques plutôt que leur valeur informative.

Pour remédier à cela, nous proposons la simplification des textes comme un moyen d’accéder à une information plus fiable. L’accès à des connaissances scientifiques est crucial pour une prise de décision éclairée. Cependant, la terminologie complexe et le langage spécialisé des documents scientifiques compliquent leur compréhension. La simplification automatique de texte vise donc à rendre ces contenus accessibles tout en préservant leur sens original.

Bien que la simplification de texte ait été largement explorée dans d’autres domaines, comme le médical et le juridique en général, peu de recherches ont été consacrées à la simplification des textes issus de:

  • la littérature scientifique: il existe un manque de collections de tests pour évaluer les méthodes de simplification applicables à ce domaine. De plus, il n’est pas clair si les mesures d’évaluation développées pour d’autres secteurs sont adaptées à la simplification des textes scientifiques.
  • décisions Prud’homales: l’accès aux décisions de justice publiées en données ouvertes mais difficiles à appréhender sans expertise, tout particulièrement en ce qui concerne les décisions des tribunaux des Prud’hommes spécifiques au Droit du travail français.
  • l’actualité sur l’identification et la prévention des maladies socio-professionnelles à la croisée de publications juridiques, médicales, économiques et législatives.

Le projet SimpleText a pour but de surmonter les défis techniques et d’évaluation liés à l’accès à l’information scientifique, juridique et administrative pour le grand public. Il fournira des données réutilisables et des références pour la simplification des textes, tout en promouvant de nouvelles recherches pour réduire les obstacles à la compréhension des contenus complexes.

Les modèles neuronaux récents ont révolutionné le domaine, devenant des méthodes incontournables, mais ils rencontrent encore des défis, notamment en ce qui concerne la cohérence des résultats dans un contexte génératif et celle des textes longs. Bien que les applications en anglais dominent, des applications dans d’autres langues devraient émerger et atteindre progressivement un niveau de performance comparable. Cependant, la sélection d’informations et la simplification des textes pourraient altérer les informations scientifiques et introduire des biais potentiels.

De fait, la popularisation des minis modèles de langue et des LLMs réduits tels que LLAMA 3.2 pouvant être intégrés en marge des grandes infrastructures, permettent désormais un déploiement en interne au plus prêt des données. Ceci a permis de lever un des principaux verrous technologiques initiaux sur la production de résumés lisibles et simplifiés par LLM. Le principal verrou reste la production des contextes pertinents à partir des données dans le cadre des architectures RAG (Génération augmenté par recherche de document) et la vérification de la qualité factuelle du document produit (détection des hallucinations).

SimpleText s’appuie sur une communauté interdisciplinaire de chercheurs en science de l’information, intelligence artificielle (IA), traitement automatique du langage naturel (TALN), recherche d’information, linguistique, didactique, journalisme scientifique et vulgarisation scientifique, juristes qui collaborent pour relever ce défi majeur et promouvoir l’accès aux informations vitales et faibles auprès de chacun.

Partenaires industriels

Notre principal partenaire industriel est la maison d’édition scientifique Elsevier, basée à Amsterdam, qui contribue à la création de données, à l’organisation de tâches partagées et d’ateliers, et participe activement aux tâches partagées.

En 2024, l’action a bénéficiée de l’implication active de la société Juri’Predis qui propulse le moteur de recherche adopté par la conférence des bâtonniers. Ceci dans un cadre prospectif pour identifier les lacunes actuelles dans le domaine de la simplification de décisions de justice qui a beacoup évolué sous l’impulsion de l’IA générative. Nous avons ainsi identifié des domaines du droit français non couverts par les solutions industrielles existantes.

En 2025, suite à cette étude prospective nous bénéficions d’un partenariat avec le tribunal des Prud’hommes de Marseille pour envisager l’application des systèmes abordés dans le cadre de cette action sur la simplification de textes aux décisions Prud’homales concernant les maladies socio-professionnelles. Nous bénéficions aussi du partenariat avec l’Hôpital d’Avignon dans le cadre du GISCOP’84 (https://giscope84.hypotheses.org/).

De plus, SimpleText collabore avec l’entreprise TechScribe, spécialisée dans la rédaction technique automatisée, ainsi qu’avec le Bureau de Traduction Universitaire de l’Université de Bretagne Occidentale, qui se concentre sur la pré-édition, la simplification de passages et l’explication de termes complexes.

Positionnement par rapport aux Actions MaDICS

L’Action DOING se concentre sur la transformation de données textuelles non structurées, principalement dans le domaine médical, en connaissances exploitables grâce à des techniques d’analyse avancées. En revanche, l’Action SimpleText vise à vulgariser l’information scientifique, juridique et administrative en générant des résumés compréhensibles et en expliquant des concepts complexes pour un public plus large. Ensemble, ces deux actions complètent l’écosystème du traitement de l’information en alliant l’extraction de connaissances à leur accessibilité.

SimpleText se positionne comme un outil de vulgarisation des connaissances médicales, visant à rendre l’information scientifique accessible à un large public, tandis que l’atelier TIDS se concentre sur l’intégration et l’analyse des données de santé, s’adressant principalement à des chercheurs et cliniciens. Tandis que TIDS se concentre sur les aspects techniques et de recherche des données de santé, SimpleText pourrait jouer un rôle clé dans la communication des résultats de cette recherche, en traduisant les découvertes complexes en informations compréhensibles et utiles pour un public non expert. Alors que SimpleText simplifie le contenu complexe, TIDS utilise des techniques avancées comme l’apprentissage automatique pour exploiter les données de santé. SimpleText utilise des méthodes de simplification linguistique et de résumé textuel pour rendre l’information plus compréhensible. En revanche, TIDS se concentre sur des techniques d’intégration de données, de modélisation multi-échelle, et d’apprentissage automatique, visant à extraire des connaissances à partir de grandes quantités de données de santé.

 

Visitez le site web de l’Action SimpleText


Évènements à venir