Action Des Sources aux Données en Humanités Numériques (2024-2026)
Responsables
- Nathalie HERNANDEZ, IRIT, INS2i
- Nathalie ABADIE, LASTIG/IGN
Correspondant ComDIR : Khalid Belhajjame
Thématiques
Données concernées
Mots clés
Contexte scientifique
La richesse des humanités numériques naît précisément de la forte interdisciplinarité que ce domaine implique. Là où les sciences du numérique permettent de nouvelles perspectives aux pratiques des sciences humaines et sociales (SHS), ces dernières constituent un champ applicatif venant mettre en lumière les limites des approches et modèles utilisés couramment en sciences du numérique, notamment pour ce qui est de la gestion et la représentation des incertitude et des imprécisions inhérentes à des disciplines comme l’Histoire, la Géographie et la Sociologie.
Une donnée historique constitue le marqueur d’une réalité passée, reconstruite à partir d’artefacts, de témoignages, ou de sources primaires comme des archives, des manuscrits, des objets archéologiques ou des œuvres artistiques. Une fois extraite (manuellement ou automatiquement), cette donnée est interprétée par des chercheurs pour créer des faits qui servent à soutenir l’analyse et la compréhension de cette réalité ancienne. Concrètement, celle-ci peut concerner des événements, des interactions sociales ou institutionnelles, des structures culturelles et économiques ou encore les dynamiques politiques d’une époque donnée.
Dans le cadre l’Action SaD-H2N, nous proposons de nous intéresser à trois défis qu’il est nécessaire de prendre en compte lorsqu’il s’agit de représenter et d’analyser des données historiques en Humanités Numériques. Le premier défi est lié à la nature des données. Les données historiques peuvent en effet relever de plusieurs dimensions qu’il est nécessaire de prendre en compte tant au niveau du processus d’identification et d’extraction des données, que de leur représentation, de leur stockage ou de leur analyse. Dans le cadre de l’Action, nous nous intéresserons aux dimensions :
- temporelle (comment identifier et prendre en compte l’ancrage temporelle de la donnée)
- incertaine (comment traiter l’incertitude liée à la réalité que la donnée permet de reconstruire ainsi que l’incertitude liée au processus d’extraction)
- incomplète (comment considérer un ensemble de données qui correspondent à une reconstruction partielle de la réalité)
- évolutive (comment considérer un ensemble de données témoins d’une réalité qui évolue au cours du temps)
Il s’agira notamment d’identifier les domaines et sous domaines des SHS pour lesquels ces dimensions ont une place prépondérante et d’identifier les approches proposées pour prendre en compte une ou plusieurs de ces dimensions. Le deuxième défi est la prise en compte du lien infrangible qu’il existe entre la donnée et la source dont elle est extraite. Sans connaissance et accès à ce lien, la donnée est inexploitable par les chercheurs qui étudient le passé. Manipuler des données dans une approche d’humanités numériques implique donc d’être en mesure de prendre en compte le contexte associé à la donnée elle-même mais également le contexte associé à la source. Ces contextes sont particulièrement complexes à capturer car les sources manipulées sont souvent peu structurées, le souvent anciennes et donc difficilement transcriptibles et la donnée extraite relève d’une interprétation de l’expert. Pour cet axe, il s’agira donc d’identifier les approches existantes et les verrous restant à lever pour prendre en compte ce rapport de la donnée à la source en SHS. Le troisième défi concerne l’analyse des données qu’il est possible de faire une fois les données et les sources représentées. Nous souhaitons ainsi identifier les approches allant au-delà de la production et du partage de données et qui mettent en évidence l’analyse de comportements et de pratiques dont les données sont des marqueurs. Ces approches soutiennent des études critiques des sources et impliquent de prendre en compte l’interprétation que font les acteurs en SHS sur ces données.
À partir de ces 3 défis, l’Action s’adressera aux diverses disciplines des sciences humaines et sociales qui traitent ou s’intéressent à la profondeur historique des phénomènes étudiés. Leurs objets de recherche atteignent régulièrement les limites des approches numériques à l’état de l’art et participe ainsi de plusieurs défis propres aux sciences des données relevant des 4 axes scientifiques identifiés dans le projet 2025-2029 du GDR MADICS :
Axe 1 : Modélisation et gestion des données et des connaissances : le défi 1 s’intègre dans cet axe en prenant en considération 4 dimensions identifiées pour les données historiques et étudiées en science des données
Axe 2 : Apprentissage et exploration des données et des connaissances : les défis 1 et 3 impliquent de mettre en place des modalités d’intéraction avec la donnée adaptées aux spécificités des données historiques mais aussi adaptées aux chercheurs en SHS non experts des sciences du numériques
Axe 3 : Gouvernance des données : les défis 2 et 3 soulèvent des problématiques liées à la provenance, la protection, la qualité des données et la FAIRisation dans un contexte où la donnée relève d’une réalité à reconstruire;
Axe 4 : Systèmes et infrastructures de gestion de données : À partir des événements menés en 2024-25 par notre Atelier SAD-HN, nous avons identifié des besoins forts et spécifiques pour les SHS. Nous souhaitons continuer à développer nos échanges avec les Infrastructures de Recherche en SHS que sont Huma-Num (https://www.huma-num.fr/) et Progédo (https://www.progedo.fr).
Dans un contexte technologique où les connaissances historiques sont de plus en plus massivement accessibles à travers des services IA (agents conversationnels, moteurs de recherche génératifs) closed source proposés par un petit nombre d’acteurs industriels, animer et promouvoir une recherche en humanités numériques ouverte est un enjeu de souveraineté des données, sources et connaissances majeur. Les défis sociétaux concernent l’ouverture et la dissémination des sources patrimoniales et culturelles en cherchant à proposer des approches pour structurer les données, les informations et les connaissances qu’elles contiennent à des fins d’accès, de réutilisation et d’analyse.
L’Action aura un lien étroit avec le GDR CNRS MAGIS via l’action de recherche https://gdr-magis.cnrs.fr/actions-de-recherche/ qui s’intéresse aux Graphes de connaissances géohistoriques.
L’Action aura également un lien fort avec le GDR RADIA sur le thème de la représentation de connaissances et des modèles hybrides d’IA dans le prolongement de l’Action ROCED qui était co-portée par les 2 GDR jusqu’en 2023.
Nous souhaitons également établir des liens avec :
- le COST ACTION GOBLIN https://www.cost.eu/actions/CA23147/
- le GDR Internet, IA et Société (https://cis.cnrs.fr/presentation-gdr/) par l’organisation d’un événement co-organisée notamment sur le thème de la représentation et la gestion des données historiques des SHS via Internet.