MADONA

Action MADONA

Maîtriser l’Analyse interactive de DOnnées pour la NArration journalistique

Responsables

Thématiques

Exploration interactive de données, élaboration de recommandations, apprentissage automatique, analyse du discours et des pratiques journalistiques, journalisme automatisé, nouvelles narrations

Données concernées

données ouvertes, articles de presse

Mots clés

data journalisme, data science, analyse interactive de données, narration journalistique

Contexte scientifique

L’exploration ou l’analyse interactive de données (Interactive Data Exploration/Analysis, IDE ou IDA en anglais, voir par exemple [1,2]) est définie comme un processus itératif par lequel un utilisateur exécute une action sur des données (un filtrage, une agrégation, l’extraction d’un modèle, etc.), reçoit un résultat et décide de l’action suivante à exécuter sur ces mêmes données. Mener une telle analyse complexe sur des données requiert une connaissance des outils informatique comme SQL, Python ou R. A ce jour, même si certaines tâches se prêtent à être automatisée [3], il n’existe pas de langage déclaratif de haut niveau permettant d’exprimer facilement des analyses complexes sur des données, à part à l’état de vision (voir par exemple [4]). De même, la construction automatique de narration visuelle représentant au mieux une exploration (voir par exemple [5]) demeure un verrou, même si une automatisation est envisageable dans certains cas particuliers, comme par exemple le journalisme sportif [6].

Le journalisme de données commence à être plus présent dans les médias, du fait de la multiplication des sources de données électroniques disponibles et des politiques d’encouragement de libération des open data, notamment depuis la Loi pour une République Numérique de 2016. Il reste cependant principalement étudié scientifiquement du point de vue de la reconfiguration des pratiques professionnelles [7] et du contexte anglo-saxon [8]. L’enjeu est donc d’appréhender le processus de mise en narration des données, de l’enquête à la rédaction finale. Ce processus est structuré en 4 phases : 1. accès aux données, 2. construction de l’article, 3. finalisation des visualisations, 4. éventuels retours des lecteurs de l’article. Les phases 1 et 3 requièrent un processus d’analyse de données complexe (extraction de données, mise en perspective, recoupement, analyse du discours, construction de modèles statistiques, élaboration de narration graphique, etc.) et des compétences en infographie qui voient le métier de data journalist progressivement se rapprocher des exigences du métier de data scientist. Or les journalistes ne possèdent pas nécessairement les compétences mathématiques et informatiques leur permettant de mener à bien efficacement ces phases et construisent de manière empirique des méthodes d’enquête et d’exploration. De plus, le récent atelier Cajole [9] organisé à CORIA 2018 et financé par MADICS a permis de constater que, bien que souvent nécessaire à leur travail, l’activité d’exploration de données, et en particulier de données massives, reste peu répandue parmi les journalistes.

[1] Stratos Idreos, Olga Papaemmanouil, Surajit Chaudhuri. Overview of Data Exploration Techniques. SIGMOD Conference 2015: 277-281.

[2] Tova Milo and Amit Somech. Next-Step Suggestions for Modern Interactive Data Analysis Platforms. KDD 2018: 576–585.

[3] Matthias Feurer, Aaron Klein, Katharina Eggensperger, Jost Tobias Springenberg, Manuel Blum, Frank Hutter. Efficient and Robust Automated Machine Learning. NIPS 2015: 2962-2970.

[4] Panos Vassiliadis and Patrick Marcel. The Road to Highlights is Paved with Good Intentions: Envisioning a Paradigm Shift in OLAP Modeling. DOLAP 2018.

[5] Jessica Hullman, Steven M. Drucker, Nathalie Henry Riche, Bongshin Lee, Danyel Fisher and Eytan Adar. A Deeper Understanding of Sequence in Narrative Visualization. IEEE Trans. Vis. Comput. Graph. Volume 19, number 12, pages 2406-2415. 2013.

[6] https://automatedinsights.com/customer-stories/yahoo/
[7] Lewis Seth C., Westlund Oscar. Big data and journalism. Epistemology, expertise, economics and ethics. Digital journalism, 3, pages 447-466. 2015.

[8] Alexandre Joux, Marc Bassoni. Le journalisme saisi par les Big Data ? Résistances épistémologiques, ruptures économiques et adaptations professionnelles. Les Enjeux de l’Information et de la Communication, n°19/2, 2018:125-134.

[9] http://www.info.univ-tours.fr/~marcel/cajole2018/

Visitez le site web de l’Action MADONA



Évènements à venir