Conception et mise en œuvre de l’interface d’analyse d’un lac de données web

When:
16/11/2021 – 17/11/2021 all-day
2021-11-16T01:00:00+01:00
2021-11-17T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : ERIC
Durée : 5-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2021-11-16

Contexte :
Le projet LIFRANUM (LIttératures FRAncophones NUMériques), porté par le laboratoire MARGE, vise à identifier, indexer et analyser des productions littéraires nativement numériques dans l’aire francophone. Pour cela, l’outil de référence de l’archivage web Heritrix a en premier lieu permis de constituer un corpus sous forme de fichiers de conservation au format Web ARChive (WARC). Des métadonnées des pages HTML ont ensuite été extraites des fichiers WARC (contenu textuel, fichier PDF, images, vidéo, etc.) et indexées dans Solr.

Par ailleurs, en s’appuyant sur des blogs appartenant à des auteurs identifiés, un deuxième corpus (fichiers JSON) a été constitué via les API de WordPress et Blogger. Des informations, pages, posts et commentaires ont été extraits et constituent la série de métadonnées, métadonnées stockées et indexées dans MongoDB.

Sujet :
L’objectif de ce stage est de concevoir et mettre en œuvre une interface web commune aux deux types de sources de métadonnées (celles issues des WARC et celles provenant des API de blogs) pour permettre aux chercheur·es du laboratoire MARGE de requêter et d’analyser les données sous-jacentes. Il faudra pour cela :
• étudier l’architecture de données déjà en place ;
• concevoir un schéma d’alignement des métadonnées des WARC et des API ;
• concevoir et mettre en œuvre une interface graphique permettant de rechercher, via les métadonnées consolidées, les données (à la manière d’un moteur de recherche) ;
• proposer des visualisations « toutes faites » (mais paramétrables) ou ad-hoc, en lien avec les chercheur·es du laboratoire MARGE.

Profil du candidat :
Technologies big data, programmation web, gestion de données, data visualization, rigueur.

Formation et compétences requises :
Master informatique

Adresse d’emploi :
Université Lyon 2
Laboratoire ERIC
5 avenue Pierre Mendès France
69676 Bron Cedex

Document attaché : 202110220934_stage-lifranum-interface-warc.pdf