Offre de stage : Apprentissage automatique pour la conception et l’analyse d’un lac de données archéologiques

When:
01/02/2023 – 02/02/2023 all-day
2023-02-01T01:00:00+01:00
2023-02-02T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ERIC
Durée : 5-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2023-02-01

Contexte :
DataLAC est un projet interdisciplinaire international financé par la Région
AURA, qui vise à extraire des informations qualitatives (sémantiques) à l’aide de l’intelligence artificielle, afin de constituer un stock de métadonnées nécessaire à l’analyse de documents numériques stockés dans un lac de données. Le lac va contenir trois types de données :

• des bases de données structurées

• un corpus de transcriptions de carnets de fouille manuscrits concernant le site archéologique d’Ullastret en Catalogne

• des documents graphiques : croquis dans les carnets de fouille, dessins techniques (relevés de terrain, planches de profils de céramiques), photographies techniques (vestiges sur le terrain, couches stratigraphiques, planches d’objets), cartes et plans de diverses époques, voire des « scans » 3D.

L’objectif du projet DataLAC est l’extraction de métadonnées (concepts présents dans les documents ci-dessus) par des méthodes de transcription supervisée, non supervisée et de fouille de texte. Il s’agit de rechercher par similitudes aussi bien l’affectation directe de métadonnées descriptives (« ce document représente cette entité ») que la documentation de liens logiques entre documents (« ces deux documents représentent la même entité »). Toutes les métadonnées sont rassemblées et structurées dans un thésaurus bilingue catalan-castillan apparié avec des concepts en français.

Sujet :
Un précédent stage a permis l’analyse de la structure des carnets de fouille, ainsi que la conception d’un thésaurus (vocabulaire structuré) et du schéma d’une base de métadonnées. Sur cette base, les tâches à mettre en œuvre par le stagiaire sont :

• l’instanciation de la base de métadonnées et la conception d’une interface de saisie des métadonnées

• la conception et la mise en œuvre du lac de données selon les principes FAIR (*), y compris la création de métadonnées de type liens entre les entité du lac, grâce à des méthodes d’apprentissage automatique (machine learning)

• la conception et la mise en œuvre d’une interface graphique d’analyse (exploration des données et machine learning) pour les archéologues.

(*) données Faciles à trouver, Accessibles, Interopérables, Réutilisables

Profil du candidat :
Master ou équivalent

Formation et compétences requises :
Bases de données, technologies big data, machine learning, programmation web

Adresse d’emploi :
Envoyer CV, lettre de motivation et ainsi que notes de l’année universitaire précédente à adresser à jerome.darmont@univ-lyon2.fr et sabine.loudcher@univ-lyon2.fr avec en objet « Candidature stage informatique DataLAC » d’ici le 21 novembre 2022. Les candidat∙es retenu∙es après examen des dossiers seront convoqué∙es pour un entretien en visioconférence courant décembre.

Document attaché : 202210251633_stage-datalac-2023.pdf