Résolution d’entités nommées dans des corpus de documents historiques de grande taille et partiellement redondants: le cas des annuaires commerciaux de Paris du XIXème siècle

When:
01/02/2023 all-day
2023-02-01T01:00:00+01:00
2023-02-01T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LASTIG, Univ Gustave Eiffel, IGN-ENSG
Durée : 5 mois
Contact : nathalie-f.abadie@ign.fr
Date limite de publication : 2023-02-01

Contexte :
Ce stage s’inscrit dans le projet ANR SODUCO qui vise à étudier l’évolution de la structure spatiale de Paris en lien avec les pratiques sociales de la population, sur la période allant de la Révolution Française au début du 20ème siècle. Le projet exploite deux types de sources historiques rassemblées en deux corpus:
• un corpus spatial : plans et cadastres, qui représentent les structures urbaines (rues, bâti, etc.)
• un corpus social : “annuaires du commerce”, sorte de “pages jaunes” avant l’heure, qui contiennent les noms, statuts sociaux, activités professionnelles et adresses d’une partie des parisiens.
Un premier stage a permis de proposer une approche pour l’appariement des entrées représentant un même commerce d’une année à l’autre. Cette dernière a été appliquée aux métiers de la photographie, qui représentent une faible portion du corpus des annuaires.

Sujet :
Ce sujet de stage comporte un objectif méthodologique principal : proposer et mettre en œuvre une approche reproductible et qui passe à l’échelle pour identifier des relations d’équivalence entre les principales entités nommées extraites dans les annuaires du commerce parisien du XIXe siècle et qui représentent un même élément du monde réel.
Il comporte trois objectifs applicatifs: produire trois graphes spatio-temporels permettant le suivi des commerces, des adresses et des activités parisiennes au XIXe siècle.

Profil du candidat :
Master 2 ou troisième année d’école d’ingénieur en informatique, ou en géomatique.

Formation et compétences requises :
– Données spatio-temporelles,
– Résolution d’entités nommées, liage, appariement,
– Graphes de connaissances géohistoriques,
– Développement Python,
– Un intérêt pour l’histoire sociale est un plus.

Adresse d’emploi :
Institut National de l’Information Géographique et Forestière
73 avenue de Paris
94160 Saint-Mandé

Document attaché : 202212072201_SoDUCo2022NELInternship.pdf