Reconnaissance et transcription des informations textuelles figurant sur des cartes anciennes

When:
31/01/2024 all-day
2024-01-31T01:00:00+01:00
2024-01-31T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LASTIG
Durée : 5 mois
Contact : nathalie-f.abadie@ign.fr
Date limite de publication : 2024-01-31

Contexte :
Il existe des solutions de plus en plus performantes pour détecter et transcrire du texte dans des scènes ou dans des documents. Peu à peu, celles-ci sont également appliquées à des cartes scannées pour en extraire et transcrire les écritures. En effet, extraire les noms de lieux contenus dans les cartes anciennes permettrait d’indexer spatialement les grands corpus de cartes numérisés par différentes institutions, mais pas nécessairement géoréférencées. Par ailleurs, c’est un moyen de constituer ou d’enrichir automatiquement des gazetiers utiles à la géolocalisation d’autres ressources (cartographiques ou textuelles).
Nous souhaitons appliquer des méthodes d’extraction et de reconnaissance des toponymes à différents types de cartes anciennes :
– des cartes topographiques du territoire (carte de Cassini ou carte d’état major),
– des plans à grande échelle, comme ceux du cadastre napoléonien, qui contiennent des toponymes et éventuellement des numéros de parcelles. Ces derniers permettent de localiser
les entités géographiques mentionnées dans les matrices cadastrales.
Les principales difficultés d’extraction sont liées à la grande variabilité des styles de cartes, aux multiples polices ou graphies d’écriture, au placement et à l’orientation des écritures dans les cartes, ainsi qu’aux recouvrements entre le texte et les objets géographiques représentés. Par ailleurs, les modèles à base de réseaux de neurones profonds utilisés pour détecter du texte dans les images nécessitent de disposer de grands corpus annotés pour être entraînés. Or, il n’existe pas de corpus de ce type, utilisable pour entraîner des modèles de reconnaissance du texte dans des cartes et sa production semble difficilement réalisable car chaque type de carte est différent, les styles des fonds et des textes changent.

Sujet :
L’objectif de ce stage est de produire des modèles entraînés avec peu d’exemples et capables de s’adapter à des types de cartes totalement inédits. Pour cela, les pistes suivantes devront
être explorées :
– Utilisation de modèles de détection de texte dans des scènes naturelles pour détecter les écritures dans des cartes ;
– Génération d’un jeu de données synthétique à partir du cadastre moderne (transfert de style des cartes du cadastre ancien) ;
– Proposition d’une approche de découpage de la carte selon les limites de la zone cartographiée.
Productions attendues:
➔ Corpus d’entraînement et de test pour la détection, la classification et la reconnaissance des écritures dans les cartes anciennes;
➔ Modèles entraînés + le code déposé sur un Github;
➔ Mémoire de stage.

Profil du candidat :
– Extraction d’informations dans des images (scans de cartes, images aériennes, images au sol type StreetView, etc.) : segmentation sémantique d’images, OCR, HTR, etc.
– Données géographiques structurées,
– Développement Python,
– Un intérêt pour la cartographie historique est un plus.

Formation et compétences requises :
Master 2 ou troisième année d’école d’ingénieur en informatique, en géomatique ou en humanités numériques.

Adresse d’emploi :
Institut National de l’Information Géographique et Forestière (IGN),
Saint-Mandé (métro 1, station Saint Mandé) ou Ecole Nationale des Sciences Géographiques (ENSG), Champs-sur-Marne (RER A, station Noisy-Champs).

Document attaché : 202401111433_2024_StageExtractionTexteCartesAnciennes.pdf