Modèle de qualification interactif de données de commerce maritime imparfaites sur le XVIIIème siècle.

When:
15/07/2019 – 16/07/2019 all-day
2019-07-15T02:00:00+02:00
2019-07-16T02:00:00+02:00

Annonce en lien avec l’Action/le Réseau : RoD

Laboratoire/Entreprise : UMR 7266 LIENSs, Université de la Rochelle; CNRS
Durée : 3 ans
Contact : alain.bouju@univ-lr.fr
Date limite de publication : 2019-07-15

Contexte :
Le projet ANR PORTIC est interdisciplinaire
dans le domaine des humanités numériques avec une équipe d’historiens de rang international.
Par ailleurs, le modèle de curation interactif de PORTIC couplé au système de géovisualisation interactif de données imparfaites est réutilisable pour beaucoup de domaines et projets.

Sujet :
Ce sujet s’inscrit dans le cadre d’un programme financé par l’Agence Nationale de la Recherche, dénommé PORTIC, qui entend étudier les dynamiques spatiales et économiques à l’œuvre dans le processus de construction de marchés de plus en plus intégrés qui prépare et accompagne la Révolution industrielle. A cette fin, il croisera les données sur la navigation des ports français et celles issues de la balance du commerce afin de mieux saisir l’articulation entre espaces régionaux, nationaux et internationaux du commerce français du XVIIIe siècle, en s’appuyant sur deux corpus existants – Navigocorpus et Toflit18 – produits au cours de deux programmes ANR achevés. Le croisement des
deux corpus permettra, entre autres, d’estimer plus précisément la part respective du commerce national et étranger, d’affiner les connaissances sur les ports qui articulent les marchés et leurs interactions, d’analyser les phénomènes régionaux de spécialisation entre plusieurs ports, de mesurer l’impact des conflits sur l’économie d’un port, de prendre la mesure de la contrebande à travers la Manche, de peser la part prise par les Français dans les services de transport international qui échappe aux statistiques commerciales de l’époque, ou encore de calculer la ratio entre la valeur du commerce et le tonnage ou les effectifs de main-d’œuvre affectés au transport maritime en fonction des flux.
PORTIC est un projet co-construit par des historiens, des économistes, des géomaticiens, des informaticiens, et des spécialistes de la communication de l’information par le Web, et qui vise à offrir
des outils permettant une visualisation et une interaction pour des
publics différents, d’informations historiques, en prenant pleinement en compte leur caractère imparfait.
L’imperfection des données historiques dérive de lacunes documentaires, d’informations contradictoires délivrées par des sources différentes, ou de leur contenu imprécis. Ce caractère incertain
d’une partie des informations, fondamental du point de vue de la compréhension du passé, est actuellement insuffisamment intégré par les outils de visualisation des données, notamment des flux.
Les humanités numériques accompagnent toutes les étapes du projet, en permettant tout d’abord la mise en évidence des caractères aberrants et contradictoires des données par des outils de fouille et la mise en
place de procédures interactives semi-automatisées par lesquelles les chercheurs qualifient la valeur des informations. Tout ce qui sera développé par PORTIC sera sous licence libre.
Ce projet de thèse aborde la question de la qualification de ces données avec une approche combinant à la fois des méthodes symboliques et numériques à travers un processus itératif intégrant les retours
d’experts pour la curation des données du corpus.
Différents aspects seront abordés au cours de ce projet de thèse:
– Un modèle sémantique de trajectoires dérivé d’un modèle spatio-temporel générique (Tran et al. 2016) sera utilisé pour déduire des incohérences dans la base de données (informations contradictoires,
itinéraires incohérents).
– Ce modèle sera connecté à un moteur exécutant des méthodes de fouille de données statistiques non paramétriques et non supervisées pour la détection de patrons récurrents et de valeurs aberrantes.
– Un modèle de qualité sémantique étendra le modèle sémantique actuel pour les trajectoires afin de gérer des annotations qualitatives.
– Les résultats seront affichés dans les interfaces de géo- visualisation de données (développées dans d’autres parties du projet), permettant ainsi aux commentaires de l’expert d’être intégrés dans le modèle sémantique pour une exploration itérative de différentes hypothèses. Cela implique un support pour un raisonnement non monotone en logique formelle de premier ordre.
L’approche sera évaluée tout d’abord en comparant d’anciens ensembles de données brutes avec les mêmes déjà corrigés manuellement, puis avec les données nouvellement collectées dans le projet en faisant en sorte que le logiciel interagisse avec les historiens possédant le rôle d’expert.

Profil du candidat :
Expérience souhaitée en fouille de données (détections de similarités), Web sémantique et données liées (LOD), Statistiques,

Formation et compétences requises :
Formation : Master 2 spécialité Informatique / Ingénierie des connaissances

Adresse d’emploi :
LIttoral ENvironnement et Sociétés (LIENSs) – UMR 7266

Bâtiment ILE, 2, rue Olympe de Gouges, 17000 La Rochelle – France

Document attaché : projet-these_fr_en_20190313.pdf