Fouille de motifs fréquents pour l’analyse de comportement touristique

When:
31/03/2022 – 01/04/2022 all-day
2022-03-31T02:00:00+02:00
2022-04-01T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DVRC/ESILV
Durée : 5 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2022-03-31

Contexte :
L’appréciation des visites effectuées par les touristes est un enjeu majeur dans le monde du tourisme afin d’anticiper les évolutions de tendances, mais aussi la manière dont ils circulent sur le territoire. Une approche permettant d’estimer cette appréciation est de reposer sur l’extraction de motifs fréquents sur un graphe de circulation, comme l’extraction de Graphlet [1], k-decomposition [2]. Ainsi, les tendances touristiques sont extraites grâce à leurs fréquences d’apparition de manière topologique.
Toutefois, les données touristiques provenant de sites prescripteurs d’expérience tels que TripAdvisor sont d’un volume difficile à intégrer dans les techniques traditionnelles de fouille de données. En effet, avec un grand nombre de lieux visité (millions), et un nombre énorme de commentaires laissés par les utilisateurs (milliards), il est nécessaire de développer une nouvelle approche pour le passage à l’échelle d’algorithmes basés sur les graphes.

Sujet :
Pour ce faire, au sein du groupe digital du DVRC, nous travaillons sur le développement en Pregel [3] de différentes approches existantes pour pouvoir définir la meilleure stratégie de fouille de motifs. De plus, l’aspect géodésique des données est un facteur important lié à la topologie des données [4, 5], tout autant que la fréquentation. Nous étudions donc l’adaptation des méthodes existantes pour améliorer l’efficacité de la fouille de motifs basé sur ces informations.
Le but de ce stage est donc double :
– Intégrer des méthodes de fouille de motifs dans une base de données Neo4j (en Pregel/Java)
– Améliorer une méthode pour donner une heuristique de fouille adaptée au contexte géodésique.

Profil du candidat :
Étudiante ou étudiant de niveau M1/M2 en informatique (Master ou école d’ingénieurs).

Formation et compétences requises :
Connaissances en bases de données, Data Mining, BD graph (Neo4j, Cypher), Java, programmation répartie

Adresse d’emploi :
Pole Universitaire Léonard de Vinci
2 avenue Léonard de Vinci, Paris La Défense

Document attaché : 202201171105_Stage_PatternMining.pdf