Fouille de motifs fréquents pour l’analyse de comportement touristique

When:
14/01/2023 – 15/01/2023 all-day
2023-01-14T01:00:00+01:00
2023-01-15T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : DVRC/ESILV
Durée : 5 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2023-01-14

Contexte :
L’appréciation des visites effectuées par les touristes est un enjeu majeur dans le monde du tourisme afin d’anticiper les évolutions de tendances, mais aussi la manière dont ils circulent sur le territoire. Une approche permettant d’estimer cette appréciation est de reposer sur l’extraction de motifs fréquents sur un graphe de circulation, comme l’extraction de Graphlet [1], k-decomposition [2], ou encore les structures cohésives comme les k-plex [6]. Ainsi, les tendances touristiques sont extraites grâce à leurs fréquences d’apparition de manière topologique.

Sujet :
Toutefois, les données touristiques provenant de sites prescripteurs d’expérience tels que TripAdvisor donnent lieu à des volumes difficiles à intégrer dans les techniques traditionnelles de fouille de données. En effet, avec un grand nombre de lieux visité (millions), et un nombre énorme de commentaires laissés par les utilisateurs (milliards), il est nécessaire de développer une nouvelle approche pour le passage à l’échelle d’algorithmes basés sur les graphes.
Pour ce faire, au sein du groupe digital du DVRC, nous travaillons sur le développement en Pregel [3] de différentes approches existantes pour pouvoir définir la meilleure stratégie de fouille de motifs. De plus, l’aspect géodésique des données est un facteur important lié à la topologie des données [4, 5, 7], tout autant que la fréquentation. Nous étudions donc l’adaptation des méthodes existantes pour améliorer l’efficacité de la fouille de motifs basée sur ces informations.
Le but de ce stage est donc double :
– Intégrer des méthodes de fouille de motifs dans une base de données Neo4j (en Pregel/Java).
– Améliorer une méthode pour donner une heuristique de fouille adaptée au contexte géodésique.

Profil du candidat :
Étudiante ou étudiant de niveau M2 en informatique (Master ou école d’ingénieurs).
Connaissances en bases de données, Data Mining, BD graph (Neo4j, Cypher), Java, programmation répartie.

Formation et compétences requises :
Étudiante ou étudiant de niveau M2 en informatique (Master ou école d’ingénieurs).

Adresse d’emploi :
Laboratoire de recherche De Vinci Research Center au sein de l’École Supérieure d’Ingénieurs Léonard de Vinci ; Paris, la Défense.

Document attaché : 202301131702_2023_Stage_GraphMining.pdf