Détection des valeurs manquantes déguisées et redressement des dépendances fonctionnelles

When:
12/12/2018 – 13/12/2018 all-day
2018-12-12T01:00:00+01:00
2018-12-13T01:00:00+01:00

Annonce en lien avec l’Action/le Réseau : ARQUADS

Laboratoire/Entreprise : Laboratoire d’Informatique et des Systèmes (LIS UMR CNRS 7020), Marseille
Durée : 4 à 5 mois
Contact : Noël Novelli (noel.novelli@lis-lab.fr) et Laure Berti-Equille (laure.berti@lis-lab.fr)
Date limite de publication : 20181212

Contexte :
Le stage se déroulera au LIS à Marseille dans le cadre du projet ANR QualiHealth financé par l’ANR (2018-2022) qui s’intéresse à la qualité des données de Santé en partenariat avec l’Institut Cochin, l’Hôpital Européen Georges-Pompidou, les laboratoires de recherche LIRIS (porteur), LIMOS et la société Gnubila.

Sujet :
Les valeurs manquantes “déguisées” [1] sont des valeurs par défaut utilisées à tort et par obligation pour remplacer des valeurs à l’origine manquantes pour lesquelles l’utilisateur ne connaît pas ou ne souhaite pas renseigner la vraie valeur. Par exemple, lors de la saisie d’un formulaire, de nombreux utilisateurs noteront le 1er janvier par défaut comme date de naissance sur le champs imposé par le formulaire. On pourra alors éventuellement observer que la distribution des valeurs de dates de naissances est quelque peu “anormale” mais comment identifier, de façon automatique dans les données, les personnes qui sont vraiment nées le 1er janvier et les distinguer des autres ? Comment corriger les données erronées ? Des approches ont été proposées pour cela [2] et certaines reposent sur la découverte de dépendances fonctionnelles dans les données [3]. Cependant, elles ne sont pas robustes au problème des valeurs manquantes “déguisées”.
L’objectif du stage consistera donc à prendre du recul sur ces approches pour proposer une solution plus robuste. Il sera demandé au (à la) candidat(e) retenu(e) de réaliser un état de l’art des approches actuelles avec leurs implémentations et de proposer une solution robuste. Cette solution sera implémentée et testée sur des données réelles et synthétiques. Enfin, elle sera comparée aux approches existantes en mettant en place des expérimentations adéquates.

Références
[1] R. K. Pearson. The problem of disguised missing values. SIGKDD 2006. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.443.6794&rep=rep1&type=pdf
[2] M. Hua and J. Pei. Cleaning Disguised Missing Data: A Heuristic Approach. KDD 2007. https://www.cs.sfu.ca/~jpei/publications/dmv-kdd07.pdf
[3] L. Berti-Équille, H. Harmouch, F. Naumann, N. Novelli, S. Thirumuruganathan, Discovery of Genuine Functional Dependencies from Relational Data with Missing Values. Proceedings of VLDB 2018. http://www.vldb.org/pvldb/vol11/p880-berti-equille.pdf

Profil du candidat :
Etudiant(e) de Master 2 ou de dernière année d’école d’ingénieur sur un cursus d’informatique.
Bon niveau en informatique et plus précisément en bases de données, analyse des données et algorithmique.
Bon niveau en Python.
Bon niveau de communication scientifique à l’écrit et oral, notamment en anglais.

Formation et compétences requises :
L’étudiant retenu devra présenter de bonnes compétences dans le domaine des systèmes de gestion de données massives, l’analyse des données et l’algorithmique. Elle ou il devra avoir un très bon cursus universitaire et une forte motivation pour la recherche afin de permettre une éventuelle poursuite en thèse à l’issue du stage.

Adresse d’emploi :
Laboratoire d’Informatique et des Systèmes (LIS UMR CNRS 7020)
Marseille

Document attaché :