Stage M2 – Evolution temporelle des domaines scientifiques

When:
31/01/2020 all-day
2020-01-31T01:00:00+01:00
2020-01-31T01:00:00+01:00

Annonce en lien avec l’Action/le Réseau : Formation

Laboratoire/Entreprise : LIP6 – Sorbonne Université
Durée : 6 mois
Contact : bernd.amann@lip6.fr
Date limite de publication : 2020-31-01

Contexte :
L’analyse thématique de corpus scientifiques permet de mieux comprendre les avancées effectuées dans les différents domaines de la science [1]. Au fil des années et des découvertes, les domaines scientifiques évoluent progressivement. Certains sujets prennent de l’ampleur dans un domaine jusqu’à devenir un domaine à part entière. Inversement d’autres sujets peuvent être délaissés dans certains domaines. Analyser la façon dont les domaines scientifiques se forment et évoluent dans un corpus qui rassemble des articles scientifiques sur plusieurs années ou décennies (comme par exemple HAL, arXiv ou Web of Science) permet aux historiens et philosophes de valider leurs modèles d’évolution de la science, aux scientifiques de mieux positionner leurs contributions dans le contexte historique, aux financeur de mieux prédire des évolutions technologiques etc… Par exemple, on peut se poser les questions suivantes pour mieux comprendre l’engouement autour de l’IA : Est-ce que l’IA est la même aujourd’hui que dans les années 2000 ? En quoi est-elle différente ou similaire ? Quels sont les domaines se rapportant à l’IA ? Est-ce que l’IA est une thématique transversale à plusieurs domaines ou plutôt au cœur de certains domaines ?

Sujet :
Objectifs

Ce stage s’appuie sur le workflow EPIQUE [2] d’analyse de grands corpus de documents scientifiques en cours de réalisation au laboratoire LIP6. Le workflow EPIQUE est implanté en Scala avec la plate-forme SPARK et utilise la méthode LDA pour représenter un domaine scientifique (topic) sous forme d’un ensemble de termes pondérées. Les 3 étapes du workflow permettant d’extraire l’évolution des domaines sont :

découper le corpus entier en plusieurs tranches en déplaçant une fenêtre temporelle,

appliquer la méthode LDA pour extraire les domaines scientifiques dans
chaque tranche de temps. Les domaines ainsi produits sont appelés une époque scientifique,

comparer les époques pour déterminer dans quelle mesure elles évoluent dans le temps.

Seules les étapes (1) et (2) étant déjà réalisées, le stage a pour objectif de concevoir et réaliser l’étape (3). Cela soulève plusieurs questions : comment représenter l’évolution des époques ? Comment mesurer la qualité des résultats ? Comment augmenter les performances ?
Travail à réaliser :

Etat de l’art sur les modèles d’analyse sémantique et temporelle de contenus documentaires,

définition d’un modèle d’appariement des époques. L’appariement peut s’appuyer sur une analyse des similarités entre les domaines.

définition d’un algorithme pour extraire des appariements et d’une mesure pour noter la qualité des appariements obtenus.

implantation et intégration du modèle dans le workflow EPIQUE,

évaluation expérimentale sur plusieurs corpus,

optimisation du workflow EPIQUE.

Profil du candidat :
Etudiant M2

Formation et compétences requises :
programmation Java/Scala/Python

expérience Notebook, Spark

Adresse d’emploi :
LIP6-Sorbonne Université
4 place Jussieu
75252 Paris

Document attaché :