Offre en lien avec l’Action/le Réseau : DatAstro/– — –
Laboratoire/Entreprise : LIRA, Observatoire de Paris (Meudon)
Durée : 4 à 6 mois
Contact : liza.fretel@obspm.fr
Date limite de publication : 2026-02-22
Contexte :
L’héliophysique est un sous-domaine de l’astrophysique s’intéressant au vent solaire et à son interaction avec les magnétosphères des planètes du système solaire. Avec l’avènement des Transformers et la démocratisation de l’usage des LLMs, la question du rôle de ces modèles dans l’interprétation de la science est au cœur des enjeux scientifiques, et ce notamment dans la communauté de l’astrophysique (https://arxiv.org/html/2510.24591v1).
L’observatoire de Paris, dont fait partie le LIRA (Laboratoire d’Instrumentation et de la Recherche en Astrophysique), est engagé depuis plus de deux décennies dans le référencement et le partage des données. Ce stage s’encre dans une initiative de vérification de l’intégrité des données d’observation des instruments astronomiques.
L’objectif final de ce stage est d’identifier quelles données sont citées dans les articles en s’appuyant sur des techniques d’extraction d’information (NER, coréférences…)
Pas de continuation en thèse possible.
La ou le stagiaire intègrera le LIRA (Observatoire de Paris, site de Meudon) et sera encadré par Baptiste Cecconi et Liza Fretel, avec un co-encadrement en distanciel par Cyril Grouin (Paris Saclay).
Sujet :
La ou le stagiaire sera en charge:
– de collecter et d’annoter un corpus d’articles d’héliophysique en respectant un guide d’annotations et
– d’appliquer des modèles de langue afin d’effectuer des tâches de classification et d’extraction d’information.
Voici un aperçu du type d’information à extraire des articles:
– Référence du jeu de données (sous forme de citation formalisée, de plein texte ou d’identifiant, par ex: https://doi.org/10.25935/hegh-1r24)
– Nom de l’instrument (ex: Fluxgate Magnetometer (FGM), electrostatic analyzer (ESA), Solid State Telescope (SST))
– Mission (ex: THEMIS-E)
– Plage temporelle (ex: 2009-04-05T09:00:00 à 2009-04-05T10:00:00)
– Région spatiale (ex: Earth.Magnetosphere.Main, solar wind…)
– Intitulé des diagrammes et nature (ex: spectre, graphique…)
– Unités de mesure utilisées dans un diagramme (ex: nPa, min…)
– Observable scientifique représentée dans le diagramme (ex: Dynamic pressure, Magnetic field magnitude, spectral flux density…)
Voici un exemple de document du corpus :
https://doi.org/10.3847/2041-8213/add688
La ou le stagiaire restera informé de l’état de l’art des modèles de langue existants et proposera des métriques d’évaluation afin de comparer les résultats des modèles testés.
Références
Travaux similaires :
– Astro-NER https://doi.org/10.48550/arXiv.2405.02602
– BibHelioTech https://hal.science/hal-04285006v1
– Thèse d’Atilla Kaan Alkan https://theses.fr/2024UPASG114
Modèles de langue :
– AstroBert https://doi.org/10.48550/arXiv.2112.00590
– SciBERT https://doi.org/10.18653/v1/D19-1371
– AstroLlama https://doi.org/10.18653/v1/2023.wiesp-1.7
Profil du candidat :
Formation et compétences requises :
En Master 2 Traitement Automatique des Langues, Informatique, IA ou une formation équivalente, ayant une appétence pour l’astronomie et une certaine rigueur scientifique (présentation des résultats, respect d’un guide d’annotations, regard critique des résultats obtenus).
Démontrer une expérience (non obligatoire mais appréciée) :
– utilisation de modèles de langues (Transformers, LLMs)
– fine-tuning de modèles BERT
– annotation de corpus
– maîtrise des métriques d’évaluation
Adresse d’emploi :
5 Place Jules Janssen, 92190 Meudon

