Annotation sémantique de documents multi/cross lingues par apprentissage frugal non supervisé

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Pôle uiversitaire Léonard de Vinci, DVRC, La défen
Durée : 6 mois
Contact : n.mellouli@iut.univ-paris8.fr
Date limite de publication : 2025-02-28

Contexte :
Les données textuelles envahissent nos quotidiens personnels et professionnels. La recherche de documents pertinents répondant à des besoins métier devient une tâche très fastidieuse et nécessite un investissement en termes d’effort humain à annoter ces documents pour pouvoir les exploiter correctement. L’annotation sémantique de documents multimodaux est un sujet de recherche brûlant que nous proposons d’attaquer selon l’angle des résumés extractifs. Nous supposons qu’une annotation ou une étiquette n’est pas suffisante pour indexer sémantiquement un document. En revanche, un résumé peut représenter collectivement les informations les plus importantes ou les plus pertinentes du contenu d’origine. Par conséquent, toute opération qui émane de l’exploration des documents d’origines telles que la classification, la recherche, la segmentation, ou encore la catégorisation des documents peut être effectuée sur la base du résumé dès lors que ce dernier soit fidèle à l’information d’origine. Ce niveau de fidélité peut être évalué par le biais de différentes métriques qui seront sélectionnées d’une manière automatique en fonction de la tâche.

Sujet :
L’évaluation des systèmes de traitement automatique de la langue a toujours été un défi majeur pour les chercheurs. En effet ces tâches reposant sur des compétences abstraites de haut niveau, avant d’être difficile à réaliser elles sont tout simplement difficile à évaluer.
Par exemple, afin d’évaluer un simple système de résumé automatique de texte, il est nécessaire de demander à des experts de créer des résumés à la main. Cependant, contrairement à une tâche d’annotation d’images certes fastidieuse mais simple, dans le cas du résumé, l’expert doit comprendre finement les documents sources afin d’en générer une synthèse fidèle. Une fois ces résumés de référence obtenus, il est nécessaire de développer une méthodologie afin de pouvoir évaluer la qualité des résumés générés automatiquement.

La métrique la plus utilisée ROUGE2(Lin, 2004) va simplement compter le nombre de bi-grammes commun entre le résumé de référence et le résumé automatique. Plus un résumé aura de bigrammes communs avec le résumé de référence plus le système sera considéré comme performant. Avec l’essor de l’apprentissage profond, ces métriques ont été améliorées par exemple avec le BERTScore(Zhang & Al, 2020) qui permet de comparer les phrases au niveau vectoriel et ainsi identifier des phrases sémantiquement proches même si elles diffèrent complètement syntaxiquement (par l’usage de synonyme par exemple). Certaines méthodes vont encore plus loin en faisant complètement abstraction de toute annotation de référence. C’est le cas de la métrique BARTScore (Weizhe & Al, 2021). Celles-ci ont été testées dans différentes applications et pour différentes tâches. Dans ce travail, nous visons leur exploitation pour une tâche d’extraction de résumés à partir de documents thématiques. Deux contextes applicatifs seront étudiés dans le cadre de ce stage. Ce travail portera sur le tourisme et s’intéresse particulièrement à l’analyse des sentiments des visiteurs basés sur les données collectées à partir de hotel.com, TripAdvisor, Booking, etc.
Les hypothèses suivantes que nous souhaitons explorer dans ce stage sont comme suit :

1) Ces métriques permettent de construire des résumés extractifs synthétiques pertinents et porteurs de sens. Cependant le cadre méthodologique de ces métriques ne permet pas d’expliquer le processus d’extraction. Or si nous cherchons à annoter sémantiquement les documents via les résumés, il est nécessaire de tracer la pertinence des mots/ phrases.

2) Via les métriques, la quantification de l’hallucination des LLM sera étudiée.

3) Ces métriques indépendantes de toute annotation peuvent être adaptées au cas de résumés génératifs de documents textuels et amorcer une boucle automatique d’amélioration de ces modèles.

4) Ces métriques peuvent être étendues aux cas de résumés génératifs textuels d’images en se basant sur les prompts et sur les commentaires associés aux images.

En perspective, ce travail pourra être envisagé pour l’étendre au résumé d’images en s’inspirant de ces mêmes métriques

Profil du candidat :
Master 2 Recherche en IA-NLP,

Formation et compétences requises :
Les compétences attendues :
Le stagiaire sera en mesure de comprendre l’état de l’art récent sur les métriques d’évaluation et l’apprentissage frugal. De proposer une implémentation modulaire de ces métriques et de les tester sur des jeux de données de benchmark pour se comparer mais également de construire un jeu de données images et textes pour tester les limites de nos hypothèses.

Adresse d’emploi :
Campus Cyber, 5-7, Rue Bellini, 92800 Puteaux

Document attaché : 202412181042_SujetStagede5A_2024_2025_DVRC.pdf

Robust Tensor Networks Algorithms for Quantum Computing

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CRISTAL et PhLAM
Durée : 36 mois
Contact : remy.boyer@univ-lille.fr
Date limite de publication : 2025-02-28

Contexte :
Abstract: Quantum computing is at the cutting edge of technological innovation, offering the potential to solve complex problems that classical “binary” computers cannot address. Ten- sor algebra, with its comprehensive mathematical framework, offers crucial tools for modeling and approximating large multidimensional datasets. This thesis seeks to investigate the interplay between tensor networks and quantum computing by proposing original, robust (to decoherence of qubits) quantum algorithms that utilize tensor structures to improve computational efficiency and capabilities. This research requires a multidisciplinary understanding of quantum physics and linear algebra. This thesis topic will benefit from the complementary expertises of Remy Boyer (CRISTAL/SIGMA) for the multilinear algebra aspect and Giuseppe Patera (PhLAM, Quantum Information team) for the quantum physics aspect.

Key-words: quantum processor, low-rank decomposition, tensor network, qubits, coherence, curse of dimensionality

Contact: For application, please contact
• Remy BOYER, University of Lille, CRISTAl Lab. , remy.boyer@univ-lille.fr
• Giuseppe PATERA, University of Lille, PhLAM Lab. , giuseppe.patera@univ-lille.fr

Sujet :
Why quantum processors are attractive solutions ?

1. Quantum processors are based on the superposition principle [1]. In brief, unlike classical bit-based processor where the information is encoded in two states “0 excluding 1” or “1 excluding 0”, quantum bits (qubits) |0⟩ and |1⟩ can exist in multiple states simultaneously according to a linear combination of the qubits alphabet α|0⟩ + β|1⟩

2. Quantum processors are based on the entanglement principle. Qubits can be entangled or correlated, meaning the state of one qubit is directly related to the state of another, regardless of a phase parameter. Consequently, α and β cannot be reduced to a probabilistic point of view as the qubit probabilities but include the relative interdependence in the form of a phase-relation between the two states |0⟩ and |1⟩. This means that knowing the state of one qubit allows to instantly deduce the state of the other.
The two above principles (superposition and entanglement) allow quantum algorithms to perform many calculations in parallel. This leads to potential speed-ups for many important problems.

Tensor-based processing
Tensor algebra is a powerful mathematical framework [6] that extends the concepts of scalars, vectors, and matrices to higher dimensions, known as tensors. Tensor algebra allows the compact (i.e. low-rank) representation of massive data in multidimensional arrays. The applications are for instance Physics, Machine Learning, Data Science, Computer Graphics, Robotics and Control Systems, etc.

Multi-Linear algebra and quantum systems

1. Entanglement and Singular Value Decomposition (SVD) are strongly linked [3]. SVD gives the degree of communication between two subsystems and the entanglement is measured by the number of nonzero singular values of a particular matrix associated to the reshaping of the quantum state.

2. TNs and quantum computing are highly interconnected concepts [2]. They provide an efficient way to graphically represent complex quantum states into connected core tensors (3-order tensors). A quantum state of multiple qubits can be expressed as a graph of core tensors, capturing entanglements between qubits in a more compact form. Some quantum algorithms can benefit from the structure of tensor networks. For example, Matrix Product States (MPS) [7] and Projected Entangled Pair States (PEPS) utilize tensor networks to efficiently represent and manipulate quantum.

Quantum architecture and decoherence
A typical Quantum architecture is composed by three main steps:

1. Data encoding via Tensor Networks (quantum state preparation),

2. data processing (multi-qubit quantum gates),

3. measurement (quantum state tomography).
The proposed work will be mainly focused on step 1 with respect to the constraints of the two other steps. A major drawback of the quantum framework is the decoherence of qubits. Qubits are highly susceptible to environmental interference, which can cause them to lose their quantum state or also their coherence. This phenomenon is known as decoherence [10]. Briefly, decoherent quantum computing is classical “bit”-based computing.

Research Objectives
1. Investigate TN in the context of the curse of dimensionality: One of the objectifs of this work is to explore the interest of the different TN topologies focusing on their capability to mitigate the “curse of dimensionality” [4].

2. Develop novel on-line/streaming algorithms: Batch-mode processing is quite inefficient for streaming data. So, there is a need to propose adaptive (over time) implementation of TN [8].

3. Propose new TN-based algorithm robust to qubits decoherence. Robustness allows to increase the number of qubits in a quantum system while maintaining performance (“scal- ability”).

4. The SVD is the basic building block of TN algorithms. Recently, randomized methods [9] also known under the name of “compressed sensing” [5] allow to speed-up the SVD at the price of a bounded error.

References
[1] A. Steane, Quantum computing. Reports on Progress in Physics, 61(2), 117, 1998.
[2] R. Orus, Tensor networks for complex quantum systems. Nature Reviews Physics, 1(9), 2019.
[3] R. Orus, A practical introduction to tensor networks: Matrix product states and projected entangled pair states, Annals of Physics, Vol. 349, 2014.
[4] A. Cichocki; N. Lee; I. Oseledets; A.-H. Phan; Q. Zhao; D. P. Mandic, Tensor Networks for Dimensionality Reduction and Large-scale Optimization, Foundations and Trends in Machine Learning, Vol. 9, No. 4-5, 2016.
[5] D.L. Donoho, Compressed sensing, IEEE Transactions on IT. 52 (4), 2006.
[6] T. G. Kolda and B. W. Bader, Tensor Decompositions and Applications, SIAM REVIEW, Vol. 51, No. 3, 2009.
[7] Y. Zniyed, R. Boyer, A. De Almeida, and G. Favier. A TT-based hierarchical framework for decomposing high-order tensors. SIAM Journal on Scientific Computing, vol. 42, 2020.
[8] L. T. Thanh, K. Abed-Meraim, N. L. Trung and R. Boyer, “Adaptive Algorithms for Track- ing Tensor-Train Decomposition of Streaming Tensors,” 28th European Signal Processing Conference (EUSIPCO), 2021.
[9] N. Halko, P.G. Martinsson, and J.A. Tropp, Finding structure with randomness: Probabilistic algorithms for constructing approximate matrix decompositions. SIAM review, 53(2), 2011.
[10] M. L., Hu, and H. Fan, Robustness of quantum correlations against decoherence. Annals of Physics, 327(3), 2012.

Profil du candidat :
This research requires a multidisciplinary understanding of quantum physics and linear algebra.

Formation et compétences requises :

Adresse d’emploi :
Campus Scientifique de Lille

Document attaché : 202412170930_phd_tensor_quantum.tex

Extraction et structuration des informations d’évolution des rues dans des corpus textuels à l’aide de grands modèles de langue

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LaSTIG (Université Gustave Eiffel – IGN/ENSG)
Durée : 5 mois
Contact : charly.bernard@ign.fr
Date limite de publication : 2025-04-30

Contexte :

Sujet :
Ce stage s’inscrit dans un ensemble de travaux visant à proposer une méthodologie générique et reproductible pour la construction d’un graphe de connaissances géohistorique des voies et des adresses à partir des documents historiques et de données publiées sur le Web.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Équipe LaSTIG/Strudel – École Nationale des Sciences Géographiques
6-8 avenue Blaise Pascal
77420 Champs-sur-Marne
(RER A, station Noisy-Champs)

Document attaché : 202412131314_2025-Sujet_Stage_M2_LLM_Rues_Paris.pdf

DADY : un modèle fondation de réseau de neurones pour l’observation aérienne time-lapse de systèmes agroécologiques au Sud

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD Montpellier
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2025-04-30

Contexte :
Le projet DeepAeroDynamics (DADY) vise à combiner l’imagerie drone multispectrale time-lapse et le deep learning pour faire face aux défis du changement climatique et de la sécurité alimentaire dans les pays du Sud. L’objectif est de développer un modèle fondation capable d’intégrer les données multispectrales, spatiales et temporelles observées par drone aérien dans des environnements complexes et hétérogènes du Sud dans le but d’anticiper et prédire le comportement de plantes cultivées en agroécologie (Sahel, Madagascar, Guadeloupe).

Sujet :
Le stagiaire sera au coeur du développement d’une architecture deep learning permettant :
* D’analyser des séries temporelles multispectrales d’imagerie drone, et extraire automatiquement des représentations informatives de l’état des systèmes observés.
* D’analyser les dynamiques temporelles en utilisant des modèles de type Transformers pour capturer les évolutions des cultures décrites dans un espace latent.
* De maximiser l’utilisation des données par des techniques d’apprentissage semi-supervisées et des consignes prétextes pour maximiser la capacité d’apprentissage de l’architecture fondation.

Le développement des modèles s’appuiera sur des architectures CNN et Transformers. L’approche sera validée sur des jeux de données déjà acquis et stockés à proximité d’un supercalculateur. Les tests de niveau 1 s’effectueront sur une ferme GPU locale, et les modèles de niveau 2 seront testés sur les supercalculateurs Jean Zay et Adastra (20e mondial au TOP500). Les modèles seront documentés et diffusés en open-source, accompagnés de scripts pour le fine-tuning.

Profil du candidat :
Étudiant·e en Master 2 ou école d’ingénieur avec spécialisation en deep learning.

Formation et compétences requises :
Travail avec Python, Pytorch/Tensorflow, Github, Intégration Continue. Expérience en traitement d’images. Capacité à travailler en équipe dans un environnement mêlant informatique, biologie et agroécologie.

Adresse d’emploi :
La rémunération selon barème légal des stages sera de 600€ mensuel, avec accès à la restauration collective le midi. Le stage aura lieu au Cirad de Montpellier, 389 Av. Agropolis, 34980 Montferrier-sur-Lez.

Document attaché : 202412131037_Offre de stage M2 – 2025 – DADY.pdf

Postdoctoral or Engineer Position: Integrating Differential Privacy in PostgreSQL

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : INSA Centre Val de Loire
Durée : 24
Contact : cedric.eichler@insa-cvl.fr
Date limite de publication : 2025-04-30

Contexte :
INSA Centre Val de Loire is offering an opportunity for either a Postdoctoral Researcher or Engineer to join the Petscraft project-team joint with Inria Saclay. We welcome applications from candidates with
diverse profiles and backgrounds, as we believe that both types of expertise can bring valuable contributions to our project. The specific responsibilities, objectives, and scope of the position will be tailored to
the selected candidate’s qualifications, skills, and experience. We are looking for the successful candidate
to start as soon as possible, but we are flexible with the start date to accommodate the right individual’s
availability.

This position is part of the project ”Making PostgreSQL Deferentially Private for Transparent AI” funded by the french national research agency ANR. The project involves several French research teams working on data protection, from Inria, universities and engineering schools, as well as Dalibo, company expert in PostgreSQL and developing PostgreSQL Anonymizer. The general objective
of the project is to propose, implement within PostgreSQL and evaluate a privacy preserving approach for interpreting SQL queries in the sense of differential privacy (DP). These queries will range from the
Select-Project-Join-Aggregation (SPJA) form to the export of releases (DUMP) of a part of the database in order to be able to work on it as if it contained no sensitive data. Specifically, the main objective is
to extend the anonymization models already integrated in PostgreSQL Anonymizer (pseudonymization, k-anonymization and addition of noise) to other models verifying DP, as well as DP existing and novel relaxations.

Sujet :
During the first year, the successful candidate will tightly collaborate with Dalibo to extend PostgreSQL Anonymizer with the most promising (in terms of utility) approaches to answering SPJA
queries that guarantee DP (or similar models, such as local differential privacy). The main lock of this task is to design this DP mechanism as an extension of the SQL grammar in order to qualify a specific
query or function with DP metadata.
Possibles objectives for the second year are varied and can be tailored to the selected candidate, with a wide range between implementation and theory. They may include more theoretical contributions, e.g.
regarding novel DP relaxations or the impact of semantics and schema on DP. In terms of implementation, they could include, for example, the development of demonstrators, validation and evaluation platforms
for the novel models proposed in the project.

Profil du candidat :
Candidates must hold either a PhD or a master (or equivalent) in
Computer Science

Formation et compétences requises :
The following skills are appreciated:
• Knowledge in privacy & anonimization.
• Knowledge & experience in databases and database management systems, particularly SQL and
PostgreSQL.
• Proficiency in programming.

Adresse d’emploi :
Either Inria Saclay centre, Turing building in Palaiseau or INSA CVL campus Bourges.

Document attaché : 202412131026_Postdoc_or_eng_position_DIFPRIPOS.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Archives

Annotation sémantique de documents multi/cross lingues par apprentissage frugal non supervisé

Robust Tensor Networks Algorithms for Quantum Computing

Extraction et structuration des informations d’évolution des rues dans des corpus textuels à l’aide de grands modèles de langue

DADY : un modèle fondation de réseau de neurones pour l’observation aérienne time-lapse de systèmes agroécologiques au Sud

Postdoctoral or Engineer Position: Integrating Differential Privacy in PostgreSQL

Réunion ComDir

Réunion ComDir

Réunion ComDir

Réunion ComDir

Réunion ComDir