CIFRE – Alignement, raisonnement normatif et robustesse cognitive dans les petits modèles de langage juridiques

When:

31/05/2026 – 01/06/2026 all-day

2026-05-31T02:00:00+02:00

2026-06-01T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DVRC
Durée : 3 ans
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2026-05-31

Contexte :
L’essor des grands modèles de langage (Large Language Models, LLM) a profondément transformé le traitement automatique du langage naturel, ouvrant des perspectives inédites pour de nombreux secteurs d’activité. Le domaine juridique constitue à cet égard un terrain d’application stratégique : il est caractérisé par une production normative croissante, une complexité textuelle élevée et des exigences fortes en matière de fiabilité, de traçabilité et de justification argumentative.
Les professionnels du droit, avocats, juristes d’entreprise, services de conformité, sont quotidiennement confrontés à l’analyse de volumes importants de textes normatifs, de contrats et de décisions jurisprudentielles. Cette réalité opérationnelle crée une demande croissante pour des outils d’assistance capables d’automatiser partiellement ces processus tout en garantissant une fiabilité juridique suffisante pour un usage professionnel.
Les solutions génériques actuelles fondées sur des LLM (GPT-4, Claude, Gemini) permettent des tâches élémentaires ,recherche d’information, résumé, rédaction assistée, mais présentent des limites structurelles importantes dans ce contexte :
– un manque de spécialisation dans le raisonnement juridique normatif, caractérisé par des hiérarchies de normes, des exceptions et des conflits réglementaires ;
– une fiabilité juridique insuffisante, se traduisant par des hallucinations factuelles et des erreurs d’interprétation normative ;
– une incapacité à justifier explicitement les conclusions produites, pourtant essentielle à l’usage professionnel ;
– une empreinte computationnelle et énergétique élevée, incompatible avec une intégration directe dans des workflows SaaS ou des environnements à ressources contraintes.
Ces constats soulignent l’intérêt de développer des modèles de langage spécialisés, plus compacts ,désignés Small Legal Models (SLM) ,capables d’intégrer les structures logiques et normatives propres au droit tout en étant économes en ressources et directement intégrables dans des logiciels métiers. C’est dans ce contexte que s’inscrit le projet de recherche et développement porté par Contractzlab.
Ce projet répond à un besoin industriel concret : améliorer l’efficacité des cabinets juridiques et des entreprises soumises à des obligations réglementaires strictes, tout en proposant une alternative fiable, sécurisée et économe en énergie aux grands modèles généralistes. Il s’inscrit également dans une perspective scientifique plus large, visant à
comprendre comment la spécialisation et l’apprentissage progressif permettent à un modèle compact d’atteindre des performances comparables à celles de modèles massifs sur des tâches de raisonnement normatif complexes.

Sujet :
L’objectif principal de cette thèse est de concevoir, d’entraîner et de valider un Small Legal
Model (SLM) spécialisé dans le raisonnement juridique, capable de surperformer les
modèles généralistes commerciaux sur des tâches normatives complexes tout en restant
économe en ressources computationnelles.
Ce modèle doit fonctionner comme un assistant expert pour les professionnels du droit
,juristes, avocats, services de conformité ,en les aidant à analyser, interpréter et mettre en
relation des textes normatifs, aussi bien pour des consultations rapides que pour des cas
nécessitant un raisonnement structuré et une justification explicite.
Les travaux de recherche s’articulent autour de quatre axes scientifiques originaux,
chacun répondant à un verrou identifié dans la littérature :
Conception de méthodes d’alignement adaptées au raisonnement juridique normatif
Les approches classiques d’alignement par préférences (RLHF, DPO, ORPO) sont
conçues pour améliorer la conformité comportementale des modèles, non pour structurer
leur raisonnement formel. L’objectif est de proposer de nouvelles méthodes d’alignement
intégrant des contraintes logiques explicites, respectant la hiérarchie des normes
(constitution, loi, règlement, jurisprudence) et permettant la traçabilité des chaînes
d’inférence juridique. Cela implique notamment de définir des signaux de récompense
capables de représenter la cohérence normative et la validité argumentative des réponses
produites.

Construction d’un cadre d’évaluation unifié pour le raisonnement juridique
L’absence de benchmark représentatif, multilingue et orienté vers la structure
argumentative constitue un frein majeur à la progression scientifique dans ce domaine.
L’objectif est de construire un cadre d’évaluation unifié couvrant plusieurs niveaux de
raisonnement juridique qualification, interprétation, mise en relation de normes, résolution
de conflits ,applicable à plusieurs systèmes juridiques européens, et s’appuyant sur des
métriques capables de mesurer la cohérence logique interne et la validité normative au-
delà de la simple correspondance textuelle.

Développement d’une stratégie d’entraînement progressif pour modèle compact
La réduction du nombre de paramètres d’un modèle limite mécaniquement sa capacité à
encoder des connaissances juridiques étendues et des chaînes de raisonnement
profondes. L’objectif est de concevoir une stratégie d’entraînement progressif (continual /
curriculum learning) permettant à un SLM d’acquérir des compétences juridiques
croissantes sans subir d’oubli catastrophique, tout en conservant la cohérence globale de
son raisonnement. Des approches telles que DUMP (Dynamic Upper-confidence-based
Model Progression) constituent des pistes prometteuses qui seront explorées et adaptées
au contexte juridique.

Analyse de la robustesse cognitive sous alignement par préférences
L’impact de l’alignement par préférences sur la diversité argumentative et la robustesse
cognitive des modèles en contexte juridique reste largement inexploré. L’objectif est de
caractériser empiriquement et théoriquement les effets de différentes méthodes
d’alignement (DPO, ORPO, KTO, RLAIF) sur la capacité d’un modèle compact à maintenir
une pluralité interprétative, à résister aux ambiguïtés normatives et à justifier ses
conclusions dans des cas complexes ou contradictoires. Cette analyse vise à établir les
fondements d’un alignement à la fois conforme et cognitivement robuste pour les
domaines régulés.

Profil du candidat :
Ingénieurs / Master 2, spécialisé en science des données, Intelligence Artificielle, NLP
Personnes à contacter par mail : envoyez votre candidature avant le 25 avril avec vos
bulletins de notes M1/M2, une lettre de motivation, des lettres de recommandation

Formation et compétences requises :

Adresse d’emploi :
Paris La défense & Paris 11°

Document attaché : 202604162208_Sujet_These_Cifre_Contractzlab.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

CIFRE – Alignement, raisonnement normatif et robustesse cognitive dans les petits modèles de langage juridiques