Introduction de capacités de rejet et de modèles de langage externalisés dans des systèmes d’apprentissage profond pour la lecture de texte en conditions difficiles

When:
10/07/2022 – 11/07/2022 all-day
2022-07-10T02:00:00+02:00
2022-07-11T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRISA / ANTAI
Durée : 36 mois
Contact : guig@irisa.fr
Date limite de publication : 2022-07-10

Contexte :
Depuis 2011, l’Agence Nationale des Traitements Automatisés des Infractions (ANTAI) pilote le programme interministériel de traitement automatisé des infractions routières constatées par des radars. Au Centre de Traitement des Amendes (CNT) de Rennes, les photos en provenance de ces radars routiers sont traitées afin de localiser et de reconnaitre la plaque d’immatriculation et le pays d’origine du véhicule en infraction. Cette opération est réalisée par une chaine de traitement automatique qui s’appuie sur des moteurs de lecture automatique de plaques (LAP) du marché.

Les LAP employés aujourd’hui souffrent de deux limites principales. La première limitation vient du fait que les photos prises par les radars sont parfois bruitées ou bien que des éléments viennent se placer entre le capteur et la plaque (par exemple, de la végétation ou une boule d’attelage). La seconde est due à l’apprentissage biaisé et figé du modèle de langage en raison d’un apprentissage conjoint du modèle graphique de plaques et du modèle de langage

Au-delà des LAP, ces limitations soulèvent des questions fondamentales en apprentissage automatique, en premier lieu sur la mesure de la confiance dans la décision (capacité de rejet, explication), en second lieu sur des architectures performantes permettant de découpler la modélisation des différentes composantes (images, caractères, modèle de langue) tout en gardant les bénéfices d’une modélisation globale (end-to-end).

Sujet :
L’objectif général de la thèse est donc de développer de nouvelles approches en apprentissage automatique appliqué à la LAP, permettant de développer des systèmes performants, facilement adaptables et adaptés à l’interaction avec les utilisateurs validant la décision.

Lever ces limites passe par la construction d’une LAP reposant sur un modèle avec les spécificités suivantes :

1. Capacité de rejet. Le modèle devra être capable d’indiquer qu’il ne sait pas décider de la valeur de l’immatriculation ou d’un ou plusieurs de ses caractères. En pratique, la connaissance du caractère ou des caractères à problème permettra d’interroger une base de données et éventuellement de lever l’ambiguÏté. Doter un modèle d’une capacité de rejet soulève plusieurs questions scientifiques autour de la définition du domaine de validité d’un réseau de neurone, de la définition de mesures de confiance sur tout ou partie de la décision, ou encore de l’explicabilité pour faciliter le travail de validation par les annotateurs.

2. Modèle de langage externalisé. Le modèle devra permettre l’entrainement séparé de la partie reconnaissance des caractères et apprentissage des dépendances inter-caractères et de la partie modélisation du langage, en restant cependant aussi proche que possible d’une architecture de bout en bout dont les performances restent meilleure que celle des approches en deux étapes. On s’attachera donc à définir un modèle intermédiaire entre l’approche séparée et l’approche conjointe, où l’interaction entre les deux étapes est forte tout en permettant d’adapter l’une ou l’autre indépendamment.

Le travail s’appuiera fortement sur les données et l’expertise existante au sein de l’ANTAI, cette dernière disposant de l’ensemble des images prises par les radars routiers depuis le début du programme accompagnées des annotations validées.

Dans un premier temps, on s’intéressera à la problématique du rejet avec une approche bout en bout à l’état de l’art en s’appuyant sur des architectures de type transformer. On étudiera pour cela l’apport du mécanisme d’attention [14,15] et/ou des cartes de saillance [16]. On pourra également s’intéresser à la caractérisation du domaine de validité des données en entrée.

Dans un second temps, on s’intéressera à la problématique de découplage de l’apprentissage du modèle de reconnaissance des caractères et de l’apprentissage du modèle de langage. Une première approche consiste à empiler des modèles appris séparément : un modèle CNN multi-label, transformers ou RCNN pour reconnaître les chiffres/lettres (ou faire des hypothèses) et un modèle de langage type RNN ou transformers par dessus. On s’efforcera ensuite d’introduire un modèle de couplage fort entre les deux de manière à tendre vers une architecture de bout en bout. En particulier, les mécanismes d’attention offre une piste prometteuse, en les couplant à une étape de fine tuning. La génération de données, e.g., à l’aide de la partie décodeur d’un transformer, constitue une autre piste permettant d’anticiper l’évolution du modèle de langage.

Profil du candidat :
La candidate ou le candidat devra posséder un bagage solide en apprentissage automatique, idéalement avec une application à l’un des domaines suivants : traitement automatique de la langue naturelle, vision par ordinateur, analyse de documents.

Formation et compétences requises :
Master 2 ou diplôme d’ingénieur.

Adresse d’emploi :
Rennes

Document attaché : 202205301226_Introduction de capacités de rejet et de modèles de langage externalisés dans des systèmes d’apprentissage profond pour la lecture de texte en condit