Chaire de Professeur Junior – IA hybride – Montpellier

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRMM-Faculté des sciences
Durée : 3 à 6 ans
Contact : marianne.huchard@lirmm.fr
Date limite de publication : 2022-05-18

Contexte :
Un poste de professeur junior (tenure-track) intitulé « Intelligence Artificielle Hybride » est à pourvoir à l’Université de Montpellier, avec une affectation recherche au LIRMM (UMR CNRS 5506) et une affectation enseignement à la Faculté des Sciences (FdS).

Sujet :
Nous recherchons des candidats en Informatique dont la recherche s’inscrit à l’intersection de l’IA symbolique et de l’IA non-symbolique pour définir des stratégies d’hybridation et de fertilisation croisée des différentes techniques, depuis la représentation des connaissances, les systèmes d’argumentation, à base de règles et les preuves automatiques, jusqu’à l’apprentissage automatique en passant par l’optimisation, la programmation par contraintes et l’accès aux données médiatisé par les connaissances, par exemple en utilisant l’apprentissage pour construire des ontologies, ou en utilisant l’argumentation pour améliorer l’explication des techniques non-symboliques ou d’optimisation complexe.

En enseignement, le projet s’articule autour de la construction et de la diffusion d’enseignements sur l’IA, incluant la mise en perspective des différents courants de l’IA, la problématique des données et des connaissances et développant la théorie et la pratique des différentes techniques modernes. Dans les enseignements proposés, le professeur junior veillera en particulier à faire écho à ses activités de recherche autour des stratégies d’hybridation et de fertilisation croisée entre IA symbolique et IA non-symbolique et s’appuiera sur les environnements de développement et de déploiement de toute dernière génération.

Le poste pourra être pourvu au 15 octobre 2022 sous forme d’un CDD de 3 ans (renouvelable une fois), puis d’une titularisation comme Professeur des Universités à l’Université de Montpellier.

Un package financier est associé à la chaire, avec notamment le financement d’un doctorat et d’un postdoc. Une charge d’enseignement de 64h par an pendant la période de CDD (de 3 à 6 ans) devra aussi être assurée par le titulaire de la chaire.

La fiche de poste est disponible sur le portail d’applications Galaxie du Ministère :

https://www.galaxie.enseignementsup-recherche.gouv.fr/ensup/ListesPostesPublies/FIDIS/0342490X/FOPC_0342490X_38.pdf

et dans la rubrique Chaires de Professeur Junior de l’université :

Personnels enseignants titulaires

Personnes à contacter :
En recherche : Philippe Poignet (Directeur du LIRMM) : Philippe.Poignet@lirmm.fr
En enseignement : Alain Hoffmann (administrateur provisoire de la FdS) : Alain.Hoffmann@umontpellier.fr

Les candidats sont invités à prendre contact le plus rapidement possible.

Profil du candidat :
Informatique, Intelligence Artificielle

Formation et compétences requises :
Thèse de doctorat

Adresse d’emploi :
Université de Montpellier

Université de Montpellier

Offre de thèse au LAMSADE

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LAMSADE et IRISSO
Durée : 3 ans
Contact : alexis.tsoukias@dauphine.fr
Date limite de publication : 2022-06-30

Contexte :
financement CNRS prime80

Sujet :
Fairness by explanation in algorithmic decision making

Profil du candidat :
H/F

Formation et compétences requises :
Master in Computer Science with opening/minor in the Social Sciences.

Adresse d’emploi :
LAMSADE, Université Paris Dauphine

Document attaché : 202204101414_call4phd01.pdf

Approches déclaratives efficaces pour l’extraction des motifs d’intervalles fermés

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : GREYC CNRS UMR 6072
Durée : 3 ans
Contact : bruno.cremilleux@unicaen.fr
Date limite de publication : 2022-05-31

Contexte :
En fouille de données, l’extraction de motifs [7] vise à identifier des régularités dans des ensembles de données (datasets). Ces motifs permettent de faire émerger des relations implicites dans une grande masse de données. Il appartient ensuite aux data scientists et aux experts sur les données de déterminer si un motif est le résultat d’une simple corrélation, ou s’il est le fruit d’une relation directe entre ses composants, par exemple un lien de causalité entre deux composants. De nombreuses applications en fouille de données sont amenées à traiter des données numériques. Dans ce contexte, il est souvent nécessaire de passer par une étape de binarisation pour profiter des méthodes symboliques. Cette binarisation s’effectue soit en créant des attributs pour constituer des intervalles sur les valeurs des données [4], soit en partitionnant les valeurs dans le dataset en catégories selon différents paramètres : taille, composition de blocs au regard de leur classe, tests statistiques, entropie, etc. [2]. La binarisation entraîne une perte d’information par rapport aux données d’origine. Une technique comme l’ “interordinal scaling” permet de préserver l’information d’origine mais conduit à des données de grande taille. Afin d’avoir une méthode capable de traiter directement les données numériques, Kaytoue et al. [4] ont proposé la méthode MintIntChange capable d’extraire des motifs d’intervalles fermés réduisant ainsi la chaîne de traitement de données. Cependant, étendre MintIntChange pour être capable de traiter d’autres tâches de fouille avec de nouvelles contraintes s’avère une tâche non triviale.

Sujet :
La synergie entre la fouille de données et les paradigmes déclaratifs tels que SAT, la Programmation Par Contraintes (PPC) et la Programmation Linéaire en Nombre Entier (PLNE) a connu un grand essor au cours de la dernière décennie à travers différents travaux [5, 1, 8, 6]. L’avantage principal de ces approches réside dans leur côté déclaratif qui offre une large flexibilité pour s’adapter à des tâches variées en fouille de données. Ces approches incluent la possibilité d’intégrer de nouvelles contraintes spécifiées par l’utilisateur sans besoin de développer de nouveaux algorithmes spécifiques de résolution. L’objectif de ce travail de thèse est de définir des méthodes et de concevoir des outils permettant l’extraction de motifs d’intervalles dans un cadre déclaratif. En effet, travailler directement sur les données numériques est un enjeu majeur pour réduire les étapes dans la chaîne de traitement des données. De plus, les approches déclaratives sont particulièrement adaptées pour cette tâche. Dans le cadre de la programmation par contraintes, différents types de contraintes sont à la disposition de l’utilisateur pour définir le réseau de contraintes à résoudre : des contraintes prédéfinies dans le solveur ou des contraintes définies en extension par un ensemble de valeurs autorisées ou interdites. En outre, un utilisateur expert peut définir ses propres contraintes en établissant la sémantique de la contrainte, ainsi que l’algorithme de filtrage associé [3, 5, 1].

Les principales contributions attendues sont :
— Proposition d’une approche déclarative offrant un bon compromis entre efficacité et flexibilité pour l’extraction de motifs d’intervalles.
— Les approches proposées doivent être capables d’enrichir l’expérience de l’utilisateur en mettant en place des moyens (contraintes ou techniques d’apprentissage) pour éviter d’inonder l’utilisateur avec des motifs inintéressants.
— L’avantage principal des méthodes déclarative réside dans leur aspect générique et tout domaine applicatif générant des données numériques peut être considéré comme un objet d’étude. Néanmoins, nous visons dans cette thèse l’extraction de motifs dans des bases de données moléculaires où les molécules sont décrites par des descripteurs numériques.

Profil du candidat :
Le(a) candidat(e) doit être titulaire d’un diplôme master ou équivalent en informatique.

Formation et compétences requises :
Le(a) candidat(e) doit être titulaire d’un diplôme master ou équivalent en informatique avec des compétences dans le domaine de la programmation par contraintes, la programmation linéaire et la fouille de motifs. Le candidat(e) recherché(e) devra avoir de solides compétences en programmation C++, JAVA, et Python3. La maîtrise des solveurs comme OR-tools, SCIP, Choco serait un vrai plus.

Adresse d’emploi :
GREYC CNRS UMR 6072
6 Boulevard du Maréchal Juin
Bâtiment Sciences 3
Université de Caen Normandie
CS 14032, 14032 CAEN cedex 5

Document attaché : 202204092202_ademif.pdf

Modélisation de l’évolution physiologique d’un patient en réaction à un process de soins.

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Université de Nantes / LS2N – LE SiMU – CHU de Nan
Durée : 36 mois
Contact : christine.sinoquet@univ-nantes.fr
Date limite de publication : 2022-05-31

Contexte :
La simulation est un outil pédagogique moderne dédié à l’apprentissage et au maintien des compétences dans le domaine des sciences de la santé. Il permet aux apprenants de s’entraîner à la prise en charge de situations réalistes dans un environnement sécuritaire, sans risque pour le patient (‘‘jamais la première fois sur le patient’’). Le Laboratoire Expérimental de Simulation en Médecine Intensive (LE SiMU) de l’Université de Nantes permet ce type d’apprentissage dans sept spécialités médicales, dont l’anesthésie.
LE SiMU intervient sur simulateurs de patients haute-fidélité (mannequins), avec immersion des agents en formation dans une équipe médicale humaine pleine-échelle interprofessionnelle. Actuellement, les scénarios sont écrits à l’avance, et le formateur fait évoluer les paramètres physiologiques du mannequin “à la main”, en réponse aux actions de l’équipe médicale (y compris celles de l’apprenant immergé dans cette équipe). D’une part, il y a peu de variabilité dans les scénarios. D’autre part, un apprenant n’a accès qu’à un nombre limité de scénarios (environ 3 par demi-journée de formation).
Dans le but d’améliorer la sécurité et la qualité des soins peropératoires, les formateurs du SiMU souhaitent varier la diversité des scénarios à proposer aux internes en anesthésie et infirmiers anesthésistes, en formation initiale, ainsi qu’aux praticiens plus expérimentés, en formation continue. Pour varier les scénarios, il est envisagé à terme d’automatiser la génération de scénarios réalistes de simulation, en s’appuyant sur tout ou partie de la base de profils anesthésiques enregistrés par le CHU de Nantes depuis 2004 (500 000 profils anesthésiques). Dans cette modalité assistée par le numérique, la personne qui suit la formation (interne ou infirmier), fait partie de l’équipe médicale. Les autres membres de l’équipe médicale sont simulés très simplement (icônes réalisant des actions et émettant des informations, sur l’écran de l’ordinateur assigné à l’apprenant).

Sujet :
1 Sujet de thèse

1.1 Objectifs opérationnels

Le problème posé consiste à savoir faire évoluer les paramètres physiologiques d’un patient numérique en réponse à des actions médicales successives. Ce problème équivaut à prédire l’évolution d’une série temporelle, à court terme, jusqu’au déclenchement de la prochaine action médicale, par l’apprenant ou par le reste de l’équipe médicale (qui est virtuelle). Excepté si c’est l’apprenant qui déclenche la prochaine action, cette action doit également être prédite.

Nous devons définir un modèle capable de générer une série multivariée à d variables, et évoluant sous l’effet d’une séquence d’événements horodatés dans le temps continu.

Nous proposons d’apprendre ce modèle à partir des profils anesthésiques d’une cohorte de patients. Le profil anesthésique d’un patient est constitué d’une série temporelle multivariée et d’une trace d’événements. La série temporelle décrit l’évolution dynamique de d paramètres physiologiques (e.g., la fréquence cardiaque) enregistrés via des capteurs, à fréquence constante. La trace d’événements est la séquence horodatée des actions asynchrones de l’équipe médicale (e.g., administration d’un anesthésique).

La prise en charge de ce problème est inédite.

1.2 Limites de l’état de l’art et verrous à lever

Les méthodes statistiques classiques capturent efficacement les relations linéaires dans les séries temporelles, et obtiennent de bons résultats lorsque le jeu de données est de petite taille (e.g., modèle linéaire autorégressif, modèles MA (Moving Average) et ARMA (AutoRegressive Moving Average)). Cependant, ces approches statistiques sont peu efficaces lorsqu’elles sont appliquées à des séries temporelles non linéaires complexes à grande échelle [LZG21]. Dans le cas où la non-linéarité est liée à la présence de changements de régime dans l’évolution des systèmes dynamiques, des propositions majeures de la littérature ont été par exemple le modèle autorégressif à seuil (TAR, Threshold AutoRegressive model) [T90] et le modèle autorégressif à changement de régime Markovien (MSAR, Markov-Switching AutoRegressive model) [H90] pour les changements discrets, le modèle à changement de régime continu (STAR, Smooth Transition AutoRegressive model) [LT94].

Cependant, ces modèles sont inadaptés pour notre objectif, pour diverses raisons. Par exemple, dans le modèle TAR, les changements de régime sont déterminés par les seules variations de la série temporelle. Tous les modèles évoqués précédemment sont incapables de prendre en compte l’existence de dépendances à long terme entre événements, ainsi que la variabilité de la portée des dépendances entre événements.

1.3 Modélisation jointe d’une série temporelle et d’une trace d’événements

Des revues de l’état de l’art récentes consacrées à la prédiction du temps de survie ou du temps de récidive d’une pathologie discutent des diverses façons de représenter les dépendances entre un sous-modèle dédié à la trace d’événements et un sous-modèle dédié à la série temporelle, dans les cadres fréquentiste [HPJ16] et Bayésien [ASG20]. Cependant, ces modèles ne permettent pas la double prédiction nécessaire pour résoudre notre problème.

Dans le domaine de la prédiction de série temporelle multivariée, les approches les plus efficaces actuellement pour prendre en charge les aspects non linéaires et les corrélations entre variables reposent sur les architectures de réseaux de neurones profonds, éventuellement hybridées entre elles, ou encore hybridées avec un modèle classique [LZ20].

Par ailleurs, la littérature récente indique que les processus temporels ponctuels constituent une classe de modèles très utilisée pour la prédiction du prochain événement [Z22]. Les processus de Poisson constituent la classe des processus ponctuels les plus populaires et les plus simples, pour modéliser l’occurrence d’événements indépendants les uns des autres. La composition de processus ponctuels simples (e.g., [SJ10]), et des processus ponctuels plus complexes comme les processus de Cox [C55] et de Hawkes [H71], par exemple, permettent de prendre en compte des dépendances entre événements. Un récent état de l’art est consacré à ces processus [JO20].

Cependant, lorsqu’aucune information n’est disponible sur la distribution des temps d’occurrence des événements, des approches non paramétriques peuvent être utilisées pour apprendre des distributions sophistiquées à partir des données, grâce à des réseaux de neurones. Les réseaux neuronaux récurrents, et spécialement les LSTM (Long Short Term Memory) sont particulièrement utilisés pour apprendre des dépendances complexes (e.g., [TVR17]).

Hormis pour la prédiction du temps de survie ou de récidive évoquée précédemment, la modélisation jointe de trace d’événements et de série temporelle a été peu abordée, jusqu’à ce jour. Deux publications seulement ont été recensées, qui se situent dans la même veine que les travaux envisagés pour la thèse.

Choi et co-auteurs informent un processus de Hawkes au moyen d’une série temporelle, afin de prédire l’évolution de la pathologie d’un patient [CDC15]. Xiao et collaborateurs décrivent un modèle joint combinant deux réseaux de neurones récurrents profonds (des LSTM en l’occurrence), dans le but de réaliser la prédiction informée du prochain événement [XYF19]. Dans cette approche, l’un des LSTM capture les dépendances entre les événements, et l’autre modélise l’influence de la série temporelle sur l’occurrence des événements.

Le cadre de travail de la thèse se démarque des deux approches précédentes puisque notre objectif est de prédire, non seulement le prochain événement, mais aussi l’évolution de la série temporelle.

Pour répondre aux objectifs de la thèse, nous investiguerons donc dans un premier temps comment réaliser une double prédiction en intégrant un processus ponctuel ou une variante de processus ponctuel et une architecture de réseau de neurones profond dédiée à la modélisation de la série temporelle.

Nous examinerons ensuite comment modéliser un processus d’occurrences d’événements à l’aide d’un réseau de neurones profond et comment hybrider ce sous-modèle avec un réseau de neurones dédié à la modélisation de la série temporelle.

2 Plan de travail

Le planning prévu pour la thèse est le suivant :

1. Etude de l’état de l’art sur la prédiction de série temporelle multivariée par utilisation d’un réseau de neurones profond ; étude de l’état de l’art sur la prédiction d’événement via un processus temporel ponctuel d’une part, via un réseau de neurones profond d’une part ; étude de l’état de l’art sur la modélisation d’un processus temporel ponctuel à l’aide d’un réseau de neurones profond.

2. Appropriation du simulateur de profils anesthésiques développé dans le cadre du projet EXAN.

3. Choix de l’environnement de programmation (PyTorch, Keras, TensorFlow etc) pour l’apprentissage profond.

4. Mise au point d’un modèle combinant un modèle neuronal profond modélisant un processus temporel ponctuel pour la prédiction d’événement et un réseau de neurones pour la prédiction de série temporelle ; proposition éventuelle de plusieurs architectures ; développement des prototypes correspondants ; examen de la nécessité et des possibilités d’utiliser des modèles pré-entraînés, examen de la nécessité de recourir à l’augmentation de données.

5. Mise au point du protocole de validation de l’architecture ou des architectures proposées ; mise au point du protocole de validation de l’usage de ces architectures par les utilisateurs de la plateforme de simulation LE SiMU.

6. idem point 4, pour un modèle neuronal profond hybridant deux réseaux de neurones dédiés respectivement à la prédiction d’événement et à la prédiction de série

7. idem point 5, appliqué à l’architecture ou aux architectures proposées en point 6.

Références bibliographiques
[ASG20] M. Alsefri, M. Sudell, M. García-Fiñana and R. Kolamunnage-Dona (2020) Bayesian joint modelling of longitudinal and time to event data: a methodological review. BMC Medical Research Methodology 20, 94.

[C55] D.R. Cox (1955) Some statistical methods connected with series of events. Journal of the Royal Statistical Society 17(2), 129-164.

[CDC15] E. Choi, N. Du, R. Chen et al (2015) Constructing disease network and temporal progression model via context-sensitive Hawkes process. In: IEEE International Conference on Data Mining, pp 721-726.

[H71] A.G. Hawkes (1971) Spectra of some self-exciting and mutually exciting point processes. Biometrika 58, 83–90

[H90] J. D. Hamilton (1990) Analysis of time series subject to changes in regime. Journal of Econometrics, 45(1-2), 39-70.

[HPJ16] G. L. Hickey, P. Philipson, A. Jorgensen and R. Kolamunnage-Dona (2016) Joint modelling of time-to-event and multivariate longitudinal outcomes: recent developments and issues. BMC Medical Research Methodology, 16,117.

[JO20] J. Jang, and R. Oh (2021). A review on Poisson, Cox, Hawkes, shot-noise Poisson and dynamic contagion process and their compound processes. Annals of Actuarial Science,15(3), 623-644.

[LT94] C.-F. J. Lin and T. Teräsvirta (1994) Testing the constancy of regression parameters against continuous structural change. Journal of Econometrics, 62(2), 211-228.

[LZ20] B. Lim B, and S. Zohren S (2020) Time series forecasting with deep learning: a survey. https://arxiv.org/abs/2004.13408.

[LZG21] Z. Liu, Z. Zhu, J. Gao and C. Xu (2021) Forecast methods for time series data: a survey. IEEE Access, 9, 91896- 91912.

[SJ10] A. Simma and M.I. Jordan (2012) Modeling events with cascades of Poisson processes. In: International Conference on Uncertainty in Artificial Intelligence, pp. 546–555.

[T90] H. Tong (1990) Non-linear time series: a dynamical system approach. Oxford University Press.

[TVR17] N. Tax, I. Verenich, M. L. Rosa, M. Dumas. (2017) Predictive business process monitoring with LSTM neural networks. In : International Conference on Advanced Information Systems Engineering, CAiSE2017, Lecture Notes in Computer Science 10253, pp. 477–492.

[XYF19] S. Xiao, J. Yan, M. Farajtabar et al (2019) Learning time series associated event sequences with recurrent point process networks. IEEE Transactions on Neural Networks and Learning Systems, 30(10), 3124–3136.

[Z22] L. Zhao (2022) Event prediction in the big data era : a systematic survey. ACM Computing Surveys, 54(5),1–37.

Profil du candidat :
Master ou équivalent en Mathématiques ou Mathématiques / Informatique ou Informatique, avec spécialisation en science des données ou probabilités / statistique, ainsi qu’en apprentissage automatique (incluant deep learning de préférence)

Formation et compétences requises :
– Compétences théoriques et expérience requises en probabilités / statistiques, mathématiques appliquées, apprentissage automatique

– Si la personne candidate n’a pas d’expérience dans la modélisation par composition de modèles utilisant des réseaux de neurones profonds, qui est l’un des axes d’investigation de la thèse, elle devra en revanche montrer une forte motivation pour s’investir dans ce domaine

– Intérêt pour l’interdisciplinarité (santé)

– Expérience en programmation et bon niveau de programmation

– Bonnes capacités rédactionnelles

– Aptitude au travail en équipe, capacité à rendre compte de l’avancement de ses travaux

Calendrier de la sélection

Les dossiers de candidature seront de préférence envoyés avant le jeudi 21 avril 2022 12H00.
Date limite d’envoi des candidatures : mardi 26 avril 2022 12H00

Les personnes correspondant au profil demandé seront convoquées pour une audition par visio-conférence (au fil de l’eau).
Décision : mi-mai 2022

Pièces à fournir
– CV détaillé
– lettre de motivation
– relevé de notes de Master 1 (avec rang de classement et effectif de la promotion)
– notes de Master 2 hors stage (avec rang de classement et effectif de la promotion)
– résumé du stage en cours (entre 2 et 4 pages, références bibliographiques en sus)
– lettres de recommandation pour l’année en cours
– coordonnées de personnes référentes (prénom, nom, statut, institution (détailler les sigles le cas échéant), ville, adresse mail, numéro de téléphone)

Questions et envoi des dossiers de candidature (archive zip) à christine.sinoquet@univ-nantes.fr

Adresse d’emploi :
Université de Nantes

Document attaché : 202204091843_annon_aiby4_sinoquet_lejus-bourdeau_22_04_09_sat_17h00.pdf

Poste d’Ingénieur-Chercheur en Gestion de connaissances, ontologies, web sémantique et apprentissage

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IRT SystemX
Durée : CDI
Contact : georges.hebrail@irt-systemx.fr
Date limite de publication : 2022-06-30

Contexte :
Rattaché au domaine « Data IA », vous intégrez des projets collaboratifs composés d’ingénieurs-chercheurs, de chercheurs industriels et académiques, de post-doctorants et de doctorants. Vous reportez donc hiérarchiquement au Responsable d’équipe et opérationnellement aux Chefs de projet.

Vos missions principales consistent à :

Participer à l’élaboration des propositions méthodologiques, technologiques et architecturales de l’équipe projet en cohérence avec les attentes des partenaires industriels et les propositions des partenaires académiques ;
Analyser les cas d’usages des partenaires industriels et mener les travaux de recherche nécessaires pour lever ces verrous scientifiques et technologiques, produire les livrables correspondants ;
Réaliser, configurer et mettre en place les preuves de concept et les démonstrateurs conformément au contexte opérationnel des partenaires industriels ;
Documenter les travaux réalisés et participer aux transferts des résultats méthodologiques et technologiques vers les équipes des partenaires du projet ;
Contribuer à la dissémination et à l’élaboration de la roadmap scientifique et technologique de votre domaine.
Être référent de thèse (Ingénieur-chercheur référent, co-encadrement de thèse).
Etablir des collaborations avec des laboratoires académiques partenaires.
Conseiller et disséminer les bonnes pratiques permettant de capitaliser et de réutiliser les travaux de l’IRT.

Selon votre profil et vos préférences, vous pourrez évoluer par la suite vers un poste d’Expert, de Chef de projet ou/et Responsable d’équipe/Responsable d’axe.

Sujet :
Les missions seront amenées à évoluer selon les projets. Vous serez dans un premier temps rattaché au projet SMD (Sémantiques Métier pour l’exploitation de Données multi-sources) qui est un projet de coopération avec des acteurs de comme domaines Défense et sécurité, Réseaux ferroviaires, Production et fournisseur d’électricité, fournisseurs d’équipements (analyse des appels d’offres), Fournisseurs de technologies d’analyse des contenus et de données multimédia, etc.

Le projet s’inscrit dans le cadre du programme d’Intelligence Artificielle et d’Ingénierie Augmentée (IA2) mis en œuvre par l’IRT SystemX. Ce projet a pour objectif de croiser des expertises multisectorielles et de mutualiser les efforts de R&D des partenaires sur la thématique de l’hybridation d’approches d’apprentissage numérique (ex. réseaux de neurones pour le traitement des textes, des images, des vidéos, …) et d’approches d’IA symbolique pour l’extraction et la qualification des connaissances à partir de données hétérogènes.

Les missions seront amenées à évoluer selon les projets mais portent pour le démarrage sur :

Participer à la caractérisation des données disponibles ;
Analyser et traiter des documents multimédias ;
Développer ou faire évoluer des outils permettant de construire et utiliser des connaissances à partir de corpus de données hétérogènes :
Intégrer les connaissances dans un processus d’analyse et de traitement automatique ;
Proposer/évaluer des méthodes de génération automatique de graphes de connaissances (besoin adapté au cas d’usage industriel) ;
Concevoir et développer des preuves de concepts en gestion de connaissance ;
(Un plus) Utiliser des fonctionnalités de traitement automatique du langage naturel (NLP) ;
Enrichir les environnements de démonstration ;
Définir et développer de nouveaux schémas d’apprentissage et de fusion de données dans un contexte multimodal hétérogène (sémantique, structurelle, temporelle…)
Enrichir les environnements de démonstration ;

Mots-clés : NLP, IA Symbolique, Machine Learning

Profil du candidat :
Issu d’une formation Bac + 5 minimum, de profil ingénieur ou docteur avec une spécialisation dans la représentation de connaissance, ou en NLP.

Compétences techniques :

Maitrise des concepts, méthodes et algorithmes de construction, gestion et utilisation de connaissances (web sémantique, raisonnement, IA symbolique, …) ;
Maîtrise des concepts, méthodes et algorithmes de Machine Learning, notamment les approches de Deep Learning ;
Maîtrise des environnements logiciels pour la gestion des connaissances et le Machine Learning ;
Web sémantique : OWL, RDF, RDFS, SPARQL, SHACL
Des connaissances technologiques nécessaires pour la définition et la mise en œuvre des outils de Machine Learning (scikitlearn, tensorflow, pytorch) ;
Bonnes connaissances en conception et développement logiciel (python au minimum).
Connaissances souhaitées en adaptation de domaine et en transfert d’apprentissage;
La compréhension des problématiques fonctionnelles et des enjeux numériques des systèmes complexes ;
Les bases scientifiques indispensables pour la maitrise des modèles nécessaires à la formalisation des interactions entre différentes dimensions d’un système complexe ;

Qualités professionnelles et relationnelles :

Curiosité, esprit d’initiative, capacité d’analyse et rigueur
Adaptabilité et autonomie
Capacité à travailler en mode projet: suivi et avancement des travaux, valorisation et communication des résultats
Aisance relationnelle, capacité à travailler en équipe, très bonne communication orale et écrite (en français et anglais)

L’IRT SystemX est engagé en faveur de l’égalité des chances. A ce titre, tous nos postes sont ouverts aux candidats en situation de handicap.

Pour ce poste basé au sein du cluster Paris-Saclay (91), des déplacements occasionnels sont à prévoir en région parisienne. Vous travaillerez au sein d’une équipe jeune, sur des projets attractifs et vous bénéficierez d’avantages tels que : mutuelle intéressante, subvention de l’employeur pour la restauration, 3 semaines de congés en plus du légal, congés supplémentaires en fonction de l’ancienneté, 1% logement, comité économique et social, partenariat avec Science Accueil permettant aux collaborateurs étrangers d’obtenir notamment un accompagnement dans les démarches administratives.

Formation et compétences requises :
–

Adresse d’emploi :
Détails à l’adresse suivante : https://www.irt-systemx.fr/recrutement/ingenieur-chercheur-en-gestion-de-connaissances-ontologies-web-semantique-et-apprentissage-f-h/

Poste d’Ingénieur-Chercheur en Gestion de connaissances, ontologies, web sémantique et apprentissage

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IRT SystemX
Durée : CDI
Contact : sana.tmar@irt-systemx.fr
Date limite de publication : 2022-06-30

Vos missions principales consistent à :

Selon votre profil et vos préférences, vous pourrez évoluer par la suite vers un poste d’Expert, de Chef de projet ou/et Responsable d’équipe/Responsable d’axe.

Les missions seront amenées à évoluer selon les projets mais portent pour le démarrage sur :

Profil du candidat :
Issu d’une formation Bac + 5 minimum, de profil ingénieur ou docteur avec une spécialisation dans la représentation de connaissance, ou en NLP.

Compétences techniques :

Qualités professionnelles et relationnelles :

L’IRT SystemX est engagé en faveur de l’égalité des chances. A ce titre, tous nos postes sont ouverts aux candidats en situation de handicap.

Au cours de notre processus de recrutement, vous rencontrerez le responsable d’équipe, le chef de projet et une collaboratrice du service RH puis éventuellement le Directeur Recherche & Technologies de notre institut.

Formation et compétences requises :
–

Adresse d’emploi :
Tous les détails à l’adresse suivante :
https://www.irt-systemx.fr/recrutement/ingenieur-chercheur-en-gestion-de-connaissances-ontologies-web-semantique-et-apprentissage-f-h/

Maximum de vraisemblance et apprentissage informé pour l’imagerie dynamique en réseau

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : ENS-ParisSaclay/SATIE
Durée : 36 mois
Contact : pascal.larzabal@universite-paris-saclay.fr
Date limite de publication : 2022-06-30

Contexte :
Le “Square Kilometer Array” (SKA) [1-2] est un projet de radiotélescope géant, de surface collectrice équivalente à un kilomètre carré. Il est constitué de plusieurs réseaux interférométriques dans les longueurs d’onde métriques et centimétriques. Il est prévu de déployer SKA sur deux sites, l’un en Afrique du Sud (SKA-mid pour les hautes fréquences) et l’autre en Australie (SKA-low pour les basses fréquences). Le déploiement se déroulera en deux phases séparées dans le temps: La phase 1 (SKA1) débute en 2021 par la construction prévue pour 2030 d’environ 200 antennes paraboliques (15 m de diamètre, bande passante 350MHz-13GHz) en Afrique du Sud et 130 000 antennes phasées (antenne log périodique à double polarisation bande passante (50MHz-350MHz) travaillant aux basses fréquences dans l’ouest australien. Ce radiotélescope géant sera évolutif mais une mise en service partielle aura lieu dès 2024. Dans cette configuration, SKA1 représentera un saut qualitatif immense par rapport aux instruments existants, et permettra des avancées décisives dans toutes les thématiques de l’astrophysique et de la physique modernes, comme la cosmologie, l’origine des champs magnétiques cosmiques, les ondes gravitationnelles, le milieu interstellaire, la formation des étoiles aux différentes époques de l’univers, les sursauts radio rapides … Depuis le début, SKA a été conçu pour accéder à un champ d’exploration exceptionnel au travers de la combinaison de caractéristiques (sensibilité, champ de vue, résolution, couverture en fréquence) qui seront d’un ordre de grandeur supérieur à celles des instruments radio à basses et moyennes fréquences existants. Une capacité; sans égale d’obtenir des images très nettes avec des temps de pose assez courts permettra à ce nouvel observatoire de balayer le ciel rapidement et en profondeur. La Phase 2 est envisagée pour les années 2030+. Dans cette configuration finale, SKA2 sera l’instrument ultime de la radioastronomie basse-fréquence du 21ème siècle. Dès la phase1 SKA1 sera l’une des plus formidables machines jamais déployées par l’homme, et de loin la plus impressionnante en termes de débit de données et de puissance de calcul engagée.

Sujet :
La problématique

L’imagerie radioastronomique du ciel est traditionnellement effectuée par des techniques d’interférométrie dont le pouvoir de résolution (finesse des détails de l’image) est directement lié à l’étendue du réseau d’antenne, c’est à dire la distance séparant ses antennes les plus éloignées [3-5]. Cela veut dire qu’avec les techniques d’imagerie actuelles l’amélioration ne peut passer que par des radiotélescopes de plus en plus ‘grands’. Ceci est d’autant plus contraignant que les fréquences analysées sont basses. C’est une course au gigantisme à laquelle se livre la communauté des radioastronomes. Concernant le contraste de l’image, il est intimement lié à la qualité de la déconvolution itérative utilisée et dont un représentant emblématique est l’algorithme CLEAN. Une telle déconvolution, si elle est mal maîtrisée, peut altérer de manière irréversible les images. La surface collectrice de SKA qui sera disponible, et par la même la sensibilité de l’instrument, est telle que pour envisager d’en exploiter pleinement la potentialité il est nécessaire de procéder à une rupture technologique dans les techniques d’imagerie employées. Il faut en proposer des plus performantes en changeant de paradigme.

Méthodologie et Solutions proposées

Il nous semble dès lors pertinent de développer des techniques d’imagerie par maximum de vraisemblance [6] car le pouvoir de résolution de ces dernières n’est pas limité par l’étendue du réseau mais uniquement par le nombre d’observations disponibles. Autrement dit, en ambiance stationnaire pour une configuration de réseau donnée, on peut améliorer le pouvoir de résolution en augmentant le nombre d’observations. Ceci n’est pas possible avec les techniques actuelles de radio interférométrie basées sur des transformées de Fourier bidimensionnelle. Les chercheurs en traitement du signal doivent accompagner la communauté des radioastronomes dans la mutation technologique qu’elle vit en passant des paraboles (limitées en dimension) aux réseaux phasés sur lesquels une formation de voies permet de synthétiser un radiotélescope numérique et très flexible [7]. Il faut dès lors changer aussi de paradigme dans les algorithmes d’imagerie pour exploiter pleinement les caractéristiques exceptionnelles de SKA. Les méthodes de maximum de vraisemblance ont déjà fait leur preuve dans plusieurs domaines, mais elles sont parfois délaissées à cause de leur prétendue grosses charges de calcul. Dans [8] nous avions montré sur le radiotélescope d’Arecibo (Porto Rico) comment une méthode de maximum de vraisemblance à faible cout calculatoire permettait de séparer les échos doppler provenant des hydrométéores, des échos provenant du vent en évitant d’utiliser 2 radars à des fréquences distinctes pour retrouver le profil du vent en altitude. Afin d’améliorer la résolution et le contraste des images, nous allons travailler ici sur des critères du maximum de vraisemblance paramétré ou non selon les a priori disponibles sur l’image à former [9]. Notons que de telles techniques n’ont a priori pas besoin de déconvolution. Une variante intéressante à étudier pourra être l’algorithme EM (Expectation-maximisation), car elle permet d’accélérer la convergence quand on ne peut pas traiter le Maximum de vraisemblance directement. Des extensions permettant de prendre en compte la polarisation des ondes, et même les 4 paramètres de Stokes seront développées. Ces différents critères sur lesquels sont basés nos algorithmes pourront éventuellement être régularisés par la norme 0 de la solution (l’image) afin d’exploiter la parcimonie de la solution recherchée [10]. En effet quand seules quelques sources sont présentes sur la carte du ciel, la quasi-totalité des pixels sont du bruit. Une telle optimisation est non convexe et non différentiable et sa résolution fera appel aux résultats d’optimisation les plus récents dans le domaine.

L’efficacité opérationnelle des algorithmes précédents repose cependant sur la validité et la précision du modèle exploité dans les algorithmes. Nous proposerons pour ces divers algorithmes une mise en œuvre sous forme d’’algorithm unrolling’[11]. En effet l’utilisation de ‘model based deep learning techniques’ permettra de donner des degrés de liberté au modèle de réception postulé. Le déroulement de l’algorithme itératif sur les couches successives du réseau de neurones bénéficiera de l’adjonction structurelle de paramètres supplémentaires liés aux connexions entre les neurones (par exemple les biais). Ces degrés de liberté supplémentaires pourront par exemple pallier la méconnaissance des paramètres de calibration (par exemple perturbations non maitrisées liées à la traversée de l’ionosphère). Il s’agit ici d’une alternative au deep neural network dont l’opacité de l’apprentissage statistique total peut s’avérer parfois déroutante. L’apprentissage évoluerait alors autour d’une boussole pointée et contrôlée par le modèle de l’observation. L’adaptation des paramètres supplémentaires serait seul sujet à un apprentissage statistique ‘aveugle’. Il sera alors intéressant de procéder à une comparaison des méthodes de traitement de problème inverse entièrement fondés sur le seul modèle de réception avec celles fondées sur le model based deep learning’ et aussi celles sur le total deep neural network. Une telle comparaison apportera sa pierre à l’édifice dans le débat qui a lieu à ce sujet entre les communautés traitement du signal d’une part et apprentissage statistique de l’autre.

Les retombées de ce travail sur l’imagerie à haute résolution par maximum de vraisemblance serviront les astrophysiciens dans leurs travaux de recherche mais ils pourront aussi intervenir dans la phase de définition et conception de l’après 2030 pour SKA. En effet rien n’est encore décidé sur l’emplacement des antennes qui resteront à installer.

Plan de travail
1 Bibliographie en radioastronomie et traitement d’antenne
2 Etude des limitations de l’interférométrie
3 Développement des méthodes du maximum de vraisemblance
4 Prise en compte de la parcimonie
5 Développement des méthodes dans un cadre de ‘model based deep learning’
6 Validation/Immersion dans un observatoire avec des radioastronomes

Références bibliographiques
[1] Chiara Ferrari Le Square Kilometre Array (SKA) : un radiotélescope géant pour étudier l’aube et l’évolution du cosmos Reflets phys. N°67 (2020) 10-14

[2] C. Ferrari et al., French SKA White Book – ”The French community towards the Square Kilometre” Array ”, Published by the SKA-France Coordination in collaboration with AS SKA-LOFAR, arXiv:1712.06950, 2017.

[3] E. Boyer, P. Forster et P. Larzabal, ‘Non Asymptotic Performance Analysis of Beamforming with Stochastic Signals’, IEEE Signal Processing letters.Volume 11, Number 1, pp. 23-25, Jan 2004.

[4] E. Boyer, P. Forster et P. Larzabal, ‘ Nonasymptotic Performance Analysis of Beamforming for Deterministic Signals’, IEEE Signal Processing letters.Volume 11, Number 1, pp. 20-22, Jan 2004 .

[5] S. J. Wijnholds and A.-J. van der Veen, “Fundamental imaging limits of radio telescope arrays” IEEE Journal of Selected Topics in Signal Processing, vol. 2, no. 5, pp. 613

Profil du candidat :
Candidat ayant effectué un master en mathématiques appliquées et/ou traitement du signal.

Formation et compétences requises :
mathématiques appliquées (statistique, optimisation, apprentissage)

Adresse d’emploi :
ENS-ParisSaclay : 660 Av. des Sciences Bâtiment, 91190 Gif-sur-Yvette

Semantic Graph Mining for Black-Box Optimisation

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6, Sorbonne Université
Durée : 3 ans
Contact : marie-jeanne.lesot@lip6.fr
Date limite de publication : 2022-04-25

Contexte :
The general aim of the thesis is to exploit expert knowledge regarding properties of optimisation algorithms and problems, represented in the formal frameworks of ontologies and conceptual graphs, and to develop tools to extract automatically underlying correlations: the objective is to allow understanding the reasons why an algorithm is more appropriate than others to solve a problem depending on its characterisation and possibly to offer new tools to configure optimisation algorithms.

Sujet :
The thesis work will explore new methods for analysing conceptual graphs and in particular design dedicated frequent pattern mining algorithms: the aim is to identify subgraphs that occur frequently and can thus be interpreted as relevant regularities, exploiting the particular characteristics of conceptual graphs so as to improve both their efficiency and the relevance of the extracted patterns.
The developed approaches will be used for the exploitation of the OPTImisation algorithm benchmarking ONtology OPTION, with the general goal to derive recommendations for algorithm selection.
The thesis is expected to contribute at the cross-roads of the domains of knowledge representation, pattern mining and black-box optimisation.

Profil du candidat :
A Master’s degree in a quantitative field such as Computer Science, Engineering, Statistics, Operations Research, Mathematics is required. We expect willingness to conduct empirical research as well as experience with the python programming language. Since the student will be working in an international research team, they must be proficient in written and spoken English. Knowledge of French is not required. International students are very welcome to apply.

Formation et compétences requises :
Master’s degree in a quantitative field such as Computer Science, Engineering, Statistics, Operations Research, Mathematics
Python programming language

Adresse d’emploi :
LIP6, UMR7606
Sorbonne Université
4 place Jussieu
75005 Paris

Document attaché : 202204080914_2022thesisLIP6GraphMiningForBlackBoxOptimisation.pdf

GraphologIA : Actionner les méga-graphes de données dans les dataflows d’apprentissage automatique

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6 – Sorbonne Université
Durée : 3 ans
Contact : Hubert.Naacke@lip6.fr
Date limite de publication : 2022-05-30

Contexte :
Projet doctoral pré-sélectionné par l’institut SCAI de Sorbonne Université
https://www.sorbonne-universite.fr/projets-proposes-en-2022-programme-instituts-et-initiatives

Contexte :
Omniprésence des méga-graphes. Dans de nombreux domaines applicatifs les objets étudiés sont structurés en graphe car ce modèle apporte de la flexibilité et de l’extensibilité dans la représentation des données et leur gestion: graphe de connaissances, d’interaction entre molécules, réseaux sociaux, relations entre lieux et événements. D’après Gartner, ces graphes seront au cœur de 80% des analyses de données dès 2025. Dans un contexte big data, la capacité d’acquisition de données ne cesse de croître et entraîne une croissance des besoins pour manipuler des graphes toujours plus grands, complexes et variables dans le temps. Ces derniers sont qualifiés de méga-graphes de données (big data graphs).

Sujet :
Voir le sujet détaillé sur :
http://www.sorbonne-universite.fr/sites/default/files/media/2022-03/03257_172_prd-scai-2022-graphologia-v2.pdf

L’objectif de cette thèse est de concevoir un framework efficace pour construire et analyser de manière automatique des méga-graphes à partir de données hétérogènes et dynamiques. Cela permettra d’exécuter plus efficacement à la fois la préparation des données d’apprentissage et l’entraînement du modèle d’apprentissage.
Ce framework devra permettre d’accomplir les tâches suivantes dans l’analyse et la préparation des données pour les tâches d’apprentissage :
● Compréhension fine des données initiales et de leur dynamique
● Unification et alignement de données
● Exécution incrémentale efficace du processus d’alignement du graphe

La clé de l’approche est un langage déclaratif de haut niveau pour définir chaque étape du cycle dit dit d’ingénierie IA
● Définition d’un langage déclaratif de haut niveau pour décrire de manière logique et déclarative le processus qui transforme les données initiales vers un graphe
● Conception de nouvelles méthodes d’indexation pour accéder de manière aléatoire à diverses zones du graphe, tout en minimisant la latence, quelle que soit la taille du graphe.
● Validation expérimentale du bénéfice du framework.

Profil du candidat :
M2 ou bac+5 en informatique

Formation et compétences requises :
Nous recherchons un.e candidat.e motivé.e avec des bonnes compétences en bases de données (SQL, indexation), algorithmique et programmation (Python, Java).
Des connaissances en optimisation de requêtes, en algorithmique sur les graphes et en apprentissage automatique sont un plus.

Adresse d’emploi :
LIP6, Sorbonne Université, 5 place Jussieu, 75005 PARIS

Document attaché : 202204070955_PRD_SCAI_2022_graphologIA_v3.pdf

Deep learning for wavefront sensing and control in view of exoplanet imaging

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Observatoire de Paris (LESIA) / ONERA (DOTA)
Durée : 3 ans
Contact : johan.mazoyer@obspm.fr
Date limite de publication : 2022-06-20

Contexte :
Direct imaging of circumstellar environments is aspiring to detect and analyze faint exoplanets (planet orbiting another star). The flux ratio between an Earth-like planet and a sun-type star is typically 10 billion in the visible, at a fraction of arcsecond. The observation and spectral characterization of these objects therefore require a combination of high angular resolution and of high contrast imaging techniques, with instruments called coronagraphs.

Sujet :
State of the art coronagraph designs (space or ground-based) are currently limited by residual aberrations, due to the atmosphere or directly to the optics surface quality. These aberrations create stellar leakage (speckles) in the focal plane that masks the fainter planets or disks. The goal of active instrumentation for coronagraphy is to correct these aberrations to detect exoplanets. Recent improvements in deep neural network architectures, as well as increasing computational capabilities, offer new solutions to control these aberrations. We propose to combine previous model-based control techniques with machine learning to produce fast and efficient correction of optical aberrations.

Profil du candidat :
We are looking for a candidate with a dual set of interests both in physics / Astronomy and in Computer Science / Applied math. The candidate can be a specialist in only one of those fields but should be willing to quickly learn about the other.
The mentoring team is composed of experts in Machine Learning / Astronomie / Applied Math to help the candidate lear efficiently in those subjects.

Formation et compétences requises :
Master degree in Signal/Image processing or Applied Math, with an interest in astronomy / experimental physics
Master degree in Physics or Astronomy or with an strong interest for AI and experimental physics

Level of French required: None

Level of English required: Advanced: You can speak the language more complexly, spontaneously and on a variety of topics.

Adresse d’emploi :
Observatoire de Paris, site de Meudon
5 Pl. Jules Janssen, 92190 Meudon

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Archives

Chaire de Professeur Junior – IA hybride – Montpellier

Offre de thèse au LAMSADE

Approches déclaratives efficaces pour l’extraction des motifs d’intervalles fermés

Modélisation de l’évolution physiologique d’un patient en réaction à un process de soins.

Poste d’Ingénieur-Chercheur en Gestion de connaissances, ontologies, web sémantique et apprentissage

Poste d’Ingénieur-Chercheur en Gestion de connaissances, ontologies, web sémantique et apprentissage

Maximum de vraisemblance et apprentissage informé pour l’imagerie dynamique en réseau

Semantic Graph Mining for Black-Box Optimisation

GraphologIA : Actionner les méga-graphes de données dans les dataflows d’apprentissage automatique

Deep learning for wavefront sensing and control in view of exoplanet imaging