Réunion ComDir

Two postdoctoral fellows – AI for breast cancer screening

Offre en lien avec l’Action/le Réseau : DOING/Doctorants

Laboratoire/Entreprise : ETS Montréal, CentraleSupelec
Durée : 18 months
Contact : pablo.piantanida@mila.quebec
Date limite de publication : 2024-02-29

Contexte :
We are excited to share an interesting opportunity for two postdoctoral fellows, each with an 18-month tenure, to actively contribute to groundbreaking research in the field of AI for breast cancer screening.

Sujet :
Our project, funded by FRQS and Health Data Hub, titled “AI Foundation Models for Breast Cancer Screening: Advancing Early Detection through AI,” is calling for skilled individuals to become part of our international team between the International Laboratory on Learning Systems (ILLS) together with the Quebec AI Institute, located in Montreal (QC, Canada), and MICS located in CentraleSupelec within Paris-Saclay University (France). This role offers a key position in shaping the development and progress of AI-driven solutions for early breast cancer detection.

For further details check: https://sites.google.com/mila.quebec/pablo-piantanida/openings?authuser=0#h.kyzvdsd2q45m

Profil du candidat :
= Position Qualifications =
+ PhD program in Computer Science, Machine Learning, Computer Engineering, Mathematics, or related field (e.g. applied mathematics/statistics).
+ Very good understanding of Machine Learning theory and techniques, as well as of computer vision.
+ Strong publication track in recognized venues of computer vision (CVPR, ECCV, ICCV), machine learning (NeurIPS, ICLR, ICML) and/or medical image computing (MedIA, IEEE TMI, MICCAI).
+ Good programming skills in Python (PyTorch).
+ Applications/ domain-knowledge in medical image processing is a plus.
+ Good communication skills in written and spoken English.
+ Creativity and ability to formulate problems and solve them independently.

Formation et compétences requises :
= How to apply =
If you are interested, please send us the following elements as soon as possible
and not later than January 20th:
+ Detailed CV.
+ Letter of motivation.
+ Elements of bibliography or personal achievements related to a research activity.
+ 2 references or recommendation letters.

If you are interested and meet the qualifications, please submit your application letter and CV by email.

Adresse d’emploi :
ETS Montreal (1100 Notre-Dame St W, Montreal, Quebec H3C 1K3) and CentraleSupelec (3 Rue Joliot Curie, 91190 Gif-sur-Yvette)

Document attaché : 202401040542_Postdoc Fellowships.pdf

Challenges of Mixed Data Clustering

Offre en lien avec l’Action/le Réseau : SimpleText/– — –

Laboratoire/Entreprise : DVRC
Durée : 4 mois
Contact : sonia.djebali@devinci.fr
Date limite de publication : 2024-02-29

Contexte :
Industrial context

The energy sector is in the midst of significant transformation, prompted by the need to increase the use of renewable energy sources and improve energy efficiency, becoming a Smart Grid. This cutting-edge technology allows for the analysis, management, and coordination of energy production, consumption, and distribution, all with the goal of promoting more sustainable practices. A challenge arises from the fact that the data is mixed, containing both numerical and categorical information, often in the form of a data stream. Analyzing this kind of data requires adapted methods. As a result, traditional methods that are designed for numerical data are not well-suited to this type of data.
Advanced tools for analyzing complex systems that can handle rich and heterogeneous data are crucial for Trusted Third Parties for Energy Measurement and Performance to provide independent energy performance analysis and recommendations for clients. It is important that these tools are also easily interpretable by energy experts to facilitate classification and recommendation.
Creating clusters of similar buildings is an effective way to handle complex energy data. Hierarchical clustering of mixed data is a crucial approach that allows energy experts to easily associate clusters with recommendations. It is an essential tool for not only the energy sector but also has diverse applications in fields such as biology, medicine, marketing, and economics.

Sujet :
Scientific context

Although mixed data is widespread, clustering tools specifically designed for it are limited. Some of the bottlenecks have already been defined in a previous scientific paper. Here is a non-exhaustive list of bottlenecks one can encounter when handling mixed data in a pipeline:

Data preprocessing: Data preprocessing is a critical step in mixed data clustering like handling missing data, encoding categorical data, and scaling numerical data.
Feature selection: Mixed data clustering requires feature selection to be performed before clustering. However, selecting relevant features can be a challenging and time-consuming task.
Metric selection: Choosing the right distance metric to measure the similarity between different data types.
Evaluation: There is a lack of standard evaluation criteria for mixed data clustering, which makes it hard to compare different methods.
Computational complexity: Mixed data clustering involves dealing with different types of data and distance metrics, which can result in high computational complexity.
Visualization: It is difficult to create visualizations that effectively communicate the relationships between different data types.
Interpretation: Understanding the relationships between different data types can be challenging, especially if the clusters are not well-separated or the data are altered before using any methods.

Profil du candidat :
Etudiant(e) de niveau M1 ou M2 en informatique (Master ou école d’ingénieurs).

Formation et compétences requises :
Connaissance en Machine Learning, Clustring, Python et expérience dans l’utilisation de bibliothèques de ML,
Forte appétence pour la recherche académique
Capacité à effectuer des recherches bibliographiques
Rigueur, synthèse, autonomie, capacité à travailler en équipe

Adresse d’emploi :
Pole Léonard de Vinci
92 916 Paris La Défense Cedex

Document attaché : 202312221037_2024_Stage_MixedData.pdf

Stage M2 : Deep learning faiblement supervisé pour l’aide au diagnostic du lymphome

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : GREYC UMR CNRS 6072
Durée : 5/6 mois
Contact : olivier.lezoray@unicaen.fr
Date limite de publication : 2024-03-31

Contexte :
Le lymphome est une pathologie cancéreuse caractérisée par la prolifération de cellules du système lymphatique. Il s’agit en réalité plus « des lymphomes » que « du lymphome » de par la variété des différentes cellules qui peuvent proliférer et des variétés de la gravité des différents lymphomes. Le diagnostic se fait en anatomie et cytologie pathologiques à partir de prélèvements dans le ganglion. A partir de ces prélèvements, on réalise – entre autres – une lame de cytologie par apposition : les cellules du ganglion sont déposées sur une lame de verre et colorées pour en observer les caractéristiques. Or, en dehors de certaines situations évidentes, les cellules de la plupart des différents types de lymphomes ont des caractéristiques morphologiques difficiles à discriminer avec l’œil humain. Il serait donc intéressant d’entrainer un programme d’intelligence artificielle à identifier (ou non) ces caractéristiques à partir d’une banque de lames de cytologie d’empreintes ganglionnaires lymphatiques, dont le diagnostic de lymphome (et de son type) est établi.

Sujet :
La pathologie computationnelle est un domaine en plein essor qui s’avère très prometteur pour amé- liorer l’accès aux soins de santé. En particulier, l’aide au diagnostic a fortement évolué ces dernières années avec l’utilisation d’approches de deep learning. Si ces méthodes permettent d’extraire des caractéristiques plus discriminantes à des fin de diagnostic, elles sont très couteuses en volume de données nécessaire. En effet, cela demande aux pathologistes de réaliser des annotations au niveau pixel de scans de grande taille de lames (au niveau du gigapixel) afin que les modèles puissent effectuer leur apprentissage supervisé. Pour surmonter cette limitation en pathologie digitale, des approches faiblement supervisées sont apparues. Cette fois la lame scannée reçoit une unique annotation avec des caractéristiques provenant des tuiles de la lame scannée. Pour l’apprentissage, les tuiles peuvent toutes hériter du label de la lame ou bien des sacs de tuiles héritent du label (apprentissage à instances multiples). La prédiction médicale se fait alors au niveau de la lame entière : une lame est positive si elle contient au moins une tuile tumorale. Ces approches sont très prometteuses [1] et nous souhaitons les explorer pour l’aide au diagnostic de lames d’empreintes ganglionnaires lymphatiques dans un contexte de suspicion de lymphome.

Profil du candidat :
— Etudiant.e en Master 2 Recherche ou en dernière année d’école d’ingénieur, spécialisé en informatique, image et/ou intelligence artificielle.

Formation et compétences requises :
— Une formation en machine et deep learning est indispensable.
— Des connaissances et expériences en apprentissage profond et programmation (Python, Tensor-
Flow/PyTorch) sont nécessaires.
— Autonomie et curiosité pour la recherche scientifique.

Adresse d’emploi :
Laboratoires : Laboratoire GREYC (UMR CNRS 6072), CHU de Normandie
Encadrants : Marie-Laure Quintyn-Ranty (Praticien Hospitalier CHU Caen Normandie), Olivier Lézoray (PR UNICAEN), Alexis Lechervy (MC UNICAEN).
Stage : Durée de 5-6 mois, à Caen, au Campus 2, ENSICAEN, Bâtiment F.

Document attaché : 202312220817_sujetMasterCHU2024.pdf

ACM Reproducibility and Replicability – Save The Date! June 18-20

Date : 2024-06-18 => 2024-06-20
Lieu : Rennes, France

Save the date! The ACM Conference on Reproducibility and Replicability will take place on:

June 18-20, 2024 at INRIA, Rennes, France
This will be a hybrid event – remote participation is welcome.
https://acm-rep.github.io/2024

About ACM REP
The 2024 ACM Conference on Reproducibility and Replicability (ACM REP ‘24) aims to bring together experts and practitioners engaged in the advancement and conduct of reproducible science in computing disciplines.

What’s next?
The call for paper will open soon, the deadline for paper submission will be: January 29, 2024.

For more info: https://acm-rep.github.io/2024

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Poste PR 27 – Sorbonne Université : Traitement et représentation de données et de connaissances pour l’Intelligence Artificielle

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6 – Sorbonne Université – UFR 919
Durée : indéterminée
Contact : bernd.amann@lip6.fr
Date limite de publication : 2024-04-21

Contexte :
Le profil de recherche se situe à l’interface des domaines de la Science des Données, de l’Intelligence Artificielle et des Bases de Données. Les objectifs sont d’une part de renforcer les activités de recherche sur le traitement et la représentation des données pour leur transformation en modèles exploitables par les systèmes intelligents et en connaissances interprétables par les humains, et d’autre part de structurer ces thématiques de recherche transverses aux trois équipes BD, LFI et MOCAH du laboratoire LIP6.

Le profil d’enseignement couvre de nombreuses thématiques d’enseignement (Bases de Données, Sciences des données, Big Data, IA….). Ce recrutement a pour objectif l’amélioration du ratio PR/MC et s’inscrit également dans le projet d’établissement de Sorbonne Université et en particulier dans l’objectif de former davantage d’étudiants au numérique et à la science des données (Licence, Master et Formation Continue), et dans le renforcement des collaborations avec l’Institut SCAI.

Laboratoire d’accueil: Le LIP6, UMR 7606, Unité Mixte de Recherche CNRS et Sorbonne Université, est un laboratoire de recherche en informatique se consacrant à la modélisation et la résolution de problèmes fondamentaux motivés par les applications, ainsi qu’à la mise en œuvre et la validation des solutions au travers de partenariats académiques et industriels. Les 19 équipes du LIP6 articulent leurs activités autour de quatre axes transverses : « Intelligence artificielle et science des données », « Architecture, systèmes et réseaux », « Sécurité, sûreté et fiabilité », « théorie et outils mathématiques pour l’informatique ».

Sujet :
Profil Recherche

L’IA et les données : Dans beaucoup d’applications du monde réel, certaines solutions d’intelligence artificielle (IA), et en particulier les méthodes statistiques, reposent sur la disponibilité de grandes quantités de données. Dans ce contexte, une bonne intégration entre les infrastructures de gestion et d’analyse des données et les outils d’IA joue un rôle essentiel dans le développement d’applications efficaces et pérennes. La fertilisation entre les domaines des bases de données (BD) et de l’IA est une voie à double sens. Tout d’abord, dans le sens de “l’IA pour les BD”, les nouvelles méthodes et les nouveaux modèles de l’IA peuvent être appliqués à l’automatisation et à l’optimisation des pipelines de gestion et d’analyse de données massives. Deuxièmement, dans le sens des “BD au service de l’IA”, les méthodes de gestion de données peuvent apporter plus d’efficacité et d’expressivité à l’ingénierie des données et des modèles d’apprentissage machine mobilisés dans les pipelines d’analyses prédictives.

L’IA et la connaissance : Les modèles d’IA centrés sur l’humain peuvent combiner des données provenant de traces d’interaction avec l’utilisateur, des connaissances de ces utilisateurs, ainsi que la prise en compte d’informations et de connaissances subjectives. Les algorithmes et méthodes dans ce domaine doivent raisonner dans l’incertain, dans l’imprécis et sur des connaissances subjectives ou mal définies, tout en étant capables d’expliquer et de justifier leur raisonnement. Elles doivent être interprétables pour que leur construction, leur représentation et leurs décisions puissent être compréhensibles, acceptées et adoptées par leurs utilisateurs. De plus, ces modèles doivent être dynamiques, capables d’évoluer au fur et à mesure des interactions avec leurs utilisateurs et de s’intégrer dans les systèmes d’information.

Profil Enseignement

La personne recrutée interviendra de façon équilibrée sur les différents niveaux de formation, du L1 au M2. La personne recrutée contribuera significativement aux enseignements de Licence d’informatique dont les besoins couvrent l’ensemble de la discipline (algorithmique, programmation (notamment objet, concurrente, fonctionnelle, web),
mathématiques discrètes, structures de données, système, architecture, réseaux, compilation, bases de données…)

En Master, selon son profil, la personne recrutée renforcera les enseignements du parcours « AgeNts Distribues, Robotique, Recherche Opérationnelle, Interaction, DEcision » (ANDROIDE) et/ou des autres parcours avec une forte composante IA.

Contact

Recherche : Fabrice Kordon ([Fabrice.Kordon@lip6.fr](mailto:Fabrice.Kordon@lip6.fr))

Enseignement:
Licence d’informatique : Jean-Lou Desbarbieux, directeur [(jean-lou.desbarbieux@lip6.fr](mailto:jean-lou.desbarbieux@lip6.fr))

Master d’informatique: Fourmaux, directeur [(olivier.fourmaux@sorbonne-universite.fr](mailto:olivier.fourmaux@sorbonne-universite.fr))

Profil du candidat :
Le profil du candidat doit correspondre aux thématiques de recherche et d’enseignement du poste.

Formation et compétences requises :
Candidats titulaires, à la date de clôture des inscriptions, d’une habilitation à diriger des recherches. Le doctorat d’Etat est admis en équivalence de l’habilitation à diriger des recherches.
Les titulaires de diplômes universitaires, qualifications et titres de niveau équivalent peuvent être dispensés de la possession de l’habilitation à diriger des recherches par le CNU.
Les candidats exerçant une fonction d’enseignant-chercheur, d’un niveau équivalent à celui de l’emploi à pourvoir, dans un établissement d’enseignement supérieur d’un État autre que la France, titulaires de
diplômes universitaires, qualifications et titres de niveau équivalent peuvent être dispensés de la possession de l’habilitation à diriger des recherches par le conseil académique.

Adresse d’emploi :
Sorbonne Université (UP6) – FACULTE DES SCIENCES – UFR 919 Ingénierie
Campus Pierre et Marie Curie, 4 place Jussieu 75005 Paris

Document attaché : 202312211431_35_LIP6_Traitement_representation_PR27_EC.pdf

Self Supervised Learning pour la détection d’objets de petite taille

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ONERA Palaiseau / SATIE
Durée : 36 mois
Contact : sidonie.lefebvre@onera.fr
Date limite de publication : 2024-06-20

Contexte :
Le développement de capteurs qui permettent d’acquérir de façon simultanée des images dans plusieurs bandes spectrales du visible à l’infrarouge lointain et leur exploitation automatique, rendue possible grâce à l’essor des méthodes de machine learning, ont permis de réaliser ces 20 dernières années de grands progrès en détection, reconnaissance et identification (DRI). Cependant, il demeure difficile de détecter des objets de petite taille (entre 1 et 50 pixels de surface), notamment quand ils présentent un faible contraste par rapport au fond ou quand on cherche à les détecter sur un fond texturé comme un ciel nuageux.
Malgré les progrès récents et impressionnants réalisés par les méthodes d’apprentissage profond dans les tâches de détection d’objets, les réseaux neuronaux (NN) traditionnels pour la détection d’objets ont du mal à trouver un équilibre entre un taux de détection élevé et un faible taux de fausses alarmes, ce qui se traduit par une dégradation de performances lorsqu’il s’agit de détecter des petites cibles. Cela s’explique par la complexité de l’apprentissage : les détecteurs doivent apprendre à extraire les caractéristiques de la cible à partir de peu de données, où le nombre de pixels de la classe objet est très faible par rapport à celui de la classe d’arrière-plan.

Sujet :
Pour résoudre ce problème, nous avons proposé, dans le cadre de la thèse d’A. Ciocarlan (2021-2024), un nouveau paradigme d’apprentissage basé sur un raisonnement a contrario, qui s’inspire de la théorie de la perception, en particulier de la théorie de la Gestalt. Les méthodes a contrario nous permettent de dériver automatiquement un critère de décision en modélisant le fond à l’aide d’un modèle naïf et en détectant les objets comme étant trop structurés pour apparaître “par hasard” selon le modèle naïf. Concrètement, notre méthode [Ciocarlan2023] consiste à guider l’apprentissage du NN en incluant un critère a contrario dans la boucle d’apprentissage. Le module NFA (pour Number of False Alarms) associé améliore considérablement les performances de ces algorithmes et a montré une robustesse impressionnante envers le contexte frugal dans le cas de données monospectrales infrarouge.

L’objectif de la thèse portera en premier lieu sur l’adaptation de cette méthodologie pour des données temporelles et multispectrales. Cette extension soulève à la fois la question de l’évolution de l’architecture des réseaux mais aussi, du fait de la difficulté à disposer de grandes bases de données annotées, de l’apport des méthodes de pré-entrainement d’une partie du réseau sur des données non labélisées via une tâche prétexte (SSL – self supervised learning). L’enjeu sera de définir une tâche prétexte pertinente pour la détection de petits objets sur fonds texturés, en s’appuyant notamment sur les travaux à base de masked autoencoder [He2021] ou d’apprentissage contrastif intra-image [Zhao2021]. Pour l’aspect temporel, on pourra par exemple s’inspirer des méthodes qui proposent de coupler le réseau de détection avec des méthodes de pistage rapides comme celles à base de noyaux (kernelized correlation filter – KCF) [Fan2023].

Enfin, il est important lorsqu’on utilise des NN de contrôler l’incertitude associée à leur usage et d’être en mesure d’interpréter leurs prédictions. Le deuxième enjeu de la thèse portera donc à la fois sur l’explicabilité des prédictions de détection et sur la quantification des incertitudes (UQ) associées. On envisagera notamment des approches ensemblistes et/ ou conformes pour l’aspect UQ [deGrancey2022][Andéol2023] et des approches à base d’indices de sensibilité pour l’explicabilité [Novello2022], qu’il faudra adapter à la problématique de la détection de cibles de petite taille en multispectral. Ces travaux se feront dans le cadre du Groupement d’Intérêt Scientifique LARTISSTE (https://uq-at-paris-saclay.github.io/).

Profil du candidat :
Master 2 ou école d’ingénieur spécialité IA ou statistiques, UQ

Formation et compétences requises :
Compétences en statistiques, deep learning, pytorch

Adresse d’emploi :
ONERA Palaiseau
6 chemin de la Vauve aux Granges
91120 Palaiseau

Document attaché : 202312201546_DOTA-2024_thèse_SSL.pdf

Postdoc position at Météo-France (CNRM) in Artificial Intelligence for Numerical Weather Prediction

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre National de Recherches Météorologiques
Durée : 15 months
Contact : laure.raynaud@meteo.fr
Date limite de publication : 2024-06-20

Contexte :
This position is part of the DestinE Tender ‘DE_371’. Destination Earth (DestinE) is an initiative of the European Commission under the EU Digital Europe programme, alongside with ESA and EUMETSAT as partners. DestinE aims to deploy several highly accurate thematic digital replicas of the Earth, called Digital Twins (DTs). The Digital Twins will help monitor and predict environmental change and human impact, in order to develop and test scenarios that would support sustainable development and corresponding European policies for the Green Deal. Artificial Intelligence (AI) and, more precisely, Machine and Deep Learning (ML and DL) are important for DestinE on many different levels, in particular for uncertainty quantification. The aim of DE_371 is to demonstrate that ML/DL based methodologies can augment DestinE datasets and products with the purpose of better capturing uncertainty.

Sujet :
Currently operational weather forecasts rely on physically-based modelling approaches, and Numerical Weather Prediction (NWP) models are operated to determine atmospheric conditions for the next hours and days. In particular, Ensemble Prediction Systems (EPSs) aim at sampling the probability distribution of future atmospheric states, by running several NWP forecasts in order to account for the different sources of uncertainty. However, the design of EPSs is strongly constrained by available computational resources, and is often limited to O(50) forecasts. The goal of the position is to use generative ML techniques to increase the ensemble size by creating additional physically-consistent ensemble members tethered to a small ensemble, or single member deterministic input. Building on the innovative works of Brochet et al. (2023) with a GAN framework, several avenues for improvement will be explored, including the generation of temporal sequences, the production of a wider set of variables, and the comparison to other generative approaches such as diffusion models. A specific attention will be paid to the evaluation of the physical consistency of generated forecasts and of their capacity to significantly improve the statistical properties of the existing ensemble, including for instance the spread-error relationship, probabilistic skill scores and representation of extreme events.

Profil du candidat :
The ideal candidate would have the following qualifications :
– A PhD degree in atmospheric sciences, statistics or artificial intelligence
– A strong background in deep learning algorithms, in particular convolutional neural networks and deep generative models
– Experience in geophysical problems would be appreciated, at least a strong interest for applied research in atmopsheric physics is highly recommended
– Proficiency with Python programming and AI librairies (tensorflow, PyTorch)
– Experience with processing large volumes of data
– Experience of working in a Linux-based environment
– Aptitude for scientific work, written and oral communication in English, meetings abroad possible
– A scientific curiosity, autonomy, rigor in the interpretation of the results

Formation et compétences requises :
PhD degree.

Adresse d’emploi :
This work will be carried on in the Assimilation and Forecasting group of the Météo-France research department (CNRM), in Toulouse, France.

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Archives

Réunion ComDir

Réunion ComDir

Réunion ComDir

Two postdoctoral fellows – AI for breast cancer screening

Challenges of Mixed Data Clustering

Stage M2 : Deep learning faiblement supervisé pour l’aide au diagnostic du lymphome

ACM Reproducibility and Replicability – Save The Date! June 18-20

Poste PR 27 – Sorbonne Université : Traitement et représentation de données et de connaissances pour l’Intelligence Artificielle

Self Supervised Learning pour la détection d’objets de petite taille

Postdoc position at Météo-France (CNRM) in Artificial Intelligence for Numerical Weather Prediction