Lac de données et référentiels de métadonnées pour élaborer des indicateurs de développement durable de la ville à l’aide de l’open Big data. Application aux pratiques sportives en ville

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IGN/DVRC/CNAM
Durée : 36 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2022-05-25

Contexte :
La disponibilité croissante de données couvrant des aspects variés de notre réalité est une opportunité pour mieux observer et comprendre cette réalité dans sa complexité en exploitant et croisant ces données. Des approches internationales se penchent alors sur la définition d’indicateurs suffisamment comparables dans l’espace et dans le temps, à l’échelle des pays ou des villes, pour évaluer et comparer des situations. Un indicateur des ODD plus précis à considérer pour élaborer et valider notre proposition est l’indicateur ODD11.7 de l’ODD11 ; à savoir l’accès pour tous à des espaces publics sûrs, tels que les espaces verts, les espaces pour les pratiques sportives, etc. En particulier, un domaine qui nous intéresse ici est celui de la pratique sportive dans la ville durable et l’impact de l’organisation de (méga-) évènements sur ces villes et sur les pratiques sportives.
Un évènement sportif est un phénomène spatio-temporel qui affecte structurellement, économiquement et socialement un territoire (le lieu accueillant cet évènement), et générant ainsi un héritage (Harada, 2005 ; Preuss, 2019). L’étude de l’impact des évènements sportifs sur les territoires et sur les pratiques sportives, en comparant des situations par exemple avant et après un (méga-) évènement, ou encore entre deux villes différentes, nécessite l’exploitation de données massives connues par leur volume, variété et vélocité. Il est également indispensable de pouvoir les croiser au-delà des domaines couverts, et de maîtriser suffisamment les biais possibles de comparaison. Cela peut s’avérer particulièrement complexe quand les données sont hétérogènes, de volume, de vélocité et de variété qui peuvent surpasser les capacités des systèmes traditionnels de stockage et de traitement des données. Par exemple, la région Île-de-France possède près de 2,4 millions de licenciés, 19 100 clubs et plus de 101 000 emplois dans le domaine sportif et plus de 7 millions de Franciliennes et Franciliens pratiquent une activité physique et sportive de manière régulière, sans compter les infrastructures et les équipements des pratiques sportives (Gautier et al., 2017).
Diverses solutions informatiques sont avancées dans la littérature pour améliorer le croisement de données hétérogènes et mettre en place des SI plus ouverts, comme les lacs sémantiques. En géomatique, des référentiels de référencement direct ou indirect sont spécifiés et produits pour permettre que la caractéristique de localisation de sources diverses soit employée pour les croiser. Des modèles de métadonnées sont enfin proposés pour rendre compte de sources d’incertitudes et de biais.

Sujet :
Ces recherches visent à faciliter l’étude comparée de phénomènes localisés grâce à l’open data et à des solutions avancées d’intermédiation, que ce soit pour étudier un même espace à deux dates (avant et après un évènement) ou pour étudier deux espaces (deux villes différentes). Plus précisément, nous ne visons pas la production automatique d’un diagnostic, mais plutôt d’accroître l’exploitabilité croisée des données ainsi que l’accès aux métadonnées nécessaires à l’adoption d’une perspective critique sur les résultats.
Le sujet de la thèse porte plus précisément sur la structuration de données et de métadonnées en vue de permettre des analyses critiques et comparées relatives à l’impact d’évènements et mégaévènements sur les pratiques sportives en ville. Ce sujet prend tout son intérêt pour les collectivités territoriales, pour des porteurs de projets numériques autour des pratiques sportives et pour les sponsors de grands évènements tels que les JO’2024 et d’autres grands évènements sportifs internationaux (GESI), tels que Roland Garros, et de Grands Évènements Sportifs Nationaux (GESN), tels que la Parisienne.
Le verrou principal est l’absence de cadre unificateur pour mobiliser des données pourvues d’hétérogénéités sémantiques. Celui-ci s’intéresse donc à réconcilier cette hétérogénéité, mais également à faciliter la manipulation et l’analyse de données avec une forte connectivité.
L’approche se positionne dans le domaine de la modélisation sémantique (extraction et transformation de schémas pour des bases de données graphes) et de la qualité en géomatique (description explicite des informations utiles à l’interprétation des données et à la détection de biais possibles).
Deux cas d’étude plus précis seront considérés pour élaborer et valider la proposition :
– La comparaison des parcours sportifs en ville, à vélo ou à pied, avant et après un mégaévènement comme les JO à l’aide d’open data : quels référentiels de données et métadonnées pour permettre le croisement et la comparaison ? Pour ce qui est du référencement spatial, la thèse étudiera particulièrement les référentiels indirects adoptés par les communautés, c’est-à-dire la description d’une localisation dans une donnée par une référence vers un objet pourvu de coordonnées géographiques (ISO, 2003 ; Hill and Zheng, 1999 ; Chen et al., 2018). Pour ce qui est de la comparaison avant-après, une question concerne la valorisation durable d’un patrimoine, par exemple la promotion de lieux importants de l’histoire du sport cycliste lors de JO, comme l’INSEP ou le Vélodrome Jacques Anquetil, nouvelle dénomination de l’antique Cipale, ou encore le bâtiment où l’union cycliste internationale a été créée le 14 avril 1900, devrait permettre que ce patrimoine structure davantage de parcours après les JO qu’avant, soit en matière de tronçons parcourus ou de pauses. On étudiera dans cette thèse, a priori, quelles conditions de disponibilité de référentiels et de solutions de croisement de données permettront de conduire ces analyses a posteriori.
– La comparaison des parcours sportifs en ville, à vélo ou à pied, entre deux villes en se fondant sur des données produites par différentes administrations et participants et pourvues de biais différents.

Profil du candidat :
● Un CV,
● Une lettre de motivation adaptée au sujet proposé,
● Les relevés de notes des dernières années d’étude,
● L’avis du directeur de master (ou de la personne responsable du diplôme donnant l’équivalence du master), le cas échéant des lettres de recommandation.

Formation et compétences requises :
Le candidat doit répondre aux exigences suivantes :
● Possède de solides compétences en informatique, en science des données ou en mathématiques (Master 2 ou équivalent en Informatique ou en Sciences de l’Information Géographique),
● Possède de bonnes connaissances en modélisation des systèmes d’information,
● À un intérêt marqué pour la recherche en science des données et les applications réelles de l’analyse avec un goût pour la pluridisciplinarité orientée vers les sciences de la ville,
● Possède de solides compétences en développement de logiciels pour pouvoir réaliser des idées de recherche en matière de prototypes de logiciel,
● Possède d’excellentes compétences en communication en anglais.

Adresse d’emploi :
50% ALDV (Paris la défense)
50% IGN (Marne la vallée)

Document attaché : 202205091006_Sujet-de-these_IGN-CNAM-DVRC_2022-2025Apublier032022.pdf

Contributions au diagnostic et au pronostic des Hyperparathyroïdies basées sur la fusion des connaissances des experts et l’intelligence artificielle

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Femto-st
Durée : 3 ans
Contact : moncef.soualhi@univ-fcomte.fr
Date limite de publication : 2025-10-01

Contexte :
Médecine nucléaire

Sujet :
Dans le cadre de cette thèse, nous proposons une aide au diagnostic des pathologies des parathyroïdes pour lesquelles il n’existe pas de processus automatique de localisation, de visualisation et de détection. Les praticiens ont recours à l’imagerie nucléaire grâce à l’usage de deux radios traceurs avec différentes opérations de reconstruction 3D puis de soustraction avec mise en évidence des parathyroïdes après un recalage des niveaux de gris. Le traitement laborieux demande encore aujourd’hui un réglage manuel des paramètres utilisés avec à l’issu un résultat qui dépend du manipulateur avant l’interprétation des images. Il s’agit alors de recourir à des techniques de machine learning pour identifier le bon paramétrage, différent à chaque acquisition pour automatiser le processus. Ainsi, grâce à la connaissance des nombreux cas cliniques connus (plusieurs centaines) au CHRU de Besançon dans le service de médecine nucléaire du pôle cœur poumon, il sera possible
d’entraîner un modèle issu de l’intelligence artificielle pour faire ce travail d’aide au diagnostic, sous le contrôle des praticiens du service.

Profil du candidat :
Le candidat titulaire d’un master en informatique, en science des données, en application mathématique, en automatisation doit avoir une connaissance étendue du traitement des images, notamment des techniques d’apprentissage profond et de leur mise en œuvre dans les logiciels et le matériel. Des notions fondamentales en exploration des données sont également requises. La maîtrise de l’anglais est essentielle. L’autonomie, la rigueur scientifique et une forte motivation pour le sujet proposé seront des atouts indéniables pour mener à bien la thèse. Le langage de programmation Matlab, Python, C++.

Formation et compétences requises :
Science des données
Sciences de l’ingénierie
Informatique
Mathématiques appliquées
Apprentissage profond
Apprentissage automatique
Traitement de l’image
Traitement du signal

Adresse d’emploi :
26 Rue de l’Épitaphe, 25000, Besançon

Document attaché : 202205090913_Thesis_PHM_Nucleaar_Imaging.pdf

Mise au point d’un assistant virtuel d’enseignement

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISN
Durée : 12 mois
Contact : anne.vilnat@limsi.fr
Date limite de publication : 2022-06-30

Contexte :
Nous recherchons un ingénieur de recherche/post-doctorant expérimenté pour travailler au sein du laboratoire LISN (laboratoire mixte CNRS-Université Paris-Saclay), avec des chercheurs spécialisés en Traitement Automatique des Langues (TAL).
Cette recherche s’inscrit dans le cadre du programme de maturation de 18 mois entre l’entreprise Professorbob.ai, leader dans l’apprentissage adaptatif, la SATT Paris Saclay (Société d’Accélération du Transfert de Technologies) et le CNRS. Les postes sont localisés dans les locaux du CNRS LISN.
Il s’agit de travailler sur un projet d’assistant virtuel d’enseignement dédié à l’éducation et la formation, qui fait l’objet d’une collaboration entre le laboratoire et l’entreprise qui travaille sur la mise au point de Professorbob.ai ( https://professorbob.ai/ )

Cet assistant devra être en mesure d’aider des étudiants dans leurs apprentissages :
– En répondant à des questions en rapport avec les sujets des cours
– En proposant des outils pour l’ancrage de connaissances
– En personnalisant l’apprentissage via des méthodes “d’apprentissage adaptatif”.
La création de l’assistant virtuel requiert des connaissances et une maîtrise techniques avancées sur les modèles et problématiques en traitement du langage naturel. Plus spécifiquement, nous nous intéresserons aux problématiques de génération de textes, de recherche d’informations, d’évaluation du langage et de transfert de domaine.
Les récentes avancées en matière de traitement de la langue nous permettent d’envisager la construction d’un tel système, en particulier grâce aux approches neuronales pour la génération de questions ou la recherche d’informations. Malheureusement, si les modèles les plus performants permettent d’obtenir des résultats satisfaisants en langue anglaise, peu de modèles pré-existent pour la langue française. Aussi, même s’il existe des corpus publiquement accessibles pour la tâche de génération de questions, ces corpus ne correspondent que partiellement aux types de question souhaités pour un assistant de cours. Pour pallier ce manque de données, nous travaillons à la mise en place d’un corpus de questions de cours en langue française d’ici à la date du début de contrat.
Les principales problématiques étudiées dans le poste proposé porteront sur la génération de questions et de réponses.
Les principales problématiques étudiées dans le poste proposé porteront sur la génération de questions et de réponses.

Sujet :
Le but global du projet est d’assister un enseignant en l’aidant à répondre à des questions nombreuses et répétitives des apprenants. Il faut donc apprendre à répondre aux questions, en s’appuyant sur des données fiables, fournies par les enseignants. En s’appuyant sur les travaux récents dans le domaine du TAL, on sait qu’il est possible d’améliorer les systèmes classiques et basiques de réponses à des questions. Cependant, les données au sein desquelles les réponses devront être trouvées ne sont pas les données classiques utilisées dans les campagnes d’évaluation, mais des données en lien avec la discipline en cours d’apprentissage.
Il sera dans un premier temps demandé de traiter les données de questions/réponses récoltées lors de la campagne d’annotation. Le travail consistera donc à formater et nettoyer les données disponibles.
Dans un second temps, les travaux porteront sur la génération de questions, mais aussi sur leur évaluation. Pour cela, il faudra évaluer quels sont les modèles et métriques les plus adéquats, mais aussi mettre en place un protocole d’évaluation pour valider les approches proposées. Il faudra par la suite être en mesure de déployer ces approches sur le système.
Enfin, les approches de sélection/génération de réponses seront étudiées et mises en place afin de permettre des améliorations significatives de l’assistant. Notons aussi que les problématiques d’évaluations étudiées pour la génération de questions pourront s’avérer aussi utiles dans cette dernière étape.
Le travail sera fait dans un cadre collaboratif avec 2 autres chercheurs et devra prendre notamment en compte les axes de recherche de l’équipe : transfer learning, continuous learning et IA conversationnelle.

Le but global du projet est d’assister un enseignant en l’aidant à répondre à des questions nombreuses et répétitives des apprenants. Il faut donc apprendre à répondre aux questions, en s’appuyant sur des données fiables, fournies par les enseignants. En s’appuyant sur les travaux récents dans le domaine du TAL, on sait qu’il est possible d’améliorer les systèmes classiques et basiques de réponses à des questions. Cependant, les données au sein desquelles les réponses devront être trouvées ne sont pas les données classiques utilisées dans les campagnes d’évaluation, mais des données en lien avec la discipline en cours d’apprentissage.
Il sera dans un premier temps demandé de traiter les données de questions/réponses récoltées lors de la campagne d’annotation. Le travail consistera donc à formater et nettoyer les données disponibles.
Dans un second temps, les travaux porteront sur la génération de questions, mais aussi sur leur évaluation. Pour cela, il faudra évaluer quels sont les modèles et métriques les plus adéquats, mais aussi mettre en place un protocole d’évaluation pour valider les approches proposées. Il faudra par la suite être en mesure de déployer ces approches sur le système.
Enfin, les approches de sélection/génération de réponses seront étudiées et mises en place afin de permettre des améliorations significatives de l’assistant. Notons aussi que les problématiques d’évaluations étudiées pour la génération de questions pourront s’avérer aussi utiles dans cette dernière étape.
Le travail sera fait dans un cadre collaboratif avec 2 autres chercheurs et devra prendre notamment en compte les axes de recherche de l’équipe : transfer learning, continuous learning et IA conversationnelle.

Profil du candidat :
Doctorat ou Master en rapport avec le Deep learning, idéalement avec le traitement de la langue naturelle

Formation et compétences requises :
Bonne maîtrise des outils du TAL :
– Modèles Deep Learning: connaissance théorique et manipulation avancée des RNN, Auto-encoders, Transformers (BERT / Roberta / T5,..), etc.. surtout des modèles de Question Answering, Question Generation, etc..
Bibliothèques et frameworks Deep Learning/Machine Learning comme Pytorch, Tensorflow, Keras, NLTK, Spacy, Scikit-learn, etc..
– Algorithmique: très bonne connaissance et maîtrise pratique des algorithmes classiques sur les textes, arbres, graphe – Statistiques: connaissances des techniques d’échantillonnage
– Expérience du développement et du débogage en Python
– Maîtrise de la démarche Data Science : définition des tâches, définition de métriques de performance, veille technologique, analyse de publications scientifiques, implémentation, fine-tuning et évaluation de modèles
– Anglais scientifique courant
– Aptitude à communiquer et à travailler en équipe

Compétences supplémentaires souhaitables
Moteurs de recherche et traitements textuels: indexation, utilisation d’ElasticSearch, Lucène / SolR, formalisation et recherche d’expressions régulières

Adresse d’emploi :
LISN
Campus universitaire bât 507
Rue du Belvedère
F – 91405 Orsay cedex

Document attaché : 202205051010_LISNingénieurR&D-Post-Doc.pdf

Enseignants/Ingénieurs d’étude

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoires de recherche de l’EPITA (LRDE/LSE)
Durée : CDI
Contact : pierre.parrend@unistra.fr
Date limite de publication : 2022-06-15

Contexte :
L’EPITA ouvre plusieurs postes d’Enseignants/Ingénieurs d’étude en informatique à temps complet, pour un recrutement au plus tard en début d’année scolaire 2022-2023.

Sujet :
Leur mission sera de mener des projets fortement innovants, développer les plates-formes de l’école et accompagner les projets des étudiants du Cycle ingénieur sur ses cinq sites,
afin d’accompagner la dynamique de développement de l’École à l’échelle nationale.

Profil du candidat :
Selon profil, les missions peuvent s’impliquer dans des projets de recherche, voire mener à la réalisation d’une thèse de doctorat.

Les informations précises concernant ces postes et le lien pour nous transférer votre dossier de candidature sont disponibles ici :

– https://www.lrde.epita.fr/~theo/postes_EPITA_EIE_2022.pdf

Formation et compétences requises :
Ingénieur ou docteur en informatique.

Il s’agit de soutenir nos équipes et axes de recherche sur les thématiques suivantes :
– Sécurité des logiciels et des architectures : identification, protection, détection et réaction,
– Système bas-niveau (noyau, assembleur), systèmes d’exploitation, machines virtuelles et informatique en nuage,
– Système embarqué (dont robotique),
– Science et ingénierie des données, extraction de connaissances,
– Apprentissage automatique et autres sous-domaines de l’IA,
– Traitement d’images, reconnaissance des formes et vision,
– Automates et leurs applications (dont vérification et synthèse),
– Logiciel et performance (dont HPC, GPU).

Adresse d’emploi :
L’EPITA a des campus dans les villes suivantes:
– Paris (Kremlin-Bicêtre et Campus Cyber à la Défense)
– Lyon
– Rennes
– Strasbourg
– Toulouse

Document attaché : 202205050942_postes_EPITA_EIE_2022.pdf

Rencontres de la SFC

Date : 2022-09-14
Lieu : Université Lumière Lyon 2

Les 27èmes Rencontres de la Société Francophone de Classification (SFC) se tiendront du 14 au 16 septembre 2022 à Lyon. Après deux ans d’interruption, ces journées auront lieu en “présentiel”. Ces rencontres ont pour objectifs de présenter des résultats récents et des applications originales en classification sous toutes ses formes, mathématique, informatique et statistique, de favoriser les échanges scientifiques entre ces trois communautés autour de la thématique commune de la classification et de faire connaitre à divers partenaires extérieurs les travaux de ses membres.

L’édition 2022 portera sur les thèmes classiques associés à la classification et à l’analyse de données au sens large. Cette année, le comité de programme souhaite mettre à l’honneur l’analyse de données textuelles (Text Mining) et l’analyse de séries temporelles. Les applications de la classification dans le domaine des sciences du vivant sont vivement encouragées.

Lien direct

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

ML4Oceans Summer School 2022

Date : 2022-08-29 => 2022-09-02
Lieu : SCAI, Sorbonne Université, Paris, France.

Dear colleagues,

We are pleased to announce the ML4Oceans Summer School 2022, to be held from August 29th to September 2nd 2022 at SCAI/Sorbonne University in Paris, France.

The use of artificial intelligence is now crucial for environmental and climate issues, including oceanography. In this context, SCAI (https://scai.sorbonne-universite.fr/) , ISCD (https://iscd.sorbonne-universite.fr/), and the Institut de l’Océan (https://institut-ocean.sorbonne-universite.fr/en) of Sorbonne Université joined their forces to offer a transdisciplinary summer school for PhD and post-doctoral students. 20 students will be selected according to their academic background, their research subject & their motivation to participate in this school.

The objective: to acquire knowledges and skills in AI applied to oceanography (marine biology – omics, imagery -, physics, modeling, etc.)

Registration is open here until May 31st 2022:
https://framaforms.org/ml4oceans-summer-school-pre-registration-1647261215

Please do not hesitate to forward this announcement to any colleague who could be interested and sorry in advance for any cross-posting.

Provisional program (courses in English) :

Monday August 29: programming reminders and quick introduction
Tuesday August 30: biology-environment link (genomics, gradient boosting, distribution models). L Bittner & JO Irisson
Wednesday August 31: Derivation of poorly observed variables (satellite images of water color, SOM, filling by CNN). C Jamet & A Charantonis
Thursday September 1: Image classification (plankton images, CNN, vision transformers). JO Irisson, M Cord & H Touvron
Friday September 2: Dynamic modeling (marine ecosystem models, AI-informed physics). SD Ayata & P Gallinari.

Speakers:
Sakina-Dorothée Ayata, LOCEAN, SU
Lucie Bittner, ISYEB, SU
Anastase Charantonis, ENSIIE
Matthieu Cord, LIP6, SU
Patrick Gallinari, SU/Criteo AI Lab
Jean-Olivier Irisson, LOV, SU
Cédric Jamet, LOG, ULCO
Hugo Touvron, Facebook AI Research

Lien direct

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Analysis of SAR images of the Sundarban region for deforestation detection

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IBISC/LMEE, Université Paris-Saclay, Univ. Evry
Durée : 4 à 6 mois
Contact : Khalifa.Djemal@ibisc.univ-evry.fr
Date limite de publication : 2022-06-01

Contexte :
Sundarbans, UNESCO world heritage site, is a mangrove area in the delta formed by the confluence of the Ganga, Padma, Brahmaputra and Meghna Rivers in the Bay of Bengal. The site is intersected by a complex network of tidal waterways, mudflats and small islands of salt-tolerant mangrove forests.
This is also home to many endangered species like the Royal Bengal Tiger, Crocodile and numerous faunae. This is one of the most cyclone prone region of India where presence of this mangrove safeguards eastern part of India from the effect of cyclone. These forests also act as protection from soil erosion in the coastal region.
The sundari tree that populates the region is important for survival of various fauna of this region especially big mammals like royal Bengal tiger and spotted deer due to the characteristic of the tree. Other mangroves trees are relatively smaller in nature and grow in saline water, creating a bush type low height canopy near the canals, causing a hindrance to the movement of wild animals.
However, for the past couple of decades the mangroves of Sundarban are facing threats due to several natural and manmade causes. Due to global warming the number of cyclones and their intensity has increased in the Bay of Bengal. Cyclone Sidr (2007), Aila (2009), Amphan (2020) destroyed almost 40% of the forest.
Developing a strategy of active monitoring of the Sundarban forest, would allow to follow in real time the evolution of its state. Detecting the deforestation, would allow to identify the cause and to plan a remedy to finally protect the fauna but also the flora.

Sujet :
Internship proposal and main tasks to be carried out:

The candidate will carry out an appropriate survey of the state of the art on SAR image processing approaches in a deforestation context. The candidate will then investigate relevant classical features extraction methods and those based on machine learning techniques. The last step will focus on the development of a method that combines classical features from a SAR image with a deep learning architecture to characterize the state of the forest.

References:

[1] Abdelkader Horch, Khalifa Djemal, Abdelkader Gafour and Nasreddine Taleb, Supervised fusion approach of local features extracted from SAR images for detecting deforestation changes. IET Image Processing, 13 pages, DOI: 10.1049/iet-ipr.2019.0122, september 2019.

[2] Sahana, M., Rehman, S., Patel, P.P. et al. Assessing the degree of soil salinity in the Indian Sundarban Biosphere Reserve using measured soil electrical conductivity and remote sensing data–derived salinity indices. Arab J Geosci 13, 1289 (2020). https://doi.org/10.1007/s12517-020-06310-w

[3] Samanta, S.; Hazra, S.; Mondal, P.P.; Chanda, A.; Giri, S.; French, J.R.; Nicholls, R.J. Assessment and Attribution of Mangrove Forest Changes in the Indian Sundarbans from 2000 to 2020. Remote Sens. 2021, 13, 4957. https://doi.org/10.3390/rs13244957

Profil du candidat :
Required skills: To carry out this research work, the candidate need to have the following skills:
– Artificial intelligence, machine learning
– Data and image processing
– Computer science
– Applied mathematics (modeling and scientific calculations)

Internship supervision:
Khalifa DJEMAL and Amir FEIZ: University of Paris Saclay, France
Soham SARKAR: RCC Institute of Information Technology, Kolkata, India
Sheli Sinha CHAUDHURI: University of Jadavpur, Kolkata, India

Internship contacts:
Khalifa DJEMAL: khalifa.djemal@univ-evry.fr
Amir FEIZ: amirali.feiz@univ-evry.fr

Formation et compétences requises :
Python programming, data and image processing tools.
Machine learning methods. Basic knowledge in environmental sciences will also be highly appreciated.

Please send us your CV and Motivation letter.

Adresse d’emploi :
Université Paris-Saclay, Univ. Evry
IBISC, 40 rue du Pelvoux
91020 Evry.

Document attaché : 202205031006_Proposal-Inernship-deforestation.pdf

Apprentissage profond basé sur la conception de modèles efficaces : applications à la surveillance maritime

Offre en lien avec l’Action/le Réseau : DOING/Doctorants

Laboratoire/Entreprise : Laboratoire d’informatique et systèmes (LIS) UMR
Durée : 36 mois
Contact : tpnguyen@univ-tln.fr
Date limite de publication : 2022-06-01

Contexte :
Ces dernières années, les réseaux de neurones profonds (DNNs pour Deep Neural Networks) ont considérablement repoussé les limites de l’intelligence artificielle dans un large éventail de tâches, notamment la reconnaissance d’objets à partir d’images, la reconnaissance vocale, la traduction automatique, etc. Les réseaux de neurones profonds nécessitent beaucoup de calcul et de mémoire, ce qui les rend difficiles à déployer sur des équipements embarqués avec des ressources de calcul limitées. Ces réseaux profonds sont caractérisés par des millions voire des milliards de paramètres et sont presque exclusivement entraînés en utilisant une ou plusieurs cartes graphique (GPU) très rapides et gourmandes en énergie. Considérons un exemple avec le modèle de pointe VGG-16, il est constitué de 138,34 millions de paramètres, occupant plus de 500 Mo d’espace de stockage, 15,5 milliards d’opérations de cumul (MAC) et nécessite 30,94 milliards d’opérations en virgule flottante (FLOP) pour classer une seule image. Cela prend plusieurs minutes dans la phase d’inférence sur un appareil mobile ayant une capacité de calcul et des ressources de mémoire limitées.
Ces réseaux profonds nécessitent donc énormément de données, de calcul, de mémoire et d’énergie, ce qui les rend difficiles à utiliser et à déployer dans des applications réelles sur des équipements tels que smartphones, tablettes et systèmes embarqués. La compression des modèles de réseaux profonds et la réduction de la consommation d’énergie, tout en préservant les performances prédictives, revêt une importance cruciale pour le déploiement de réseaux profonds dans un tel contexte. C’est pour cela que les tendances récentes se concentrent sur le déploiement d’applications en temps réel telles que YOLO ou sur des ressources limitées (par exemple, MobileNet). Dans le cadre de cette thèse, nous nous concentrerons sur la compression des réseaux de neurones pour surmonter ce défi en réduisant les besoins en stockage, en consommation d’énergie, et la complexité de calcul dans la phase d’inférence des réseaux de neurones sans que cela n’affecte leur précision. Le but est de déployer les modèles compressés sur des équipements embarqués tels que les caméras intelligentes ou les drones (AUV, ROV, etc). Ces systèmes seront ensuite utilisés pour des tâches de vision par ordinateur telles que l’analyse de scènes dynamiques, ou la détection/reconnaissance d’objets dans des scènes maritimes ou sous-marines. Cela aura un lien avec d’autres projets portés par notre équipe, notamment le projet Rapid DGA UHV-MANTA et le projet ANR Astrid ROV-Chasseur.

Sujet :
Voir le sujet joint.

Profil du candidat :
Un candidat autonome et très motivé est sollicité avec un fort intérêt pour le domaine des méthodes mathématiques avancées appliquées au traitement du signal et l’apprentissage automatique.

Formation et compétences requises :
Une formation solide en traitement du signal, mathématiques appliqués, machine learning ou informatique.

Une bonne maîtrise des algorithmes d’apprentissage automatique, notamment les réseaux de neurones.

De bonnes compétences en programmation python sont requises. La connaissance des frameworks d’apprentissage (PyTorch, tensorflow, tensorly, etc.) est un plus souhaitable.

Le candidat doit avoir de bonnes capacités en communication orale et écrite.

Adresse d’emploi :
Laboratoire d’informatique et systèmes (LIS) UMR 7020
SeaTech – Bâtiment X – Avenue de l’Université 83130 LA GARDE

Document attaché : 202205021735_EDJ2022-2.pdf

Réduction des biais pour un apprentissage collaboratif et éthique sur des données dynamiques

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique, Systèmes, Traitement
Durée : 36 mois
Contact : faiza.loukil@univ-smb.fr
Date limite de publication : 2022-05-29

Contexte :
voir document attaché.

Sujet :
voir document attaché.

Profil du candidat :
Le/la candidat(e) doit avoir un intérêt à la recherche. Il/elle devra être capable d’apporter ses idées novatrices, son enthousiasme, sa rigueur et devra faire preuve d’un esprit d’équipe prononcé.

Formation et compétences requises :
Idéalement, le/la candidat(e) suit actuellement une formation (master de recherche, diplôme d’ingénieur, …) en lien avec le domaine de l’Intelligence Artificielle/Apprentissage Automatique.
La connaissance en ingénierie des données et particulièrement en apprentissage distribué sont nécessaires.
De bonnes compétences au développement logiciel et la maîtrise de langages de programmation (idéalement Python) sont indispensables.

Adresse d’emploi :
LISTIC – Polytech Annecy-Chambéry, BP 80439 – Annecy le Vieux – 74944 ANNECY Cedex, France.

Document attaché : 202205021515_SujetTheseED_LISTIC.pdf

Reconstruction et segmentation de données IRM cérébrales fœtales par apprentissage profond

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut de Neuroscience de la Timone
Durée : 3 ans
Contact : francois.rousseau@imt-atlantique.fr
Date limite de publication : 2022-07-01

Contexte :
Lab

La thèse se déroulera à l’interface entre deux laboratoires reconnus et dynamiques.

L’Institut de Neurosciences de la Timone (INT) est l’un des meilleurs instituts français de recherche en neurosciences avec 150 membres réunis en 10 équipes interdisciplinaires examinant différents aspects de l’organisation cérébrale. Il est situé sur le campus médical d’Aix-Marseille Université. Le candidat retenu rejoindra l’équipe interdisciplinaire MeCA ( https://meca-brain.org/) au sein de l’INT et interagira avec des neuroscientifiques, des médecins ainsi que des spécialistes de l’acquisition et du traitement de données en neuroimagerie.

La recherche à l’IMT Atlantique concerne près de 800 personnes, dont 290 enseignants et chercheurs et 300 doctorants, et porte sur les technologies numériques, l’énergie et l’environnement. Il couvre toutes les disciplines (des sciences physiques aux sciences humaines et sociales en passant par celles de l’information et du savoir) et couvre tous les domaines des sciences et des technologies de l’information et de la communication.

Date de début : Octobre 2022
Financement : Agence Nationale de la Recherche

Sujet :
Description du sujet :
On est de plus en plus conscient de l’importance de la détection précoce des anomalies du développement neurologique et de leur impact majeur tout au long de la vie. Affectant environ 10% des enfants, il peut entraîner des handicaps neurologiques et les charges qui en découlent. Deux tiers des cas de développement neurologique anormal peuvent être détectés avant la naissance, mais à l’heure actuelle, les troubles neurocomportementaux et cognitifs qui en résultent ne sont, dans la majorité des cas, détectés que plus tard dans l’enfance, ce qui empêche une intervention précoce et augmente l’impact sur la vie ultérieure. L’objectif est donc de décrire le développement cortical anormal dans les premiers stades du fœtus, en développant des biomarqueurs non invasifs dérivés de l’IRM et des outils informatiques spécifiques au fœtus, afin de prédire les individus présentant un risque plus élevé de développement post-natal anormal.

L’analyse quantitative d’images du cerveau fœtal in vivo joue un rôle essentiel dans la prise de décision clinique et la recherche en neurosciences [1]. Les avantages de l’IRM in utero par rapport à l’échographie dans l’étude du développement du cerveau ont été démontrés, notamment grâce au développement de méthodes de traitement et d’analyse d’images dédiées.

L’utilisation de l’IRM fœtale étant limitée, plusieurs centres doivent collaborer pour rassembler suffisamment de sujets, notamment pour la pathologie, ce qui pose d’importants défis techniques d’harmonisation. Dans le cadre de ce travail, une approche multicentrique sera mise en place en développant des stratégies d’apprentissage fédérées pour appliquer des solutions d’IA tout en préservant la confidentialité des données privées des patients. Les approches dont l’IRM adulte bénéficie depuis longtemps seront adaptées pour la première fois par ce projet aux études d’IRM du cerveau fœtal.

Le retard de croissance intra-utérin (RCIU), qui touche 5 à 10 % des grossesses, et l’agénésie du corps calleux (ACC), qui touche 1 grossesse sur 4 000, sont les deux applications principales visées ici pour explorer le développement cortical fœtal et identifier les déviations grâce à une analyse conjointe d’un ensemble de données multicentriques d’une ampleur sans précédent (>950 sujets) avec des outils informatiques dédiés. Ce travail de thèse s’inscrit dans le cadre d’un projet européen dont le but sera de fournir à la communauté mondiale des outils standardisés et efficaces pour transformer le diagnostic prénatal des anomalies du développement neurologique.

Ce travail de thèse vise à développer une méthode de reconstruction et de segmentation conjointe de données IRM fœtales, permettant d’unifier les étapes B et C illustrées sur la figure 1. La première étape consistera à s’inspirer de la méthode [5] développée à l’IMT pour l’adaptation aux données d’IRM foetales acquises à l’Hôpital de la Timone à Marseille et prétraitées à l’INT. Plusieurs axes d’améliorations seront ensuite considérés pour augmenter les performances. Cette méthode permettra d’extraire l’ensemble des mesures quantitatives (ex: volume, forme des structures anatomiques) à partir de données de moindre qualité résultant d’acquisitions contraintes par le contexte clinique. Les dernières années ont vu un développement sans précédent des méthodes d’apprentissage en traitement d’images médicales, et plus particulièrement basées sur l’apprentissage profond. Les réseaux de neurones convolutifs ont montré d’énormes performances dans de nombreuses tâches telles que la reconstruction ou la segmentation d’images à haute résolution. Dans un tel cadre, l’utilisation de tâches auxiliaires permet d’améliorer les performances et aussi les propriétés de généralisation. Il s’agira de développer une méthode prenant en compte à la fois les problèmes de reconstruction et de segmentation des données du cerveau fœtal en utilisant une représentation démêlée (“disentangle learning”) dans le but de fournir des algorithmes robustes pour une utilisation multi-sites. L’objectif est de représenter les données IRM en séparant les principales composantes (pose, contraste IRM, caractéristiques, etc.) afin d’améliorer notre interprétation des réseaux neuronaux et de s’affranchir des biais liés aux différents systèmes d’acquisition de chaque site.

Ce travail de thèse sera réalisé sous la direction de F.Rousseau et G.Auzias, en collaboration avec leurs équipes (Latim, https://meca-brain.org/). Il s’inscrit dans le projet européen MULTI-FACT (https://www.neuron-eranet.eu/projects/MULTI-FACT/) rassemblant des équipes de 4 pays (France, Espagne, Suisse, Allemagne). Le candidat sera donc amené à collaborer directement avec ces équipes de renommée internationale.

Profil du candidat :
Les candidats doivent être titulaires d’un diplôme de master (ou ingénieur) en traitement des images ou en mathématiques.

Formation et compétences requises :
Les compétences requises pour mener à bien ce travail concernent l’apprentissage machine, le traitement d’images et les mathématiques appliquées. Des connaissances en informatique et en programmation (Python) seront également requises afin de développer les algorithmes associés.

Adresse d’emploi :
Contact
Guillaume Auzias
email : guillaume.auzias@univ-amu.fr

François Rousseau
email : francois.rousseau@imt-atlantique.fr

Document attaché : 202205021012_2022_These_EraNet.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Archives

Lac de données et référentiels de métadonnées pour élaborer des indicateurs de développement durable de la ville à l’aide de l’open Big data. Application aux pratiques sportives en ville

Contributions au diagnostic et au pronostic des Hyperparathyroïdies basées sur la fusion des connaissances des experts et l’intelligence artificielle

Mise au point d’un assistant virtuel d’enseignement

Enseignants/Ingénieurs d’étude

Rencontres de la SFC

ML4Oceans Summer School 2022

Analysis of SAR images of the Sundarban region for deforestation detection

Apprentissage profond basé sur la conception de modèles efficaces : applications à la surveillance maritime

Réduction des biais pour un apprentissage collaboratif et éthique sur des données dynamiques

Reconstruction et segmentation de données IRM cérébrales fœtales par apprentissage profond