Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Jan
31
Wed
2024
Stage M2/Ingénieur : Multi-view clustering
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire I3S – Sophia Antipolis
Durée : 6 mois
Contact : lionel.fillatre@i3s.unice.fr
Date limite de publication : 2024-01-31

Contexte :
Il s’agit de développer un réseau de neurones profond pour partitionner, de façon non-supervisée, un ensemble de données selon plusieurs points de vue.

Ce sujet de stage est réalisé dans le cadre d’un projet ANR. En fonction des résultats obtenus, le stagiaire pourra poursuivre en thèse (financement déjà obtenu).

Sujet :
Objectif :

Nous disposons de données biomédicales qui concernent des patients atteints de troubles mentaux. Nous souhaitons développer un algorithme de partitionnement (« clustering ») qui nous permet de regrouper ces patients en différents groupes. Ce partitionnement devrait nous permettre d’identifier les caractéristiques communes qui sont partagés par les patients qui souffrent d’un même trouble mental. Un seul partitionnement est souvent peu informatif car il est difficile de forcer ce partitionnement à différencier des troubles qui ne sont préalablement étiquetés. Notre but est d’utiliser le Deep Learning (ou apprentissage profond) afin de calculer, de façon simultanée, plusieurs partitionnements complémentaires entre eux [1]. De cette façon, certains de ces partitionnements devraient permettre d’identifier des groupes de patients qui auraient des caractères biologiques homogènes et révélateurs de leur état de santé.

Le Deep Learning [2] permet d’effectuer des traitements non-linéaires complexes sur les données. Durant ce stage, il s’agira donc d’identifier les architectures de réseaux les plus prometteuses en partitionnement multi-vues (chaque vue correspond à une façon différente de regrouper les données). Les architectures retenues seront alors appliquées aux données disponibles. Le stagiaire pourra s’appuyer sur des travaux méthodologiques récents [3] qui développent des méthodes de partitionnement multi-vues.

Bibliographie :

[1] U. Fang, M. Li, J. Li, L. Gao, T. Jia and Y. Zhang, “A Comprehensive Survey on Multi-View Clustering,” in IEEE Transactions on Knowledge and Data Engineering, vol. 35, no. 12, pp. 12350-12368, 2023.
[2] http://www.deeplearningbook.org/
[3] F. Falck, H. Zhang, M. Willetts, G. Nicholson, C.Yau and C. Holmes, Multi-facet clustering variational autoencoders, Advances in Neural Information Processing Systems, 2021.

Profil du candidat :
Stage M2/Ingénieur en mathématiques appliquées et/ou en informatique.

Envoyer son CV et ses résultats académiques niveau L1, L2, L3, M1 et M2 à lionel.fillatre@i3s.unice.fr

Formation et compétences requises :
Ces travaux requièrent les compétences suivantes :
– Programmation informatique : les développements informatiques seront réalisés en Python et Pytorch (connaître préalablement Python n’est pas nécessaire mais souhaitable)
– Notions de bases en machine learning (en particulier sur les réseaux de neurones).

Adresse d’emploi :
campus SophiaTech (Sophia Antipolis)

Utilisation des méthodes d’IA sur les données hospitalières de la pharmacie clinique pour l’identification automatique des erreurs de prescriptions médicamenteuses
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : SESSTIM, Aix-Marseille Université
Durée : 5-6 mois
Contact : jean-charles.dufour@univ-amu.fr
Date limite de publication : 2024-01-31

Contexte :
Le Service transversal de Pharmacie Clinique et Soins Pharmaceutiques de l’APHM en collaboration avec le service BioSTIC de l’APHM et le SESSTIM (Unité Mixte de Recherche UMR1252 labélisée par l’Inserm, l’IRD et Aix-Marseille Université) cherche à améliorer la sécurité et la pertinence des ordonnances médicamenteuses via une analyse pharmaceutique détaillée, automatisée et systématisée.
Ce stage s’inscrit dans la continuité de résultats préliminaires obtenus l’an passé avec des approches de Machine Learning (particulièrement forêts aléatoires, Random Forest Classifer, RFC) qui se sont montrés particulièrement intéressants pour des erreurs impliquant les lignes de prescriptions considérées individuellement et isolément. Il s’agira dans ce stage d’investiguer plus avant des méthodes avancées de Deep Learning pour détecter des erreurs impliquant plusieurs lignes de prescriptions concomitantes. Les travaux seront réalisés sur des jeux massifs de données réelles.
Pour réaliser l’analyse des données, implémenter et évaluer les méthodes pertinentes un stage de 5 à 6 mois est proposé avec une gratification financière pour un(e) étudiant(e) niveau ingénieur ou master 2 en science des données ou intelligence artificielle. Le stage est à pourvoir dès février-mars 2024. Il pourrait se poursuivre par une expérience professionnelle de 1 an en CDD en fonction des financements obtenus par l’équipe projet et des résultats du stage.

Sujet :
Le stage porte spécifiquement sur l’implémentation et l’évaluation de modèles d’analyse de séquences, type réseaux de neurones récurrents (GRU/LSTM), afin de détecter des erreurs de prescriptions complexes, comme les interactions médicamenteuses ou le surdosage par prescriptions redondantes, afin d’accroitre les performances de détection, et in fine la sécurité du patient.
La mission du ou de la stagiaire sera dans un premier temps de finaliser la mise en qualité des données et l’analyse descriptive des données. Le ou la stagiaire devra s’appuyer sur les revues de la littérature récentes (que nous avons déjà identifiées) pour sélectionner les méthodes d’IA applicables aux données à notre disposition. La plus grande partie du stage sera consacrée à l’implémentation des méthodes, l’entrainement des modèles, et la sélection des modèles les plus performants. Le ou la stagiaire devra documenter les développements réalisés et présenter régulièrement l’état de ces travaux lors des réunions d’équipe.

Profil du candidat :
Datascience

Formation et compétences requises :
– Bonnes connaissances en Deep Learning et notamment des réseaux de neurones récurrents (GRU/LSTM).
– Maitrise d’environnement Python et des bibliothèques Tensorflow ou PyTorch
– Capacité d’analyse et de synthèse
– Forte autonomie et esprit d’initiative
– Capacité à travailler en mode projet
– Rendre compte des avancements des travaux et communication des résultats
– Bonne communication à l’oral et à l’écrit (Français et/ou Anglais).
– Connaissances du métier de la santé appréciée

Adresse d’emploi :
Facultés des Sciences Médicales et Paramédicale, Marseille

Document attaché : 202312041313_Offre-Stage-fevrier-mars-2024.pdf

Feb
1
Thu
2024
La science ouverte dans un laboratoire de neurosciences : analyse des changements de pratiques
Feb 1 – Jul 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre de Recherche en Neurosciences de Lyon – CRN
Durée : 6 mois
Contact : gaelle.leroux@cnrs.fr

Contexte :
Parmi les 450 membres du Centre de Recherche en Neurosciences de Lyon (CRNL), beaucoup participent activement au mouvement de la science ouverte, de manière individuelle et collective. On peut citer par exemple l’organisation d’un workshop sur les nouvelles façons d’évaluer et de diffuser les connaissances scientifiques dans l’espace numérique” (02/2020), des séminaires, des présentations didactiques comme celles sur le pré-enregistrement, Git ou des standards disciplinaires. Des groupes de travail se sont formalisés, notamment autour des questions des publications (gestion des collections HAL du Centre et des équipes, questionnaire annuel sur les formes et pratiques de publication depuis 2021) et de la diffusion de la science vers la société civile (cellules communication & valorisation ). Début 2022, les chef.fe.s d’équipe ont voté à l’unanimité la science ouverte comme une priorité et un « Plan du CRNL pour la Science Ouverte » a été adopté. Il décrit 4 axes prioritaires avec des objectifs concrets pour mettre en œuvre la science ouverte dans les pratiques.

Sujet :
Missions du stage :
• Appliquer la méthodologie du baromètre général de la science ouverte pour les publications du CRNL et analyser les résultats (Bracco & al. 2022)
• Quantifier les frais de publication du CRNL (voir OpenAPC, même période que le baromètre)
• Identifier à cette occasion, les éventuelles publications dans des revues prédatrices
• Identifier un outil collaboratif pour mettre en place une base de données recensant les actions vers le grand public
• Identifier et analyser les freins aux changements ; propositions éventuelles

Profil du candidat :
Stage ingénieur ou M2

Formation et compétences requises :
• Cursus ingénieur ou titulaire d’un Master 1 en information et médiation scientifique et technique
• Une maîtrise des outils de bureautique
• Une bonne connaissance ou une appétence pour la programmation
• Une connaissance du contrôle de version Git serait un plus

Pour ce stage, la personne devra présenter de bonnes capacités relationnelles (nombreux interlocuteurs à rencontrer pour collecter les informations), d’organisation et de rigueur (gestionnaire de contrôle de version Git, un peu de programmation à adapter à partir de code existant) et rédactionnelle (rédaction de fiches et de guides). Une documentation sera systématiquement associée à chaque production. L’anglais est la langue du monde de la recherche ; le niveau B2 minimum est demandé, C1 serait apprécié afin de pouvoir échanger avec de nombreux collègues non francophones.

Adresse d’emploi :
CRNL
Bâtiment 462 Neurocampus Michel Jouvet – Bureau F07C
95, boulevard Pinel – 69675 Bron cedex

Document attaché : 202308251030_2023_offre_stage_6mois_M2_OS_v3_DEFINITIVE.pdf

Dans les yeux du bouquetin : typologie de végétation, données satellites et machine learning (Parc National Vanoise / CNRS)
Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CNRS / Parc National de la Vanoise
Durée : 5 à 6 mois
Contact : vincent.miele@univ-lyon1.fr
Date limite de publication : 2024-02-01

Contexte :
Le bouquetin des Alpes (capra ibex,[1]) est une espèce emblématique du Parc National de la Vanoise, premier parc national français créé il y a 60 ans cette année. Dans un contexte de changements globaux, il devient primordial de comprendre les stratégies de déplacement du bouquetin en fonction du paysage (c.a.d les caractéristiques du terrain et de la végétation; on parle d’habitat éco-paysager) pour mieux anticiper les difficultés que cette espèce pourrait rencontrer dans un futur proche.
Dans le même temps, la disponibilité de données aériennes/satellites à forte résolution offre la possibilité d’étudier finement ces caractéristiques du paysage, notamment graĉe aux techniques de machine learning les plus récentes (deep learning en particulier, [2]).

Sujet :
Le/la stagiaire aura comme objectif de se positionner « dans les yeux du bouquetin » pour décrire la variabilité du paysage sur un site de référence du Parc de la Vanoise, le vallon d’Orgère. Ce que voit cette espèce sera inféré par l’étude de données aériennes/satellites à forte résolution, ce qu’il décide sera compris par la mise en correspondance avec les données des balises/colliers GPS (12 bouquetins suivis sur l’Orgère).

Le/la stagiaire fera dans un premier temps une étude des différentes sources de données disponibles (par exemple BD ORTHO IGN, Sentinel-2, Google Earth, LiDAR HD IGN) afin d’établir le champ des possibles de chaque source et de leur combinaison possible. Dans un deuxième temps, il/elle assemblera ces données sur le secteur du vallon de l’Orgère. A partir de ces données, le/la stagiaire mobilisera par la suite différentes techniques de machine learning pour optimiser la description de la végétation/du paysage. Il/elle utilisera les modèles pré-entrainés de l’état de l’art (CNNs ou vision transformers ; [3,4] par exemple) pour tester une approche de machine learning non supervisé sur la base des features obtenues à partir de ces modèles. En fonction des résultats, le/la stagiaire pourra être amené.e à entrainer un modèle de manière auto(self)-supervisée pour améliorer la description obtenue. Les résultats obtenus seront comparés aux cartographies existantes (CarHab par exemple). Le/la stagiaire analysera par la suite les déplacements des bouquetins relativement à la description du paysage obtenue. Les données des colliers GPS permettront de reconstituer les trajectoires et de les confronter à la variabilité prédite de la végétation/du paysage.

En fonction des avancées du stage, l’approche pourra être étendue à d’autres secteurs/espèces d’intérêt.

Le stage donne droit à une gratification de stage réglementaire. Par ailleurs, des déplacements au sein du Parc de la Vanoise sont à envisager pour confronter les prédictions in-silico à des observations de terrain.

[1] Espèce emblématique du patrimoine alpin, le bouquetin des Alpes (Capra ibex) vivait il y a plusieurs dizaines de milliers d’années dans la plupart des reliefs d’Europe centrale et occidentale, y compris les massifs montagneux de basse altitude. Chassée comme gibier, l’espèce était au bord de l’extinction à la fin du XIXe siècle : il ne restait en effet qu’une centaine d’individus à l’emplacement du futur Parc national du Grand Paradis, et quelques dizaines d’individus en Maurienne à l’emplacement du futur Parc national de la Vanoise. C’est par la volonté du roi Victor Emmanuel II et la mise en place d’une réserve de chasse en 1856 en Italie, par un programme de restauration décidé par la première loi fédérale de protection de la nature en Suisse (1875), puis plus tard par la création des parcs nationaux du Grand Paradis (1922) en Italie et du Parc national de la Vanoise (1963) en France, que cette espèce fut sauvée de l’extinction.
[2] Miele et al, Images, écologie et deep learning, Regards SFE2 2021
[3] Stewart et al, TorchGeo: Deep Learning With Geospatial Data, arXiv 2022
[4] Tseng et al, Lightweight, Pre-trained Transformers for Remote Sensing Timeseries, arXiv 2023

Profil du candidat :
Formation en data science / machine learning / informatique.
Intérêt pour les questions de biodiversité, de conservation, et plus généralement d’écologie scientifique.

Formation et compétences requises :
Maitrise de Python. Connaissance minimale de Linux.
Connaissances en machine learning et en deep learning.
Optionnellement, des connaissances en système d’information géographique et/ou analyse de données spatiales.

Adresse d’emploi :
Le/la stagiaire signera sa convention avec la Parc National de la Vanoise dont le siège est à Chambéry. Il/elle réalisera son stage au laboratoire CNRS/Université Savoie Mont Blanc « Laboratoire Ecologie Alpine » sur le campus Technolac de Chambéry. Le stage pourra toutefois être réalisé à Villeurbanne dans le laboratoire CNRS/Université Lyon 1 « Laboratoire Biométrie Biologie Evolutive » si la présence à Chambéry est problématique.

Document attaché : 202310131210_stagePNVCNRS.pdf

Feb
11
Sun
2024
Reasoning and Provenance on Neural Networks
Feb 11 – Feb 12 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIG, Université Grenoble Alpes & Inria
Durée : 6 mois
Contact : silviu.maniu@univ-grenoble-alpes.fr
Date limite de publication : 2024-02-11

Contexte :
Artificial intelligence and neural networks in particular have brought unprecedented progress in recent years in important areas such as language, vision and control, among others. However, two important challenges remain. First, some of the simplest fundamental traits of human intelligence such as generalization and basic logical reasoning, remain difficult to realize and integrate, as neural architectures do not allow adding logic rules to their optimizations. Secondly, there is no sound and generic way to integrate explanations into their architecture or to track from where and how the outputs were computed.

This lack of understanding, reasoning, and traceability translates into a fundamental weakness of AI in terms of explainability and accountability. As a result, AI-based methods are commonly used as “black boxes” where it is difficult to to evaluate or identify why a particular network or part of a network works well or poorly to accomplish a particular task: the knowledge processed (relations, concepts) is not explicitly shown. **Neuro-symbolic AI** is an area of research that has become particularly active in bridging this gap, studying methods for **combining symbolic knowledge representation and reasoning with deep learning**. An important challenge is the combination of two completely different worlds: Euclidean spaces for learning, and symbolic logic for reasoning. This implies moving from the world of symbolic logic with Boolean interpretation to fuzzy or probabilistic interpretations, by integrating probabilities into the logic.

Going further, neural architectures (neuro-symbolic or otherwise) would benefit greatly from the ability to explain the results of their reasoning. This can be achieved by **annotating the parts of the neural computation graph**. In this manner one can track what has been used in the answer to the query or how the data was transformed; this is known as **provenance** or **lineage**.

Sujet :
The proposed internship aims at covering at least one of the following two objectives:

1. To investigate theoretical and practical methods for querying data structures built from noisy and incomplete data, i.e. to develop approaches with high tolerance to noise and missing data, while enabling reasoning capabilities that are beyond the reach of current sub-symbolic systems (neural networks).

2. To extend the probabilistic annotations used in neuro-symbolic computing with provenance annotations, in order to also provide explanation for the output and the reasoning. This can be achieved by extending previous work on graph queries and provenance.

Profil du candidat :
We are interested in students able to obtain _working implementations_, possibly directly in popular frameworks such as PyTorch or Tensorflow, and evaluation over _real-world_ datasets.

The offer is in a laboratory belonging to a ZRR, hence special access permissions are required. The internship can take place only if these permissions are given.

Formation et compétences requises :
Master student in Compute Science, data-related, M1 or M2.

Programming skills (Python, etc.) required.

Adresse d’emploi :
Laboratoire d’Informatique de Grenoble, UMR 5217
Bâtiment IMAG – 150 place du Torrent
Domaine universitaire de Saint-Martin-d’Hères

Vision par ordinateur embarquée pour le suivi d’une colonie de phoques
Feb 11 – Feb 12 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : L@bISEN Yncréa Ouest, Equipe Vision-AD, Nantes
Durée : 4 à 6 mois
Contact : ayoub.karine@yncrea.fr
Date limite de publication : 2024-02-11

Contexte :
Situé dans la réserve naturelle nationale d’Iroise, l’îlot de Morgol est le principal îlot accueillant des phoques gris dans l’archipel de Molène. Un observatoire permettait ces dernières années d’effectuer le comptage des individus ainsi que le suivi des naissances à distance, jusqu’à sa destruction à la suite d’intempéries. L’Office Français de la Biodiversité (et le Parc naturel marin d’Iroise) souhaite qu’un nouveau dispositif de suivi de la faune sauvage de l’îlot de Morgol soit mis au point, avec comme objectif de minimiser les perturbations humaines et non
humaines. Outre les équipements placés physiquement sur l’îlot, l’observatoire sera doté d’une plateforme logicielle qui implémente des algorithmes intelligents de détection de débarquement afin de continuer la surveillance de cet îlot aujourd’hui interdit au public.

Sujet :
Ce stage a pour but de mettre en oeuvre la partie intelligence artificielle du projet. En particulier, il est souhaité que les données vidéos issues de la caméra et sauvegardées sur l’unité
de stockage déportée à terre seront analysées en continu pour fournir : (1) une alerte en cas de débarquement sur l’îlot de Morgol et (2) une information approximative du nombre de phoques gris sur l’îlot. Ces deux types d’informations pourront être disponibles à travers un fichier Excel par exemple. Il est important de noter qu’une première version de ces analyses a été réalisée pour la précédente version du système[1] (avant sa destruction par les intempéries).
La première tâche sera réalisée en utilisant un système d’intelligence artificielle basé sur un réseau de neurones profond de type CNN spécialisé dans la détection[2]. Ce dernier sera optimisé pour détecter les classes « bateau » et « humain » et entraîné avec une base de données adaptée comme COCO par exemple. Cette intelligence artificielle sera associée à un outil de
régularisation permettant de traiter temporellement les données pour éviter : (i) les détections multiples d’un même évènement ainsi que (ii) les éventuelles fausses alarmes. Ainsi, la détection
d’évènements de type « débarquement » sera possible. Il est important de noter que l’évaluation de la performance de ce système en situation réelle ne sera pas possible si aucune base de données d’évènements annotés n’est disponible.
La seconde tâche, plus expérimentale, sera aussi réalisée avec un réseau de neurones profond de type CNN possiblement orienté vers l’estimation d’individus dans les foules[3]. Le but de ce système d’intelligence artificielle sera de fournir une estimation du nombre de phoques gris sur l’îlot de Morgol à intervalle régulier (à définir). Afin d’entraîner cet algorithme, des vidéos contenant une variété de densité de phoques gris devront être rendues disponibles afin de compléter la base de données annotée déjà disponible, si cela est nécessaire.
Pour les deux tâches détaillées ci-dessus, les traitements réalisés ne seront exploitables que pour des images fixes et lorsque la visibilité sur l’îlot le permet. Afin de réaliser ces tâches d’intelligence artificielle sur les données en temps réel, une unité de calcul de type Jetson Nano Orin sera utilisée et connectée en réseau avec l’unité de stockage. Celle-ci devra embarquer les deux algorithmes d’intelligence artificielle mis au point (détection des débarquemens et comptage des phoques) en s’appuyant par exemple sur des stratégie d’embarquement comme PyTorch
Mobile[4], ONNX[5] ou TensorRT[6].
** Références :
[1] Ayoub Karine, Jean-Yves Mulot, Yves Auffret, Thibault Napoléon, “Video Seals Recognition using Transfer Learning of Convolutional Neural Network” in International Conference on
Image Processing Theory, Tools and Applications IPTA 2020, Nov 2020, Paris, France.
[2] G. Cheng et al., “Towards Large-Scale Small Object Detection : Survey and Benchmarks” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no. 11, pp.
13467-13488, 1 Nov. 2023.
[3] Vishwanath A. Sindagi abd Vishal M. Patel, “A survey of recent advances in CNN-based single image crowd counting and density estimation” in Pattern Recognition Letters, vol. 107, pp. 3-16, 2018.
[4] https ://pytorch.org/mobile/home/
[5] https ://onnx.ai/
[6] https ://developer.nvidia.com/tensorrt

Profil du candidat :
Master 2

Formation et compétences requises :
Le candidat doit avoir :
• suivi un cursus de Master ou d’Ingénieur dans un des domaines suivants : intelligence artificielle, vision par ordinateur, science des données, mathématiques appliquées ;
• de solides compétences en algorithmique et en programmation ;
• des connaissances en vision par ordinateur appliquée ;
• une connaissance de la bibliothèque PyTorch serait un plus.

Adresse d’emploi :
33 QUATER Av. du Champ de Manœuvre, 44470 Carquefou

Document attaché : 202401151028_SujetM2_visionEmbarquée.pdf

Feb
15
Thu
2024
Amélioration d’un logiciel Web pour le diagnostic et l’étude de la consommation alimentaire dans les territoires urbains
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : TSCF, INRAE Clermont-Auvergne-Rhône-Alpes, campus
Durée : Adaptable en fonctio
Contact : francois.pinet@inrae.fr
Date limite de publication : 2024-02-15

Contexte :
Pour candidater, merci d’envoyer rapidement un CV par email à : François Pinet, Directeur de recherche (INRAE) : francois.pinet@inrae.fr

Equipe de recherche « COPAIN – Systèmes d’information communicants et agri-environnementaux », Unité de Recherche « TSCF – Technologies et Systèmes d’information pour les agrosystèmes – Clermont-Ferrand ». https://www6.ara.inrae.fr/tscf/Les-equipes/Equipe-Copain
INRAE, campus des Cézeaux, Aubière

Le laboratoire de recherche TSCF d’INRAE rassemble 60 agents. Il mobilise les sciences pour l’ingénieur et les sciences et technologies de l’information et de la communication pour conduire des recherches sur les méthodes et outils pour une ingénierie des systèmes agro-environnementaux. L’activité de l’équipe d’accueil (COPAIN) au sein du laboratoire, est consacrée aux techniques d’ingénierie des systèmes d’information communicants dédiées à la gestion agri-environnementale.
Le stage sera co-encadré à distance par des scientifiques de l’unité de recherche SADAPT « Science Action Développement – Activités Produits Territoires » d’INRAE qui se trouve en région parisienne. Le sujet du stage s’inscrit dans la continuité des travaux du réseau POPCORN . Dans le cadre du projet de recherche POP-Extend qui vise à mieux comprendre le métabolisme agri-alimentaire des territoires en développant un modèle intégré production-consommation-déchet.
Plus largement, INRAE a pour objectif de répondre aux enjeux sociétaux concernant :
– La sécurité alimentaire et nutritionnelle ;
– La transition des agricultures (agroécologie, réduction de la chimie) ;
– La gestion des ressources naturelles et des écosystèmes (eau, sol, forêt) ;
– L’érosion de la biodiversité ;
– L’économie circulaire et les risques naturels.

Sujet :
A INRAE, une application Web pour le diagnostic et l’étude de la consommation alimentaire est en cours de développement depuis 2021. Ce logiciel peut être utilisé pour comparer la consommation alimentaire de territoires contrastés (par ex. moyennes versus grandes villes ; différentes aires urbaines) ou pour analyser l’autonomie alimentaire théorique de territoires. A terme, une possible utilisation concernera la comparaison avec des scénarios basés sur des évolutions de population, de leur mobilité et de leurs pratiques alimentaires (par ex. augmentation du télétravail, baisse des flux touristiques, développement de régimes “santé”).
L’application a été programmée en Java (pour la gestion du serveur) et Javascript (pour le contenu des pages Web), et est connectée à une base de données Postgresql qui stocke notamment des données statistiques. Des visualisations graphiques (charts) ont été implémentées avec Jqplot. L’application intègre aussi une interface cartographique créée avec Leaflet, qui permet d’afficher les données géoréférencées.
L’objectif du présent stage est d’analyser avec les encadrants de nouvelles fonctionnalités, et de les implémenter au sein de l’application. Ces modifications toucheront à la fois la base de données, le code du serveur et le code embarqués dans les pages Web qui seront visualisées par les utilisateurs. Les travaux seront réalisés dans un processus itératif : spécifications des besoins utilisateurs, implémentation informatique, validation et tests.
L’outil pourra intéresser les communautés scientifiques pluridisciplinaires mobilisant des approches systémiques dans l’analyse des conditions d’une territorialisation des systèmes agri-alimentaires, de la réduction de leurs empreintes sur l’environnement, et dans l’éclairage d‘opportunités et de limites d’une transition bioéconomique des territoires, et ainsi servir aux travaux de chercheuses et chercheurs issu.e.s de multiples disciplines (SHS et sciences dures).

Profil du candidat :
Compétences techniques requises : Connaissance de langages Java et Javascript

Formation et compétences requises :
Niveau requis : Nous recherchons un étudiant en cours de formation informatique (Licence, Maîtrise ou école d’ingénieurs).

Période de stage : En 2024. Durée et dates adaptables en fonction de la formation universitaire.

Adresse d’emploi :
INRAE, TSCF, Campus universitaire des Cézeaux, 9 avenue Blaise Pascal – CS 20085 – 63178 Aubière

Explicabilité des modèles d’IA multimodaux
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : EDF R&D
Durée : 6 mois
Contact : laurent.bozzi@edf.fr
Date limite de publication : 2024-02-15

Contexte :
Le département SEQUOIA (Services, Economie, Questions hUmaines, Outils innovants et IA) de la R&D, intervient en appui à de la direction Marketing de la Branche Commerce d’EDF.
Afin de mieux connaitre ses clients et maintenir leur niveau de satisfaction, EDF Commerce réalise des actions marketing à destination de ses clients particuliers, nécessitant un appui de data scientists pour le scoring, l’aide au ciblage de clients. Ce stage s’inscrit dans le cadre du projet « IA, Algos, DATA pour Commerce BtoC» de la R&D, qui intervient notamment auprès de Commerce en appui méthodologique, data et IA afin de rendre les méthodes plus robustes et explicables et améliorer la connaissance client.
Aujourd’hui les données recueillies à EDF sont de nature multiple :
• Tabulaire : données numériques, catégorielles (binaires, nominales, ordonnées) : par exemple
infos logement client…
• Textuelles : champs textuels d’enquêtes…
• Images : photos d’équipements électriques…
Des méthodes statistiques différentes fonctionnent en général indépendamment sur chaque type de données. Depuis fin 2021, la R&D travaille sur la modélisation en simultané sur ces types de données, en particulier tabulaires et textuelles. On parle alors de données multimodales : structurées (tabulaires) et non structurées (textuelles). Des travaux de recherche ont également été menés sur l’explicabilité pour ce type de modèles : comment expliquer conjointement les influences issues de chaque modalité ?
En effet, l’explicabilité est devenue incontournable lorsque l’on développe un modèle d’IA. Les exigences réglementaires (RGPD) concernant l’utilisation des données imposent une transparence et une compréhension des algorithmes (confiance, auditabilité). L’arrivée prévue en 2026 de l’AI Act vient également renforcer les besoins d’anticipation autour de l’explicabilité.
Ce champ de recherche étant en constante évolution, il s’agira d’approfondir les travaux passés en testant et imaginant de nouvelles méthodes : comment bien prendre en compte les spécificités de chaque type de données dans l’explicabilité ?
Ce sujet est un stage préparatoire à une thèse qui se lancera à l’automne 2024 dans la continuité.

Sujet :
Le stage comportera plusieurs phases :
• Montée en compétence sur l’existant :
o Les méthodologies employées : Deep Learning sur données multimodales, explicabilité
sur données structurées, explicabilité sur données textuelles
o Travaux passés sur le multimodal XAI : prise en main des codes Python (framework Deep
Learning Pytorch; packages d’explicabilité SHAP et Captum ; packages relatifs aux modèles de langue BERT).
o Jeux de données open source adaptés à la problématique : prise en main de l’existant (airbnb, kickstarter) et recherche de jeux de données complémentaires.
• Benchmark de méthodes :
o Revue de littérature des méthodes, notamment les fondements du Multimodal :
https://arxiv.org/pdf/2209.03430.pdf
o Identification de nouveaux packages d’explicabilité pouvant s’appliquer ou s’adapter aux données multimodales
o Testetévaluationdeméthodes
o Recommandationd’utilisationetd’adaptationdeméthodes
• Participation aux travaux d’alimentation et de rédaction collégiale d’un guide interne sur l’explicabilité, sous forme d’un wiki
• Conception d’une méthode hybride d’explicabilité sur données multimodales : o ConceptiondelaméthodeetcréationducodePythonassocié
o Tests sur un cas d’application
• Rédaction d’une note recensant les travaux effectués :
o Revue de littérature commentée avec les résultats de l’évaluation o Descriptiondétailléedelaméthodehybrideconçue
o Guided’utilisationdescodes

Profil du candidat :
Informatique / Statistiques

Formation et compétences requises :
La R&D propose ce stage de fin d’étude, à des étudiants d’écoles d’ingénieurs en parcours Data science ou Master 2 en statistiques (Machine Learning / Deep Learning) & IA.

Adresse d’emploi :
EDF – Recherches et Développement, 7 Bd Gaspard Monge, 91120 Palaiseau
Possibilité de télétravail occasionnel après période d’intégration.

Document attaché : 202310181338_EDF-R&D_Stage_Multimodal_XAI_2024.pdf

Localisation des fissures volcaniques dans les données de télédétection par apprentissage automatique
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 4-6 mois
Contact : christophe.lin-kwong-chon@univ-smb.fr
Date limite de publication : 2024-02-15

Contexte :
L’interférométrie SAR (InSAR) fournit des mesures de déplacement précises sur de grandes étendues pour la surveillance des activités volcaniques. Les positions des fissures volcaniques sur les interférogrammes constituent une information importante dans la modélisation des volcans. De nos jours, la localisation de ces fissures est principalement effectuée manuellement par des experts. Avec l’augmentation sans cesse des données SAR, cette tâche nécessite des méthodes avancées permettant une détection automatique de manière
efficace. Pour cela, nous tirons profit de l’avènement récent de l’apprentissage automatique, dont l’intérêt a été prouvé dans de nombreuses études de différents domaines.

Sujet :
Dans ce stage, nous envisageons de proposer des méthodes d’apprentissage automatique pour détecter et localiser les fissures volcaniques sur des interférogrammes mesurant les déformations du Piton de la Fournaise entre 1998 et 2020. Ces méthodes proposées devront prendre en compte la spécificité des données InSAR (données complexes) et la quantité limitée des données d’apprentissage. Nous commencerons par des méthodes de classifications classiques pour la détection des fissures (e.g. random forest, SVM, etc.) et progresserons graduellement vers l’étude des méthodes d’apprentissage profond, notamment des méthodes d’auto-apprentissage.

Profil du candidat :
Le candidat/la candidate M2 devra disposer de connaissances et compétences en apprentissage automatique et en programmation (Python, C, etc.). Des connaissances en télédétection radar seront les bienvenues.

Formation et compétences requises :
apprentissage automatique, programmation

Adresse d’emploi :
LISTIC, Anney, France

Document attaché : 202310181338_2023_sujet_stage_teledetection_ML.pdf

Feb
16
Fri
2024
Quantum Chemistry meets Deep Learning
Feb 16 – Feb 17 all-day

Offre en lien avec l’Action/le Réseau : DSChem/Doctorants

Laboratoire/Entreprise : Laboratoire d’Informatique et des Systèmes (LIS,
Durée : 6 mois
Contact : thierry.artieres@lis-lab.fr
Date limite de publication : 2024-02-16

Contexte :
This internship is part of a collaboration between the CT/ICR and QARMA teams at LIS that aims to promote artificial intelligence (AI) solutions in chemical research at Aix Marseille Université (AMU), a field that is still largely unexplored by the local chemical community. The simplified context of the study is as follows. The object of study for this project is the prediction of quantities of interest for a given molecule. The molecule corresponds to an assembly of atoms interacting via bonds, which possesses a certain energy E as a function of the geometry of the molecule (relative positions of the various atoms), and which is subjected to a force F. The aim is to predict not only the energy E but also the forces F as a function of G. Two features are important in devising a model for predicting the quantities E and F. Firstly, F is equal to the gradient of the energy E. Secondly, there are several energy surfaces of E as a function of G. These surfaces are continuous. During the evolution of a molecule, its geometry can evolve, and there can be a jump from one surface to another e,n a geometry G, all the more likely as the two curves are close for this geometry.

Sujet :
From a Machine Learning point of view, the problem may be viewed as a prediction task where one wants to predict an energy function from the geometric characteristics of a molecule, but also to predict the gradient of this energy finely, for which one also has supervision. Finally, it is a problem that can be modelled as multi-task learning, since it involves predicting several energy surfaces simultaneously.

The aim of the internship is, starting from recent approaches proposed in the field [Batalia et al., 2022, Batzner et al., 2022, Gilmer et al., 2017, Satoki et al., 2024, Thölke et al., 2022], to test and compare them experimentally and then to propose an innovative approach that will enable us to overcome their limitations. We will be able to draw on recent ideas such as multitask learning [Crawshaw, 2020] and gradient learning [Wu et al., 2010], approaches that have not received much attention in the literature.

On the one hand, multitask learning is a paradigm in which several tasks are learned simultaneously to improve the generalisation performance of a learning task using other related tasks. While the typical protocol is to train a model independently to predict energy, gradient it may be beneficial to exploit multitask extensions, which have not been employed to date in this type of domain.

On the other hand, gradient learning is a little-known but potentially valuable framework in which the objective is to learn the gradient of a classification or regression function, with or without supervision. In addition to conventional energy learning using gradient information, we will explore strategies based on explicit learning of the gradient function, starting with neural networks in a multi-output, multi-task framework and extending to other designs.

Références

[Batatia et al., 2022] Ilyes Batatia, Dávid Péter Kovács, Gregor N. C. Simm, Christoph Ortner, Gábor Csányi: MACE: Higher Order Equivariant Message Passing Neural Networks for Fast and Accurate Force Fields. NeurIPS 2022
[Batzner et al., 2022] Batzner, S., Musaelian, A., Sun, L. et al. E(3)-equivariant graph neural networks for data-efficient and accurate interatomic potentials. Nat Commun 13, 2453 (2022). https://doi.org/10.1038/s41467-022-29939-5
[Crawshaw, 2020] Crawshaw, M. arXiv 2020.Multi-Task Learning with Deep Neural Networks: A Survey, https://doi.org/10.48550/ARXIV.2009.09796
[Gilmer et al., 2017] Justin Gilmer, Samuel S. Schoenholz, Patrick F. Riley, Oriol Vinyals, George E. Dahl: Neural Message Passing for Quantum Chemistry. ICML 2017: 1263-1272
[Satoki et al., 2024] Satoki Ishiai, Ikki Yasuda, Katsuhiro Endo, and Kenji Yasuoka, Graph-Neural-Network-Based Unsupervised Learning of the Temporal Similarity of Structural Features Observed in Molecular Dynamics Simulations, Journal of Chemical Theory and Computation 2024 20 (2), 819-831
[Thölke et al., 2022] Philipp Thölke, Gianni De Fabritiis, Equivariant Transformers for Neural Network based Molecular Potentials. ICLR 2022
[Wu et al., 2010] Qiang Wu, Justin Guinney, Mauro Maggioni, Sayan Mukherjee: Learning Gradients: Predictive Models that Infer Geometry and Statistical Dependence. J. Mach. Learn. Res. 11: 2175-2198 (2010)

Profil du candidat :
Computer science or data science master 2
Last year engineering school

Formation et compétences requises :
Programning : python and deep Learning platform (pytorch or tensorflow)
Machine Learning and deep learning basics

Adresse d’emploi :
Pole scientifique de Chateau Gombert
Marseille

Feb
28
Wed
2024
Apprentissage profond et décomposition tensorielle pour l’analyse de patterns en signal et en imagerie multimodale. Application aux neuropathies
Feb 28 – Feb 29 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISSI/IBISC
Durée : 6 mois
Contact : aurelien.hazan@u-pec.fr
Date limite de publication : 2024-02-28

Contexte :
Le développement exponentiel de l’IA et des réseaux de neurones renouvelle l’étude des séries temporelles d’un point de vue aussi bien fondamental qu’appliqué. En particulier pour les signaux multivariés, le tenseur peut être une représentation plus adéquate que la matrice, car il évite la perte de la structure des données, et donc la perte d’information.
L’apprentissage automatique sur données tensorielles est classiquement réalisé par décomposition tensorielle linéaire, par exemple CPD/PARAFAC ou Tucker [Sid17]. Récemment des représentations tensorielles ont été intégrées aux réseaux de neurones et ont permis des développements significatifs de l’apprentissage profond notamment dans le domaine de l’image en réduisant le nombre de paramètres à estimer.
Pour accroître l’identifiabilité et l’interprétabilité des modèles neuronaux profonds, des contraintes sont ajoutées, par exemple la non négativité, classique dans une cadre d’apprentissage matriciel et
tensoriel [Kol08]. En apprentissage profond, les auto-encodeurs variationnels ont été interprétés dans un cadre de factorisation matricielle non-négative, mais aussi comme une factorisation
tensorielle CPD, et même Tucker non-négative [Mar22]. Les autoencodeurs appartiennent à la famille des modèles génératifs. Ils permettent de découvrir des espaces latents en apprenant un
automorphisme x=f(x). Leur espace latent peut est structuré sous forme tensorielle, ce qui amène de très bonnes performances [Pan21]. Il a été montré que ceci permet un compromis en termes de
performances et d’interprétabilité, entre un auto-encodeur simple sans contrainte et un modèle de Tucker non-négatif, pour différentes taches (segmentation, détection de pattern). Toutefois ces travaux préliminaires laissent une marge importante de progrès, et les propriétés de ce type de modèle hybride sont encore mal connues.

Sujet :
Tout d’abord on établira un benchmark des différentes approches. Ensuite on modifiera les contraintes qui structurent la décomposition tensorielle dans un modèle de type auto-encodeur/décomposition de Tucker. On évaluera et on comparera les caractéristiques de
plusieurs architectures pour l’auto-encodeur. Les algorithmes proposés seront testés sur des données de plusieurs champs applicatifs actuellement examinés dans nos laboratoires respectifs : puissances
transmises sur un réseau de transport d’électricité ; calibration de capteurs de polluants ; prédiction de performances sportives, segmentation de tumeurs cérébrales. Ce travail pourra se poursuivre en
thèse (1) en comparant les performances de la représentation dans les domaines temporel, temps-fréquence, temps-échelle (2) en appliquant ces décompositions tensorielles sur les machines de
Boltzmann (DB networks et modèle de diffusion) (3) en étudiant l’influence de la structure en réseau du phénomène sous-jacent sur la représentation du signal. Des collaborations industrielles
sont envisageables.

Références
[Kol08] Kolda, Bader, « Tensor decompositions and applications », in: SIAM review 51.3 (2009), pp. 455–500.
[Sid17] Sidiropoulos et al. « Tensor Decomposition for Signal Processing and Machine Learning » IEEE Transactions on Signal Processing, 2017.
[Pan21] Panagakis et al. « Tensor Methods in Computer Vision and Deep Learning » Proceedings of the IEEE, https://doi.org/10.1109/JPROC.2021.3074329
[Mar22] Marmoret, « Unsupervised Machine Learning Paradigms for the Representation of Music Similarity and Structure », thèse IMT Atlantique, 2022.

Profil du candidat :
Connaissance du machine learning.

Formation et compétences requises :
M2 informatique, data science, statistiques

Adresse d’emploi :
Ce stage sera encadré par deux enseignants chercheurs rattachés aux laboratoires:

LISSI, http://lissi.fr, Equipe Synapse: 36-37 rue Georges Charpak, 77 567 Lieusaint.

IBISC, https://ibisc.univ-evry.fr/, Equipe SIAM: 36, Rue du Pelvoux, CE1455 Courcouronnes 91020 Evry Cédex

Explicabilité des décisions d’un GNN, application à la chémoinformatique
Feb 28 – Feb 29 all-day

Offre en lien avec l’Action/le Réseau : DSChem/– — –

Laboratoire/Entreprise : Groupe de recherche en informatique, image, automa
Durée : 6 mois
Contact : jean-luc.lamotte@unicaen.fr
Date limite de publication : 2024-02-28

Contexte :
Ce stage prend place dans une collaboration de longue date entre trois laboratoires :
1. Le GREYC (UMR 6072, Caen), a développé au cours des années une expertise forte en fouille de données et apprentissage appliqué à la Chemoinformatique,
2. Le CERMN (UR 4258, Caen) est le centre d’études et de recherche sur le médicament de Normandie et entretient depuis de nombreuses années une collaboration avec le GREYC sur l’analyse informatique de molécules pour créer de nouveaux médicaments,
3. Le LITIS (UR 4108, Rouen), a acquis une solide expérience en apprentissage machine qu’il applique notamment sur des bases de graphes.
Le GREYC et le LITIS collaborent activement au sein de la fédération NormaSTIC.

Des membres des trois laboratoires participeront à l’encadrement du stage en y apportant leurs compétences respectives.

Ce stage peut être considéré comme une étape préparatoire à une thèse de doctorat sur le même sujet.

Sujet :
Le stage commencera par une étude des méthodes GNN permettant de prédire les propriétés de nos jeux de données. L’étude sera ciblée sur la prédiction des interactions protéines/ligands à partir des structures des molécules. A
cette occasion, des méthodes basées GCN, au sens large, et GCN+pooling seront étudiées.

Si cette étape est validée, nous aborderons une comparaison des méthodes de la littérature permettant d’expliquer les résultats de ces GNNs. Les résultats produits (en termes d’explication) seront évalués en utilisant plusieurs critères tels que l’accuracy, l’aire sous la courbe, la fidélité, la parcimonie,. . .. Nous espérons identifier à partir de cette étude des sous structures pharmacophoriques pertinentes pour les propriétés à prédire.

Nous essaierons, dans un troisième temps, d’appliquer ces méthodes sur les graphes moléculaires squelettiques. Il s’agira de comparer sous l’angle de l’explicabilité les descriptions moléculaires ”brutes” et celles produites en intégrant une expertise du domaine via le graphe pharmacophorique.

Profil du candidat :
Le candidat doit être inscrit en dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation. Une expérience en informatique pour la Science des Données, apprentissage profond, notamment sur graphes, sera un plus.

Formation et compétences requises :
Le candidat doit être inscrit en dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation.

Adresse d’emploi :
Le stage sera effectué au GREYC (Caen) ou au LITIS (Rouen) en fonction du lieu de recrutement de l’étudiant. Il débutera en février ou mars 2024 pour une durée de 6 mois et bénéficiera d’une gratification au tarif minimum réglementaire pour les stages.

Document attaché : 202312181731_stageMasterGNN-chemo.pdf

Financial Forecasting With Deep Learning
Feb 28 – Feb 29 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : SAMOVAR/Télécom SudParis
Durée : 6 mois
Contact : romerojulien34@gmail.com
Date limite de publication : 2024-02-28

Contexte :
In this internship, we propose to study the problem of financial forecasting, i.e., predicting the future
variation of the price of a financial instrument, using deep learning. The student will work on a new
data source with a finer granularity than existing datasets. Because of the difficulty of obtaining
data, previous works focused on price prediction at the scale of a day, a week, or a month. Our
new dataset contains intraday information. Therefore, we can predict the price within a day and
use multi-scale analysis. Besides, our new dataset contains different kinds of financial instruments
(FOREX, crypto, options, futures) and additional information about the companies (description,
financial reports, dividends).

Sujet :
In this internship, we propose to study the problem of financial forecasting, i.e., predicting the future
variation of the price of a financial instrument, using deep learning. The student will work on a new
data source with a finer granularity than existing datasets. Because of the difficulty of obtaining
data, previous works focused on price prediction at the scale of a day, a week, or a month. Our
new dataset contains intraday information. Therefore, we can predict the price within a day and
use multi-scale analysis. Besides, our new dataset contains different kinds of financial instruments
(FOREX, crypto, options, futures) and additional information about the companies (description,
financial reports, dividends).

Profil du candidat :
The intern should be involved in a master’s program and have a good knowledge of machine learning,
deep learning, and data processing. A good understanding of Python and the standard libraries used
in data science (scikit-learn, PyTorch, pandas) is also expected. A previous experience with finance
is appreciated but not required for this internship.

Formation et compétences requises :
The intern should be involved in a master’s program and have a good knowledge of machine learning,
deep learning, and data processing. A good understanding of Python and the standard libraries used
in data science (scikit-learn, PyTorch, pandas) is also expected. A previous experience with finance
is appreciated but not required for this internship.

Adresse d’emploi :
Télécom SudParis, Palaiseau

Document attaché : 202312181259_stage_finance.pdf

Gaussian Process Prior Variational Autoencoders for Earth Data Time Series Anlaysis
Feb 28 – Feb 29 all-day

Offre en lien avec l’Action/le Réseau : RoCED/– — –

Laboratoire/Entreprise : INRAE Toulouse
Durée : 6 mois
Contact : mathieu.fauvel@inrae.fr
Date limite de publication : 2024-02-28

Contexte :
Over the last ten years, Earth Observation (EO) has made enormous advances in terms of spatial and temporal resolutions, data
availability and open policies for end-users. The increasing availability of complementary imaging sensors allows land ecosystems
state variables and processes to be observed at different spatio-temporal scales. Big EO data can thus enable the design of new
land monitoring systems providing critical information in order to guide climate change monitoring, mitigation and adaptation.
Conventional machine learning methods are not well adapted to the complexity of multi-modal, multi-resolution satellite image
time series (SITS) with irregular sampling. Therefore they are not suitable for extracting and processing all the relevant infor-
mation. On the other hand, methods based on deep neural networks have shown to be very effective to learn low-dimensional
representations of complex data for several tasks and come with high potential for EO data. However, they often emerge from the
computer vision (CV) and natural language processing (NLP) communities and need to be extended and properly instantiated to
handle the very specificities of Earth Observation data.
Previous works at the CESBIO-lab have shown that generative encoder-decoder architectures such as the Variational Auto-
Encoder (VAE) or the U-NET models perform very well for a variety of EO tasks : estimation of biophysical parameters or
Sentinel-1 to Sentinel-2 translations, to cite a few.
However, such approaches appear to be inadequate to handle data coming from more than 2 sources and acquired at different
time and spatial resolutions, as prioritized in the RELEO chair within ANITI. In particular, the generative capability of these
models may generalize poorly to unseen regions or temporal periods. Processing such streams of data requires to jointly encode
all sources into a structured latent space where each complementary information carried by each source can be embedded while
ensuring long-term encoding of newly acquired data (from possibly new sensors).

Sujet :
The objective of this internship is to investigate Gaussian process (GP) prior for Variational Auto-Encoders (VAEs). Usually,
VAEs assume independence between samples. This assumption is generally made for sake of simplicity and computational ef-
ficiency of the training and inference steps. However, assuming independence of samples amount to ignoring the correlation
between adjacent pixels in the temporal domains. Furthermore, because of the very deterministic nature of such neural networks
architectures, they do not properly encode uncertainty related to missing/noisy data.
Adopting this GP prior is expected to model correlations between times. However, due to the irregular and unaligned nature of
SITS and their massive volume, approximation are required to maintain fast training and inference.
The work-plan of this Master internship is as follows :
1. Define GP prior VAEs for pixel satellite time series with different approximations,
2. Implement the models in PyTorch,
3. Perform experiments on massive SITS and compare with others VAEs on downstream tasks.

Profil du candidat :
Master or Engineering school students with major in applied mathematics, computer science or electrical engineering.

Formation et compétences requises :
The knowledge needed for this work includes a strong background in machine learning or data science, signal & image
processing or remote sensing data processing. Good scientific programming skills (e.g., Python) and good communication skills
in English, both written and oral are also expected. Interests in Earth observation will be appreciated.

Adresse d’emploi :
Centre d’Etudes Spatiales de la Biosph`ere (CESBIO) & INRAE

Document attaché : 202312190628_proposal_MSc_2024_ANITI.pdf

Job Recommendation From A Heterogeneous Graph
Feb 28 – Feb 29 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : SAMOVAR/Télécom SudParis
Durée : 6 mois
Contact : romerojulien34@gmail.com
Date limite de publication : 2024-02-28

Contexte :
Job recommendation is the task of associating candidates with
jobs. This can be useful for candidates who would like to find to best possible
jobs, for companies that want to find the rarest talents in the vast pool of
candidates, but also for independent recruiters who need to be as precise as
possible when they send a resume to a company.
In this internship, you will work on a new dataset for job recommendations.
Its particularity is that it contains much additional information about candi-
dates and jobs we can represent as a graph. Besides, it is very sensitive to the
cold start problem: We have many new candidates and new jobs, and it restricts
a lot of the algorithms we can use.
If we consider video recommendations on Youtube, an average viewer watches
many videos, and each video is viewed many times. Therefore, when recom-
mending new videos to a specific user, we can look at what other similar view-
ers watched and recommend the most relevant video. This is the principle of
collaborative filtering. In our case, our users are likely to get a job and never
come back. Likewise, jobs are associated with one person, and then, we are
done with it. Therefore, we need to exploit extra information to make the
recommendation.
For our dataset, we can represent our pool of candidates and jobs with a
heterogeneous graph, connecting candidates and jobs, but also additional node
types like skills, cities, or employment types. Because we have this expressive
representation, we must adapt the existing algorithms. During the internship,
we will see how graph neural networks can be used to make recommendations,
and we will propose a new architecture to solve our specific problem.
The goal of this internship will be to publish a paper at an international
conference. The intern will work together with a Ph.D. student.

Sujet :
Job recommendation is the task of associating candidates with
jobs. This can be useful for candidates who would like to find to best possible
jobs, for companies that want to find the rarest talents in the vast pool of
candidates, but also for independent recruiters who need to be as precise as
possible when they send a resume to a company.
In this internship, you will work on a new dataset for job recommendations.
Its particularity is that it contains much additional information about candi-
dates and jobs we can represent as a graph. Besides, it is very sensitive to the
cold start problem: We have many new candidates and new jobs, and it restricts
a lot of the algorithms we can use.
If we consider video recommendations on Youtube, an average viewer watches
many videos, and each video is viewed many times. Therefore, when recom-
mending new videos to a specific user, we can look at what other similar view-
ers watched and recommend the most relevant video. This is the principle of
collaborative filtering. In our case, our users are likely to get a job and never
come back. Likewise, jobs are associated with one person, and then, we are
done with it. Therefore, we need to exploit extra information to make the
recommendation.
For our dataset, we can represent our pool of candidates and jobs with a
heterogeneous graph, connecting candidates and jobs, but also additional node
types like skills, cities, or employment types. Because we have this expressive
representation, we must adapt the existing algorithms. During the internship,
we will see how graph neural networks can be used to make recommendations,
and we will propose a new architecture to solve our specific problem.
The goal of this internship will be to publish a paper at an international
conference. The intern will work together with a Ph.D. student.

Profil du candidat :
The intern should be involved in a master’s program and have
a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries
used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.

Formation et compétences requises :
The intern should be involved in a master’s program and have
a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries
used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.

Adresse d’emploi :
Télécom Sudparis, Palaiseau

Document attaché : 202312181300_internship_job_recommandation-2.pdf

Feb
29
Thu
2024
Amélioration de systèmes d’extraction de relations temporelles à partir de textes en langue naturelle : étude de l’injection de connaissances en vue de l’hybridation de systèmes par apprentissage profond
Feb 29 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO
Durée : 6 mois
Contact : anais.halftermeyer@univ-orleans.fr
Date limite de publication : 2024-02-29

Contexte :
Nous proposons, dans le cadre de ce sujet de stage financé, d’explorer l’intégration de connaissances dans un système par apprentissage profond, reposant sur un modèle de langue, à résoudre des tâches de raisonnement temporel. Nous proposons de travailler dans le cadre de l’extraction d’informations temporelles qui associe à un texte en langue naturelle une représentation synthétique des évènements qui y sont relatés. Une représentation classique de ce type de données est un graphe de relations temporelles entre les évènements relatés et/ou entre expressions temporelles [1].
Les récentes avancées du deep learning en matière de compétences langagières nous amène à nous interroger sur la maîtrise de l’humain sur les processus de résolution de tâche reposant sur la langue naturelle. Ces modèles ont des architectures de plus en plus complexes et sont de plus en plus gourmands en puissance de calcul et en données d’entraînement. Cependant ils restent insuffisants puisque les connaissances générales sur des relations temporelles ne sont pas exploitées pour mieux orienter les résultats, ainsi que pour expliquer ces résultats.

Un premier système [3] a proposé de construire un graphe temporel à partir de textes médicaux en s’appuyant de BERT, de la mise à profit de règles en logique probabiliste dans la phase d’apprentissage du modèle, ainsi qu’à la phase d’’inférence globale. Ce travail hybride a ouvert des pistes de recherche sur l’apport considérable que pouvait représenter la connaissance propre à la temporalité via le travail sur les règles. Afin de rendre plus performant les systèmes, [4] a proposé de tirer partie de l’analyse syntaxique des entrées avec succès. Dans la même lignée de [2], nous proposons de tirer partie de la représentation de la connaissance temporelle comme levier de performance et d’explicabilité du système dans sa totalité.

Sujet :
Nous nous intéressons à intégrer de la connaissance dans ces modèles afin de résoudre au mieux les tâches de raisonnement temporel, et ce via l’expression de contraintes afin de :
• tirer profit du meilleur des deux mondes que sont les contraintes et les modèles de langues acquis par deep learning
• proposer des modèles hybrides en partie explicables
• faire reposer nos systèmes sur une puissance de calcul maîtrisée combinée à une méthodologie reproductible d’injection de connaissances

Concrètement, étant donné un système d’apprentissage profond reposant sur un modèle de langue entraîné à traduire un texte en un graphe temporel représentant les évènements narrés dans le texte en entrée, l’injection de connaissances via l’expression de contraintes modifiera les sorties du système.
Nous cherchons à figer une méthodologie permettant d’injecter des connaissances de manière incrémentale afin de guider notre système tout en maîtrisant :
• la taille de notre modèle
• la taille de nos données d’entraînement
• la complexité de nos contraintes

Profil du candidat :
Idéalement, la personne recrutée terminera des études de niveau Master (Master 2) et disposera de connaissances théoriques et pratiques sur les techniques par apprentissage profond. Un intérêt pour la langue et son traitement automatique serait apprécié, sans être un pré-requis à recrutement.

Formation et compétences requises :
niveau Master (Master 2)

Adresse d’emploi :
LIFO Orléans campus de la Source

Document attaché : 202402081058_Sujet_Stage.pdf

Challenges of Mixed Data Clustering
Feb 29 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : SimpleText/– — –

Laboratoire/Entreprise : DVRC
Durée : 4 mois
Contact : sonia.djebali@devinci.fr
Date limite de publication : 2024-02-29

Contexte :
Industrial context

The energy sector is in the midst of significant transformation, prompted by the need to increase the use of renewable energy sources and improve energy efficiency, becoming a Smart Grid. This cutting-edge technology allows for the analysis, management, and coordination of energy production, consumption, and distribution, all with the goal of promoting more sustainable practices. A challenge arises from the fact that the data is mixed, containing both numerical and categorical information, often in the form of a data stream. Analyzing this kind of data requires adapted methods. As a result, traditional methods that are designed for numerical data are not well-suited to this type of data.
Advanced tools for analyzing complex systems that can handle rich and heterogeneous data are crucial for Trusted Third Parties for Energy Measurement and Performance to provide independent energy performance analysis and recommendations for clients. It is important that these tools are also easily interpretable by energy experts to facilitate classification and recommendation.
Creating clusters of similar buildings is an effective way to handle complex energy data. Hierarchical clustering of mixed data is a crucial approach that allows energy experts to easily associate clusters with recommendations. It is an essential tool for not only the energy sector but also has diverse applications in fields such as biology, medicine, marketing, and economics.

Sujet :
Scientific context

Although mixed data is widespread, clustering tools specifically designed for it are limited. Some of the bottlenecks have already been defined in a previous scientific paper. Here is a non-exhaustive list of bottlenecks one can encounter when handling mixed data in a pipeline:

Data preprocessing: Data preprocessing is a critical step in mixed data clustering like handling missing data, encoding categorical data, and scaling numerical data.
Feature selection: Mixed data clustering requires feature selection to be performed before clustering. However, selecting relevant features can be a challenging and time-consuming task.
Metric selection: Choosing the right distance metric to measure the similarity between different data types.
Evaluation: There is a lack of standard evaluation criteria for mixed data clustering, which makes it hard to compare different methods.
Computational complexity: Mixed data clustering involves dealing with different types of data and distance metrics, which can result in high computational complexity.
Visualization: It is difficult to create visualizations that effectively communicate the relationships between different data types.
Interpretation: Understanding the relationships between different data types can be challenging, especially if the clusters are not well-separated or the data are altered before using any methods.

Profil du candidat :
Etudiant(e) de niveau M1 ou M2 en informatique (Master ou école d’ingénieurs).

Formation et compétences requises :
Connaissance en Machine Learning, Clustring, Python et expérience dans l’utilisation de bibliothèques de ML,
Forte appétence pour la recherche académique
Capacité à effectuer des recherches bibliographiques
Rigueur, synthèse, autonomie, capacité à travailler en équipe

Adresse d’emploi :
Pole Léonard de Vinci
92 916 Paris La Défense Cedex

Document attaché : 202312221037_2024_Stage_MixedData.pdf

Développement d’un Système de Deep Learning pour l’Estimation de l’Âge Biologique des enfants
Feb 29 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Sesstim, Aix Marseille Université
Durée : 6 Mois
Contact : raquel.urena@univ-amu.fr
Date limite de publication : 2024-02-29

Contexte :
Estimer l’âge d’un enfant est crucial pour comprendre son développement général. L’âge chronologique est la donnée la plus communément utilisée puisque les dates de naissance des patients sont connues dans la majorité des cas. Cependant, cet âge chronologique ne reflète pas entièrement la maturité physiologique d’un individu et n’est donc pas un facteur fiable [1]. Par conséquent, la croissance d’un enfant peut être estimée en évaluant un âge biologique.
L’estimation de l’âge biologique (EAB) s’applique dans divers domaines, notamment en odontologie pédiatrique et en orthodontie, où elle constitue un outil fondamental pour le diagnostic et la planification des traitements [2]. Cette estimation se pratique également couramment dans le domaine judiciaire, en contexte d’évaluation de responsabilité pénale, d’établissement d’un profil biologique ou d’identification de migrants mineurs isolés [3].
La précision de l’EAB chez les enfants revêt une importance cruciale en odontologie pédiatrique, avec des implications dans les domaines de la clinique, du médico-légal et de l’orthodontie. L’estimation de l’âge biologique (EAB) est une clé pour évaluer la croissance et le développement du patient, facilitant la planification des traitements et soutenant la vérification de l’âge dans des contextes médico-légaux.

Sujet :
L’objectif est de mettre en place un système de deep learning capable d’estimer à la fois un âge dentaire à partir de radiographies panoramiques dentaires et un âge osseux à partir de téléradiographies de profil. Le stagiaire travaillera sur l’implémentation et l’évaluation de méthodes de Machine Learning et Deep Learning en utilisant des données réelles (radiographies dentaires et téléradiographies de profil). Les missions incluent le nettoyage et l’analyse des données, la recherche de méthodes d’IA applicables, l’implémentation, l’entraînement des modèles et la documentation des développements réalisés.

Profil du candidat :
Bonne connaissance en deep learning et traitement d’images. Maîtrise de l’environnement Python, Pytorch, Keras et Tensorflow. Capacité d’analyse et de synthèse, autonomie, esprit d’initiative, connaissances du secteur de la santé appréciées, aptitude à travailler en mode projet avec une communication efficace (Français et/ou Anglais).

Formation et compétences requises :
M2 en Informatique, Statistique ou Mathématiques

Adresse d’emploi :
Faculté des sciences médicales et paramédicales – 27 Bd Jean Moulin 13385 Marseille Cedex 5 FRANCE

Document attaché : 202401110930_Proposition-Stage-Dentaire.pdf

Stage M2 : Validation de données de pollution mesurées par micro-capteur
Feb 29 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS, Lyon
Durée : 5-6
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2024-02-29

Contexte :

Sujet :

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :

Document attaché : 202401111242_Sujet_PFE_Atmo_Liris_Validation_micro-capteurs__1_.pdf

Mar
1
Fri
2024
Explicabilité pour l’analyse d’opinions dans les médias sociaux
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ETIS UMR 8051
Durée : 6 mois
Contact : maria.malek@cyu.fr
Date limite de publication : 2024-03-01

Contexte :
Nous avons exploré dans des travaux récents portant sur l’analyse des médias sociaux, la combinaison des méthodes classiques d’exploration d’opinion avec celles de l’analyse des réseaux sociaux ainsi que leur impact sur la formation et la propagation d’opinion. Afin d’étudier l’impact des utilisateurs influents (nœuds influents), plusieurs facteurs d’influence extraits du réseau (graphe) ont été intégré dans le processus d’exploration d’opinions. Ces facteurs sont généralement calculés en utilisant différentes mesures de centralité comme le degré, la proximité, l’intermédiarité, la centralité PageRank, etc.

En intégrant une méthode d’explicabilité adéquate, nous souhaitons rendre plus compréhensible également les résultats concernant la polarité de l’opinion trouvée au niveau des utilisateurs et au niveau des groupes (communautés). De même, le modèle doit être capable d’expliquer les changements d’opinion détectés en prenant en compte les informations extraites du réseau de propagation et les séquences d’actions entreprises (par exemple : tweets, retweets, réponses) menant à ce changement.

Un modèle transparent basé sur l’apprentissage automatique pour la détection de la modification d’opinions au sein des réseaux égocentriques autour des influenceurs, a été proposé. Ainsi, des caractéristiques (attributs) de différentes natures (textuelle, contextuelle et topologique) qui expliquent la modification de l’opinion, ont pu être identifiées. Nous souhaitons généraliser cette approche afin de pouvoir proposer un cadre général de l’explicabilité pour l’analyse des opinions dans les médias sociaux.

Sujet :
Le but de stage est de proposer et d’intégrer une (ou plusieurs) méthode(s) d’explicabilité dans les algorithmes d’analyse d’opinions afin de produire des explications émergeantes qui combinent des informations nodales (comme le profil d’utilisateur et les données textuelles) et topologiques extraites de la structure du graphe de propagation des opinions.

L’objectif est d’étudier et de compare deux principales approches de l’explicabilité dans les réseaux complexes à travers l’exemple de l’étude de l’analyse d’opinions : la première consiste à l’utilisation des méthodes XAI lors de l’application des méthodes d’apprentissage automatique pour l’analyse des réseaux, comme par exemple, les méthodes de network embedding ainsi que les réseaux de neurones en graphes (Graph Neural networks), la deuxième approche consiste à définir des méthodes d’explicabilité propres au domaine de l’analyse des réseaux. Ces méthodes seront par nature spécifiques et en lien étroit avec les algorithmes d’analyse du graphe du terrain social utilisés lors de l’analyse d’opinions.

Profil du candidat :
Dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine en lien avec l’informatique ou les mathématiques appliquées.

Formation et compétences requises :
Connaissances en apprentissage automatique et compétences en Python. Une compétence en analyse des réseaux complexes sera appréciée.

Adresse d’emploi :
ETIS UMR8051, CY Université, ENSEA, CNRS
Site Saint Martin 1
2, avenue Adolphe Chauvin
95302 CERGY PONTOISE

Document attaché : 202401171405_Proposition_M2_ETIS_Explicabilité_AnalyseOpinions.pdf