MaDICS

Huitième édition du Symposium MaDICS (les inscriptions sont ouvertes !)

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Dates importantes :

Date limite d’inscription : ~~30 avril 2026~~ 7 mai 2026
Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda et à vous inscrire !
Inscrivez-vous ici

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…

Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.

Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus…
Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus…
Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus…
Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…

Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS

Feb

Wed

2022

Sécurisation des analyses en ligne d’entrepôts de données partagés – Cryptographie

Tickets

Feb 2 – Feb 3 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : ERIC Lyon
Durée : 5-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2022-02-02

Contexte :
Ce stage se déroulera dans le cadre de l’ANR BI4people ( https://eric.univ-lyon2.fr/bi4people/ ). L’utilisation des technologies de la Business Intelligence (BI) telles que les entrepôts de données et les techniques d’analyses en ligne (OLAP) restent complexes et réservées à des spécialistes. L’objet de cette ANR est de simplifier ces outils afin de les rendre accessible au plus grand nombre (petites entreprises, associations, etc.).

Sujet :
Dans ce contexte, il est important de permettre aux utilisateurs de pouvoir partager leurs données et leurs analyses. Ces aspects collaboratifs induisent des problèmes de confidentialité de données. Plus généralement, on peut considérer des scenarios où la confidentialité des données ou des requêtes doit être garantie. On pourrait également imaginer que des utilisateurs agissent de manière malveillante afin d’altérer les calculs et de compromettre le résultat des requêtes.

Quelques solutions sont proposées dans la littérature [1, 2]. Les plus abouties en termes de sécurité sont basées sur des primitives cryptographiques récentes, appelées FHE (Fully Homomorphic Encryption). Ces solutions n’ont à ce jour qu’un intérêt théorique, puisque les FHE existantes ne sont pas encore suffisamment performantes [3]. Pour obtenir des solutions utilisables en pratique, il est donc nécessaire de dégrader la sécurité ou le type de requêtes prises en charge. Des hypothèses sur les utilisateur·trices peuvent aussi être introduites, comme par exemple la proportion d’utilisateurs malveillants, le fait qu’ils soient coalisés ou non, etc.

L’objectif de ce stage est d’explorer, d’évaluer et de comparer les solutions existantes. Suite à cette analyse de l’état de l’art, il s’agira de proposer des solutions dédiées à la problématique et aux contraintes spécifiques du projet BI4 people.

Profil du candidat :
Bac + 5 en informatique

Formation et compétences requises :
Compétences avancées (niveau M2) en informatique. Notions de cryptographie ou de sécurité informatique fortement souhaitées.

Adresse d’emploi :
Laboratoire ERIC
Université Lyon 2
5 avenue Pierre Mendès France
69676 Bron Cedex

Document attaché : 202111121307_StageBI4people4.pdf

Categories: Stages

Feb

Thu

2022

Détection d’anomalies dans le cadre d’une maintenance préventive

Tickets

Feb 10 – Feb 11 all-day

Offre en lien avec l’Action/le Réseau : MADONA/– — –

Laboratoire/Entreprise : LIST3N/UTT
Durée : 6 mois
Contact : malika.kharouf@utt.fr
Date limite de publication : 2022-02-10

Contexte :
Collaboration de recherche entre deux des axes du laboratoire LIST3N.

Sujet :
Le but de ce stage est de développer une méthode d’apprentissage exploitant les données provenant de capteurs afin de détecter des anomalies dans le cadre d’une maintenance prédictive.

L’algorithme à développer sera basé sur de récents résultats de la théorie des matrices aléatoires.

Profil du candidat :
Etudiant en M2 mathématiques appliquées ou dernière année d’école d’ingénieurs, avec une spécialisation dans la science des données et/ou en apprentissage statistique.

Formation et compétences requises :
Le(la) candidat(e) devra avoir des connaissances académiques en apprentissage statistique, en modélisations numériques et en programmation (Python, Matlab, …).

Adresse d’emploi :
Université de technologie de Troyes
12 Rue Marie Curie, 10300 Troyes

Categories: Stages

Feb

Tue

2022

Fast Algorithms for Social Influence in Online Platforms

Tickets

Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Lip6 – Sorbonne Université
Durée : 6 mois
Contact : esteban.bautista-ruiz@lip6.fr
Date limite de publication : 2022-02-15

Contexte :
Dans les réseaux sociaux, il est crucial de mesurer l’importance des utilisateurs. Par exemple, les entreprises peuvent utiliser ces informations pour identifier les influenceurs les mieux adaptés pour faire la publicité d’un produit. Il peut également être utilisé par des algorithmes d’apprentissage automatique pour se concentrer uniquement sur les utilisateurs qui créent des tendances. Ce stage vise à développer des algorithmes capables de mesurer l’influence des utilisateurs sur les réseaux sociaux massifs et dynamiques qui sont omniprésents de nos jours.

Sujet :
Nous avons récemment développé une métrique très informative (appelée Ψ-score) pour évaluer l’influence des utilisateurs sur les réseaux sociaux. Cependant, Ψ-score a encore des problèmes qui compliquent son utilisation en pratique: sa complexité de calcul empêche de l’appliquer à de grands réseaux et il ne s’adapte pas bien aux réseaux qui évoluent au cours de temps. Il est crucial de résoudre ces défis car les réseaux sociaux du monde réel sont massifs et évoluent constamment.

Par conséquent, l’ambition de ce projet est double : (i) nous visons à développer des algorithmes rapides capables de calculer le Ψ-score dans des réseaux sociaux de tailles réalistes ; et (ii) nous visons à adapter le Ψ-score afin qu’il puisse prendre en compte la dimension temporelle des réseaux sociaux du monde réel.

Pour cela, nous nous intéressons à l’utilisation de techniques d’accélération récemment utilisées dans les moteurs de recherche et l’apprentissage automatique (comme les algorithmes push et les polynômes de Chebyshev), ainsi qu’à exploiter de nouveaux concepts développés pour les réseaux temporels et le traitement du signal sur les graphes.

Profil du candidat :
Étudiants en M2 ayant une formation variée (réseaux complexes, algorithmique, théorie des graphes, traitement du signal) mais avec un fort intérêt pour l’algorithmique des graphes, la théorie et ses applications.

Formation et compétences requises :
Étudiants en M2 ayant des connaissances en théorie des graphes et algorithmique, algèbre linéaire, codage en Python et un langage compilé comme C/C++/Go/Rust.

Adresse d’emploi :
Le stagiaire fera partie des équipes Complex Networks et Network Performance Analysis du LIP6 – Sorbonne Université, situé à:

4 place Jussieu
75252 PARIS CEDEX 05, France

Document attaché : 202201201736_Fast_Algorithms_for_Influence_Measure_in_Social_Networks.pdf

Categories: Stages

ImaginEcology@Alpes : image, écologie et machine learning pour l’étude de la faune sauvage des Alpes

Tickets

Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CNRS Lyon/Grenoble/Chambéry
Durée : 5 à 6 mois
Contact : vincent.miele@univ-lyon1.fr
Date limite de publication : 2022-02-15

Contexte :
Depuis plusieurs années, de nombreux acteurs de l’étude de la faune sauvage (parcs et réserves naturelles, office français de la biodiversité, chercheur.ses) ont installés des centaines de “pièges photographiques” en France, boitiers à déclenchement automatique qui sont censés photographier les animaux durant leur passage. En particulier, des dizaines de ses appareils ont été installés dans le cadre de l’observatoire ORCHAMP de la Zône Atelier Alpes, pilotée par W.Thuiller (co-encadrant). Ces matériels produisent une “avalanche” de données photographiques qu’il faut trier a posteriori : trier les images vides et identifier les espèces.
Dans le même temps, une équipe CNRS incluant des membres du LECA et du LBBE et pilotée par V.Miele (co-encadrant), s’est mobilisée pour proposer une application de vision par ordinateur qui permettrait l’identification automatique des espèces de la faune sauvage française dans les images issues de pièges photos (cf. image de renard ci-dessus).

Les dernières techniques de deep learning sont appliquées, à partir d’une banque de données de plus de 500 000 images annotées de la faune française (renard, loup, cerf, chamois,…). Un prototype d’application Tensorflow-Keras/Python est d’ores et déjà en phase de test.

Sujet :
La mise au point de la chaîne de traitement des images de l’observatoire ORCHAMP reste à mettre en œuvre, avec pour objectif la capacité à analyser end-to-end les centaines de milliers d’images de la faune arrivant en flux régulier depuis le terrain.

Le/la stagiaire s’attachera à traiter plus précisément les problématiques suivantes:
– contribuer à l’amélioration des modèles de réseaux de neurones convolutifs (utilisation de GPU sur calculateurs régionaux/nationaux) avec des propositions méthodologiques et de nouvelles images récoltées au fil du stage;
– évaluer continuellement les performances des modèles sur les nouvelles images;
– confronter les alternatives de détection d’objet (plus coûteuses en temps) vis à vis de la simple classification;
– contribuer à l’élaboration d’une chaîne de traitement “du piège photo à l’identification puis la diffusion” qui permettra la reproductibilité des analyses et la mise à disposition des résultats, en suivant les principes de la Science Ouverte (principes FAIR)

Une sortie “terrain” en montagne pour l’installation ou la maintenance des pièges photographiques peut être envisagée si l’étudiant.e s’avère intéressé.e par cet aspect.

Profil du candidat :
L’étudiant/e devra présenter de fortes compétences en machine learning pour la vision par ordinateur, en programmation Python et maîtriser parfaitement les environnements Linux.

Un intérêt pour les questions de biodiversité serait un plus (le stage permet en effet de découvrir de nombreuses problématiques relatives à la conservation de la faune sauvage en France).

Formation et compétences requises :
Ecole d’ingénieur dernière année, Master 2 en informatique/mathématiques ou bien césure.

Adresse d’emploi :
Campus UCBLyon-Villeurbanne La Doua / campus USMB Chambéry-Technolac / campus UGA Grenoble-St Martin D’hères

Les laboratoire d’Ecologie Alpine (LECA, Chambéry-Grenoble) et Biométrie et Biologie Evolutive (LBBE, Lyon) regroupent des écologues, des biologistes et des méthodologistes. En particulier, ils forment l’épicentre rhône-alpin de l’écologie des communauté, discipline dédiée à la compréhension de l’organisation et du fonctionnement des écosystèmes. Ces laboratoires sont reconnus pour l’excellence de leurs développements méthodologiques pour l’écologie.

Categories: Stages

Feb

Thu

2022

Intégration d’une méthode d’explicabilité pour l’analyse d’opinions sur les médias sociaux

Tickets

Feb 24 – Feb 25 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ETIS UMR 8051
Durée : 6 mois
Contact : maria.malek@cyu.fr
Date limite de publication : 2022-02-24

Contexte :
Nous explorons dans nos travaux actuels portant sur l’analyse des médias sociaux, la combinaison de méthodes classiques d’exploration d’opinion avec l’analyse des réseaux sociaux et son impact sur la formation et la propagation d’opinion afin de construire un modèle d’opinion cohérent.
Afin d’étudier l’impact des utilisateurs influents (nœuds influents), nous intégrons dans un premier temps plusieurs facteurs d’influence extraits du réseau dans le processus d’exploration d’opinions. Ces facteurs sont généralement calculés en utilisant différentes mesures de centralité comme le degré, la proximité, l’intermédiarité, la centralité PageRank, etc.

Nous définissons et étudions ensuite la notion de la stabilité d’opinion au sein des réseaux égocentriques autour des influenceurs et au sein des communautés détectées, notre objectif étant de détecter la modification d’opinion pour les deux types de sous-réseaux.
Nous analysons les communautés obtenues afin de comprendre les opinions émergeantes à partir de ces communautés non seulement en fonction des profils utilisateurs mais aussi en fonction d’éléments topologiques. Nous souhaitons également proposer des indicateurs concernant la stabilité des opinions et d’autres liés à leurs changements.

Sujet :
Le but de stage est de proposer et d’intégrer une méthode d’explicabilité dans les algorithmes d’analyse d’opinions afin de produire des explications émergeantes qui combinent des informations nodales (comme le profil d’utilisateur) et topologiques extraites de la structure du graphe de propagation des opinions.
En intégrant une méthode d’explicabilité adéquate, nous souhaitons rendre plus compréhensible également les résultats concernant la polarité de l’opinion trouvée au niveau des utilisateurs et au niveau des groupes. De même, le modèle doit être capable d’expliquer les changements d’opinion détectés en lien avec les informations extraites du réseau de propagation et les séquences d’actions entreprises (par exemple : tweets, retweets, réponses) menant à ce changement.

Profil du candidat :
Master 2 ou dernière année d’école d’ingénieur

Formation et compétences requises :
Bonne connaissance en Machine Learning et en programmation Python.

Adresse d’emploi :
2 Av. Adolphe Chauvin, 95300 Pontoise, bâtiment A, 5 étage étage, laboratoire ETIS.

Document attaché : 202202231431_Stage_M2_ETIS_Explicabilite_AnalyseOpinions.pdf

Categories: Stages

Feb

Fri

2022

Méthodes multi-blocs et trois-voies dans le cadre de la prévention de l’allergie

Tickets

Feb 25 – Feb 26 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : unité Statistique, Sensométrie et Chimiométrie / O
Durée : 6 mois
Contact : veronique.cariou@oniris-nantes.fr
Date limite de publication : 2022-02-25

Contexte :
Les allergies touchent 30-40% de la population mondiale. Parmi elles, la dermatite atopique est la plus fréquente et précoce. Ces allergies sont associées à un déséquilibre de la flore intestinale et à un dysfonctionnement du système immunitaire chez les nouveaux-nés. En induisant une flore optimale, les prébiotiques donnés tôt dans la vie pourraient prévenir des allergies. Le projet ANR CIMMAP (Characterising the effect of maternal prebiotic supplementation on perinatal Immune system maturation, Gut Microbiota and breast Milk compositions for Allergy Prevention in high-risk children) est un projet de recherche ANR collaboratif (voir https://www6.angers-nantes.inrae.fr/bia/Equipes-de-recherche/Allergie-ALL/Actualites/ANR-CIMMAP).

En particulier, CIMMAP explore la période périnatale chez l’enfant à risque d’allergie en se focalisant sur la mise en place du système immunitaire et du microbiote et les effets des prébiotiques sur le système immunitaire et sur le microbiote. Les données considérées dans CIMMAP sont issues dans un premier temps d’un modèle murin et dans un second temps d’un modèle humain, sur la base d’une cohorte sélectionnée à partir de l’étude PREGRALL (https://www.chu-nantes.fr/pregrall-participez-a-notre-etude-et-aidez-nous-a-prevenir-les-allergies-de-l-enfant).

Sujet :
Des travaux antérieurs sur le modèle murin ont permis de mesurer les effets d’une supplémentation en prébiotiques d’une part sur la composition du microbiote et d’autre part sur les caractéristiques du système immunitaire. L’objectif de ce stage est d’investiguer une approche holistique visant à mettre en relation ces deux blocs de données, en prenant également en compte une dimension longitudinale (plusieurs points de prélèvement effectués au cours de l’étude). Cette approche holistique repose sur un traitement de données multi-blocs (plusieurs tableaux de données, appariés sur les lignes c’est-à-dire les individus, sont analysés simultanément pour révéler la force des liens entre ces tableaux) voire un traitement de données trois voies (les tableaux de données étant cette fois appariés à la fois sur les individus et sur les variables).

En particulier deux verrous statistiques seront appréhendés.
Dimensionalité des tableaux et sparsité : dans le cadre des données de microbiote, le tableau de données présente un grand nombre de variables, avec existence d’une forte multicolinéarité. Un premier enjeu est donc de pouvoir gérer la dimensionnalité de ce tableau au regard des données d’immunologie, en particulier de manière à mesurer le lien entre ces deux tableaux et identifier un petit nombre de marqueurs du microbiote fortement liés aux caractéristiques du système immunitaire. Pour répondre à ce premier enjeu, le stage visera à étudier et mettre en œuvre des méthodes multi-blocs sparse dans un contexte non supervisé (ComDim, MB-PCA, RGCCA) et supervisé (P-ComDim, MB-PLS, MB-WCov).

Introduction de la dimension longitudinale : dans un second temps, une approche longitudinale sera investiguée pour prendre en compte simultanément les tableaux de données du microbiote prélevés à différents temps. Il s’agira en particulier d’identifier des trajectoires communes pour des groupes de marqueurs par des méthodes de décomposition tensorielle.

Profil du candidat :
Niveau Bac +5, Master II ou ingénieur, avec une formation en statistique ou biostatistique.

Formation et compétences requises :
Intérêt pour le traitement statistique de données biologiques et de santé.
Maîtrise des méthodes d’analyse multivariée dans le cadre supervisé et non supervisé.
Maîtrise du langage R.

Adresse d’emploi :
ONIRIS, Rue de la Géraudière, CS 82225, 44322 Nantes

Document attaché : 202112021708_stage_StatSC_CIMMAP_2022.pdf

Categories: Stages

Feb

Mon

2022

Amélioration d’un algorithme d’apprentissage automatique pour la reconnaissance de polluants fluorés

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CASC4DE
Durée : 6 mois
Contact : mad@casc4de.eu
Date limite de publication : 2022-02-28

Contexte :
CASC4DE est une entreprise spécialisée dans le développement de méthodes analytiques ainsi que dans l’ingénierie de logiciels et de données. Nous développons des solutions innovantes pour relever les défis de la gestion et du traitement de grands ensembles de données analytiques en combinant des compétences interdisciplinaires dans les domaines de la biochimie, des mathématiques et des sciences des données. En outre, la société mène sa R&D dans l’esprit de la science ouverte (données F.A.I.R. si possible) et de l’open-source (logiciels libres et indépendants). CASC4DE propose également des services pour répondre aux problématiques analytiques des clients. Nous proposons des approches multi-analytiques avec un accès à des techniques avancées de Résonance Magnétique Nucléaire (19F fluor, RMN 2D, 3D) ou de Spectrométrie de Masse (FTICR MS, 2D FTMS).

Sujet :
Le fluor est un élément commun mais non métabolisé dans les organismes vivants. Il fait partie de molécules artificielles largement utilisées dans l’industrie et les produits de consommation courante. Les molécules fluorées sont extrêmement résistantes et couramment utilisées dans la synthèse de produits, elles font partie des polluants de l’environnement et sont plus particulièrement connues sous le nom de POP (polluants organiques persistants). Des normes existent pour limiter la quantité de molécules fluorées présentes dans l’environnement mais aucune technique complète n’existe pour le moment pour détecter et identifier ces polluants fluorés. L’idée du projet ANR “FLUOVIAL” est d’atteindre cet objectif en utilisant la RMN 19F.
Le projet est conçu en plusieurs phases :
– acquisition de données RMN 19F de composés fluorés connus
– application d’algorithmes spécialement conçus pour le prétraitement des données
– développement d’un algorithme d’apprentissage automatique (Random Forest) sur les spectres prétraités pour effectuer une classification par molécules
– application de l’algorithme entraîné à des composés inconnus pour détecter et identifier les molécules fluorées
Ce projet sert de base au projet IPANEMA (https://www6.paca.inrae.fr/emmah/Equipes-de-recherche/Equipe-DISCOVE/Projets-en-cours/IPANEMA) financé par l’ADEME qui vise à développer des outils permettant de mieux prévoir le devenir dans les sols des polluants perfluorés (PFAS), très utilisés dans l’industrie.
L’algorithme Random Forest (RF) a été choisi parmi la grande quantité d’algorithmes d’apprentissage automatique disponibles et applicables dans le cas présent car il a fourni de bons résultats préliminaires. La RF est un algorithme d’apprentissage supervisé, avec tous les échantillons étiquetés, basé sur de multiples arbres de décision à partir desquels une prédiction finale est faite par un vote entre chaque arbre individuel. L’algorithme développé et optimisé a donné de bons résultats sur les exemples de la base de données, atteignant plus de 90% de bonnes prédictions.
L’idée durant le stage serait d’améliorer l’outil d’apprentissage automatique développé en :
– ajoutant des outils d’analyse de la Random Forest, notamment pour la recherche et l’évaluation des critères déclenchant la décision de classification
– mettant en évidence graphiquement les zones du spectre qui ont déclenché la décision de la Random Forest
– proposant la superposition du spectre expérimental inconnu, et des spectres de référence
– effectuant éventuellement une nouvelle optimisation de l’algorithme
– permettant l’analyse sur des mélanges

Profil du candidat :
Etudiant de M2 ou cycle ingénieur portant un intérêt aux méthodes d’analyses de données automatiques.

Formation et compétences requises :
Compétences de programmation en langage Python – Familiarité avec l’environnement Jupyter.

Adresse d’emploi :
Pôle API – Boulevard Sébastien Brant – 67400 Illkirch-Graffenstaden

Contacts: mad@casc4de.eu, laura.duciel@casc4de.eu

Categories: Stages

Analyse comparative de méthodes neuronales de normalisation d’entités en domaine biologique

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Unité MaIAGE, INRAE, Université Paris-Saclay
Durée : 6 mois
Contact : arnaud.ferre@inrae.fr
Date limite de publication : 2022-02-28

Contexte :
La quantité de données textuelles ne cesse d’augmenter, et c’est en particulier le cas de la publication d’articles scientifiques. Face à cette énorme quantité de données produites, de nombreuses informations et connaissances sont perdues ou ne sont simplement jamais exploitées. L’extraction d’information est le domaine de l’intelligence artificielle visant à extraire et à structurer automatiquement des informations contenues dans des grandes quantités de textes.

Aujourd’hui, quelle que soit la tâche d’extraction concernée, les approches état de l’art s’appuient sur de l’apprentissage profond (deep learning). C’est en particulier le cas pour la tâche de normalisation d’entités, dont l’objectif est de classer des mentions extraites de textes dans des classes contenues dans une référence du domaine concerné, telles que des bio-ontologies (ex : la mention “monoclonal B cells” représente un , qui est une classe de l’ontologie OntoBiotope). Cette tâche permet de compléter/produire automatiquement des bases de données d’intérêt beaucoup plus précises pour le domaine d’étude concerné. Le domaine biologique/biomédical a d’importants besoins de ce genre (ex : bases de données de phénotypes, de biotopes bactériens, d’effets secondaires de médicaments, …), et est le domaine d’application principal pour la recherche en normalisation.

Sujet :
Malgré un intérêt croissant de la communauté de recherche en extraction d’information, la normalisation d’entités reste un défi de taille. En domaine biologique/biomédical notamment, on observe une rareté et une dispersion des exemples d’entraînement, qui posaient jusqu’à récemment des difficultés aux approches par apprentissage. Mais depuis quelques années, des méthodes par apprentissage neuronal profond (ex : BioSyn – Sung et al., 2020 ; C-Norm – Ferré et al., 2020 ; Pattisapu et al., 2020) ont réussi à se démarquer sur certains jeux de données d’évaluation (ex : NCBI Disease Corpus, Bacteria Biotope 4, Custom CADEC).

Néanmoins, ces méthodes sont encore trop rarement évaluées sur plusieurs jeux de données distincts. Des travaux de notre équipe de recherche ont pourtant montré récemment une certaine sur-adaptation, c’est-à-dire qu’une méthode est souvent performante sur un jeu de données, sur lequel elle a été développée et publiquement évaluée, mais pas sur d’autres. Dans ce stage, nous proposons donc d’étudier la robustesse de méthodes état de l’art sur plusieurs jeux de données, et d’analyser comparativement les erreurs qui semblent encore résister aux approches neuronales profondes récentes.

Dans ce stage, les tâches suivantes seront à réaliser :
– Exécution/Implémentation de méthodes neuronales état de l’art sur des jeux de données standards utilisés pour l’évaluation (choix d’au moins 2 méthodes et 2 jeux de données) ;
– Comparaison des scores obtenus et de leur significativité ;
– Analyse et catégorisation des erreurs produites ;
– Comparaison des profils de prédictions des différentes méthodes.

Le stagiaire aura accès aux serveurs de calculs du laboratoire, ou, au besoin, à des infrastructures de calcul haute performance (ex : Lab-IA).

Les travaux effectués pourront mener à une publication.

Profil du candidat :
Autonome en programmation Python.
Connaissances en sciences du vivant/biomédical et fondamentaux en algèbre linéaire (ex : espace vectoriel, opération matricielle).
Une connaissance de la théorie derrière les réseaux de neurones et des compétences dans au moins une des libraires Python standards PyTorch/TensorFlow serait un plus.
Une expérience en traitement automatique des langues naturelles ou plus particulièrement en extraction d’information serait appréciée.

Formation et compétences requises :
Master 2 / dernière année d’école d’ingénieur en bio-informatique, informatique, mathématiques appliquées ou équivalent.

Adresse d’emploi :
Centre de recherche INRAE de Jouy-en-Josas (78)

Categories: Stages

Apprentissage profond pour l’estimation de variables biophysiques du couvert forestier tropical

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : raffaele.gaetano@cirad.fr
Date limite de publication : 2022-02-28

Contexte :
Le suivi de l’état des forêts tropicales est d’importance mondiale (Herold et al. 2019). Il appelle le suivi dans la durée et sur de grandes surfaces de variables « biophysiques » de structures forestières (couvert, hauteur de canopée, biomasse épigée, …) et d’indicateurs de diversité spécifique et fonctionnelle. Le suivi du couvert arboré, notion polysémique, a fait l’objet de travaux importants, principalement basés sur les séries d’images satellitaires longues à moyenne résolution ou haute résolution spatiale (MODIS, Landsat, respectivement), Ceci a débouché sur des produits cartographiques ambitieux à des échelles pantropicales et mondiales (e.g. Avitabile et al. 2012; Hansen et al. 2013 ; Kubayashi et al. 2016). Cependant, ces produits recèlent des faiblesses de plusieurs ordres. Si celles-ci n’opèrent pas leur intérêt, tant que l’ampleur des surfaces peut permettre la compensation des imprécisions locales, elles rendent leurs utilisations hasardeuses pour des applications demandant de se focaliser sur des surfaces plus restreintes (downscaling), ou requérant un niveau de précision supérieur à celui effectif (qui n’est pas toujours explicite, d’ailleurs).

Le projet Sé2coul, a pour objectif de traduire les opportunités, offertes par les données Sentinel-1 et Sentinel-2, pour le suivi et la caractérisation des forêts, en tirant partie :
i) de la densification temporelle des séries temporelles d’images satellitaires et de leur accroissement en résolution spatiale. Ceci doit permettre d’aller bien au-delà de ce qui peut déjà être fait actuellement avec les séries HR de type « Landsat » (par exemple via le Google Earth Engine) pour corriger les effets instrumentaux dans l’optique de détection de changements francs de couvert (déforestation, feu, plantation, …), ou de détections de perturbations localisées (exploitation, chute d’arbres, …).
ii) de la facilitation de l’usage conjoint des données radar et optiques (Sentinel-1 et -2). En complément de l’optique, l’information radar en bande C (bien que probablement saturante à des niveaux assez bas de couvert et de biomasse) est sensible à la structure tridimensionnelle, et peut aider à lever des ambiguïtés dans les végétations complexes, ouvertes (par exemple pour le suivi de la dynamique des trouées, naturelles ou non), ou marquées par des variations saisonnières d’humidité (y compris du substrat).
iii) du développement de techniques d’intelligence artificielle (deep-learning) pour tirer parti des atouts des données Sentinel dans la perspective spécifique de la caractérisation biophysique des composantes ligneuses de la végétation dans des contextes tropicaux variés.

Le projet aura pour objectif de traduire ces opportunités en avancées significatives concernant l’estimation de caractéristiques fondamentales de la végétation ligneuse : (i) structure : Hauteur de canopée, LAI, etc. (ii) diversité, (iii) signature fonctionnelle saisonnière.

Sujet :
En s’appuyant sur les résultats actuels du projet, qui ont permis d’évaluer le potentiel des images Sentinel pour l’extraction de variables biophysiques sur la structure et la diversité des couverts forestiers, l’objectif de ce stage est de tester des solutions basées sur l’apprentissage profond pour : (i) s’affranchir du problème de la forte nébulosité des images disponibles en optique (Sentinel-2) en s’appuyant sur l’utilisation conjointe d’images optiques et radar; (ii) mettre en place des solutions permettant la mise en opération de la production cartographique de ces variables; (iii) poser les bases pour l’extraction d’information à valeur ajoutée (cartographie de la typologie des couverts forestiers, extraction de traits fonctionnels par analyse de séries temporelles). Le terrain d’étude en Guyane Française sera ciblé en priorité pour tester ces méthodes.
Pour cela, nous allons mobiliser en grande partie des méthodes déjà développées au sein de notre unité, concernant à la fois l’extraction de variables biophysiques et la génération de séries temporelles d’images Sentinel-2 dénuagées, avec l’objectif de les combiner opportunément et de tester la production de cartes sous différentes contraintes en termes de disponibilité d’images (e.g. nébulosité). Selon les acquis de cette phase, un deuxième objectif serait de travailler sur des séries temporelles d’images optiques dénuagées pour évaluer des premières méthodes d’extraction d’information à valeur ajoutée.

Les principales étapes envisagées pour la réalisation du stage sont :
Analyse bibliographique sur les méthodes d’apprentissage profond pour la synthèse d’images sans nuages par couplage radar/optique, et sur l’état de l’art concernant l’extraction de variables biophysiques du couvert forestier.
Mise en place du jeu de données :
Prise en main des données existantes
Téléchargement et prétraitements de série temporelle d’images Sentinel-1 et Sentinel-2
Préparation du jeu de données pour l’évaluation
Prise en main des méthodes d’apprentissage profond qui sont à mobiliser.
Mise en place de telle méthode dans le contexte de la cartographie de la typologie du couvert forestier sur la zone d’étude.
Évaluation de la méthode déployée à travers une analyse quantitative/qualitative.
Rédaction du rapport et préparation de la soutenance.

Profil du candidat :
Master II ou 3ème année d’école ingénieur en Traitement du Signal, Informatique ou Télédétection
Compétences : programmation informatique et géomatique
Bonne connaissance des méthodes de machine et deep learning (TensorFlow/PyTorch, Keras, …)
Goût pour la recherche scientifique et l’interdisciplinarité
Maîtrise de l’anglais et bonne capacité rédactionnelle

Formation et compétences requises :
Master II ou 3ème année d’école ingénieur en Traitement du Signal, Informatique ou Télédétection
Compétences : programmation informatique et géomatique
Bonne connaissance des méthodes de machine et deep learning (TensorFlow/PyTorch, Keras, …)
Goût pour la recherche scientifique et l’interdisciplinarité
Maîtrise de l’anglais et bonne capacité rédactionnelle

Adresse d’emploi :
Maison de la Télédétection, 500, rue Jean François Breton – Montpellier (34)

Document attaché : 202202071401_Fiche_Stage_M2_SE2COUL_TETIS.pdf

Categories: Stages

Call for internship proposals, M2 PSL IASD

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : PSL University
Durée : 5 mois
Contact : pierre@senellart.com
Date limite de publication : 2022-02-28

Contexte :
The IASD M2 (Artificial Intelligence, Systems, Data) is a track of the Master in Computer Science of PSL University (involving Université Paris-Dauphine, the École normale supérieure, Mines ParisTech).

Sujet :
The IASD M2 calls for internship proposals for its students. Students follow a curriculum covering various aspects of artificial intelligence, data science, machine learning, data management. The curriculum is available at https://www.masteriasd.eu/

Internship proposals can be submitted at https://db.masteriasd.eu/internships/submit

Internships last roughly 5 months, from April to August.

Profil du candidat :
M2 student

Formation et compétences requises :
–

Adresse d’emploi :
TBD

Categories: Stages

Conception d’une architecture ETL générique pour l’analyse vidéo en temps réel

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC – Laboratoire d’Informatique, Systèmes, Tr
Durée : 4 – 6 mois
Contact : khadija.arfaoui@univ-smb.fr
Date limite de publication : 2022-02-28

Contexte :
Le sujet de ce stage se situe dans le cadre d’un projet de recherche visant à proposer une nouvelle architecture pour l’acquisition, le traitement et l’analyse de données massives (Big Data). En effet, de nos jours les sources et les types de données se multiplient au sein de l’entreprise : de fichiers plats, de données opérationnelles, de nouveaux services internet, de différents réseaux sociaux, de nouvelles applications de l’internet des objets (IOT), en particulier les capteurs. Cette révolution informationnelle a généré une grande masse de données, dite « Big Data ». Le Big Data est caractérisé par le grand « Volume » de données collectées par l’entreprise, la « Variété » de ces données, qui peuvent être structurées, semi-structurées ou non structurées et aussi par la fréquence de l’arrivée des données « Vitesse » qui devrait être prise en considération. Dans ce stage nous nous intéressons à l’acquisition, le traitement et l’analyse des données vidéos en temps réel, c’est-à-dire les « video analytics » [2], [3].
Par ailleurs, autours du Big Data une bonne variété de technologies dédiées est apparue, tels que l’écosystème d’Hadoop (HDFS, Map Reduce, Yarn, etc), Flink, Kafka, Elasticserach, Kibana, etc. En particulier nous trouvons ceux qui s’adressent à l’ingestion et au traitement de données produites en streaming (les vidéos), tels que : Kafka, Apache Samza, Spark Streaming, Flume, Storm et d’autres.

Sujet :
L’objectif du stage sera de développer les composants fondamentaux d’une architecture générique pour l’extraction, le traitement, le chargement (ETL) et l’analyse des vidéos de trafic routier collectées en temps réel. En particulier, l’étudiant étudiera comment optimiser la localisation de l’état des applications au sein de l’architecture de stockage utilisée par les pipelines ETL pour améliorer les performances d’analyse vidéo. L’étudiant s’appuiera sur un prototype déjà développé au sein du LISTIC qui utilise un schéma de routage dit Bloom Filter-based Routing « BFR » [4] sur un cache distribué pour la découverte des contenus. Détails supplémentaires sur l’architecture à implémenter seront définie avant le début du stage dans le cadre d’un sujet de thèse annexe.
Pour l’exécution des tâches de traitement sur les flux de vidéo collectés et le stockage des données, le candidat aura accès durant la période du stage à la plateforme MUST, mésocentre de stockage et de calcul scientifique mutualisée ouverte sur la grille de recherche européenne utilisée par les chercheurs des différents laboratoires de l’USMB.
En résumé, les résultats attendus de ce stage sont les suivants :
1. Acquérir de compétences sur les technologies Big Data dédiées au traitement de flux vidéo.
2. Implémenter l’architecture générique proposée pour l’extraction, de traitement, le chargement, et l’analyse de vidéo.
3. Validation du système avec un exemple de flux de vidéo en temps réel, en vue de détecter par exemple les matricules de voitures circulant sur la route.
4. Réaliser des tests de performance de l’architecture implémentée sur la plateforme MUST.

Références.
[1] Thibeault, J. (2020). Streaming Video Fundamentals. SMPTE Motion Imaging Journal, 129(3), 10-15. DOI: 10.5594/JMI.2020.2976257
[2] J. Jiang, G. Ananthanarayanan, P. Bodik, S. Sen, and I. Stoica. Chameleon: scalable adaptation of video analytics. In Proceedings of the 2018 Conference of the ACM Special Interest Group on Data Communication, pages 253–266, 2018.
[3] Rachuri, S. P., Bronzino, F., and Jain, S. (2021, October). Decentralized modular architecture for live video analytics at the edge. In Proceedings of the 3rd ACM Workshop on Hot Topics in Video Analytics and Intelligent Edges (pp. 13-18).
[4] Marandi, A., Braun, T., Salamatian, K. and Thomos, N., 2020, June. Network Coding-based Content Retrieval based on Bloom Filter-based Content Discovery for ICN. In ICC 2020-2020 IEEE International Conference on Communications (ICC) (pp. 1-7). IEEE.

Profil du candidat :
Connaissances en Réseau et Systèmes Distribués
Connaissances recommandées en Informatique: Linux, Python, Redis, Spark Streaming, Kafka, container (Docker et/ou Kubernetes)

Formation et compétences requises :
Étudiant en Master 2ème année ou Ingénieur 5ème année en Informatique avec comme spécialité Réseaux et systèmes distribués de préférence.

Adresse d’emploi :
Étudiant en Master 2ème année ou Ingénieur 5ème année

Document attaché : 202111221638_offre_distributed.pdf

Categories: Stages

Développement d’un réseau de neurones permettant la caractérisation acoustique du transport sédiment

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : cerege
Durée : 6 mois
Contact : gassier@cerege.fr
Date limite de publication : 2022-02-28

Contexte :
L’estimation du débit de mise en mouvement des particules ainsi que du flux sédimentaire par fractions granulométriques (taille)
transportées dans les cours d’eau sont des enjeux cruciaux pour leur gestion, que ce soit pour des études scientifiques, des projets de
restauration, de prévention des crues, ou des travaux opérationnels. Devant le manque de méthode efficace, la communauté scientifique
et opérationnelle s’intéresse aux approches par mesures indirectes, ici par acoustiques passive, qui consiste à mesurer le son produit par
le déplacement des sédiments dans une rivière en y immergeant des hydrophones afin d’en évaluer les caractéristiques.

Sujet :
Au sein du Centre de Recherche et d’Enseignement de Géosciences de l’Environnement (CEREGE), nous proposons à un
étudiant, lors de son stage de fin d’études de Master ou d’ingénieur, de développer un réseau de neurones permettant de
caractériser le flux sédimentaire (masse par unité de temps) transporté dans un cours d’eau à partir de la pression acoustique
générée par ce dernier et mesurée par des hydrophones.

Profil du candidat :
Master 2 ou école d’ingénieur.

Formation et compétences requises :
Le stagiaire : Deep learning, réseau de neurones,
python, Jupyter, Linux, TensorFlow, keras, Traitement du signal acoustique.

Adresse d’emploi :
CEREGE
TECHNOPOLE ENVIRONNEMENT ARBOIS-MEDITERRANEE BP80
13545 AIX en PROVENCE, CEDEX 04, FRANCE
Tél. (+33) (0)4 13 94 91 00

Document attaché : 202112151536_Sujet_Stage_CEREGE.pdf

Categories: Stages

Exploiting Data Mining and Constraint Programming for Predictive Maintenance

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N/IMT Atlantique
Durée : 5-6 mois
Contact : samir.loudni@imt-atlantique.fr
Date limite de publication : 2022-02-28

Contexte :
Recently, with the emergence of Industry 4.0 (I4.0), predictive maintenance (PdM) based on data-driven methods has become the most effective solution to address smart manufacturing and industrial big data, especially for performing health perception (e.g. fault diagnosis and remaining useful life (RUL) estimation). Here, maintenance corresponds to the process that deals with equipment or system components to ensure their normal operating under any circumstance. PdM relies on the continuous monitoring of the equipment or the machine to predict when maintenance actions are necessary; hence the maintenance can be scheduled. Detecting and preventing failures is thus essential, and industries seek to minimise the number of operational failures, minimise their operational costs, and increase their productivity.

Failure Prediction is one of the critical components of PdM for which the main goal is to predict the approximate moment when some failure could occur. Recent works have addressed anomaly detection for PdM in order to predict incipient failures from historical data.

In the last decade, new research have began connecting data mining to symbolic Artificial Intelligence (AI). Such fertilization leads to a number of algorithms that have been proposed within Constraints Programming (CP) and Satisfiability (SAT) for mining sequences, frequent item-
sets, association rules, clustering, classification, etc. The main advantage
of symbolic AI approaches for pattern mining is their declarativity and flexibility, which include the ability to incorporate new user-specified constraints without the need to modify the underlying system.

Sujet :
The objective of this internship is to use constraint programming to apply symbolic data mining techniques on historical data to characterise the healthy behaviour of equipment. We will consider especially symbolic data mining techniques applicable to time series data where data are generated in streams. The internship will address the two following principal tasks:
• Knowledge discovery process about normal behaviour;
• The anomaly detection in new data.

Profil du candidat :
– Étudiant M2 ou 3ème ingénieur en Informatique
– bonnes compétences en programmation (Java, Python)
– connaissances en programmation par contraintes (la maîtrise des outils associés comme la bibliothèque Choco serait un vrai plus)
– une compétence en fouille de données et des méthodes associées
– goût pour la recherche et le travail collaboratif intra-équipe.

Formation et compétences requises :
– Étudiant M2 ou 3ème ingénieur en Informatique
– bonnes compétences en programmation (Java, Python)
– connaissances en programmation par contraintes (la maîtrise des outils associés comme la bibliothèque Choco serait un vrai plus)
– une compétence en fouille de données et des méthodes associées
– goût pour la recherche et le travail collaboratif intra-équipe.

Adresse d’emploi :
IMT Atlantique campus de Nantes

Document attaché : 202202010855_TASC_internship_2021.pdf

Categories: Stages

Machine Learning in Computational Fluid Dynamics

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Sorbonne Universite – Equipe Machine Learning and
Durée : 6 mois
Contact : patrick.gallinari@sorbonne-universite.fr
Date limite de publication : 2022-02-28

Contexte :
Numerical simulation of fluids plays an essential role in modeling complex physical phenomena in domains ranging from climate to aerodynamics. Fluid flows are well described by Navier-Stokes equations, but solving these equations at all scales remains extremely complex in many situations and only an averaged solution supplemented by a turbulence model is simulated in practice (Xiao and Cinnella, 2019). The increased availability of large amounts of high fidelity data and the recent development and deployment of powerful machine learning methods has motivated a surge of recent work for using machine learning in the context of computational fluid dynamics (CFD) (Durasaimy et al., 2019). Combining powerful statistical techniques and model-based methods leads to an entirely new perspective for modeling physics phenomena (Willard 2020). From the machine learning (ML) side, modeling complex dynamical systems and combining model-based and data-based approaches is the topic of active new research directions. This is then the context of this project, and our aim is to develop the interplay between Deep Learning (DL) and CFD in order to improve turbulence modeling and to challenge state of the art ML techniques.

Sujet :
Combining CFD models and Deep Learning

Our objective is to improve traditional CFD models, both in terms of complexity and of accuracy of the predictions, with the addition of ML components. Recent progresses, and the generalized use of automatic differentiation both for differentiable solvers and DL algorithms have paved the road to the integration of DL techniques and ODE/PDE solvers. In the ML community, a starting point for such investigations was the Neural ODE paper (Chen 2018) that promoted the use of ODE solvers for ML problems. We advocate for this research the use of DL modules for complementing CFD solvers, in the spirit of (Yin 2021) who introduced a principled approach however still limited to basic PDEs. In our new context, our final objective is to analyze how to model unclosed terms in the Reynolds-Averaged Navier-Stokes (RANS) equations. In order to simplify the problem, for the internship, the approach will be developed for a scalar surrogate of the Navier-Stokes equations, namely, the nonlinear Burgers’ equation, which has been widely used in the literature as a simplified ansatz for Navier-Stokes The whole system will be trained end to end with the DL modules and the numerical solvers using high-fidelity data.

In order to be useful for CFD applications a learned model must accurately simulate flows outside of the training distribution: operational conditions and environment may vary according to different physical factors thus requiring models to extrapolate to these new conditions. For providing such capabilities, we will adopt a new perspective by considering learning dynamical models from multiple environments and analyze the ability of this framework to extrapolate to new conditions.

Profil du candidat :
Master or engineering degree in engineering, computer science or applied mathematics.

Formation et compétences requises :
The candidate should have a strong scientific background with good technical skills in programming.

Adresse d’emploi :
Machine Learning and Information Access team – MLIA – https://mlia.lip6.fr, Sorbonne University, 75005 Paris, Fr

Document attaché : 202112141459_2021-12-MLIA-JLRA-Machine-Learning-Computational-Fluid-Dynamics.pdf

Categories: Stages

Prévision du temps à très haute résolution avec des méthodes de Deep Learning

Tickets

Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre National de Recherche Météorologique (CNRM)
Durée : 6 mois
Contact : laure.raynaud@meteo.fr
Date limite de publication : 2022-02-28

Contexte :
Les prévisions météorologiques fournies par le modèle Arome, opérationnel à Météo-France, ont une résolution spatiale de 2.5km sur les domaines Outre-Mer. En 2022, l’augmentation de résolution atteindra 1.3km, et permettra d’améliorer la performance des prévisions, en particulier pour les évènements à enjeux tels que les cyclones tropicaux et les fortes pluies. Des résolutions hectométriques permettraient de gagner encore en réalisme, en particulier sur l’île de la Réunion dont le relief est complexe. Néanmoins, le coût des prévisions Arome à des résolutions de quelques centaines de mètres ne permet pas d’envisager leur utilisation opérationnelle avant plusieurs années.

Une alternative moins coûteuse à cette descente d’échelle dynamique est la descente d’échelle statistique. L’objectif est d’apprendre une relation statistique entre les prévisions basse résolution (par exemple 2.5km ou 1.3km) et les prévisions haute résolution (par exemple 500m). Les méthodes de descente d’échelle les plus classiques reposent sur des interpolations simples ou des approches de régression linéaire. Récemment, inspirées par les travaux de super-résolution en traitement d’images, plusieurs études ont montré que des méthodes d’apprentissage profond tels que les réseaux de neurones convolutionnels offrent des perspectives intéressantes pour la descente d’échelle (Vandal et al., 2018; Baño-Medina et al., 2019, Leinonen et al., 2020; Höhlein et al. 2020, Sha et al., 2020).

Sujet :
L’objectif du travail proposé est de développer une première descente d’échelle à 500m des prévisions Arome sur la Réunion, par apprentissage profond, et pour des variables de temps sensible telles que la température, le vent et les précipitations. Pour cela il s’agira :
1. de sélectionner et d’implémenter une ou plusieurs architectures de réseaux de neurones adaptées au problème de descente d’échelle, en s’appuyant en partie sur la littérature existante
2. de préparer les jeux de données d’entraînement et de validation pour les réseaux, à partir des simulations Arome basse et haute résolution réalisées par l’encadrement en amont du stage
3. de réaliser des expériences de sensibilité des descentes d’échelle à différents réglages des méthodes statistiques et configurations des jeux de données d’apprentissage
4. d’évaluer la pertinence des prévisions Arome 500m obtenues sur des situations à enjeux variées (fortes pluies, risque de feu de forêt, etc.)

Profil du candidat :
Le stage requiert un réel intérêt pour les méthodes d’intelligence artificielle et leur application aux géosciences. Une bonne connaissance des réseaux de neurones convolutionnels et de leur implémentation Python est requise.

Formation et compétences requises :
M2 ou Ecole d’ingénieur.

Adresse d’emploi :
Centre National de Recherche Météorologique, Toulouse, France

Categories: Stages

Mar

Tue

2022

Anomaly detection in link streams

Tickets

Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6 – Sorbonne Université
Durée : 6 months
Contact : esteban.bautista-ruiz@lip6.fr
Date limite de publication : 2022-03-01

Contexte :
Link streams are sequences of interactions over time. They model a large number of datasets that have both a temporal and a structural component: phone calls, social interactions, internet traffic or financial transactions. The wealth of information contained in link streams bears great potential for progress in high-impact areas. For instance, frauds or thefts in monetary transactions may leave signatures expressed as substreams that heavily interact in a short span of time. Another example are network attacks which may be characterized as repetitive bursts of links that deviate from normal activity. Our goal in this internship is to develop algorithms that allow us to efficiently detect such anomalies in link streams.

Sujet :
The goal of this internship is to develop algorithms that can detect anomalies by ranking the importance of interactions in link streams. Recent works based on this idea have been used to detect microcluster anomalies: suddenly arriving groups of suspiciously similar links. However, such works rank interactions solely based on their time properties (how often two individuals interact) and overlook the structural properties of interactions. We therefore aim to develop ranking algorithms that take into account both the time and structural properties of link streams.

Numerous recent works have extended graph theory concepts to link streams, providing a solid foundation to analyze their structural properties. It is thus a timely challenge to leverage these concepts in the context of anomaly detection algorithms. We are particularly interested in exploring the recent definitions of temporal random walks, which have achieved great success in various applications. We are also open to explore other centrality metrics, such as betweenness, which raise important algorithmic challenges but have great interpretability.

Profil du candidat :
This internship is directed at M2 students with various background (complex networks, algorithmic, graph theory) with a strong interest in graph algorithmics and/or graph theory and its applications.

Formation et compétences requises :
Students in M2 with knowledge of the following: graph theory, algorithmique, statistics, statistical physics, and coding in Python and a compiled language like C/C++/Go/Rust.

Adresse d’emploi :
Le stagiaire fera partie de l’équipe Complex Networks du LIP6 – Sorbonne Université, situé à:
4 place Jussieu
75252 PARIS CEDEX 05, France

Document attaché : 202202011233_Internship_Proposal.pdf

Categories: Stages

Deep learning pour l’émulation de prévisions météorologiques à très fine échelle

Tickets

Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre National de Recherche Météorologique (CNRM)
Durée : 6 mois
Contact : laure.raynaud@meteo.fr
Date limite de publication : 2022-03-01

Contexte :
Les prévisions météorologiques opérationnelles sur les domaines Outre-Mer utilisent une résolution spatiale de l’ordre du kilomètre. Des résolutions hectométriques permettraient de gagner encore en réalisme, en particulier sur l’île de la Réunion dont le relief est complexe. Néanmoins, le coût des prévisions à des résolutions de quelques centaines de mètres ne permet pas d’envisager leur utilisation opérationnelle avant plusieurs années.
Une alternative moins coûteuse à cette descente d’échelle dynamique est la descente d’échelle statistique. L’objectif est d’apprendre une relation statistique entre les prévisions basse résolution et les prévisions haute résolution. Les méthodes de descente d’échelle les plus classiques reposent sur des interpolations simples ou des approches de régression linéaire. Récemment, plusieurs études ont montré que des méthodes d’apprentissage profond tels que les réseaux de neurones convolutionnels offrent des perspectives intéressantes pour la descente d’échelle (Vandal et al., 2018; Baño-Medina et al., 2019, Leinonen et al., 2020; Höhlein et al. 2020, Sha et al., 2020).

Sujet :
L’objectif du travail proposé est de développer une première descente d’échelle statistique à 500m des prévisions sur la Réunion, par apprentissage profond, et pour des variables de temps sensible telles que la température, le vent et les précipitations. Pour cela il s’agira :
1. de sélectionner et d’implémenter une ou plusieurs architectures de réseaux de neurones adaptées au problème de descente d’échelle, en s’appuyant en partie sur la littérature existante
2. de préparer les jeux de données d’entraînement et de validation à partir des prévisions météo basse et haute résolution réalisées par l’encadrement en amont du stage
3. de réaliser des expériences de sensibilité des descentes d’échelle à différents réglages des méthodes statistiques et configurations des jeux de données d’apprentissage
4. d’évaluer l’apport des prévisions 500m obtenues sur des situations à enjeux variées (fortes pluies, risque de feu de forêt, etc.)

Profil du candidat :
Stage de fin d’étude école d’ingénieur ou Master 2.

Formation et compétences requises :
Le stage requiert un réel intérêt pour la prévision numérique du temps et les méthodes d’intelligence artificielle. Une bonne connaissance des réseaux de neurones convolutionnels et de leur implémentation Python est requise.

Adresse d’emploi :
Météo-France/CNRM,Toulouse, France.

Categories: Stages

Stage M2/Ingénieur : Deep Learning pour la détection de tumeurs dans des radiographies

Tickets

Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire I3S
Durée : 6 mois
Contact : lionel.fillatre@i3s.unice.fr
Date limite de publication : 2022-03-01

Contexte :
L’équipe MediaCoding du laboratoire I3S collabore sur ce sujet avec le Centre Hospitalier Universitaire (CHU) de Nice. Le stagiaire pourra donc bénéficier de l’expertise d’un professeur gastro-entérologue et hépatologue.

Sujet :
Objectifs :

Le Deep Learning (ou apprentissage profond) est une technique d’analyse de données qui permet d’obtenir des résultats de classification ou d’estimation très performants quel que soit le domaine applicatif. Ce sujet de stage s’intéresse à l’utilisation du Deep Learning pour l’analyse d’images médicales. Il s’agit plus particulièrement de détecter et localiser des lésions dans le foie. Nous disposons d’un jeu de données réelles d’images tomographiques étiquetées [1]. Les étiquettes décrivent la position et la forme des lésions dans les images. Le but du stage est d’utiliser un réseau de neurones pour estimer l’état du foie du patient.

De nombreux réseaux de neurones existent pour segmenter le contenu d’images [2]. Dans ce stage, il s’agira donc d’identifier les réseaux les plus prometteurs et de les appliquer aux images tomographiques du foie. Le stagiaire devra vérifier avec soin la qualité des informations qui peuvent être extraites de la segmentation, notamment l’estimation de la taille des lésions. Les lésions n’ont bien évidemment pas toutes les mêmes dimensions. Le réseau de neurones aura tendance à mieux détecter les lésions importantes. Le stagiaire pourra s’appuyer sur des travaux récents de notre équipe de recherche [3] afin de développer un réseau de neurones dont les performances en détection et en localisation des tumeurs seront robustes par rapport à la taille et à l’emplacement des lésions.

Encadrant du stage : M. Lionel Fillatre (professeur des universités)

Durée : de 4 à 6 mois (démarrage en mars/avril 2022 selon les contraintes du stagiaire).

Rémunération : environ 550 euros par mois.

Procédure pour déposer sa candidature : envoyer son CV, sa lettre de motivation et ses résultats académiques niveau L1, L2, L3, M1 et M2 à lionel.fillatre@i3s.unice.fr

Bibliographie :

[1] https://arxiv.org/pdf/1901.04056.pdf
[2] http://www.deeplearningbook.org/
[3] Cyprien Gilet, Susana Barbosa, and Lionel Fillatre. Discrete box-constrained minimax classifier for uncertain and imbalanced class proportions.IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020

Profil du candidat :
Ces travaux requièrent les compétences suivantes :
– Programmation informatique : les développements informatiques seront réalisés en Python et Pytorch (connaître préalablement Python n’est pas nécessaire mais souhaitable)
– Notions de bases en machine learning (en particulier sur les réseaux de neurones).

Formation et compétences requises :
Formation niveau M2/Ingénieur en mathématiques appliquées et/ou en informatique.

Adresse d’emploi :
Campus SophiaTech, Sophia Antipolis, département 06 (Alpes-Maritimes).

Categories: Stages

Mar

Sat

2022

Handling classes’ imbalance in supervised classification for medical diagnostics

Tickets

Mar 5 – Mar 6 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LAMADE – Pôle Sciences des Données – Université P
Durée : 5-6 months
Contact : sana.mrabet@dauphine.psl.eu
Date limite de publication : 2022-03-05

Contexte :
The classification of highly imbalanced data is a big challenge for machine learning techniques. To deal with this challenge, many solutions have been proposed that could be classified in three categories: data pre-processing with under/oversampling technique that creates a training sample with a new instances distribution, active sampling that changes the training sampling throw the learning process, and the Synthetic Minority Over-sampling Technique (SMOTE) that creates new synthetic instances in the minority class. The efficiency of each approach depends on the context. For the medical diagnostics, if the input data contains categorical attributes, the SMOTE methods could be not suitable. Otherwise, if the data imbalance ratio is high, using the under/oversampling could induce loss of information in the training sample

Sujet :
Study and compare three different approaches to handle classes’ imbalance in medical data: data pre-processing with over/under sampling, synthetic minority over-sampling and active sampling.

Profil du candidat :
Master 2 ou dernière année d’école d’ingénieur en informatique

Formation et compétences requises :
Bonne connaissance en Machine Learning et en programmation Python.
Maîtrise de l’anglais et bonne capacité rédactionnelle

Adresse d’emploi :
Université Paris Dauphine – PSL
Place du Maréchal de Lattre de Tassigny – 75775 PARIS Cedex 16

Document attaché : 202202211348_Proposition sujet mémoire 2022.pdf

Categories: Stages

Mar

Sun

2022

Indice de qualité des eaux : modèle d’agrégation des sous-indices

Tickets

Mar 13 – Mar 14 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : MIS/UPJV
Durée : 6 mois
Contact : harold.trannois@u-picardie.fr
Date limite de publication : 2022-03-13

Contexte :
Ce stage s’inscrit dans le cadre du projet Janus. Ce projet, porté par le laboratoire MIS et la société Lilaea, a pour ambition de contribuer à l’enjeu sociétal majeur que représente la surveillance de la qualité des milieux aquatiques. Les travaux proposés sont préliminaires à une étude qui sera menée dans le cadre d’une thèse sur la prédiction de la qualité des masses d’eaux douces, étangs, rivières, lacs…

Sujet :
Le(la) stagiaire contribuera à la définition d’un Water Quality Index (WQI) en adéquation avec les dernières normes et avancées techniques. Cet index unique doit permettre à toute personne intéressée de près ou de loin par la qualité de l’eau, d’en connaître son état actuel et sa variabilité, à l’image des indices des prix à la consommation. L’étudiant(e) aura en charge l’exploration de la littérature sur les dernières techniques d’agrégation utilisées dans la construction du WQI à partir de ces sous-indices. Ces techniques d’agrégation sont nombreuses et il n’est pas rare qu’elles s’appuient sur des algorithmes génétiques ou des réseaux de neurones. Pour finir, l’étudiant(e) devra proposer un ou plusieurs modèles d’agrégation et en réaliser une implémentation.

Profil du candidat :
Etudiant(e) en M2 informatique ou dernière année d’école d’ingénieurs, avec une spécialisation dans l’apprentissage artificiel.

Formation et compétences requises :
Le(la) candidat(e) devra avoir des connaissances académiques en apprentissage artificiel et en développement informatique.

Adresse d’emploi :
Université de Picardie Jules verne
Laboratoire MIS
33 rue Saint Leu – 80039 Amiens Cedex 1 – France

Categories: Stages

February – March 2022 Feb – Mar 2022

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Présentation Générale

Manifestations à venir

Actions, Ateliers et Groupes de Travail :