
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : MACLEAN/– — –
Laboratoire/Entreprise : TETIS
Durée : 6 mois
Contact : dino.ienco@inrae.fr
Date limite de publication : 2021-03-08
Contexte :
Le suivi de l’état des forêts tropicales est d’importance mondiale (Herold et al. 2019). Il appelle le suivi dans la durée et sur de grandes surfaces de variables « biophysiques » de structures forestières (couvert, hauteur de canopée, biomasse épigée, …) et d’indicateurs de diversité spécifique et fonctionnelle. Le suivi du couvert arboré, notion polysémique, a fait l’objet de travaux importants, principalement basés sur les séries d’images satellitaires longues à moyenne résolution ou haute résolution spatiale (MODIS, Landsat, respectivement), Ceci a débouché sur des produits cartographiques ambitieux à des échelles pantropicales et mondiales (e.g. Avitabile et al. 2012; Hansen et al. 2013 ; Kubayashi et al. 2016). Cependant, ces produits recèlent des faiblesses de plusieurs ordres. Si celles-ci n’opèrent pas leur intérêt, tant que l’ampleur des surfaces peut permettre la compensation des imprécisions locales, elles rendent leurs utilisations hasardeuses pour des applications demandant de se focaliser sur des surfaces plus restreintes (downscaling), ou requérant un niveau de précision supérieur à celui effectif (qui n’est pas toujours explicite, d’ailleurs).
Le projet Sé2coul, a pour objectif de traduire les opportunités, offertes par les données Sentinel-1 et Sentinel-2, pour le suivi et la caractérisation des forêts, en tirant partie : i) De la densification temporelle des séries temporelles d’images satellitaires et de leur accroissement en résolution spatiale. Ceci doit permettre d’aller bien au-delà de ce qui peut déjà être fait actuellement avec les séries HR de type « Landsat » (par exemple via le Google Earth Engine) pour corriger les effets instrumentaux dans l’optique de détection de changements francs de couvert (déforestation, feu, plantation, …), ou de détections de perturbations localisées (exploitation, chute d’arbres, …). ii) La facilitation de l’usage conjoint des données radar et optiques (Sentinel-1 et -2). En complément de l’optique, l’information radar en bande C (bien que probablement saturante à des niveaux assez bas de couvert et de biomasse) est sensible à la structure tridimensionnelle, et peut aider à lever des ambiguïtés dans les végétations complexes, ouvertes (par exemple pour le suivi de la dynamique des trouées, naturelles ou non), ou marquées par des variations saisonnières d’humidité (y compris du substrat). iii) Le développement de techniques d’intelligence artificielle (deep-learning) pour tirer parti des atouts des données Sentinel dans la perspective spécifique de la caractérisation biophysique des composantes ligneuses de la végétation dans des contextes tropicaux variés. Il est envisagé dans l’esprit de TWINNS (TWIn Neural Networks for Sentinel data ; Ienco et al. 2019).
Le projet aura pour objectif de traduire ces opportunités en avancées significatives concernant l’estimation de caractéristiques fondamentales de la végétation ligneuse : (i) structure : Hauteur de canopée, LAI, biomasse épigée, (ii) diversité, (iii) signature fonctionnelle saisonnière.
Sujet :
En s’appuyant sur des méthodes d’apprentissage profond, l’objectif de ce stage est d’évaluer le potentiel de tels méthodes pour la cartographie et la caractérisation des typologies de couvert forestier à l’aide d’imagerie multi-source Sentinel-1 et Sentinel-2 sur des terrains d’étude telles que la Guyane, le Cameroun et le Sénégal. Un ou deux terrains d’études, parmi ceux listés par avant, seront choisis en accord avec les chercheurs partenaires du projet (UMR AMAP).
Pour cela, nous allons nous appuyer sur des séries temporelles d’images satellitaires radar/optique pour mieux reconnaître les différentes typologies de couvert forestier. Afin de l’évaluation, la méthode d’apprentissage profond sera aussi comparée à des méthodes plus classiques et communément utilisées en télédétection (par exemple Random Forest ou SVM). Un deuxième objectifs, si le temps le permettra, sera dédié à l’utilisation de techniques déjà disponibles au sein de l’UMR TETIS pour évaluer le potentiel des données radar/optique (Sentinel-1 et Sentinel-2) pour l’estimation de variables biophysiques (i.e. LAI ou autre) toujours à travers des méthodes d’apprentissage profond.
Les principales étapes envisagées pour la réalisation du stage sont :
Analyse bibliographique sur les méthodes d’apprentissage profond pour le couplage radar/optique pour la cartographie automatique.
Mise en place du jeu de données :
Prise en main des données existantes
Téléchargement des série temporelle d’images Sentinel-1 et Sentinel-2
Prétraitement des données satellitaires
Préparation du jeu de données pour l’évaluation
Identification d’une méthode d’apprentissage profond déjà existante.
Mise en place de telle méthode dans le contexte de la cartographie de la typologie du couvert forestier
Évaluation de la méthode déployée à travers une analyse quantitative ainsi qu’ une analyse qualitative.
Rédaction du rapport et préparation de la soutenance.
Profil du candidat :
Master II ou dernière année d’école ingénieur en Traitement du Signal, Informatique ou Télédétection,
Compétences : programmation informatique et géomatique
Bonne connaissance des méthodes de machine learning et deep learning
Goût pour la recherche scientifique et l’interdisciplinarité
Maîtrise de l’anglais et bonne capacité rédactionnelle
Formation et compétences requises :
Master II ou dernière année d’école ingénieur en Traitement du Signal, Informatique ou Télédétection,
Compétences : programmation informatique et géomatique
Bonne connaissance des méthodes de machine learning et deep learning
Goût pour la recherche scientifique et l’interdisciplinarité
Maîtrise de l’anglais et bonne capacité rédactionnelle
Adresse d’emploi :
500, rue Jean François Breton, 34090 Montpellier
Offre en lien avec l’Action/le Réseau : MACLEAN/– — –
Laboratoire/Entreprise : LIPN UMR CNRS 7030
Durée : 6 mois
Contact : mustapha.lebbah@univ-paris13.fr
Date limite de publication : 2021-03-10
Contexte :
voir le pdf
Sujet :
voir le pdf
Profil du candidat :
Profile: Motivated student wishing to dig into data science / machine learning / AI state of the art problem and algorithms to obtain practical results and participate in the implementation of software, with interesting perspectives in industrial fields.
Formation et compétences requises :
Level: Master 2 or engineer level (with Computer Science, Statistics, or Applied Mathematics backgrounds).
Adresse d’emploi :
LIPN – UMR 7030 – CNRS, Université Sorbonne Paris Nord
Document attaché : 202101192105_Automatic Machine Learning Methods For Clustering Algorithms.pdf
Offre en lien avec l’Action/le Réseau : MACLEAN/Innovation
Laboratoire/Entreprise : LIPN UMR CNRS 7030
Durée : 6 mois
Contact : mustapha.lebbah@univ-paris13.fr
Date limite de publication : 2021-03-10
Contexte :
voir le pdf
Sujet :
voir le pdf
Profil du candidat :
Solid mathematical background (Bs/Ms), applied mathematics, statistics, signal processing…
CS background: algorithms, complexity theory. Good imperative and object-oriented programming
skills. Functional programming would be a plus.
Proficiency in at least one multi-purpose language, including (but not limited to): Scala (preferred),
Java, Python, C++, Go…
Knowledge of one or more of the following technologies: Apache Spark (preferred); SQL/NoSQL
databases; version control (git).
Scientific computing and ML libraries: Python (numpy, pandas, scikit-learn…), Scala (breeze, smile…).
In the current health context, the candidate is expected to be autonomous, organized and able to
adapt with remote work methodology.
Formation et compétences requises :
Solid mathematical background (Bs/Ms), applied mathematics, statistics, signal processing…CS background: algorithms, complexity theory
Adresse d’emploi :
LIPN – UMR 7030 – CNRS, Université Sorbonne Paris Nord.
Document attaché : 202101192107_Internship-lipn.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ISTerre, Université Grenoble-Alpes, France et LIST
Durée : 4 à 6 mois
Contact : sophie.giffard@univ-grenoble-alpes.fr
Date limite de publication : 2021-03-15
Contexte :
Multi-temporal InSAR (interferometric synthetic aperture radar), a combination of radar acquisitions, can measure the ground surface deformation by looking at differential phase signals at an accuracy up to mm/yr (milliliters/year) for densely sampled time-series. It is extensively used in natural deforming areas such as volcanoes, landslides and faults. The general goal of the project is to improve the accuracy of the measures by studying the full covariance matrix, summarizing the amplitude and phase correlation of small spatial subregions between all pairs of images in the time series.
Sujet :
By taking the French Alps as region study (already studied at ISTerre and processed by the locally developed software NSBAS), we first aim at studying the full covariance matrix for different types of land cover. The idea is that the coherence patterns across time are of different nature in case of snow (rapid but reversible decorrelation between summer and winter), vegetation growth (slow decorrelation, maybe causing some bias), changes of crop yields, etc. We will be able to cluster and classify the type and the state change of the land cover by machine learning (ML, such as convolutional n. nets) from the full covariance matrix. In order to improve the surface deformation measure, the goal is then to 1) automatically remove the biais caused by the slow decorrelation of some types of land states 2) determine which elements of the covariance matrix can be avoided in the computation while assuring the same accuracy. Some other studies, like defining an order 3 matrix, wrt the current order 2 covariance matrix and that could lead to more information, can also be investigated according to the intern’s interests.
Profil du candidat :
M2 student (or possibly M1 if the profile matches closely), from either math, signal processing or computer science masters, or from an engineering school.
Formation et compétences requises :
Some strong computer science and mathematics background is expected, especially some image processing knowledge. Knowledge or interest in machine learning, as well as in remote sensing, would be a plus. A strong interest towards the applicative aspects of methodological developments in AI and a curiosity towards important processes in earth sciences will be appreciated. As the work environment is interdisciplinary, communication and facilitation skills will be required.
Adresse d’emploi :
Université Grenoble Alpes, ISTerre lab. Possibly partly in Annecy. This project is funded by MIAI, the Multidisciplinary Institute in Artificial intelligence of Grenoble Université, and is highly interdisciplinary. The intern will be based in ISTerre, the large Earth science laboratory of Grenoble, and will have strong connections with the LISTIC (Laboratoire d’Informatique, Systèmes, Traitement de l’Information et de la Connaissance) in Annecy: some travels between the laboratories will be funded. In ISTerre, he/she will be supervised by Sophie Giffard-Roisin (expert in AI using remote sensing for natrual hazards) and Marie-Pierre Doin (geoscientist expert in InSAR imaging and land deformation for natural phenomena). In LISTIC, the intern will benefit from the knowledge of Yajing Yang (expert in remote sensing and InSAR, temporal series teledetection and statistics) and Abdourrahmane Atto (expert in mathematics and machine learning for remote sensing).
Document attaché : 202010221144_sujet_stage_MIAI_final.pdf
Offre en lien avec l’Action/le Réseau : RoCED/– — –
Laboratoire/Entreprise : IRIT – UMR5505
Durée : 5 ou 6 mois
Contact : aussenac@irit.fr
Date limite de publication : 2021-03-29
Contexte :
Dans le cadre des humanités numériques, les systèmes d’information permettent de représenter des données ayant des coordonnées spatiales et, le plus souvent, datées. Pour les informations géographiques, la technologie associée est généralement celle des bases de données couplées à des fonctionnalités spécifiques pour les manipuler, les comparer ou calculer. Ce type d’approches est utilisé par exemple pour représenter des découpages territoriaux liés à des activités humaines (administratifs, juridiques, fiscaux, …). L’intégration, la comparaison de plusieurs découpages de ce type sur un même territoire, et l’étude de leur évolution dans le temps, suppose de recouper des données aux formats et contenus hétérogènes. Dans ce contexte, une approche sémantique apporte une solution à l’hétérogénéité et facilite l’interopérabilité : elle consiste à définir un vocabulaire unique permettant de décrire les contenus des sources de données, et à produire des graphes de connaissances dont les nœuds sont les entités géographiques et les entités associées, et dont les arcs expriment la nature des relations entre entités ou valeurs. Cependant, la mise en relation de découpages historiques se heurte à plusieurs problèmes : l’évolution de chacune des unités de territoire ; la différence des dates d’évolution selon les types d’unités territoriales ; l’évolution des types d’unités, de la nature des activités humaines prises en compte ou de la connaissance associée. La mise en correspondance et l’étude de ces données supposent donc des raisonnements sur le temps et l’espace, mais aussi des connaissances historiques ou territoriales.
Le stage se déroulera dans le cadre du projet de recherche ANR ObARDI (janvier 2021–décembre 2024) de l’axe «Révolution numérique : rapports au savoir et à la culture», dont l’un des objectifs est de constituer un ensemble de bases de données structurées sur les dynamiques institutionnelles et sociales de la France de l’Ancien Régime (XVIIe–XVIIIe siècles).1 Ce projet est coordonné par Victor Gay, enseignant-chercheur en histoire économique à l’Université Toulouse 1 Capitole, en collaboration avec les laboratoires en histoire TEMPORA, ainsi que le laboratoire en informatique de l’IRIT pour ce qui concerne le contenu du stage proposé. Ce projet prévoit un financement de thèse sur la thématique abordée dans le cadre du stage.
Sujet :
Le stage a pour but de répondre à l’intégration de données territoriales historiques dans le cadre du projet OBARDI. Il s’agira d’abord d’étudier les différents schémas ou les structures des sources de données à considérer, et de reprendre l’état de l’art sur la représentation sémantique de données géographiques territoriales (ontologies existantes), pour définir un vocabulaire facilitant l’intégration de données de différentes sources. Une deuxième étape consistera à définir des patrons de génération de graphes RDF conformes à ce vocabulaire à partir des différentes sources. Enfin, une 3e étape visera la mise en relation spatiale et temporelle des éléments de territoire provenant des différentes sources à l’aide de raisonnement automatique et afin de tracer leur évolution.
Profil du candidat :
Le candidat recherché devra avoir un goût pour le travail en équipe avec une ouverture interdisciplinaire. Nous recherchons un candidat intéressé par une poursuite en thèse, dans la mesure où le stage pourra être prolongé par une thèse sur le même sujet .
à pourvoir à partir d’avril 2021
Formation et compétences requises :
NIveau M2 informatique, 5e année école d’ingénieur
Connaissances souhaitées : web sémantique, données et connaissances, humanités numériques, systèmes d’information géographiques,
Compétences en programmation Python
Adresse d’emploi :
IRIT – Université Paul Sabatier
118, route de Narbonne
31062 TOULOUSE CEDEX9
télétravail possible en raison des conditions sanitaires
Document attaché : 202103092058_2021 stageOntologiesKG_OBARDI-V2bis.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIAS
Durée : 6 mois
Contact : allel.hadjali@ensma.fr
Date limite de publication : 2021-03-30
Contexte :
L’outil CELLULOID (actuellement accessible sur https://celluloid.huma-num.fr/) permet de visionner et d’annoter des vidéos courtes. L’objectif du stage est d’enrichir cet outil de nouvelles fonctionnalités destinées à faciliter l’annotation et l’étude de vidéos d’œuvres performatives (pièces de théâtre par exemple). Un stage préparatoire réalisé en 2020 a déjà permis de construire, à partir du code informatique de CELLULOID (https://github.com/Souley313/celluloid), un prototype appelé e-spectateur.
Sujet :
Ce nouveau stage a pour but de poursuivre le travail initié et d’enrichir le prototype.
Tâche n°1: Comprendre les fonctionnalités du prototype « e-spect@teur » développé au printemps 2020 : repérages et corrections des bugs.
1. Comprendre le fonctionnement du prototype e-spect@teur, développé à partir du logiciel d’annotation vidéo Celluloïd, et ses différentes fonctionnalités ;
2. Repérer les différents bugs, les corriger ou proposer des solutions/améliorations.
Tâche n°2 : Améliorer l’outil en termes des besoins identifiés de la recherche en Arts de la scène
Côté « user »
1. Proposer une double-fonctionnalité à partir du code source, prévoir deux fonctionnalités : travailler sur une vidéo/travailler sur un spectacle
2. Créer un espace de chat
3. Implémenter l’ontologie d’annotation des vidéos ;
4. Améliorer le système de séquençage et de sous-séquençage ;
Côté « admin »
5. Intégrer le schéma de genèse d’un spectacle théâtral dans le système d’annotation
Tâche n°3 : Formalisation du développement de l’outil
1. Rédiger une description précise de l’outil
Décrire sa composition et ses fonctionnalités en utilisant un langage de modélisation ;
2. Construire le tutoriel de l’outil
Décrire la manipulation de l’outil dans la perspective de médiation disciplinaire ; opter pour une forme numérique du tutoriel (pas seulement du texte) ; Participer aux séances de tests sur l’outil avec et sans le tutoriel pour jauger son ergonomie tout comme sa dimension intuitive.
3. Livrer le code de l’outil (Open source) et le déposer le code sur GitLab Huma-Num
Tâche n°4 : Etudier les possibilités de déploiement de l’outil e-spect@teur sur les serveurs de l’infrastructure TGIR HumaNum.
1. Dès le début de stage, il sera possible d’accéder à la première version d’e-spect@teur actuellement disponible sur les serveurs de la TGIR HumaNum ;
2. Mettre à jour, si possible avant la fin du stage, la version d’e-spect@teur améliorée en fonction des missions proposées.
Profil du candidat :
M2 informatique ou dernière année d’école d’ingénieur en informatique.
Formation et compétences requises :
Compétences souhaitées :
– Programmation (Java, Python ou C), Déploiement d’outils
– Développement d’applications Web
– Analyses et visualisation de données ainsi que les technos associées
Adresse d’emploi :
LIAS/ENSMA
Téléport 2 – 1 Avenue Clément Ader – BP 40109
86961 FUTUROSCOPE CHASSENEUIL Cedex – FRANCE
Document attaché : 202101182104_Stage ESNA_SHS_LIAS.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIAS/ENSMA, Poitiers
Durée : 6 mois
Contact : allel.hadjali@ensma.fr
Date limite de publication : 2021-03-30
Contexte :
A key component of an artificially intelligent system is the ability to explain the decisions, recommendations, predictions or actions made by it and the process through which they are made. Despite the high accuracy in their predictions/recommendations, Machine Learning (ML) models are not able to explain their results, they are considered as “black box” models. This nature of ML-models limit their adoption and practical applicability in many real world domains and affect the human trust in them. Starting from the rule “Better Interpretability Leads to Better Adoption”, the issue related to explanation and interpretation in ML is considered as one of the current hot topics in Data Science field.
Sujet :
Explainable AI (XAI) refers to the tools and techniques that can be used to make any black-box ML to be understood by human experts. There are many such tools available in the market such as LIME, SHAP, ELI5, Interpretml, etc. For instance, the SHapley Additive exPlanations (SHAP) methodology is recently introduced to explain and interpret any ML prediction. The idea is to show how much has each feature value contributed to the value predicted.
The objective of this work is twofold:
– First, provide a comprehensive and complete survey about approaches dedicated to ML models explanation. Then, propose a categorisation of such approaches w.r.t. to some criteria conveniently chosen.
– From this categorisation, identify the family of tools that are more appropriate to explain the prediction/recommendation in the Multisensor Data context.
Bibliographie
• Erik Štrumbelj and Igor Kononenko. “Explaining prediction models and individual predictions with feature contributions”. In: Knowledge and information systems 41.3 (2014), pp. 647–665.
• Lundberg, Scott et al. – “Consistent individualized feature attribution for tree ensembles”, 2019. (https://arxiv.org/pdf/1802.03888.pdf)
• Scott M. Lundberg, Su-In Lee, “A Unified Approach to Interpreting Model Predictions”, NIPS 2017: 4765-4774
• Rich Caruana, Scott Lundberg, Marco Túlio Ribeiro, Harsha Nori, Samuel Jenkins, “Intelligible and Explainable Machine Learning: Best Practices and Practical Challenges”, KDD 2020: 3511-3521
• Goodman, Bryce, and Seth Flaxman, “European Union regulations on algorithmic decision-making and a “right to explanation”, AI magazine 38.3 (2017): 50-57, aaai.org.
Profil du candidat :
La personne intéressée sera en M2 ou dernière année d’école d’ingénieur, spécialité Informatique et/ou statistiques.
Intérêt pour l’IA, le machine learning.
Formation et compétences requises :
M2 informatique de préférence recherche ou dernière année d’école d’ingénieur en informatique.
Compétences souhaitées :
– Compétences en analyse de données, Python
– Compétence en IA
– Des bases solides en mathématiques (statistiques, …)
Adresse d’emploi :
Laboratoire LIAS, École ENSMA
Téléport 2 – 1 Avenue Clément Ader – BP 40109
86961 FUTUROSCOPE CHASSENEUIL Cedex – FRANCE
Document attaché : 202101182033_Sujet_stage_M2_2021.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CRIStAL – Université de Lille
Durée : 6 mois
Contact : laetitia.jourdan@univ-lille1.fr
Date limite de publication : 2021-03-31
Contexte :
L’équipe ORKAD ( http://orkad.univ-lille.fr/ ) du laboratoire CRIStAL de l’université de Lille s’intéresse aux problèmes d’optimisation combinatoire et en particulier, intègre des mécanismes de connaissance dans la conception des algorithmes de résolution. L’intégration de connaissances nécessite de bien connaître les problèmes d’optimisation traités et de proposer des méthodes basées sur des analyses statistiques et issues de machine learning.
Dans ce stage, nous nous intéresserons à la classification supervisée (prédire une classe, par exemple : malade / sain) et plus particulièrement à l’algorithme MOCA-I, qui permet de proposer des règles de classification, notamment sur les données médicales [1]. Précédemment, nous avons proposé AC-MOCA-I [2,3], qui configure automatiquement MOCA-I pour trouver les hyper-paramètres les plus aptes à donner une bonne classification.
Le stage se fera en coopération avec le professeur Holger Hoos de l’université de Leiden (Pays-Bas).
Sujet :
La classification supervisée de données peut être modélisée comme un problème d’optimisation combinatoire où il faut maximiser le nombre de bonnes prédictions. MOCA-I est un algorithme d’optimisation paramétrable conçu pour résoudre les problèmes binaires de classification supervisée de données. Or l’efficacité de MOCA-I est fortement dépendante de ses hyper-paramètres pour chaque jeu de données à traiter. L’objectif du stage est de définir un protocole pour fixer les hyper-paramètres de MOCA-I. Pour cela, plusieurs solutions sont envisagées comme étudier l’impact des meta-features [4] des jeux de données, comparer différentes métriques utilisées par le classifieur… De plus, le choix des jeux de données d’entraînement joue un rôle important dans l’efficacité de la prédiction et cet aspect devra ếtre également considéré dans la mise en oeuvre du protocole.
Bibliographie
[1] The Detection of hospitalized patients at risk of testing positive to multi-drug resistant bacteria using MOCA-I, a rule-based “white-box” classification algorithm for medical data Julie Jacques, Helene Martin-Huyghe, Justine Lemtiri-Florek, Julien Taillard, Laetitia Jourdan, Clarisse Dhaenens, David Delerue, Arnaud Hansske, Valérie Leclercq. International Journal of Medical Informatics , Elsevier, In press, October 2020, 142
[2] Automatic Configuration of a Multi-objective Local Search for Imbalanced Classification Sara Tari, Holger Hoos, Julie Jacques, Marie-Eléonore Kessaci, Laetitia Jourdan PPSN 2020 , Sep 2020, Leiden, Netherlands. Pp.65-77,
[3] Sara Tari, Nicolas Szczepanski, Lucien Mousin, Julie Jacques, Marie-Eléonore Kessaci, Laetitia Jourdan: Multi-objective Automatic Algorithm Configuration for the Classification Problem of Imbalanced Data. CEC 2020: 1-8
[4] A. Balte, N. Pise, P. Kulkarni: Meta-Learning with Landmarking: A Survey. 2014. International Journal of Computer Applications
Profil du candidat :
Stage de fin d’étude (MAster/Ingénieur)
Pour candidater : CV + lettre de motivation à laetitia.jourdan@univ-lille.fr, marie-eleonore.kessaci@univ-lille.fr, julie.jacques@univ-lille.fr
Formation et compétences requises :
Goût pour l’optimisation combinatoire et la classification supervisée
Analyse de données
Savoir communiquer en anglais (oral/écrit)
Programmation R, Programmation orientée objet (C++)
Adresse d’emploi :
http://orkad.univ-lille.fr/
CRIStAL/Université de Lille/CNRS
Bat ESPRIT
Cité Scientifique
59655 Villeneuve d’Ascq Cedex
FRANCE
Offre en lien avec l’Action/le Réseau : – — –/Innovation
Laboratoire/Entreprise : DISP (Décision et Information pour les Systèmes de
Durée : 6 mois
Contact : chantal.bonnercherifi@univ-lyon2.fr
Date limite de publication : 2021-03-31
Contexte :
La recherche de la meilleure maîtrise possible du processus de conception de systèmes complexes reste un enjeu important. En effet, ceci permettrait de capitaliser les bonnes pratiques et de les réutiliser efficacement pour le développement de nouveaux produits.
Durant le processus, un grand nombre de données sont générées et manipulées soit à partir de connaissances déjà existantes soit à partir de connaissances nouvellement créées. Pour atteindre donc des objectifs de capitalisation et de traçabilité tout au long du processus de conception, des travaux de recherche restent à mener, pour profiter encore plus de la digitalisation de ce processus (à travers les approches PLM et Jumeau numérique).
Sujet :
De fait, il est possible de représenter tous ces éléments d’information (données produits, processus et activités, objet de connaissance, etc.) et leurs interactions sous forme de graphes. La modélisation à base de graphe est une approche innovante dans le contexte du processus de conception de produits, pour identifier des bonnes pratiques à capitaliser, pour tracer des données ou des décisions, etc.
Une des difficultés pour cette modélisation dans notre contexte est que ces graphes seront complexes, dues à la multiplicité des nœuds, à leurs nombreuses interactions, à la prise en compte des sémantiques, etc.
L’objectif de ce travail de recherche est de proposer une modélisation à base de graphe à partir de plusieurs cas terrains de processus de conception de systèmes, et d’identifier le méta-modèle associé. Une fois ces graphes modélisés, un travail d’analyse permettra d’identifier des opportunités de capitalisation à partir de pattern, d’évaluation de performances, etc.
Profil du candidat :
Nous recherchons un·e candidat·e issu.e d’une formation en informatique (Modélisation, Graphes) de niveau M2 ou PFE ingénieur en génie mécanique (conception de produits). Il ou elle a un intérêt pour la recherche scientifique, des bases théoriques en graphes, réseaux complexes.
Formation et compétences requises :
Modélisation, Analyse, Synthèse, Programmation
Adresse d’emploi :
Laboratoire DISP
IUT Lumière Lyon 2
Campus Portes des Alpes
160 Boulevard de l’Université
69500 Bron
Document attaché : 202012301005_2021_StageM2_DISP_GrapheConceptionProduits.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LAPP et LISTIC
Durée : 4 à 6 mois
Contact : thomas.vuillaume@lapp.in2p3.fr
Date limite de publication : 2021-03-31
Contexte :
voir fichier joint
Sujet :
A specific neural network has already been developed on simultated data of Cherenkov Telescope Array. With the acquisition of the first real data, the performances of the network must now
be evaluated. After a first step of evaluation, the intern will work on improving the performances of the network based on transfer learning methods or by developing semi-supervised learning methods.
Profil du candidat :
voir fichier joint
Formation et compétences requises :
voir fichier joint
Adresse d’emploi :
Laboratoire LAPP Annecy
Document attaché : 202102061037_202011_GammaLearn_M2_internship_proposal.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2021-03-31
Contexte :
Le CIRAD est engagé dans le développement des agricultures des Pays du Sud, où la réduction de la pauvreté et la sécurité alimentaire sont des préoccupations sensibles. Ce développement passe notamment par le déploiement de solutions numériques innovantes, incluant des méthodologies alternatives pour modéliser et analyser les informations contenues dans les séries temporelles d’images satellitaires.
Dans ce contexte, le projet AMORIS a pour objectif d’explorer les possibilités de caractérisation spatio-temporelle de paysages à grande échelle par une approche de modélisation fondée sur les objets géographiques à des échelles plus fines, en passant donc par une représentation du paysage sous forme de graphes multiples d’interaction à dimensions élevées. Un modèle qui d’appuie sur de tels réseaux complexes conduit à une représentation spatiale des données satellitaires qui va au-delà de la cartographie classique : en prenant notamment en compte les différents types de relations entre objets ou segments identifiés dans les images, correspondant aux éléments « primitifs » du paysage (parcelles agricoles, tâches de végétation naturelle, îlots et structures artificialisés, etc.), ces modèles structurent l’information permettant de remonter vers l’identification d’unités paysagères à plus grande échelle, ayant une connotation « fonctionnelle » homogène dans le paysage. De plus, cette modélisation sous forme de réseaux complexes permet d’appliquer des méthodes récentes d’analyse de réseaux afin de caractériser ces unités paysagères à partir d’information non seulement spectrale ou texturale, et ce de façon non supervisée. Ces connaissances obtenues permettent par exemple de mettre en relief l’organisation spatiale des entités qui constituent un paysage en complément de leur dynamique temporelle.
Sujet :
L’objectif de ce stage est d’étudier de façon exhaustive comment des méthodes de détection de communautés multicouches (Magnani et al. 2019)1 peuvent être utilisées pour obtenir une stratification automatique du paysage agricole. Une méthodologie proposée en 2019 dans le cadre du même projet (Interdonato et al., 2019)2 sera utilisée pour modéliser une série temporelle d’images satellitaires Sentinel-2 sous forme de réseaux multicouches. Différentes méthodes de détection de communautés multicouches seront ensuite testées pour l’identification des différentes unités paysagères.
Plusieurs zones d’étude seront prises en considération, localisées dans des pays de l’Afrique de l’Ouest, et notamment au Burkina Faso et au Sénégal. Ces zones agricoles représentent en effet un terrain particulièrement intéressant pour la méthodologie proposée en raison de la fragmentation et de l’évolution constante des paysages les englobant.
1 Matteo Magnani, Obaida Hanteer, Roberto Interdonato, Luca Rossi, Andrea Tagarelli : Community Detection in Multiplex Networks. CoRR abs/1910.07646 (2019) https://arxiv.org/abs/1910.07646
2 R. Interdonato, R. Gaetano, D. Lo Seen, M. Roche, G. Scarpa : Extracting Multi-Layer Networks from Sentinel-2 Satellite Image Time Series. Network Science, Cambridge University Press (2019)
Profil du candidat :
Etudiant M2
Formation et compétences requises :
L’étudiant(e) sera spécialisé(e) dans la fouille des donnés, et plus spécifiquement dans l’analyse des réseaux complexes et fouille de graphes.
Il/elle devra être à l’aise en programmation, préférablement avec le langage Python. Il/elle devra apprécier la découverte et l’exploration méthodologique, la démarche scientifique, et fera preuve d’un bon esprit d’analyse critique.
Un bon sens du travail en équipe est fortement souhaité, ainsi que le goût pour les collaborations interdisciplinaires. Une bonne culture dans le domaine thématique de l’agriculture en milieu tropicale sera appréciée.
Adresse d’emploi :
Maison de la Télédétection, 500 Rue JF Breton, 34000 Montpellier
Document attaché : 202102051356_Amoris – Sujet de Stage M2 2021.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRIT (SC team, located at ENSEEIHT site)
Durée : 5 to 6 months
Contact : henrique.goulart@irit.fr
Date limite de publication : 2021-03-31
Contexte :
Tensor models are powerful tools for addressing many problems in signal processing, machine learning and beyond. Yet, their use in these applications typically requires estimating a low-rank tensor from a set of observations corrupted by noise, which is often a difficult task. Moreover, in most cases there is currently no theory for predicting the actual estimation performance that can be attained.
To overcome this gap, in recent years several researchers have studied the asymptotic statistical performance of ideal and practical estimators in the large-dimensional regime, where the size of the tensor grows large. In particular, these works have uncovered the abrupt phase transition that the performance of an ideal estimator may undergo as the signal-to-noise ratio grows. While some important advancements have been achieved, many scenarios of practical interest remain unexplored, as well as the practical implications of the existing results in applications.
Sujet :
The overall goal of this internship is to study extensions and applications of the existing results, as a first step for pushing the existing theory beyond its current limits. We will in particular consider extensions to more general tensor models that apply to larger classes of real-world problems, including e.g. asymmetric models. Application to practical machine learning problems — such as community detection in hypergraphs, latent variable model estimation and high-order co-clustering — will also be considered.
The intern will initially perform computer simulations aimed at understanding the behavior of ideal and practical estimators in the target scenarios/applications. Some theoretical results may then be derived on the basis of these experimental findings. Scientific dissemination of these findings will also be encouraged, via publication of papers and/or participation in scientific events.
A PhD thesis may be proposed to the intern at the end.
Please refer to the attached document for further details.
Profil du candidat :
We look for strongly motivated candidates with a solid background on mathematics and statistics, having good programming skills in scientific computing languages (Python, Matlab, Julia). Basic knowledge or interest in random matrix theory is a strong plus.
Formation et compétences requises :
Master 2 student in applied math, statistics, computer science, signal processing or other related fields.
Adresse d’emploi :
2, rue Charles Camichel
31071 Toulouse, France
Document attaché : 202010191312_M2-internship-2021.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIRIS
Durée : 5-6 mois
Contact : beatrice.fuchs@liris.cnrs.fr
Date limite de publication : 2021-03-31
Contexte :
Les traces numériques d’interactions sont des informations laissées par les utilisateurs d’un système informatique lors de leurs activités. Elles témoignent de l’expérience des utilisateurs dans un environnement numérique et constituent des sources de connaissances intéressantes qui peuvent être exploitées à des fins variées en accord avec l’utilisateur. Une fois collectées et modélisées, les traces sont des conteneurs de connaissances riches en informations contextuelles et utilisables à la fois à des fins d’analyse pour inférer des connaissances pertinentes sur l’activité menée par les utilisateurs et également à des fins d’assistance à l’utilisateur. L’équipe TWEAK s’intéresse à des systèmes à base de traces où les traces sont associées à un modèle explicite avec une sémantique expressive sous la forme de traces modélisées. L’équipe a développé des approches visuelles et interactives pour analyser les traces.
Sujet :
Dans ce contexte, le stage a pour objectif de contribuer au développement de prototypes d’exploration de traces. Plusieurs sujets sont possibles :
1°) Visualisation multidimensionnelle de traces : il s’agit d’étudier et concevoir une visualisation interactive de traces en fonction de dimensions paramétrables, et proposer une première implémentation.
2°) Contribution au développement d’un laboratoire d’analyse de traces à partir de la plateforme TRANSMUTE d’exploration visuelle et interactive de traces. TRANSMUTE s’appuie sur un environnement visuel et interactif basé sur html/CSS/JS pour l’exploration visuelle et interactive de traces et exploite un framework de visualisation de traces, un algorithme d’extraction d’épisodes séquentiels (DMT4SP) encapsulé dans un module Python appelé DISKIT qui assure les pré- et post- traitements. Une ou plusieurs directions peuvent être étudiées, parmi lesquelles : le choix les mesures d’intérêt (actuellement prédéfinies et limitées) afin d’ordonner des résultats de la fouille, l’enrichissement des possibilités de pré-traitement, de post-traitement et de paramétrage (découpage des traces, patterns négatifs, combinaison d’attributs en pré-traitement, etc.), l’assistance à la construction d’un modèle à partir des épisodes séquentiels retenus à l’issue de la fouille et mémorisation dans un système de gestion de base de traces.
3°) Assistance à l’acquisition de connaissances à partir de traces : KATIE est une approche d’acquisition de connaissances qui vise à assister, en interaction avec l’utilisateur, le processus de modélisation et d’intégration des traces dans un système à base de traces, en détectant et corrigeant les erreurs résiduelles dans les données (données bruitées ou manquantes). Cette approche utilise l’analyse de concepts formels pour générer un modèle des données analysées. Le processus d’acquisition de connaissances est interactif et itératif et permet à l’utilisateur d’introduire des contraintes afin d’identifier des erreurs dans les données et les corriger.
Profil du candidat :
Le candidat doit être motivé pour le développement.
Formation et compétences requises :
2ème année de master / dernière année d’école d’ingénieur
Le candidat doit avoir des compétences en programmation web, Javascript et Python et des notions en fouille de données.
Adresse d’emploi :
Lyon
Document attaché : 202012161546_stage_m2_2021.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIMSI – CNRS
Durée : 5 mois
Contact : mathelin@limsi.fr
Date limite de publication : 2021-03-31
Contexte :
L’apprentissage automatique, et l’apprentissage profond en particulier, a impacté un très grand nombre de domaines et d’applications en quelques années. Ses performances souvent remarquables, couplées avec la disponibilité de grandes bases de données et de plateformes
logicielles efficaces et ergonomiques, en font un outil privilégié dans beaucoup d’applications en mécanique. Cependant, une des limites de cette classe d’approche est due au manque d’interprétabilité des modèles appris qui restent ainsi trop souvent des « boites noires ».
La quantification de l’incertitude des prédictions du modèle revêt donc un enjeu important et constitue un champ de recherche actif. Plusieurs approches sont typiquement suivies, selon la quantité de paramètres à prendre en compte (par exemple, nombre de nœuds d’un réseau neuronal), la précision recherchée, le type d’incertitude considérée (épistémique, aléatoire), etc.
Sujet :
Dans ce stage, nous proposons de revisiter certaines de ces approches et de s’appuyer sur des outils méthodologiques récents de modélisation stochastique des systèmes d’équations aux dérivées partielles régissant les systèmes mécaniques. Les développements seront menés tant sur le front des approches d’ensembles par échantillonnage (Multi-Level Monte-Carlo, cubature creuse, Adaptive Design of Experiment) que variationnelles.
Cette étude devrait permettre d’accélérer et d’améliorer la précision des outils de quantification des incertitudes des modèles profonds et donc d’élargir leur champ d’application, notamment en termes de taille de réseau (passage à l’échelle) ou d’architecture (graphes, récurrents, à
mémoire, etc.). Des applications sur des données issues de systèmes mécaniques multi-échelle permettront de tester la sensibilité de la quantification à des incertitudes de différentes natures et à différentes échelles. Une possibilité d’application dans le domaine de l’hémodynamique vasculaire à travers les échelles macroscopiques et mésoscopiques de la circulation sanguine sera investiguée.
Profil du candidat :
Profil: solide formation en mathématiques appliquées, statistiques et data sciences; expérience sur les plateformes d’apprentissage.
Formation et compétences requises :
Profil: solide formation en mathématiques appliquées, statistiques et data sciences; expérience sur les plateformes d’apprentissage.
Adresse d’emploi :
LIMSI, Université Paris-Saclay
à Orsay
Document attaché : 202012102145_Stage_UQ_ML.pdf
Offre en lien avec l’Action/le Réseau : ATLAS/– — –
Laboratoire/Entreprise : CEA Saclay, Institut Joliot, Département Médicamen
Durée : 5 mois
Contact : etienne.thevenot@cea.fr
Date limite de publication : 2021-03-31
Contexte :
La caractérisation du phénotype par les approches moléculaires omiques (métabolomique, protéomique) ouvre des perspectives uniques pour la recherche de biomarqueurs dans le domaine de la santé. L’analyse classique des données de spectrométrie de masse (MS) s’effectue sur chaque nouveau jeu de données en deux temps : traitement du signal pour extraire les variables dans les données brutes, puis apprentissage statistique sur ces variables pour générer les modèles prédictifs.
Ces dernières années, les approches de réseaux de neurones profonds (e.g., CNN) directement sur données brutes ont montré des performances de classification très élevées notamment dans le domaine de l’imagerie. Les toutes premières publications dans le domaine de la spectrométrie de masse confirment le potentiel de ce type d’approche.
Sujet :
L’objectif de ce stage est de développer des architectures de type CNN innovantes pour optimiser les étapes de prétraitement des données de spectrométrie de masse MS ou MS/MS, de pronostic et d’annotation. Elle associera les expertises des équipes de science des données du métabolisme et d’imagerie génétique du CEA.
Les modules logiciels seront implémentés pour permettre la détection en routine de biomarqueurs pronostics en santé à partir des analyses métabolomiques sur des cohortes humaines.
Profil du candidat :
Nous recherchons un(e) candidat(e) avec un très bon dossier en mathématiques appliquées (traitement du signal, statistiques et informatique), et motivé par les applications multidisciplinaires (chimie, biologie, clinique).
Formation et compétences requises :
Le master pourra se prolonger par une thèse.
Adresse d’emploi :
Data Sciences for Molecular Phenotyping and Precision Medicine team (SciDoPhenIA)
Département Médicaments et Technologies pour la Santé (DMTS)
CEA Saclay, INRAE, Université Paris Saclay, MetaboHUB
91191 Gif-sur-Yvette cedex
https://scidophenia.github.io/
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IBISC. Université d’Evry, Université de Paris-Sac
Durée : 6 mois
Contact : fariza.tahi@univ-evry.fr
Date limite de publication : 2021-04-30
Contexte :
Les ARN non-codants (ARNnc) sont depuis quelques années au cœur de recherches particulièrement attrayantes et intensives, notamment dans le domaine biomédical. En effet, les ARNnc sont impliqués dans un grand nombre de maladies, telles que le cancer, le diabète, les maladies neuro-dégénératives, et suscitent un intérêt croissant dans leur utilisation comme biomarqueurs ou comme cibles thérapeutiques. Grâce aux nouvelles générations de séquençage (NGS), le profilage détaillé des molécules d’ARNnc a été considérablement améliorée. Un grand nombre de classes et de types d’ARNnc ont été découverts, mais beaucoup d’autres classes sont encore à découvrir.
L’identification de ces ARNncs est donc un enjeu important, et avec les NGS qui génèrent des volumes considérables de données RNAseq notamment, leur prédiction par des méthodes in silico est nécessaire. Ces méthodes permettront en effet d’identifier des ARNncs potentiels pouvant ensuite être validés par des méthodes expérimentales.
Sujet :
Le but de ce stage est de développer une méthode d’apprentissage automatique multi-sources combinant l’apprentissage supervisé et le non-supervisé, afin d’identifier les ARNncs connus et de découvrir de nouvelles classes, en utilisant des sources de données hétérogènes représentant différentes caractéristiques potentielles associées à ces ARN : leur structure secondaire, la présence de certains motifs dans leur séquence, des caractéristiques épigénétiques, etc. L’algorithme se basera sur des réseaux de neurones supervisés de type perceptron multi-couches (ou MLP) et des réseaux de neurones non-supervisés de type cartes auto-organisatrices (ou SOM pour Self Organizing Maps) pour permettre une meilleure visualisation et interprétation des résultats.
Ce stage fait suite aux travaux menés dans le cadre de la thèse de Ludovic Platon (voir les publications ci-dessous), et s’inscrit dans la continuité des travaux de prédiction des ARNncs et de leurs structures menés dans l’équipe AROBAS depuis plusieurs années. Ces travaux ont donné lieu à plusieurs algorithmes et logiciels publiés dans des revues internationales et mis à disposition de la communauté scientifique via le serveur web :
http://EvryRNA.ibisc.univ-evry.fr
Bibliographie :
– L. Platon, F. Zehraoui, F.Tahi. Localized Multiple Sources Self-Organizing Map. International Conference on Neural Information Processing, ICONIP (3) 2018 : 648-659.
– L. Platon, F. Zehraoui, A. Bendahmane, F. Tahi. IRSOM, a reliable identifier of ncRNAs based on supervised Self-Organizing Maps with rejection. Bioinformatics, 34(17), i620-i628, 2018.
– L. Platon, F. Zehraoui, F.Tahi. Self-Organizing Maps with supervised layer. In Proceedings of the 12th International Workshop on Self-Organizing Maps and Learning Vector Quantization, Clustering and Data Visualization (WSOM+). 2017: 161-168.
– Boucheham A, Sommard V, Zehraoui F, Boualem A, Batouche M, Bendahmane A, Israeli D, Tahi F. PLoS One 2017, 16;12(6):e0179787.
Profil du candidat :
Etudiant en Master 2 d’informatique, de data sciences (ou de bioinformatique). Les étudiants de dernière année d’Ecole d’Ingénieur sont également encouragés à candidater.
Formation et compétences requises :
Le candidat doit maitriser les techniques de machine learning, notamment des réseaux de neurones, ainsi que la programmation.
Adresse d’emploi :
Bâtiment IBGBI. 23 bv. de France. 91000 Evry.
Document attaché : 202012101034_Sujet-Stage-Reseaux-Neurones-Classification-ARNnc.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LMEE/IBISC Université Paris Saclay / Univ. Evry
Durée : 5 à 6 mois
Contact : Khalifa.Djemal@ibisc.univ-evry.fr
Date limite de publication : 2021-04-30
Contexte :
Stage de recherche sur la thématique suivante:
Identification des paramètres par apprentissage automatique dans le cadre d’optimisation d’un réseau de capteurs
Sujet :
Titre: Identification des paramètres par apprentissage automatique dans le cadre d’optimisation d’un réseau de capteurs
Description et objectifs du stage:
Il est désormais démontré que la qualité de l’air a un impact sur la santé et devient un sujet de plus en plus préoccupant à l’échelle urbaine. La caractérisation de sources de pollution atmosphérique en environnement urbain devient de ce fait un enjeu important, et repose essentiellement sur l’utilisation d’un grand nombre de capteurs fixes et/ou mobiles.
Les objectifs de ce travail concernent l’identification de paramètres d’optimisation d’un modèle de réseau de capteurs dans le cadre de la géolocalisation de sources de pollution atmosphérique.
En effet, dans un premier temps le candidat réalisera une étude comparative des méthodes récentes d’optimisation de réseau de capteurs. Dans un second temps, il présentera l’intérêt des approches issues de l’intelligence artificielle pour la résolution de ce type de problème.
La dernière partie de ce travail concernera la mise en place d’une méthode d’apprentissage automatique adéquate permettant l’identification des différents paramètres du modèle.
Profil du candidat :
Sujet de stage pour Master 2 ou équivalent, de préférence des spécialités suivantes :
➢ Mathématique/Informatique
➢ Traitement de données
➢ Intelligence artificielle
Formation et compétences requises :
Compétences requises:
➢ Programmation Python, outils de traitement de traitement de données
➢ Méthodes d’apprentissage automatique notamment les techniques d’apprentissage profond
Adresse d’emploi :
Université Paris Saclay / Univ. Evry
IBISC/LMEE
40 rue du Pelvoux
91020 Evry
France
Document attaché : 202103110905_Sujet-stage-M2.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LS2N
Durée : 2/6 mois
Contact : francois.queyroi@univ-nantes.fr
Date limite de publication : 2021-05-01
Contexte :
Le projet régional S&N (Sequences & Networks) a pour objectif l’étude et la conception d’outils pour l’analyse de trajectoires (déplacement routiers, maritimes etc.). Ces traces peuvent être définies comme des séquences discrètes d’événements (e.g. les différents ports visités par un navire). Dans ce cadre, le projet S&N s’intéresse aux relations indirectes entre lieux e.g. sachant qu’un navire vient de Shanghai et est actuellement à Singapour, quelle est sa prochaine destination ? On va ainsi chercher à dépasser la représentation usuelle des déplacements sous la forme de graphes (voir Fig. 1 pdf joint) en utilisant des « réseaux d’ordre supérieur » (voir Fig. 2 pdf joint).
Sujet :
L’objectif du stage est de proposer des outils permettant de visualiser efficacement les séquences spatiales. Des diagrammes comme les « alluvial graphs » (voir Fig. 2c et 2f pdf joint) sont parfois utilisés dans ce contexte. Toutefois la taille des jeux de données rend ce type de visualisation difficile. On va donc s’intéresser à l’agrégation automatique des événements / lieux permettant d’obtenir des modèles qui représentent bien les relations indirectes entre lieux. Ainsi, par exemple, si les navires venant des ports chinois ont des destinations similaires en quittant le port de Singapour, on pourra les considérer comme un objet unique dans le diagramme. Ce travail se basera sur des travaux existants sur la modélisation de trajectoires.
Profil du candidat :
Nous cherchons un.e étudiant.e en L3/M1/M2 informatique (ou équivalent) intéressé.e et ayant des compétences dans l’analyse de données.
– bonne maîtrise de Python
– capacités rédactionnelles
– bon niveau d’Anglais
Formation et compétences requises :
L3/M1/M2 informatique (ou équivalent)
Adresse d’emploi :
Polytech Nantes, Rue Christian Pauc, 44300 Nantes
Document attaché : 202012161413_sujet_master2_2021_fr.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : AIRBUS / Institut de Mathématiques de Marseille
Durée : 6 mois
Contact : badihghattas@gmail.com
Date limite de publication : 2021-05-03
Contexte :
Lors de la mise en service de la première version du logiciel de traitement des pannes d’un
hélicoptère, on constate la détection et l’enregistrement de l’ordre de quelques centaines de pannes
par vol par les systèmes avioniques alors que selon le taux de défaillance théorique global hélicoptère
le nombre de vraies pannes avioniques se situe entre 0 et 1 par vol. Ces détections de fausses
occurrences de pannes polluent l’analyse de données et empêche un traitement efficace des vraies
pannes détectées.
Les données d’entrées sont d’une part, un journal d’évènement contenant les informations :
nom et numéro d’identification de la panne, type d’évènement : apparition ou disparition, temps de
l’évènement et d’autre part les données de contexte correspondants aux données de capteurs de type
réel, enregistrées en continu.
Sujet :
Machine learning pour la ségrégation automatisée des fausses pannes avioniques
Profil du candidat :
Ecole d’ingénieur (Statistiques, Informatique, DataScience) ou Master Data Science.
Formation et compétences requises :
La mise au point de l’outil de prédiction requiert des compétences en développement de moyens d’apprentissage automatique supervisé et non supervisé (clustering, arbres de décision, …) et de modélisation statistique plus classique.
• Le traitement des données de la base centralisée Airbus requiert des compétences SQL, et en langage de programmation (java ou python).
Adresse d’emploi :
A l’Institut de Mathématiques de Marseille à Luminy, avec des déplacements réguliers chez Airbus à Marignane.
Document attaché : 202103031023_Stage-Airbus-I2M..pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : UBO/IUEM/LGO
Durée : 24
Contact : sara.bazin@univ-brest.fr
Date limite de publication : 2021-05-07
Contexte :
Nous avons soumis un sujet de post-doc Marie-Curie pour développer des algorithmes de reconnaissance automatique par apprentissage machine (ML) de signaux de données hydroacoustiques (séismes notamment). Nous disposons de 10 ans d’enregistrements du réseau OHASISBIO dans l’océan indien (https://www-iuem.univ-brest.fr/lgo/les-chantiers/ohasisbio/).
Lien vers l’annonce Euraxess : https://euraxess.ec.europa.eu/jobs/623070
Les candidat.e.s devront avoir passé au moins 12 mois à l’étranger lors des trois dernières années.
Sujet :
Mooring networks of autonomous hydrophones is an effective way for monitoring the ocean soundscape and its sources: undersea earthquakes and volcanic eruptions, marine mammals, iceberg cracks, sea-state, ship noise… For more than 10 years, our laboratory has been maintaining hydroacoustic networks in the open ocean, composed of few hydrophones moored in the sound channel, which acts as an acoustic waveguide, carrying acoustic waves over thousands of kilometers.
In the Indian Ocean, the OHASISBIO network comprises 7 to 9 distant hydrophones continuously recording low-frequency sounds (0-120Hz) since 2010. Its objective is to monitor the seismic activity of mid-ocean ridges, but also the presence and migration patterns of large whales, and the oceanic ambient noise in general. Indeed, mid-oceanic spreading centers generate a large number of earthquakes and thus acoustic waves, indicative of the intervening seafloor spreading processes. Moreover, large baleen whales produce many loud and distinctive calls and songs, which provides clues as to when and where species dwell and migrate. Other sounds of interest are cryogenic sounds produced by icebergs or man-made noises (ship traffic, seismic exploration).
Over the years, passive acoustic monitoring of the ocean results in very large data sets (e.g. 25G/yr/instrument x 10 instr. x 10 years). The preliminary but indispensable, and time consuming step in the data analysis consists in identifying the different types of acoustic events. To achieve a more complete and efficient analysis, we wish to develop a deep learning application for event detection and signal discrimination in our acoustic database.
The fellow will hence develop an automatic detection and classification tool for acoustic signals recorded in the ocean, based on machine learning techniques. Among the wide range of approaches for intelligent classification, we seek for the implementation that would best extract information from our growing acoustic database.
Supervised learning consists in teaching a model how to make classification predictions, here: earthquake, icequake, seismic-shot or whale-call. Parts of the OHASISBIO dataset have already been manually processed and classified, and will serve for training the model.
Once events are detected and classified on several hydrophones, their source can be localized based on their arrival times, the geometry of the network, and the sound-speed in the ocean. Ultimately, resulting seismic catalogs will depict the spatial and temporal seismicity that will help understanding the dynamics of seafloor spreading. Bioacoustic catalogs will be used to establish statistics on the presence of marine mammals and its evolution over the years, a key to developing conservation measures. Ocean noise pollution by man-made noise is becoming a major issue and its evolution has yet to be characterized in the long term. These are among the outcomes expected from a thorough, systematic and enhanced analysis of continuous acoustic recordings in the open ocean, through machine learning techniques.
Profil du candidat :
Applicants must have a maximum of 8 years full-time equivalent experience in research, measured from the date applicants were in possession of a doctoral degree. Years of experience outside research and career breaks (e.g. due to parental leave), will not be taken into account.
Nationality & Mobility rules: Applicants can be of any nationality but must not have resided more than 12 months in France in the 36 months immediately prior to the MSCA-PF call deadline (September 15th, 2021)
Formation et compétences requises :
– Skills in Machine Learning algorithms and their implementation
– Skills in large dataset analysis and signal processing
– Post-doctoral publication(s) in peer reviewed journals, related to these fields
– Experience in acoustics or geoscience will be a plus
– Required Language: English (French is not required)
Adresse d’emploi :
Institut Universitaire Européen de le Mer (Université de Brest), Plouzané, France
