Apprentissage profond pour l’estimation de variables biophysiques du couvert forestier tropical

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : raffaele.gaetano@cirad.fr
Date limite de publication : 2022-02-28

Contexte :
Le suivi de l’état des forêts tropicales est d’importance mondiale (Herold et al. 2019). Il appelle le suivi dans la durée et sur de grandes surfaces de variables « biophysiques » de structures forestières (couvert, hauteur de canopée, biomasse épigée, …) et d’indicateurs de diversité spécifique et fonctionnelle. Le suivi du couvert arboré, notion polysémique, a fait l’objet de travaux importants, principalement basés sur les séries d’images satellitaires longues à moyenne résolution ou haute résolution spatiale (MODIS, Landsat, respectivement), Ceci a débouché sur des produits cartographiques ambitieux à des échelles pantropicales et mondiales (e.g. Avitabile et al. 2012; Hansen et al. 2013 ; Kubayashi et al. 2016). Cependant, ces produits recèlent des faiblesses de plusieurs ordres. Si celles-ci n’opèrent pas leur intérêt, tant que l’ampleur des surfaces peut permettre la compensation des imprécisions locales, elles rendent leurs utilisations hasardeuses pour des applications demandant de se focaliser sur des surfaces plus restreintes (downscaling), ou requérant un niveau de précision supérieur à celui effectif (qui n’est pas toujours explicite, d’ailleurs).

Le projet Sé2coul, a pour objectif de traduire les opportunités, offertes par les données Sentinel-1 et Sentinel-2, pour le suivi et la caractérisation des forêts, en tirant partie :
i) de la densification temporelle des séries temporelles d’images satellitaires et de leur accroissement en résolution spatiale. Ceci doit permettre d’aller bien au-delà de ce qui peut déjà être fait actuellement avec les séries HR de type « Landsat » (par exemple via le Google Earth Engine) pour corriger les effets instrumentaux dans l’optique de détection de changements francs de couvert (déforestation, feu, plantation, …), ou de détections de perturbations localisées (exploitation, chute d’arbres, …).
ii) de la facilitation de l’usage conjoint des données radar et optiques (Sentinel-1 et -2). En complément de l’optique, l’information radar en bande C (bien que probablement saturante à des niveaux assez bas de couvert et de biomasse) est sensible à la structure tridimensionnelle, et peut aider à lever des ambiguïtés dans les végétations complexes, ouvertes (par exemple pour le suivi de la dynamique des trouées, naturelles ou non), ou marquées par des variations saisonnières d’humidité (y compris du substrat).
iii) du développement de techniques d’intelligence artificielle (deep-learning) pour tirer parti des atouts des données Sentinel dans la perspective spécifique de la caractérisation biophysique des composantes ligneuses de la végétation dans des contextes tropicaux variés.

Le projet aura pour objectif de traduire ces opportunités en avancées significatives concernant l’estimation de caractéristiques fondamentales de la végétation ligneuse : (i) structure : Hauteur de canopée, LAI, etc. (ii) diversité, (iii) signature fonctionnelle saisonnière.

Sujet :
En s’appuyant sur les résultats actuels du projet, qui ont permis d’évaluer le potentiel des images Sentinel pour l’extraction de variables biophysiques sur la structure et la diversité des couverts forestiers, l’objectif de ce stage est de tester des solutions basées sur l’apprentissage profond pour : (i) s’affranchir du problème de la forte nébulosité des images disponibles en optique (Sentinel-2) en s’appuyant sur l’utilisation conjointe d’images optiques et radar; (ii) mettre en place des solutions permettant la mise en opération de la production cartographique de ces variables; (iii) poser les bases pour l’extraction d’information à valeur ajoutée (cartographie de la typologie des couverts forestiers, extraction de traits fonctionnels par analyse de séries temporelles). Le terrain d’étude en Guyane Française sera ciblé en priorité pour tester ces méthodes.
Pour cela, nous allons mobiliser en grande partie des méthodes déjà développées au sein de notre unité, concernant à la fois l’extraction de variables biophysiques et la génération de séries temporelles d’images Sentinel-2 dénuagées, avec l’objectif de les combiner opportunément et de tester la production de cartes sous différentes contraintes en termes de disponibilité d’images (e.g. nébulosité). Selon les acquis de cette phase, un deuxième objectif serait de travailler sur des séries temporelles d’images optiques dénuagées pour évaluer des premières méthodes d’extraction d’information à valeur ajoutée.

Les principales étapes envisagées pour la réalisation du stage sont :
Analyse bibliographique sur les méthodes d’apprentissage profond pour la synthèse d’images sans nuages par couplage radar/optique, et sur l’état de l’art concernant l’extraction de variables biophysiques du couvert forestier.
Mise en place du jeu de données :
Prise en main des données existantes
Téléchargement et prétraitements de série temporelle d’images Sentinel-1 et Sentinel-2
Préparation du jeu de données pour l’évaluation
Prise en main des méthodes d’apprentissage profond qui sont à mobiliser.
Mise en place de telle méthode dans le contexte de la cartographie de la typologie du couvert forestier sur la zone d’étude.
Évaluation de la méthode déployée à travers une analyse quantitative/qualitative.
Rédaction du rapport et préparation de la soutenance.

Profil du candidat :
Master II ou 3ème année d’école ingénieur en Traitement du Signal, Informatique ou Télédétection
Compétences : programmation informatique et géomatique
Bonne connaissance des méthodes de machine et deep learning (TensorFlow/PyTorch, Keras, …)
Goût pour la recherche scientifique et l’interdisciplinarité
Maîtrise de l’anglais et bonne capacité rédactionnelle

Formation et compétences requises :
Master II ou 3ème année d’école ingénieur en Traitement du Signal, Informatique ou Télédétection
Compétences : programmation informatique et géomatique
Bonne connaissance des méthodes de machine et deep learning (TensorFlow/PyTorch, Keras, …)
Goût pour la recherche scientifique et l’interdisciplinarité
Maîtrise de l’anglais et bonne capacité rédactionnelle

Adresse d’emploi :
Maison de la Télédétection, 500, rue Jean François Breton – Montpellier (34)

Document attaché : 202202071401_Fiche_Stage_M2_SE2COUL_TETIS.pdf

première demi-journée de deux séminaires sur les techniques d’anonymisation de données

Date : 2022-03-01
Lieu : virtuel,
organisé par le LS2N (Laboratoire des Sciences du Numérique de Nantes)

Le Thème transverse Sciences du Vivant du LS2N organise une mini-série de deux demi-journées de séminaires sur “l’anonymisation de données”.

Les inscriptions aux deux demi-journées sont indépendantes.

La première demi-journée de séminaires se déroulera le mardi 1er mars 2022, de 14H00 à 18H15, en mode distanciel. Le programme comporte 4 présentations :

Générer des données synthétiques centrées sur le patient : plus de raison de faire courir un risque de réidentification dans l’analyse des données biomédicales
Pierre-Antoine GOURRAUD, PU-PH, CHU de Nantes, Université de Nantes

Désidentification de textes : une tâche de détection d’entités ; désidentification de textes médicaux : état de l’art
Évaluation du risque de réidentification de textes
Une autre voie : la création de données artificielles
Pierre ZWEIGENBAULM (*), DR CNRS, responsable du groupe ILES (Langue Ecrite et Signée)
Aurélie Névéol(*), CR CNRS
Cyril GROUIN(*) IR CNRS.
(*) Laboratoire Interdisciplinaire des Sciences du Numérique), Université Paris-Saclay, Orsay

inscription gratuite mais obligatoire, lien pour l’inscription :
https://docs.google.com/forms/d/e/1FAIpQLSeeMkarTuw5seNnxd04xauILglY6pgIg1Soqfe-twXPPXEdTw/viewform?usp=pp_url
programme détaillé ci-dessous

PROGRAMME :
14H00-15H15
Générer des données synthétiques centrées sur le patient : plus de raison de faire courir un risque de réidentification dans l’analyse des données biomédicales
par le Pr Pierre-Antoine GOURRAUD, PU-PH, CHU de Nantes, Université de Nantes

Résumé : Les analyses de données massives s’alimentent presque toujours de données personnelles pseudonymisées. Les interprétations et prédictions auxquelles elles aboutissent sont utiles à la société, mais un risque de réidentification individuelle demeure. Nous présentons une nouvelle méthode permettant de générer des données synthétiques, des avatars, de granularité individuelle, tout en préservant la vie privée des patients, à l’exemple d’un essai clinique et d’un jeu de données en cancérologie utilisé en prédiction avec un algorithme apprenant.

15H15-16H15 ; 16H45-17H30 ; 17H30-18H15
Intervenants du LISN (Laboratoire Interdisciplinaire des Sciences du Numérique), Université Paris-Saclay, Orsay

Pierre ZWEIGENBAULM, DR CNRS, responsable du groupe ILES (Langue Ecrite et Signée)
Aurélie Névéol, CR CNRS
Cyril GROUIN IR CNRS

15H15-16H15
Désidentification de textes : une tâche de détection d’entités ; désidentification de textes médicaux : état de l’art.

Résumé : La désidentification de textes est habituellement modélisée en traitement automatique des langues comme une tâche de détection d’« entités nommées ». Nous donnerons ici une brève introduction à cette tâche : notion d’entité, mesures d’évaluation, les indices qui permettent de détecter des entités dans les textes. Nous résumerons les méthodes employées au fil du temps pour aborder cette tâche, des patrons à la classification supervisée, statistique puis neuronale. Nous poursuivrons avec la désidentification de textes médicaux. Nous présenterons d’abord la question du choix de l’ensemble des types d’entités à repérer lorsque l’on instancie la tâche de détection d’entités sur des textes médicaux : noms de personnes, dates, etc. Nous présenterons ensuite les méthodes qui ont été proposées pour réaliser cette tâche, avec des exemples concernant le traitement de l’anglais et du français : méthodes à base de patrons (de-id, MEDINA v1), à base d’apprentissage supervisé statistique (MEDINA v2, divers outils aux États-Unis) puis neuronal (NeuroNER, MAPA…) et les performances associées.

16H15-16H45 PAUSE

16H45-17H30
Évaluation du risque de réidentification de textes.

Résumé : La question du risque de réidentification est difficile à évaluer sur des textes en langue naturelle. Nous rappellerons le mode d’évaluation traditionnel de la détection d’entités en TAL, qui opère au niveau des entités individuelles. Nous examinerons également des manières simples de l’étendre à des unités textuelles plus pertinentes comme le document ou le dossier. Nous présenterons enfin une expérience d’évaluation du risque de réidentification sur des données réelles.

17H30-18H15
Une autre voie : la création de données artificielles.

Résumé : La désidentification de textes vise à réduire le risque de réidentification de documents textuels, notamment pour rendre acceptable le travail des chercheurs ou des ingénieurs lors de la mise au point d’algorithmes s’appliquant à ces données. Une autre façon de contourner les difficultés d’accès à des textes confidentiels pour le traitement automatique des langues consiste à créer des textes artificiels ayant des propriétés suffisamment similaires aux textes réels, mais ne concernant pas de patients réels. Nous présenterons des directions de travail en ce sens, fondés notamment sur la traduction automatique et sur la génération de textes.

Lien direct

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

deuxième demi-journée de deux séminaires dédiés aux techniques de l’anonymisation de données – 8 mars 2022

Date : 2022-03-08
Lieu : virtuel,
organisé par le LS2N (Laboratoire des Sciences du Numérique de Nantes)

Le Thème transverse Sciences du Vivant du LS2N organise une mini-série de deux demi-journées de séminaires sur “l’anonymisation de données”.

Les inscriptions aux deux demi-journées sont indépendantes.

La deuxième demi-journée de séminaire / tutoriel se déroulera le mardi 8 mars 2022, de 9H30 à 12H30, en mode distanciel. Elle sera consacrée aux techniques d’anonymisation de données, avec le conférencier et le programme suivants :

Pr Benjamin NGUYEN,
Laboratoire d’Informatique Fondamentale d’Orléans, Equipe Sécurité des Données et des Systèmes
INSA Centre Val de Loire & Université d’Orléans
GdR Sécurité Informatique / GT Protection de la Vie Privée

Programme :
– Qu’est-ce que l’anonymat ?
– La pseudonymisation
– Architecture d’anonymisation
– Technique historique d’anonymisation
– Evaluation du risque de réidentification
– Techniques classiques d’anonymisation
– Méthodes statistiques classiques
– Confidentialité différentielle (Differential Privacy)

Le séminaire intègrera plusieurs parties démonstration en mode “tutoriel”. A cette occasion, les participants seront invités à réaliser eux-mêmes les opérations, en utilisant les logiciels ARX (pour l’anonymisation) et WEKA (pour l’analyse de données).

Le principe sera de fournir aux participants tous les fichiers dont ils ont besoin pour suivre, afin qu’ils réalisent les opérations en parallèle avec le conférencier.
L’objectif est de permettre une première prise en main de l’outil ARX, pour des utilisations futures dans d’autres contextes.

Pour un déroulement efficace, le nombre d’inscrits est limité à 30.

La participation à la première demi-journée (1 mars 2022) NE constitue PAS un prérequis pour participer à la deuxième demi-journée.
inscription gratuite mais obligatoire, nombre de places limité à 30,
lien pour l’inscription :
https://docs.google.com/forms/d/e/1FAIpQLScPEBXOSZQDepMDqGaFzNt6e4FmbDP7VzMRBU0H9kCbEyn9lA/viewform?usp=pp_url

Lien direct

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Post-Doc Position: Development of a customizable configuration approach for the digital work environ

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CNAM/IRSN
Durée : 12 mois
Contact : sebastien.ruelle@irsn.fr
Date limite de publication : 2022-04-29

Contexte :
Conservatoire National des Arts et Métiers (CNAM, a public high education and research institution) and Institut de Radioprotection et de Sûreté Nucléaire (IRSN, i.e. the public expert in research and expertise relating to radiological risks, the protection of man and environment) have joined forces in a joint «Cartographie Immersive Etendue/ Extended Immersive Mapping (CIE)» project to innovate the digital environment for researchers. In this context, we are recruiting a post doctorate whose mission is to propose a design and a concrete implementation (Proof Of Concept) of the CIE project, the whole constituting the first part of this project.

Sujet :
– Job: Post doctorate
– Salary: 2600-2700 € monthly gross income
– Starting Date: April-May 2022
– Duration: 12 months

Description :
IRSN operates experimental facilities, scientific and technical equipment, metrology resources and specialized mobile intervention resources. These resources are grouped together by «Plateformes Scientifiques et Techniques / Scientific and Technical Platforms (PST)». The objective of the joint «Cartographie Immersive Etendue/ Extended Immersive Mapping (CIE)» project is to set up a digital environment for the optimization and promotion of the scientific and technical means of PSTs for the benefit of laboratory teams and other potential users. The CIE must make it possible to provide customizable access to PSTs and associated services (3D visits, planning, economic monitoring, community networks, etc.) according to several parameters such as the user’s profile (internal, external, their profession, its hierarchical position, etc.) and its information / data needs (type, level of detail, mode of restitution).
To achieve these objectives, a situational engineering approach will be used with an identification of reusable components defined in relation to user needs and the context of their use. Each user will have a digital space specific to their needs built on an evolving library of components.
The design, implementation and evolution of the CIE must follow the principles of modularity, reuse and adaptation to the context, as well as to the intentions and needs of the users. In order to provide a suitable and evolving workspace for each user, the UX (User eXperience) [1] [2] and EX (Employee eXperience) [3] [4] approaches applied in the digital environment of IRSN were favored and should make it possible to build and then enrich the mapping of the scientific resources of the PSTs as well as all the associated services.

IRSN’s digital environment currently includes:

– Digital workplace (https://www.jalios.com/): this environment provides the IRSN intranet (including management of internal communities of practice);
– Microsoft tools (Sharepoint online, Power BI, Teams, Office…);
– 3D virtual tour (https://vrtice.com/): this solution developed by a startup facilitates access to content in a 3D environment; SPOT uses this tool for the promotion of facilities but also for training and management;
– CRAFT web database (https://www.bdi.fr/fr/plateforme-craft/): the pilot produced by IRSN currently makes it possible to gather all the data from these laboratories and their facilities, then to share them internally, with its partners but also with the general public;
– Internal database search engine (https://www.sinequa.com/): this engine is used to address most IRSN databases (scientific, administrative, technical, etc.);
– External database search engine AMI (https://www.chapsvision.fr/data/);
– Other tools (LEGISWAY for contract management, SAP ERP, etc.).

Post-doctoral research project:

– Prepare a state of the art of existing work in the field of UX and EX systems applicable to the context of the CIE,
– Consolidate the previously conducted analysis of user needs in order to identify the list of functional and technical requirements,
– Propose a taxonomy of description of PST installations and equipment at different levels by highlighting their possible uses,
– Formalize the notion of the UX / EX component and identify a set of components for a given perimeter,
– Propose an approach for configuring the digital work environment according to user needs and profiles,
– Participate in the definition of the target architecture of the digital environment, considering the information system in place and Enterprise Architecture rules,
– Implementation of the proposed approach for a given scope (production of a POC).

An apprentice will assist the post doctorate in the digital web development of CIE components (creation of application pilots, interfaces in the digital environment of IRSN).

Profil du candidat :
PhD degree in Computer Science / UX design

Formation et compétences requises :
Information Systems Development Methodologies, UX Design

Adresse d’emploi :
Location: CNAM, Paris (75) and IRSN, Fontenay aux Roses (92)

Apprentissage de représentations invariantes au domaine pour l’analyse de séries temporelles d’image

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube – Université de Strasbourg
Durée : 36 mois
Contact : gancarski@unistra.fr
Date limite de publication : 2022-04-29

Contexte :
L’objectif de cette thèse est d’étudier et développer des modèles pour l’apprentissage de représentations invariantes par domaine (Deep Learning) pour l’analyse de séries temporelles d’images satellitaires.

Cette thèse cofinancée par le CNES et par la Chaire Industrielle en Sciences des Données et Intelligence Artificielle sera dirigée par Thomas Lampert et Pierre Gançarski.

La date limite de dépôt des dossier auprès du CNES étant fixée en mars 2022, les candidats doivent impérativement prendre contact avec nous le plus rapidement possible afin de nous laisser le temps d’étudier leur candidature et d’organiser une audition si nécessaire.

Sujet :
L’objectif du projet est de développer des modèles d’apprentissage de représentations invariantes par domaine en utilisant l’apprentissage profond pour l’analyse de séries temporelles d’images satellites.

Il est difficile et coûteux d’annoter l’énorme quantité de données générées par les satellites, mais cela est nécessaire pour le succès des algorithmes d’apprentissage profond. Pour surmonter ce problème, des techniques d’apprentissage par transfert et d’adaptation au domaine seront développées pour exploiter les données non étiquetées. Ces techniques permettent d’améliorer les performances d’un algorithme avec un minimum (ou potentiellement aucune) annotation supplémentaire, ce qui réduit le coût du déploiement.

Detailed Description: https://drive.google.com/file/d/1_eil1utHBjfTwhmXQjR6VUM07jbJkYgk/view?usp=sharing

Profil du candidat :
Master en Informatique avec de fortes connaissances en Sciences des Données. Une connaissance de la télédétection est un plus indéniable.

Pour postuler, envoyez un mail à lampert@unistra.fr et pierre.gancarski@unistra.fr en joignant impérativement :
– une lettre de motivation expliquant vos qualifications, expériences et motivations ;
– un curriculum vitae
– toutes les informations sur votre cursus universitaire : parcours, diplômes obtenus, relevés de notes ainsi que votre classement pour chacune des années de Master ou équivalent pour les écoles d’ingénieurs;
et si possible, les coordonnées des personnes (enseignants ou autres personnes) pouvant fournir des informations sur vos compétences, votre motivation et votre travail.

Formation et compétences requises :
Des compétences pratique en apprentissage profond sont indispensables

La possibilité d’effectuer un stage gratifié de M2 au sein de l’équipe SDC pour acquérir ces compétences est aussi possible, voire encouragé. N’hésitez pas à vous renseigner.

Adresse d’emploi :
ICube Strasbourg (Site d’Illkirch – Pôle API)

Document attaché : 202202070930_CNES_PhD_advert.pdf

Étude de la robustesse à l’échantillonnage de modèles d’apprentissage : application à la prédiction

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IFP Energies nouvelles, Lyon
Durée : 3-4 months
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2022-12-26

Contexte :
Le génie des procédés est un domaine d’ingénierie, qui s’intéresse à l’application de la chimie physique dans l’industrie avec pour but principal de transformer de la matière. Il vise à concevoir et gérer le fonctionnement d’un procédé à différentes transformations chimiques et physiques. Ce domaine s’appuie sur l’analyse régulière de différents capteurs, paramètres et quantités physiques (température, pression, concentration, etc.), permettant d’optimiser les points de fonctionnement et la qualité des produits en fonction des matières sources. Être capable de bâtir des modèles statistiques prédictifs ou explicatifs, liant les données mesurées ou calculées aux propriétés souhaitées, devient donc un enjeu important en termes d’efficacité des procédés. Depuis plusieurs années se développent des approches combinant connaissances métiers et méthodes de science des données pour améliorer la performance et la robustesse des modèles ; les défis sont nombreux : disponibilités des données, incertitudes, validité des modèles physiques, capacité des modèles off-line expérimentaux à fonctionner en conditions industrielles réelles on-line, etc. Ce sujet s’intéresse essentiellement à ce dernier aspect. En effet, les données industrielles ne disposent bien souvent que de mesures acquises à une fréquence assez lente, sans maîtrise entière du moment exact de l’acquisition, tandis que les données expérimentales produites sur unités pilotes peuvent être obtenues toutes les minutes, avec une bonne précision temporelle.

Sujet :
La ou le stagiaire sera affecté(e) au sein de la direction Expérimentation Procédés et travaillera en étroite collaboration avec la direction Sciences et Technologies du Numérique. La ou le stagiaire devra analyser les données sur un procédé identifié dans la continuité d’un stage de 2021 et devra étudier l’impact de l’échantillonnage sur la fiabilité et la robustesse de modèles d’imputation et de prédiction développés. Le coeur du travail consistera en la mise en place d’un workflow permettant de réduire la fréquence d’acquisition initiale de données pilotes pour l’approcher des mesures industrielles et de mesurer précisément la perte d’efficacité et les incertitudes induites, et à adapter les modèles en conséquence. Il est également attendu de pouvoir donner des préconisations de « bon échantillonnage » en fonction des dépendances temporelles entre les différentes variables mesurées.

Information: http://www.laurent-duval.eu/job-2022-internship-process-engineering-data-science-ifpen-sampling-robustness.html

Profil du candidat :
Ce sujet étant à l’interface de deux domaines, il s’adresse soit à des étudiants M1 ou M2 en sciences du numérique ayant un sens physique développé ou à des étudiants M1 ou M2 en génie des procédés ayant une appétence pour le machine-learning et la programmation.

Formation et compétences requises :
Statistiques, apprentissage, traitement de séries temporelles, génie des procédés

Adresse d’emploi :
France, IFP Energies nouvelles, Lyon (Solaize)

Document attaché : 202202052239_job-2022-internship-ifpen-machine-learning-robustness-process-sampling-english.pdf

Ocean Bottom Noise Shazam: Signal processing and data science applied to marine seismology data

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IFREMER Brest
Durée : 16 months
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2022-12-26

Contexte :
Marine seismology has made tremendous technological advances in the past decades: data recorded at the seafloor by ocean bottom seismometers (OBSs) are becoming widely available (eg IRIS consortium). An OBS is a multicomponent instrument able to continuously record pressure and earth motion. There are two types of OBSs: short-period instruments for recording high-frequency motions, and long-period instruments for acquiring a wider range of motions (cf. INSU-IPGP national OBS facility). With both instruments, OBSs record a superposition of a broad variety of signals generated by solid earth, ocean wave, biologic, ship sources and noise. These signals can be very different in amplitude, duration and frequency content. They however also overlap in those domains, making them hard to isolate from each other. That is why OBS data cannot yet be fully exploited by the seismological community, as they require more advanced processing and identification techniques.

Sujet :
This postdoctoral position funded by the BRUIT-FM project primarily aims at developing signal processing and machine learning techniques to classify and separate signals recorded by OBSs and to enhance earthquake waveforms and microseismic noise. It devotes to a better exploitation of non-seismological signals for defining a seafloor soundscape. Hence the moniker ”Ocean Bottom Noise Shazam”, from the famous music retrieval/identification application

Information: http://www.laurent-duval.eu/job-2022-postdoc-ocean-shazam-bruit-fm-data-science-signal-processing-marine-seismology.html

Profil du candidat :
PhD with strong interest in spectral analysis, adaptive filtering, machine learning, data science with a taste of physics.

Formation et compétences requises :
Languages: C/C++, Python/Matlab or similar. Seismology is a plus

Adresse d’emploi :
France, IFREMER, Brest

Document attaché : 202202052227_KER_S_2022_SUBJ_PSD-Bruit-FM-Postdoc-Ocean-Bottom-Noise-Shazam.pdf

Mining Frequent Gradual Itemsets From Noise Data

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CERI Systèmes Numériques – IMT Nord Europe
Durée : 5 mois
Contact : jerry.lonlac@imt-nord-europe.fr
Date limite de publication : 2022-03-31

Contexte :
Frequent Itemset Mining (FIM, for short) is an active part of data mining field and an important first step in data analysis. In the last decades, FIM has been applied in a broad range of applications such as e-commerce [4], e-learning [10], malware detection [3]. The application of FIM in a wide range of domains with a proliferation of different type of data has inspired the development of numerous other pattern-mining techniques. Recently, gradual itemsets [6, 2, 11, 7, 9] have then been proposed for analysing numerical data and different algorithms have been designed to automatically extract gradual itemsets from different data model [12, 13, 1, 5]. Gradual itemsets aroused great interest for extracting frequent complex co-variations between numerical attributes in a multitude of areas. However, in some real- world applications, data are subject to noise and measurement error. To date, the effect of noise on classical frequent gradual itemset mining algorithms has been not addressed.

Sujet :
The goal of this work is to propose a noise tolerant gradual itemset model, which unlike classical gradual itemsets [2, 8] tolerates a controlled fraction of errors on the extent of the gradual itemset. By allowing noise, the proposed models will generalize the level-wise enu- meration of different forms of frequent gradual itemsets [2, 12, 8, 7] that can be extracted from different types of complex numerical data but obscured by noise.

References
[1] Aymeric Cˆome and Jerry Lonlac. Extracting frequent (closed) seasonal gradual patterns using closed itemset mining. In IEEE International Conference on Tools with Artificial Intelligence, ICTAI, pages 1442–1448, 2021.
[2] Lisa Di-Jorio, Anne Laurent, and Maguelonne Teisseire. Mining frequent gradual item- sets from large databases. In IDA, pages 297–308, 2009.
[3] Yiheng Duan, Xiao Fu, Bin Luo, Ziqi Wang, Jin Shi, and Xiaojiang Du. Detective: Automatically identify and analyze malware processes in forensic scenarios via dlls. In ICC, pages 5691–5696, 2015.
[4] Philippe Fournier-Viger, Jerry Chun-Wei Lin, Bay Vo, Tin Chi Truong, Ji Zhang, and Hoai Bac Le. A survey of itemset mining. Wiley Interdiscip. Rev. Data Min. Knowl. Discov., 7(4), 2017.
[5] Amel Hidouri, Sa ̈ıd Jabbour, Jerry Lonlac, and Badran Raddaoui. A constraint-based approach for enumerating gradual itemsets. In IEEE International Conference on Tools with Artificial Intelligence, ICTAI, pages 582–589, 2021.
[6] Eyke Hu ̈llermeier. Association rules for expressing gradual dependencies. In PKDD, pages 200–211, 2002.
[7] Jerry Lonlac, Arnaud Doniec, Marin Lujak, and St ́ephane Lecoeuche. Mining frequent seasonal gradual patterns. In Big Data Analytics and Knowledge Discovery – DaWaK, volume 12393, pages 197–207, 2020.
[8] Jerry Lonlac, Yannick Miras, Aude Beauger, Vincent Mazenod, Jean-Luc Peiry, and Engelbert Mephu Nguifo. An approach for extracting frequent (closed) gradual patterns under temporal constraint. In FUZZ-IEEE, pages 878–885, 2018.
[9] Jerry Lonlac and Engelbert Mephu Nguifo. A novel algorithm for searching frequent gradual patterns from an ordered data set. Intell. Data Anal., 24(5):1029–1042, 2020.
[10] Esp ́erance Mwamikazi, Philippe Fournier-Viger, Chadia Moghrabi, and Robert Bau- douin. A dynamic questionnaire to further reduce questions in learning style assess- ment. In Lazaros Iliadis, Ilias Maglogiannis, and Harris Papadopoulos, editors, Artificial Intelligence Applications and Innovations, pages 224–235, 2014.
[11] Benjamin N ́egrevergne, Alexandre Termier, Marie-Christine Rousset, and Jean-Franc ̧ois M ́ehaut. Para miner: a generic pattern mining algorithm for multi-core architectures. DMKD, 28(3):593–633, 2014.
[12] NhatHai Phan, Dino Ienco, Donato Malerba, Pascal Poncelet, and Maguelonne Teis- seire. Mining multi-relational gradual patterns. In SDM, pages 846–854, 2015.
[13] Faaiz Shah, Arnaud Castelltort, and Anne Laurent. Extracting fuzzy gradual patterns from property graphs. In FUZZ-IEEE, pages 1–6, 2019.

Profil du candidat :
– 2nd year student of a Master’s or Engineering of Computer Science degree.
– Goods skills in Artificial Intelligence, more particularly in pattern mining.
– Goods skills in programming language (C++, Python).

Formation et compétences requises :
– 2nd year student of a Master’s or Engineering of Computer Science degree.
– Goods skills in Artificial Intelligence, more particularly in pattern mining.
– Goods skills in programming language (C++, Python).

Adresse d’emploi :
IMT Nord Europe
941, rue Charles Bourseul
CS 10838
59508 DOUAI Cedex – France

Document attaché : 202202041800_Proposal_for_internship_IMT_Nord_Europe_2022.pdf

Ingénieur d’étude en intelligence artificielle appliqué à l’océanographie

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LOP
Durée : CDI
Contact : jean.marc.delouis@ifremer.fr
Date limite de publication : 2022-02-18

Contexte :
Bonjour à tous

Un poste IRD d’Ingénieur d’étude en intelligence artificielle appliqué à l’océanographie en mobilité interne et externe à l’IRD pour le LOPS. Deadline 18 février

Poste possiblement ouvert dans les mois qui viennent sur concours externe si non pourvu par la mobilité

https://www.ird.fr/ingenieur-en-intelligence-artificiellemachine-learning-applique-loceanographie

Merci beaucoup de diffuser largement dans vos réseaux et UMR

(Désolée pour les non concernés)

Sujet :
https://www.ird.fr/ingenieur-en-intelligence-artificiellemachine-learning-applique-loceanographie

Profil du candidat :
https://www.ird.fr/ingenieur-en-intelligence-artificiellemachine-learning-applique-loceanographie

Formation et compétences requises :
https://www.ird.fr/ingenieur-en-intelligence-artificiellemachine-learning-applique-loceanographie

Adresse d’emploi :
https://www.ird.fr/ingenieur-en-intelligence-artificiellemachine-learning-applique-loceanographie

Poste MCF 27 IUT de Lannion – IRISA

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IUT de Lannion – IRISA
Durée : 50 ans
Contact : Arnaud.Martin@univ-rennes1.fr
Date limite de publication : 2022-04-02

Contexte :
un poste de MCF est ouvert à l’IUT de Lannion.

Sujet :
Poste de MCF IRISA – IUT de Lannion

Enseignement : Science des données, fouille de données, intelligence artificielle

Recherche : Science des données, intelligence artificielle

Profil du candidat :
Descriptif détaillé des enseignements :
Le/La candidat.e réalisera ses enseignements principalement dans les formations du département informatique de l’IUT de Lannion en BUT informatique et DU Web. Des enseignements pourront être réalisés dans d’autres départements de l’IUT de Lannion comme les départements Métiers du Multimédia et de l’Internet et Réseaux et Télécom.
Le/La candidat.e accompagnera la mise en place du parcours administration, gestion et exploitation des données du nouveau diplôme de BUT.
Le/La candidat.e interviendra dans la conception et réalisation des enseignements de SAE.
Le/La candidat.e participera au développement des formations en alternance et aux suivis des étudiants.
Le/La candidat.e participera à l’organisation du fonctionnement du département informatique.

Le/La candidat.e pourra être amené.e à effectuer des interventions et/ou des enseignements disciplinaires en langue anglaise.
Compétences attendues dans l’utilisation de ressources pédagogiques en ligne.

Descriptif détaillé des activités de recherche :
Le/La candidat.e recruté.e mènera ses recherches au sein du laboratoire IRISA (Institut de Recherche en Informatique et Systèmes Aléatoires), au sein d’une des équipes des départements 6 « Media et interactions » ou 7 « Gestion des données et de la connaissance », sur le site lannionnais.

Les thèmes de recherche de la personne recrutée viendront renforcer et pérenniser les thématiques développées sur le site de Lannion et s’inscriront en priorité, en lien avec les besoins en enseignement.

Le/La candidat.e devra démontrer ses capacités d’intégration dans l’une des équipes lannionnaises des départements 6 et 7, notamment avec un projet d’intégration :
• Equipe DRUID : science des données incertaines
• Equipe EXPRESSION : traitement automatique de la parole et des textes
• Equipe SHAMAN : raisonnement sur les bases de données

La capacité à développer des projets en lien avec le territoire sera appréciée.
Les candidat.e.s doivent également être en capacité de répondre aux grands appels à projet de recherche nationaux et européens.

Formation et compétences requises :
Qualification en 27ème section.

Adresse d’emploi :
Composante d’enseignement : IUT de Lannion
Directeur : Arnaud MARTIN
Tel direction : 02.96.46.94.60
Email direction : arnaud.martin@univ-rennes1.fr
Site internet de la composante d’enseignement : https://iut-lannion.univ-rennes1.fr/

Laboratoire de recherche : IRISA
Nom responsable équipe de recherche : Elisa FROMONT
Tel responsable équipe de recherche : 02.99.84.73.14
Email responsable équipe de recherche : elisa.fromont@irisa.fr
Site internet de l’équipe de recherche : https://dept-dkm.irisa.fr/fr/

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Archives

Apprentissage profond pour l’estimation de variables biophysiques du couvert forestier tropical

première demi-journée de deux séminaires sur les techniques d’anonymisation de données

deuxième demi-journée de deux séminaires dédiés aux techniques de l’anonymisation de données – 8 mars 2022

Post-Doc Position: Development of a customizable configuration approach for the digital work environ

Apprentissage de représentations invariantes au domaine pour l’analyse de séries temporelles d’image

Étude de la robustesse à l’échantillonnage de modèles d’apprentissage : application à la prédiction

Ocean Bottom Noise Shazam: Signal processing and data science applied to marine seismology data

Mining Frequent Gradual Itemsets From Noise Data

Ingénieur d’étude en intelligence artificielle appliqué à l’océanographie

Poste MCF 27 IUT de Lannion – IRISA