Conception et mise en œuvre de l’interface d’analyse d’un lac de données web

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : ERIC
Durée : 5-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2021-11-16

Contexte :
Le projet LIFRANUM (LIttératures FRAncophones NUMériques), porté par le laboratoire MARGE, vise à identifier, indexer et analyser des productions littéraires nativement numériques dans l’aire francophone. Pour cela, l’outil de référence de l’archivage web Heritrix a en premier lieu permis de constituer un corpus sous forme de fichiers de conservation au format Web ARChive (WARC). Des métadonnées des pages HTML ont ensuite été extraites des fichiers WARC (contenu textuel, fichier PDF, images, vidéo, etc.) et indexées dans Solr.

Par ailleurs, en s’appuyant sur des blogs appartenant à des auteurs identifiés, un deuxième corpus (fichiers JSON) a été constitué via les API de WordPress et Blogger. Des informations, pages, posts et commentaires ont été extraits et constituent la série de métadonnées, métadonnées stockées et indexées dans MongoDB.

Sujet :
L’objectif de ce stage est de concevoir et mettre en œuvre une interface web commune aux deux types de sources de métadonnées (celles issues des WARC et celles provenant des API de blogs) pour permettre aux chercheur·es du laboratoire MARGE de requêter et d’analyser les données sous-jacentes. Il faudra pour cela :
• étudier l’architecture de données déjà en place ;
• concevoir un schéma d’alignement des métadonnées des WARC et des API ;
• concevoir et mettre en œuvre une interface graphique permettant de rechercher, via les métadonnées consolidées, les données (à la manière d’un moteur de recherche) ;
• proposer des visualisations « toutes faites » (mais paramétrables) ou ad-hoc, en lien avec les chercheur·es du laboratoire MARGE.

Profil du candidat :
Technologies big data, programmation web, gestion de données, data visualization, rigueur.

Formation et compétences requises :
Master informatique

Adresse d’emploi :
Université Lyon 2
Laboratoire ERIC
5 avenue Pierre Mendès France
69676 Bron Cedex

Document attaché : 202110220934_stage-lifranum-interface-warc.pdf

IFCS 2022 -17th Conference of the International Federation of Classification Societies

Date : 2022-07-19 => 2022-07-23
Lieu : Porto, Portugal

17th Conference of the International Federation of Classification Societies

Conference topics

Big Data • Biplots • Clustering, Classification and Discrimination • Compositional Data Analysis • Computer Graphics and Visualization • Data Science • Data Streams • Databases and Data Management • Deep Learning • Dependence Modelling and Copulas • Dimension Reduction • Formal Concept Analysis • Functional Data Analysis • Generalized Linear Models • Image Analysis and Computer Vision • Information-theoretic Statistical Modelling and Model Selection • Knowledge Representation and Discovery • Machine Learning • Mathematical Foundations of Data Science • Matrix Factorization • Meta-learning • Missing Data Handling • Model-based Clustering • Modelling High-Dimensional and Complex Data • Natural Language Processing • Optimization in Classification and Clustering • Robust Methods • Social Network Analysis • Spatial Data Analysis • Statistical and Econometric Methods • Statistical Learning and Data Mining • Symbolic Data Analysis • Text Mining • Time Series Analysis • Web Mining
with Applications on
Archaeology • Biology • Business and Management • Economics • Education • Engineering • Finance • Geosciences • Industry • Linguistics • Marketing • Medicine and Health Care • Musicology • Psychology • Risk Management • Social Sciences

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Stage M2 Reims — Analyse de données de lectures EEG en néonatologie

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : U. Reims — CReSTIC
Durée : 6 mois
Contact : nicolas.passat@univ-reims.fr
Date limite de publication : 2022-03-31

Contexte :
Le service de Néonatologie du CHU de Reims dispose de données IRM/EEG/aEEG (EEG d’amplitude) issues d’une cohorte d’environ 800 nouveau-nés à terme dans le cadre de l’étude LyTONEPAL dont l’un des objectifs est d’étudier les facteurs prédictifs du devenir défavorable (neuropathologies, troubles psychomoteurs) à 3 ans. Il s’agit également de déterminer les mesures de neuroprotection à mettre en place, en particulier pour la prise en charge pré-hospitalière des encéphalopathies anoxo-ischémiques.

Sujet :
L’expertise des cliniciens semble montrer que la généralisation d’acquisitions EEG pour la prise de décision de mise en hypothermie des prématurés dans les premières heures de vie est un facteur déterminant pour le devenir.
Dans ce contexte, l’extraction et la mise en corrélation des données issues de ces différentes modalités de mesure semblent déterminantes dans le choix de facteurs prédictifs. Actuellement, l’analyse des EEG est effectuée par une lecture empirique des signaux, grâce notamment à une expertise terrain des praticiens.
Nous souhaitons analyser une base de données d’annotations de lecture EEG construite par la communauté de néonatologie sur la base LyTONEPAL. Durant ce stage, l’étudiant(e) stagiaire devra s’approprier et s’appuyer sur les différents outils de traitement mis en place lors de précédents travaux. Le stage s’appuiera fortement sur l’expertise de lecture des médecins du CHU. Cela se traduira par des échanges réguliers avec le service de néonatologie du CHU de Reims. Les algorithmes de traitement des EEG donneront lieu à des codes programmés en langage Python (et/ou R) qui devront être documentés, testés et vérifiés sur des jeux de données fournis par le CHU et la litérature existante.

Profil du candidat :
Profil recherché : Étudiant(e) (M2 ou Bac+5) informatique scientifique et/ou mathématiques, intéressé(e) par la recherche en traitement du signal

Formation et compétences requises :
Compétences : statistiques des données, traitement du signal, techniques d’apprentissage (deep learning. . . ), programmation (Python, R)

Adresse d’emploi :
Localisation : CReSTIC – UFR Sciences Exactes et Naturelles – Moulin de la Housse – 51100 Reims

Document attaché : 202110201234_2022_stage_proposal_eeg.pdf

Looking for exoplanets molecular content: inverse problem approach to optimize data reduction

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut de Planétologie et d’Astrophysique de Gr
Durée : >4 mois
Contact : philippe.delorme@univ-grenoble-alpes.fr
Date limite de publication : 2022-01-10

Contexte :
Exoplanets are planets orbiting other stars than the Sun. Since their luminosity is orders of magnitude smaller than their host star, finding them and characterizing their properties is extremely challenging and necessitate very careful data analysis and data calibration. For years astronomers used empirical calibrations to improve data quality, but recent publications by data scientists have shown that an inverse problem approach with minimal empirical information can improve data reduction, especially for integrated field spectrographs, that produce both an image and a spectra for each pixel in the image. Notably it does remove very efficiently systematic errors from the early data reductions steps, thus improving the full reduction chain. These improvements are key to allows the most advanced data algorithms to reveal their full potential, enabling reliable analysis of the molecular content of exoplanet atmospheres. With the higher spectral resolution of instruments such as MUSE, SINFONI and soon ERIS, we can detect spectral lines associated with individual molecules and perform molecular mapping to improve the detection and characterization of exoplanets. In fine, each of these developments will help in the coming years with the ultimate goal to search for life in the atmospheres of Earth-like planets with the next generation of extremely large telescopes.

Sujet :
The work will take place within the ANR project FRAME, that aims at finding accreting young exoplanets. The intern will be based at IPAG in Grenoble, home of the FRAME team and will also have the opportunity to collaborate with researchers from CRAL in Lyon. The intern is expected to read and take the time to understand the inverse problem approach of reducing direct imaging data targeted at finding exoplanets. The existing algorithm (PIC 1) is applied to low resolution integrated field spectrographs, and the aim of the internship is to adapt the algorithm to higher resolution instruments that can characterize the molecular content of exoplanet atmospheres. The intern will have access to raw and reduced data of such higher resolution instruments (notably SINFONI and ERIS), and with the help of his/her supervisor he/she is expected to develop a data reduction tool adapted to higher spectral resolution instruments and if possible, to improve it using information coming from astrophysical and detector physics knowledge of the problem. The supervisor will also provide benchmark datasets, some including real planets, reduced with the “traditional” empirical approach, against which to estimate advantages and drawbacks of each approach. Since this work is an open research question, unexpected issues will probably arise, and the longer the internship, the most likely significant results can be achieved. However we do not expect the intern to fully resolve the problem during the course of the internship, and we have funding for a PhD in continuation of this project, also involving observations, improvement of advanced data analysis tools and direct application to look for massive exoplanets and characterize their atmospheres.

Profil du candidat :
Niveau M2 ou équivalent

Formation et compétences requises :
Prerequisites:
– curiosity
– correct linear algebra basis
– enthusiasm to deal with open questions
– Interest for astrophysics

Adresse d’emploi :
Institut de Planétologie et d’Astrophysique de Grenoble
OSUG-A
414, Rue de la Piscine
Domaine Universitaire
38400 St-Martin d’Hères
(France)

Detecting Forming Exoplanets in Hyperspectral Data

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : Institut de Planétologie et d’Astrophysique de Gr
Durée : 3 à 5 mois
Contact : mickael.bonnefoy@univ-grenoble-alpes.fr
Date limite de publication : 2022-01-10

Contexte :
More than 4500 exoplanets have been discovered as of now, most of them being formed billions of years ago. The recent direct imaging detection of planets still in the process of formation [1] opens an unprecedented observing window on the initial stages of planetary system assembly (tens of millions of years).
The discovery of forming exoplanets was made possible thanks to the advances of efficient adaptive optics systems coupled to medium-resolution integral field spectrographs (IFS), producing hyperspectral data at high spatial and spectral resolutions. The rich diversity of these data can be used for efficiently removing the bright stellar halo and isolating the sparse signal (line-emission) produced by the planets. The data processing methods implemented thus far remain simple and do not allow for a robust evaluation and rejection of false positives.

Sujet :
Several powerful and versatile methods (anomaly detection, match filters, etc) have been proposed for isolating scarce signals in hyperspectral data with various applications (remote sensing, ground-based astronomy, medical imaging, etc). The student will work on adapting these methods to detect forming exoplanets in hyper-spectral data collected on the MUSE instrument operating at the Very-Large Telescope (VLT, Chile). The work will rely on existing codes available in Python and developed by collaborators. The student will also evaluate the methods using standard approaches (ROC curves, etc).

This internship is introductive to a PhD thesis funded by the French National Research Agency (ANR). A separate call for candidates for the PhD position will be issued in the spring of 2022.

Profil du candidat :
We are looking for a Master Student (Second year master student or equivalent) with a background in Data Science and strong interest in astrophysics. The student should show a proficiency for solving complex problems rigorously and for dealing with data and algorithms. She/He should have excellent writing skills in English (French is a plus) and be able to present her/his work. Teamwork skill is essential.

Formation et compétences requises :
Master signal/image processing or equivalent. Willing to continue in academia (PhD).

Adresse d’emploi :
IPAG
414 Rue de la Piscine
38400 SAINT MARTIN D’HERES
FRANCE

Document attaché : 202110200832_ANR internship – Detecting Forming Exoplanets in Hyperspectral Data.pdf

Analyse collaborative dans le décisionnel pour tou.tes

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ERIC
Durée : 5 à 6 mois à partir
Contact : sabine.loudcher@univ-lyon2.fr
Date limite de publication : 2022-01-10

Contexte :
L’analyse collaborative dans le contexte de la Business Intelligence (BI) a été étudiée selon différents points de vue, mais reste rare et se concentre principalement sur des aspects techniques. Il n’existe pas de solution globale à ce jour.

Sujet :
Le stage comportera 2 volets :
– Définition d’une typologie des moyens collaboratifs pertinents pour l’analyse BI
Cette tâche est importante pour obtenir à la fois une vue d’ensemble globale des méthodes de collabo-ration pertinentes pouvant être utilisées dans la BI et une idée précise de la manière dont les utilisa-teur/trices pourraient bénéficier de la collaboration. L’analyse collaborative comprend le partage d’ana-lyse, le mashup, l’annotation, la comparaison, la publication…

– Conception / spécifications / implémentation d’une architecture pour l’analyse collaborative qui s’inscrira dans le développement global du projet ANR
L’architecture développée inclura la gamme de propositions déterminées dans la typologie précédente. Un schéma sera dessiné pour représenter le processus collaboratif envisagé. Des spécifications devront être proposées avant la mise en œuvre. L’ensemble du processus devra également être évalué sur un cas d’usage déjà constitué.

Profil du candidat :
Business Intelligence, programmation/programmation web, gestion de données, rigueur.

Formation et compétences requises :
Master d’informatique ou équivalent

Adresse d’emploi :
laboratoire ERIC, Université Lyon 2, campus Porte des Alpes, Bron, Rhône, France

Document attaché : 202110200745_Stage_BI4People_2022.pdf

Deep learning pour l’émulation de prévisions météorologiques à très fine échelle

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre National de Recherche Météorologique (CNRM)
Durée : 6 mois
Contact : laure.raynaud@meteo.fr
Date limite de publication : 2022-03-01

Contexte :
Les prévisions météorologiques opérationnelles sur les domaines Outre-Mer utilisent une résolution spatiale de l’ordre du kilomètre. Des résolutions hectométriques permettraient de gagner encore en réalisme, en particulier sur l’île de la Réunion dont le relief est complexe. Néanmoins, le coût des prévisions à des résolutions de quelques centaines de mètres ne permet pas d’envisager leur utilisation opérationnelle avant plusieurs années.
Une alternative moins coûteuse à cette descente d’échelle dynamique est la descente d’échelle statistique. L’objectif est d’apprendre une relation statistique entre les prévisions basse résolution et les prévisions haute résolution. Les méthodes de descente d’échelle les plus classiques reposent sur des interpolations simples ou des approches de régression linéaire. Récemment, plusieurs études ont montré que des méthodes d’apprentissage profond tels que les réseaux de neurones convolutionnels offrent des perspectives intéressantes pour la descente d’échelle (Vandal et al., 2018; Baño-Medina et al., 2019, Leinonen et al., 2020; Höhlein et al. 2020, Sha et al., 2020).

Sujet :
L’objectif du travail proposé est de développer une première descente d’échelle statistique à 500m des prévisions sur la Réunion, par apprentissage profond, et pour des variables de temps sensible telles que la température, le vent et les précipitations. Pour cela il s’agira :
1. de sélectionner et d’implémenter une ou plusieurs architectures de réseaux de neurones adaptées au problème de descente d’échelle, en s’appuyant en partie sur la littérature existante
2. de préparer les jeux de données d’entraînement et de validation à partir des prévisions météo basse et haute résolution réalisées par l’encadrement en amont du stage
3. de réaliser des expériences de sensibilité des descentes d’échelle à différents réglages des méthodes statistiques et configurations des jeux de données d’apprentissage
4. d’évaluer l’apport des prévisions 500m obtenues sur des situations à enjeux variées (fortes pluies, risque de feu de forêt, etc.)

Profil du candidat :
Stage de fin d’étude école d’ingénieur ou Master 2.

Formation et compétences requises :
Le stage requiert un réel intérêt pour la prévision numérique du temps et les méthodes d’intelligence artificielle. Une bonne connaissance des réseaux de neurones convolutionnels et de leur implémentation Python est requise.

Adresse d’emploi :
Météo-France/CNRM,Toulouse, France.

Temporal domain adaptation for land cover mapping from multi-modal remote sensing data

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : dino.ienco@inrae.fr
Date limite de publication : 2021-11-30

Contexte :
Nowadays, a plethora of satellite missions continuously collects remotely sensed images of the Earth surface via various modalities (e.g. SAR or optical) and at different spatial and temporal scales. Therefore, the same study area can be effectively covered by rich, multi-faceted and diverse information. Such information is of paramount importance in order to monitor spatio-temporal phenomena and produce land cover map to support sustainable agriculture as well as public policy decisions. In the last years, the remote sensing research community is turning its attention towards the use of deep learning (DL) approaches to integrate complementary sensor acquisitions available on the same study area [1] with the aim to leverage as much as possible the interplay between input sources exhibiting different spectral as well as spatial content to ameliorate the underlying mapping result. Unfortunately, DL models require a considerable amount of data to be trained and, in real world scenarios, it is difficult to acquire enough ground truth information each time that a land cover map (on a specific study area) should be produced. In order to acquire ground truth data on a study area, time-consuming (3 or 4 months) and labour-intensive field campaigns are deployed (i.e. costs are related to travels to and from the study area for a team of 4 or 5 people at least, access to a particular study area, etc…).

While a certain amount of research studies were conducted on how combine multi-source remote sensing information for land cover maps in a standard supervised learning setting [2,3], limited efforts were devoted to understand how much the trained machine learning models are transferable from a time period to a successive one (on the same study area) in order to reduce the cost associated to the acquisition of new ground truth data [4].

The objective of this internship will be the study and development of a methodological framework, based on deep learning approaches (Convolutional Neural networks and/or Recurrent Neural network) to cope with the transferability (temporal transfer learning) of a multi-source land cover mapping model from a period of time to a successive period of time (i.e. from one year to another year) on the same study area. To this end, the internship student will inspect recent trends and methods in the field of Unsupervised Domain Adaptation [5] (UDA) exploiting state of the art techniques from computer vision and signal processing [6,7].

Environment: The UMR TETIS (joint research unit involving INRAE, CIRAD, AgropParisTech and CNRS – www.) is an interdisciplinary laboratory that groups together people with different backgrounds (agronomy, ecology, remote sensing, signal processing, data science). It has acquired a consolidated experience in the development of machine learning approaches (CNN, RNN, GraphCNN, Attention Mechanism) to deal with the high complexity of remote sensing data for many environmental and agricultural application studies: land cover mapping, biophysical variables estimations (i.e. soil moisture), yield prediction, biodiversity characterization, forest monitoring, etc.

[1] D. Hong, L. Gao, N. Yokoya, J. Yao, J. Chanussot, Q. Du, B. Zhang: More Diverse Means Better: Multimodal Deep Learning Meets Remote-Sensing Imagery Classification. IEEE Trans. Geosci. Remote. Sens. 59(5): 4340-4354 (2021).

[2] P. Benedetti, D. Ienco, R. Gaetano, K. Ose, R. G. Pensa, S. Dupuy: M3Fusion: A Deep Learning Architecture for Multiscale Multimodal Multitemporal Satellite Data Fusion. IEEE J. Sel. Top. Appl. Earth Obs. Remote. Sens. 11(12): 4939-4949 (2018).

[3] Y. J. E. Gbodjo, O. Montet, D. Ienco, R. Gaetano and S. Dupuy: Multi-sensor land cover classification with sparsely annotated data based on Convolutional Neural Networks and Self-Distillation. IEEE J. Sel. Top. Appl. Earth Obs. Remote. Sens. -(-): — (2021).

[4] B. Tardy, J. Inglada, J. Michel: Assessment of Optimal Transport for Operational Land-Cover Mapping Using High-Resolution Satellite Images Time Series without Reference Data of the Mapping Period. Remote. Sens. 11(9): 1047 (2019).

[5] S. Zhao, X. Yue, S. Zhang, B. Li, H. Zhao, B. Wu, R. Krishna, J. E. Gonzalez, A. L. Sangiovanni-Vincentelli, S. A. Seshia, K. Keutzer: A Review of Single-Source Deep Unsupervised Visual Domain Adaptation. CoRR abs/2009.00155 (2020).

[6] Y. Ganin, E. Ustinova, H. Ajakan, P. Germain, H. Larochelle, F. Laviolette, M. Marchand, V. S. Lempitsky: Domain-Adversarial Training of Neural Networks. J. Mach. Learn. Res. 17: 59:1-59:35 (2016)

[7] E. Tzeng, J. Hoffman, K. Saenko, T. Darrell: Adversarial Discriminative Domain Adaptation. CVPR 2017: 2962-2971

[8] H. Ismail Fawaz, G. Forestier, J. Weber, L. Idoumghar, P.-A. Muller: Deep learning for time series classification: a review. Data Min. Knowl. Discov. 33(4): 917-963 (2019)

Sujet :
The objective of this internship will be the study and development of a methodological framework, based on deep learning approaches (Convolutional Neural networks and/or Recurrent Neural network) to cope with the transferability (temporal transfer learning) of a multi-source land cover mapping model from a period of time to a successive period of time (i.e. from one year to another year) on the same study area. To this end, the internship student will inspect recent trends and methods in the field of Unsupervised Domain Adaptation [5] (UDA) exploiting state of the art techniques from computer vision and signal processing [6,7].

The internship student will work in a tight connection with a team of research scientists (INRAE/CIRAD Researchers and a PhD student) in the general field of Unsupervised Domain Adaptation [5], multi-source remote sensing data [1,2,3] and multi-variate time series analysis [8]. The missions of the internship will be the follow:
– A detailed bibliography study about recent trends in multi-modal/source Unsupervised Domain Adaptation;
– Multi-source/Multi-modal image (Remote Sensing) data preprocessing to organize the data for the subsequent machine learning analysis;
– Study, design and development of a deep learning framework for multi-modal Unsupervised Domain Adaptation;
– Experimental evaluation of the proposed framework w.r.t. competing methods (implementation of the competing approaches or using available code on repository);
– Quantitative as well as qualitative analysis of the obtained results in order to identify the strong/weak points of the proposed framework;
– Release of the produced code on open-source platforms (i.e. github, gitlab, etc…) with the associated employed data.

[1] D. Hong, L. Gao, N. Yokoya, J. Yao, J. Chanussot, Q. Du, B. Zhang: More Diverse Means Better: Multimodal Deep Learning Meets Remote-Sensing Imagery Classification. IEEE Trans. Geosci. Remote. Sens. 59(5): 4340-4354 (2021).

[2] P. Benedetti, D. Ienco, R. Gaetano, K. Ose, R. G. Pensa, S. Dupuy: M3Fusion: A Deep Learning Architecture for Multiscale Multimodal Multitemporal Satellite Data Fusion. IEEE J. Sel. Top. Appl. Earth Obs. Remote. Sens. 11(12): 4939-4949 (2018).

[3] Y. J. E. Gbodjo, O. Montet, D. Ienco, R. Gaetano and S. Dupuy: Multi-sensor land cover classification with sparsely annotated data based on Convolutional Neural Networks and Self-Distillation. IEEE J. Sel. Top. Appl. Earth Obs. Remote. Sens. -(-): — (2021).

[4] B. Tardy, J. Inglada, J. Michel: Assessment of Optimal Transport for Operational Land-Cover Mapping Using High-Resolution Satellite Images Time Series without Reference Data of the Mapping Period. Remote. Sens. 11(9): 1047 (2019).

[5] S. Zhao, X. Yue, S. Zhang, B. Li, H. Zhao, B. Wu, R. Krishna, J. E. Gonzalez, A. L. Sangiovanni-Vincentelli, S. A. Seshia, K. Keutzer: A Review of Single-Source Deep Unsupervised Visual Domain Adaptation. CoRR abs/2009.00155 (2020).

[6] Y. Ganin, E. Ustinova, H. Ajakan, P. Germain, H. Larochelle, F. Laviolette, M. Marchand, V. S. Lempitsky: Domain-Adversarial Training of Neural Networks. J. Mach. Learn. Res. 17: 59:1-59:35 (2016)

[7] E. Tzeng, J. Hoffman, K. Saenko, T. Darrell: Adversarial Discriminative Domain Adaptation. CVPR 2017: 2962-2971

[8] H. Ismail Fawaz, G. Forestier, J. Weber, L. Idoumghar, P.-A. Muller: Deep learning for time series classification: a review. Data Min. Knowl. Discov. 33(4): 917-963 (2019)

Profil du candidat :
The ideal candidate is a student at Master 2 level or coming from an engineering school (still at the last year of attendance) with a good background in signal processing/image processing, machine learning and good programming skills in python (numpy, pandas, scikit-image, scikit-learn). A first experience with a deep learning library (PyTorch or Tensorflow) is a plus.

Formation et compétences requises :
The ideal candidate is a student at Master 2 level or coming from an engineering school (still at the last year of attendance) with a good background in signal processing/image processing, machine learning and good programming skills in python (numpy, pandas, scikit-image, scikit-learn). A first experience with a deep learning library (PyTorch or Tensorflow) is a plus.

Adresse d’emploi :
500, Rue Jean François Breton, 34093 Montpellier

Apprentissage statistique à partir de données temporelles pour l’étude de la biodiversité

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR CNRS LMNO, Caen
Durée : 4 à 6 mois
Contact : faicel.chamroukhi@unicaen.fr
Date limite de publication : 2021-11-30

Contexte :
Ce stage se situe dans le cadre du projet ANR SMILES-Statistical Modeling and Inference for unsupervised Learning at largE-Scale, qui est un projet collaboratif de recherche financé par l’Agence Nationale de la Recherche (ANR) dans le cadre de la stratégie nationale de recherche en Intelligence Artificielle. SMILES réunit des chercheurs de quatre organismes de recherche, l’UMR CNRS LMNO, l’UMR CNRS LMRS, l’UMR CNRS LIS et l’équipe-projet INRIA Modal.

Sujet :
Le stage se déroulera au LMNO – Laboratoire de Mathématiques Nicolas Oresme à Caen, en lien avec des questions relatives à l’étude de la diversité actuellement abordées en collabora- tion avec la DREAL-Direction régionale de l’Environnement, de l’Aménagement et du Loge- ment pour l’étude de biodiversité. Il portera sur des activités de recherche et de développe- ment, et de construction et enrichissement de bases données. L’objectif est de montrer l’apport d’approches statistiques, principalement non-supervisées, à l’approfondissement de la connais- sance d’écosystèmes, notamment fluviatiles, en Normandie et au niveau national, ainsi qu’à la construction d’indicateurs de bio-diversité à partir de modèles statistiques à variables latentes.
Un exemple de cas d’étude concerne l’étude de données de thermie de cours d’eau nor- mands, dont les données sont des séries temporelles récoltées à partir de sondes thermiques, avec l’objectif d’identifier, entre autres, des facteurs qui expliquent la thermie des cours d’eau.
Les tâches prévues dans le stages sont principalement les suivantes:
• Regroupement et mise en forme de bases de données (spatio)temporelles
• modélisation et inférence statistiques non-supervisées (modèles de mélanges, cluster- ing/segmentation, analyse en facteurs indépendants, etc)
Ce stage pourrait être poursuivi avec une thèse, en fonction du profil du candidat et sous réserve de l’obtention d’un financement de thèse.

Profil du candidat :
De formation Bac+5 M2R ou en école d’ingénieurs, avec spécialisation en statistique, science de données, machine learning, ou équivalent

Formation et compétences requises :
avec des bonnes connaissance en modélisation et inférence statistique, Programmation en Matlab, R, ou Python

Adresse d’emploi :
Université de Caen, Boulevard du Maréchal Juin, Campus 2, Caen

Document attaché : 202110191325_M:EngInternship-2022-LMNO-ANR-SMILES.pdf

Analyse des réseaux d’investisseurs dans le contexte des acquisitions foncières à grande échelle

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2021-12-15

Contexte :
La terre est une ressource rare et son épuisement est lié à une combinaison de facteurs démographiques et économiques. Ainsi, les changements d’habitudes alimentaires et l’augmentation de la population mondiale, qui entraînent une hausse de la demande alimentaire, s’inscrivent dans un contexte d’augmentation des prix du pétrole et de montée du capitalisme vert qui, à son tour, a un impact sur la demande de biocarburants. Un indicateur visible de ces phénomènes est l’augmentation, ces dernières années, des acquisitions de terres à grande échelle (ATGEs) par des entreprises privées ou des États. Ces investissements fonciers entraînent souvent des conflits avec la population locale et soulèvent des questions concernant les droits des personnes, le rôle des différents modèles de production et la gouvernance foncière. Pour un pays donné, les sources de données officielles et non officielles (par exemple, les évaluations réalisées par des ONG) peuvent souvent être incohérentes, et aucune d’entre elles ne peut constituer une représentation exacte de la situation réelle. Le Land Matrix Initiative collecte des données sur les ATGEs depuis 2009, qui constituent une base de données qui peut être considérée comme la plus complète sur les ATGE. Elle est gérée par un consortium de partenaires de recherche et de développement.

Sujet :
Des travaux de recherche récemment réalisés au CIRAD [1], basés sur l’utilisation des techniques d’analyse de réseaux complexes, ont montré comme des relations complexes existent entre les pays du monde, liées aux investissement fonciers dans différents secteurs (agriculture, minier, biocarburants, etc.). Néanmoins, dans la majorité des cas, il peut être difficile d’associer les investisseurs impliqués dans une transaction donnée à un pays spécifique, car les informations sur la propriété des entreprises privées et des fonds d’investissement sont souvent manquantes ou incomplètes. L’objectif de ce stage est d’étudier de façon approfondi le réseaux d’investisseur derrière les contrats d’acquisition foncière à large échelle. Plus spécifiquement, l’objectif primaire est d’effectuer un matching entre les investisseurs répertoriés dans Land Matrix, et des données de tiers provenant de bases de données spécifiques sur la propriété des entreprises privées et des fonds d’investissement (p.ex., relations hiérarchiques “qui possède qui”). Ensuite, ces informations pourront être modélisés dans des réseaux complexes et hétérogènes (p.ex., incluant informations sur les relations entre investisseurs, pays cibles, secteurs d’investissement, etc.) qui pourront être étudiés avec de techniques état de l’art pour l’analyse et l’extraction d’information à partir de ces objets (p.ex., méthodes de classement, centralité, clustering) [2,3].
Produits / résultats / attendus :
– Contribuer aux réseaux d’investisseurs à télécharger sur la Land Matrix, afin de les rendre plus transparents et visibles
– Contribuer à l’écriture d’un papier scientifique sur les résultats obtenus

[1] Interdonato R., Bourgoin J., Grislain Q., Zignani M., Gaito S., Giger M. 2020. The parable of arable land: Characterizing large scale land acquisitions through network analysis. PLOS One, 15 (10) : 31 p.
[2] Interdonato R., Magnani M., Perna D., Tagarelli A., Vega D. 2020. Multilayer network simplification: Approaches, models and methods. Computer Science Review, 36 : 20 p.
[3] Magnani M., Hanteer O., Interdonato R., Rossi L., Tagarelli A. 2021. Community detection in multiplex networks. ACM Computing Surveys, 5 (3) : 35 p.

Profil du candidat :
L’étudiant(e) sera spécialisé(e) dans la fouille des donnés, et plus spécifiquement dans l’analyse des réseaux complexes et fouille de graphes.
Il/elle devra être à l’aise en programmation, préférablement avec le langage Python. Il/elle devra apprécier la découverte et l’exploration méthodologique, la démarche scientifique, et fera preuve d’un bon esprit d’analyse critique.
Un bon sens du travail en équipe est fortement souhaité, ainsi que le goût pour les collaborations interdisciplinaires. Une bonne culture dans le domaine thématique de l’agriculture en milieu tropicale sera appréciée.

Formation et compétences requises :
L’étudiant(e) sera spécialisé(e) dans la fouille des donnés, et plus spécifiquement dans l’analyse des réseaux complexes et fouille de graphes.
Il/elle devra être à l’aise en programmation, préférablement avec le langage Python.

Adresse d’emploi :
500, rue Jen François Breton, 34000, Montpellier

Document attaché : 202110191240_Stage M2 Land Matrix 2022.pdf