
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIRIS, Université Claude Bernard Lyon 1, Campus de
Durée : 6 mois
Contact : lionel.medini@liris.cnrs.fr
Date limite de publication : 2022-05-01
Contexte :
Le Web des Objets (WoT) est le résultat de l’intégration dans le Web, d’objets communicants de l’Internet des Objets pouvant présenter des capacités limitées. Les applications du WoT concernent l’agriculture numérique, le bâtiment intelligent, les villes intelligentes, la santé, etc [Raw14]. Le Web sémantique forme un socle théorique privilégié pour les graphes de connaissances émergeant de l’échange, du stockage, du traitement et du raisonnement sur des données dans le WoT.
Nous focalisons à donner aux objets connectés une capacité de raisonnement sur les graphes de connaissances en embarquant les traitements au plus près de ces objets. Il s’agit pour cela de définir une architecture logicielle compatible à la fois avec la nature contrainte de ces objets et avec les standards du WoT – et notamment la notion de servient [WoT20] – et d’y intégrer un moteur d’inférence incrémental à base de règles. Une première version de moteur d’inférences a été développée en C et fonctionne notamment sur architecture Arduino Due. L’objectif de ce stage est de proposer une évolution de ce moteur en y intégrant des optimisations non prévues dans CoSWoT pour le parsing et l’échange de données compressées.
Sujet :
Dans ce stage, nous nous focalisons sur le moteur d’inférence intégré au servient. Nous partons du principe que les données échangées entre les différents modules logiciels sont déjà compressées en CBOR-LD ou bien en HDT.
L’objectif principal de ce stage est de modifier le moteur d’inférence du projet CoSWoT pour tirer parti de cette compression en ré-indexant plus efficacement les triplets et leurs termes. Autrement dit, il s’agit de substituer la bibliothèque de stockage de faits actuelle pour la remplacer par des structures de données plus légères, afin de réduire l’empreinte mémoire du moteur d’inférence et d’optimiser sa vitesse de traitement. Différentes solutions pourront être envisagées pour cela, qui devront être compatibles avec le fonctionnement de l’algorithme, les capacités du dispositif sur lequel il est déployé et l’arrivée des données sous forme de flux.
Dans un second temps, ces améliorations devront être évaluées en termes d’espace mémoire et de temps de traitement sur différents jeux de données, différents scénarios et différents appareils. L’objectif est de déterminer les limites de cette approche par rapport aux autres moteurs du marché, et également de caractériser les capacités de raisonnement des différents dispositifs utilisés.
En fonction du temps restant, l’automatisation du déploiement sur différents appareils pourra également être réalisée.
Le code réalisé sera déposé en open source.
Références :
[Ben21] Bento, A., Médini, L., Singh, K., & Laforest, F. (2021, June). Raisonnement embarqué et distribué pour le Web des Objets: un état de l’art. In Journées Francophones d’Ingénierie des Connaissances (IC) Plate-Forme Intelligence Artificielle (PFIA’21) (pp. pp-48).
[Bon19] Bonte, P., Tommasini, R., De Turck, F., Ongenae, F., & Valle, E. D. (2019, June). C-sprite: efficient hierarchical reasoning for rapid RDF stream processing. In Proceedings of the 13th ACM International Conference on Distributed and Event-based Systems (pp. 103-114).
[CBOR-LD] Sporny, M. & Longley, D.. CBOR-LD 1.0 – A CBOR-based Serialization for Linked Data. W3C Member Submission, 2021. URL : https://digitalbazaar.github.io/cbor-ld-spec/
[Cha18] Charpenay, Victor, Sebastian Käbisch, and Harald Kosch. “Towards a binary object notation for RDF.” European Semantic Web Conference. Springer, Cham, 2018.
[Fer10] Fernandez, J.D., Martinez-Prieto, M.A. & Gutierrez, C.. Compact Representation of Large RDF Data Sets for Publishing and Exchange. In: The Semantic Web ISWC 2010, vol. 6496, pp. 193–208. Springer Berlin Heidelberg, Berlin, Heidelberg, 2010.
[Med16] Médini, L. An Avatar-based Workflow for the Semantic Web of Things. In WWW 2016 W3C Track.
[Mot12] Motik, B., Horrocks, I., Kim, S.M. Delta-reasoner: a semantic web reasoner for an intelligent mobile platform. In WWW 2012 companion volume.
[Mri15] Mrissa, M., Médini, L., Jamont, J.-P., Le Sommer, N., Laplace, J. An Avatar Architecture for the Web of Things. Internet Computing 19(2). IEEE, 2015.
[Raw14] Rawat, P., Singh, K. D., Chaouchi, H., & Bonnin, J. M. (2014). Wireless sensor networks: a survey on recent developments and potential synergies. The Journal of supercomputing, 68(1), 1-48.
[Roj16] Rojas, R., Médini, L., Cordier, A. Toward Constrained Semantic WoT. In WoT 2016.
[Sub16] Subercaze, J., Gravier, C., Chevalier, J., Laforest, F. Inferray: fast in-memory RDF inference. PVLDB 9(6). VLDB Endowment, 2016.
[Ter16] Terdjimi, M., Médini, L., Mrissa, M. HyLAR+: Improving Hybrid Location-Agnostic Reasoning with Incremental Rule-based Update. In WWW 2016, companion volume.
[Tom21] Tommasini, R., Bonte, P., Ongenae, F., & Della Valle, E. (2021). RSP4J: An api for rdf stream processing. In European Semantic Web Conference (pp. 565-581). Springer, Cham.
[WoT20] Kovatsch & al. (2020), Web of Things (WoT) Architecture, W3C Recommendation, https://www.w3.org/TR/2020/REC-wot-architecture-20200409/
Profil du candidat :
5A ingénierie ou master 2
Formation et compétences requises :
Programmation en C (éventuellement embarquée)
Représentation et raisonnement sur des graphes de connaissances
Programmation Web en JavaScript (facultatif)
Adresse d’emploi :
Université Claude Bernard Lyon 1, Campus de la Doua, Villeurbanne.
Le stagiaire sera rattaché au Laboratoire d’InfoRmatique en Image et Systèmes d’information (LIRIS). Le LIRIS est une unité mixte de recherche (UMR 5205) du CNRS, de l’INSA de Lyon, de l’Université Claude Bernard Lyon 1, de l’Université Lumière Lyon 2 et de l’Ecole Centrale de Lyon. Il compte 330 membres. Les recherches du LIRIS concernent un large spectre de la science informatique au sein de ses douze équipes de recherche structurées en six pôles de compétences.
Encadrants :
Lionel Médini, Pierre-Antoine Champin, Frédérique Laforest
Modalités de candidature :
Les candidats doivent envoyer les documents suivants :
-un CV
-une lettre de motivation
-le dernier relevé de notes
Ces documents doivent être envoyés à lionel.medini à liris.cnrs.fr
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IBISC/LMEE, Université Paris-Saclay, Univ. Evry
Durée : 4 à 6 mois
Contact : Khalifa.Djemal@ibisc.univ-evry.fr
Date limite de publication : 2022-05-31
Contexte :
Dans le cadre des études d’impact et de maîtrise des risques environnementaux en zone aéroportuaire, des modèles numériques sont utilisés pour simuler, expliquer et prédire les transferts de polluants. Le choix d’une action de protection des populations est réalisé en tenant compte de l’importance des émissions potentielles de façon à minimiser les concentrations reçues par chaque individu sur la totalité de la zone.
Sujet :
Dans le cadre des études d’impact et de maîtrise des risques environnementaux en zone aéroportuaire, des modèles numériques sont utilisés pour simuler, expliquer et prédire les transferts de polluants. Le choix d’une action de protection des populations est réalisé en tenant compte de l’importance des émissions potentielles de façon à minimiser les concentrations reçues par chaque individu sur la totalité de la zone.
Les données atmosphériques (météorologiques, topographiques, etc.) sont devenues de plus en plus croissantes et gourmandes en temps de traitement (Big data), l’exploitation de ces données par des approches d’intelligence artificielle semble une évidence en particulier dans le cadre de l’estimation et la prédiction des transferts de polluants.
L’objectif du stage est de développer un modèle de prédiction des concentrations de polluants issues d’un réseau de capteurs fixes ou mobiles dans une zone aéroportuaire. Le modèle à développer se basera sur les techniques d’apprentissage automatique, en particulier l’apprentissage profond (deep learning). Le stagiaire aura pour principales tâches de :
– faire une étude bibliographique exhaustive sur les approches de prédiction,
– prendre en main et d’exploiter des données atmosphériques à partir de l’existant dont une grande partie est disponible aux laboratoires IBISC/LMEE,
– développer un modèle de prédiction adapté aux différents types de données.
Mots-clés (en français) : Intelligence artificielle, Apprentissage automatique, Optimisation, Prediction et Identification, Dispersion atmosphérique, Réseau de capteurs, Zone aéroportuaire
Keywords (in english):
Artificial intelligence, Machine learning, Optimization, Prediction and identification, Atmospheric dispersion, Sensors network, Airport area
Références bibliographiques :
[1] Abdelli A., Saouli R., Djemal K., Youkana I., Multiple instance learning for classifying histopathological images of the breast cancer using residual neural network, Inernational Journal of Imaging Systems and Technology, 2022.
[2] Boulemnadjel A., Hachouf F., Hebboul A., Djemal K., Active learning for improving a soft subspace clustering algorithm. Journal of Engineering Applications of Artificial Intelligence, 46, Part A, 196-208, 2015.
[3] Hacini M., Hachouf F., Djemal K., A new speckle filtering method for ultrasound images based on a weighted multiplicative total variation, Signal Processing, 103, 214-229, 2014.
[4] Horch A., Djemal K., Gafour A., Taleb N., Supervised fusion approach of local features extracted from SAR images for detecting deforestation changes. IET Image Processing, doi:10.1049/iet-ipr.2019.0122, 2019.
[5] Kouichi, H., Sensors networks optimization for the characterization of atmospheric releases source, Theses, Université Paris Saclay, France, https://hal.archives-ouvertes.fr/tel-01593834, 2017.
[6] Kouichi, H., Ngae, P., Kumar, P., Feiz, A.-A., Bekka, N., Optimization of an Urban Monitoring Network for Retrieving an Unknown Point Source Emission, Geosci. Model Dev. Discuss., doi.org/10.5194/gmd-2018-6, 2018.
[7] Kumar, P., Singh S. K., Feiz A. A., Ngae P., An urban scale inverse modelling for retrieving unknown elevated emissions with building-resolving simulations, Atmospheric environment 140, 135-146, 2016
[8] Larroque S., Sedgh gooya E., Gripon V., Pastor D., Using Tags to Improve Diversity of Sparse Associative Memories. Proceedings of Cognitive, 1-7, 2015.
[9] Ngae, P., Kouichi, H., Kumar, P., Feiz, A.-A., Chpoun, A., Optimization of an urban monitoring network for emergency response applications: An approach for characterizing the source of hazardous releases, Quarterly Journal of the Royal Meteorological Society, doi.org/10.1002/qj.3471, 2019.
[10] Sedgh Gooya E., Al Falou A., Kaddah W., Robust and discriminating face recognition system based on a neural network and correlation techniques, 2020 Tenth International Conference on Image Processing Theory, Tools and Applications (IPTA), Paris, 2020, pp. 1-5, doi: 10.1109/IPTA50016.2020.9286617.
Profil du candidat :
De niveau Master 2 ou équivalent, de préférence dans les spécialités suivantes :
– Intelligence artificielle
– Traitement de données
– Informatique
– Mathématiques appliquées (modélisation et calculs scientifiques)
Formation et compétences requises :
– Programmation Python, outils de traitement de données.
– Méthodes d’apprentissage automatique.
– Des connaissances de base en sciences de l’environnement atmosphérique seront également très appréciées.
Adresse d’emploi :
Laboratoires IBISC-LMEE
UFR-ST, Université d’Evry Val d’Essonne
40 rue du Pelvoux
91020 Evry.
Document attaché : 202204131204_Sujet_Stage_PSIA2.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IBISC/LMEE, Université Paris-Saclay, Univ. Evry
Durée : 4 à 6 mois
Contact : Khalifa.Djemal@ibisc.univ-evry.fr
Date limite de publication : 2022-06-01
Contexte :
Sundarbans, UNESCO world heritage site, is a mangrove area in the delta formed by the confluence of the Ganga, Padma, Brahmaputra and Meghna Rivers in the Bay of Bengal. The site is intersected by a complex network of tidal waterways, mudflats and small islands of salt-tolerant mangrove forests.
This is also home to many endangered species like the Royal Bengal Tiger, Crocodile and numerous faunae. This is one of the most cyclone prone region of India where presence of this mangrove safeguards eastern part of India from the effect of cyclone. These forests also act as protection from soil erosion in the coastal region.
The sundari tree that populates the region is important for survival of various fauna of this region especially big mammals like royal Bengal tiger and spotted deer due to the characteristic of the tree. Other mangroves trees are relatively smaller in nature and grow in saline water, creating a bush type low height canopy near the canals, causing a hindrance to the movement of wild animals.
However, for the past couple of decades the mangroves of Sundarban are facing threats due to several natural and manmade causes. Due to global warming the number of cyclones and their intensity has increased in the Bay of Bengal. Cyclone Sidr (2007), Aila (2009), Amphan (2020) destroyed almost 40% of the forest.
Developing a strategy of active monitoring of the Sundarban forest, would allow to follow in real time the evolution of its state. Detecting the deforestation, would allow to identify the cause and to plan a remedy to finally protect the fauna but also the flora.
Sujet :
Internship proposal and main tasks to be carried out:
The candidate will carry out an appropriate survey of the state of the art on SAR image processing approaches in a deforestation context. The candidate will then investigate relevant classical features extraction methods and those based on machine learning techniques. The last step will focus on the development of a method that combines classical features from a SAR image with a deep learning architecture to characterize the state of the forest.
References:
[1] Abdelkader Horch, Khalifa Djemal, Abdelkader Gafour and Nasreddine Taleb, Supervised fusion approach of local features extracted from SAR images for detecting deforestation changes. IET Image Processing, 13 pages, DOI: 10.1049/iet-ipr.2019.0122, september 2019.
[2] Sahana, M., Rehman, S., Patel, P.P. et al. Assessing the degree of soil salinity in the Indian Sundarban Biosphere Reserve using measured soil electrical conductivity and remote sensing data–derived salinity indices. Arab J Geosci 13, 1289 (2020). https://doi.org/10.1007/s12517-020-06310-w
[3] Samanta, S.; Hazra, S.; Mondal, P.P.; Chanda, A.; Giri, S.; French, J.R.; Nicholls, R.J. Assessment and Attribution of Mangrove Forest Changes in the Indian Sundarbans from 2000 to 2020. Remote Sens. 2021, 13, 4957. https://doi.org/10.3390/rs13244957
Profil du candidat :
Required skills: To carry out this research work, the candidate need to have the following skills:
– Artificial intelligence, machine learning
– Data and image processing
– Computer science
– Applied mathematics (modeling and scientific calculations)
Internship supervision:
Khalifa DJEMAL and Amir FEIZ: University of Paris Saclay, France
Soham SARKAR: RCC Institute of Information Technology, Kolkata, India
Sheli Sinha CHAUDHURI: University of Jadavpur, Kolkata, India
Internship contacts:
Khalifa DJEMAL: khalifa.djemal@univ-evry.fr
Amir FEIZ: amirali.feiz@univ-evry.fr
Formation et compétences requises :
Python programming, data and image processing tools.
Machine learning methods. Basic knowledge in environmental sciences will also be highly appreciated.
Please send us your CV and Motivation letter.
Adresse d’emploi :
Université Paris-Saclay, Univ. Evry
IBISC, 40 rue du Pelvoux
91020 Evry.
Document attaché : 202205031006_Proposal-Inernship-deforestation.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIRMM, CNRS et Univ Montpellier
Durée : 6 mois
Contact : marianne.huchard@lirmm.fr
Date limite de publication : 2022-06-01
Contexte :
Le stage est financé par l’institut de convergence #Digitag (https://www.hdigitag.fr/fr/) et pourra être complété par un mois de CDD.
Sujet :
Pour un producteur agricole, implémenter les pratiques agroécologiques au sein de son exploitation lui impose de disposer d’un système d’aide à la décision (SAD) pour les identifier, ce SAD comportant une base de connaissances suffisamment étoffée et un système de navigation adapté à ses besoins. La base de connaissances Knomana, par exemple, rassemble plus de 46000 descriptions d’usage de plantes à effet pesticide et antibiotique en santé végétale, animale et humaine (Silvie et al. 2021). La plateforme de visualisation RCAviz (https://info-demo.lirmm.fr/rcaviz/) permet de naviguer dans ce type de base de connaissances. Basé sur l’Analyse de Concepts Relationnels (RCA), une méthode de classification de données relationnelles, RCAviz permet de naviguer dans des structures conceptuelles de type graphe et d’identifier facilement, par exemple, une plante locale susceptible de protéger une culture contre un bioagresseur invasif, ou des plantes en partie équivalentes pour un problème sanitaire donné.
Outre les structures conceptuelles, RCA propose de représenter les connaissances sous forme de règles d’implication, un formalisme qui, proche du langage naturel, est bien adapté aux utilisateurs du monde rural (e.g. « F_Meliaceae => no-food » : les plantes de la famillle Meliaceae ne sont pas consommées). Pour autant, identifier la règle la mieux appropriée dans un grand ensemble de règles est difficile.
L’objectif du stage est de développer un prototype logiciel de visualisation de connaissances, exprimées sous forme de règles d’implications produites par la librairie FCA4J (http://www.lirmm.fr/fca4j). Cette application présentera les règles en regard de mesures d’intérêt ou d’après une formulation symbolique donnée par l’utilisateur, e.g. les règles relatives à un certain ensemble de conditions, pour les exploiter facilement.
Profil du candidat :
Etudiant de Master 2 (informatique ou bioinformatique) avec un intérêt pour l’ingénierie des connaissances, l’analyse visuelle (visual analytics), et à trouver des solutions alternatives aux pesticides et antibiotiques de synthèse pour l’agriculture biologique.
Formation et compétences requises :
Compétences solides en programmation d’application web (notamment javascript) et connaissances en ingénierie des connaissances.
Adresse d’emploi :
LIRMM, Univ. Montpellier, CNRS
161 rue Ada
35095 Montpellier Cedex 5
France
Document attaché : 202112111817_SujetDigitag2022_diffusion.pdf
Offre en lien avec l’Action/le Réseau : RoCED/– — –
Laboratoire/Entreprise : Bioinformatics Institute, A*STAR
Durée : 6 months
Contact : woo_xing_yi@bii.a-star.edu.sg
Date limite de publication : 2022-06-15
Contexte :
This offer is proposed by Xing Yi Woo, Head of Research Data Integration and Senior Principal Investigator at Bioinformatics Institute, A*STAR.
We work closely with clinicians to explore personalized treatment options for cancer patients using multi-omic and spatial profiling, and therapeutic screening in patient-derived models. Data of multiple modalities are generated in the process, and we are developing systematic workflows to integrate and analyze the data to enable clinical-decision-making and drive translation research. This project is looking for candidates to develop computational methods, including big-data analytics and AI/ML approaches, to analyze and integrate the multi-modal data (sequencing, imaging, spatial profiling, treatment response and clinical data) that can deliver translational outcomes to cancer patients. The candidate will have the opportunity to work in a multi-disciplinary team led by a senior Principal Investigator highly experienced in cancer computational biology and clinician-scientists specializing in oncology. Eventually, the candidate will receive training in both computational biology and translation oncology disciplines.
Sujet :
The intern is expected to work on any of these tasks, depending on field of study and interests.
1. Develop, implement and benchmark executable workflows for variant (SNP, Indels, SV, CNV) calling from WES/WGS data, transcriptome profiling from RNASeq data and image processing of histology images.
2. Write scripts to output data in a format that can be integrated with publicly available cancer datasets
3. Organize and analyze publicly available cancer datasets
4. Develop visualization tools to visualize results in a meaningful way
5. Organize all data in a structured manner using relational databases
6. Curation of cancer treatment and biomarkers, and patient clinical data.
Profil du candidat :
• The candidate should have basic programming skills (e.g. Python, R, RStudio, Jupyter Notebook, RShiny, SQL), except for curation tasks.
• Familiarity with Unix/Linux environment or cloud architecture would be an advantage
• Strong analytical and problem-solving skills.
• Excellent oral and written communication and presentation skills.
• Able to work independently, and as part of a team
Formation et compétences requises :
Computer science, any field of Science and Engineering, Pharmacy, Medicine, Public Health
Adresse d’emploi :
BII, A*STAR, Singapore
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Equipe PETRUS INRIA / UVSQ
Durée : 6 mois
Contact : luc.bouganim@inria.fr
Date limite de publication : 2022-06-30
Contexte :
The PETRUS team (Inria/UVSQ), in association with the Hippocad company and the Yvelines Departmental Council, is currently deploying secure home boxes for 10,000 patients in the Yvelines region. These boxes, based on the team’s research results (DBMS embedded in secure hardware), include a personal medical-social database to improve care coordination for dependent people at home. Medical and social workers interact with these secure boxes via a smartphone application. Our objective is to enhance these boxes with the ability to communicate with IOT sensors measuring e.g., luminosity, movement, temperature, to improve patient monitoring. The raw data from the sensors are analyzed by Machine Learning (ML) techniques to identify the patient activities and thus, detect the evolution of patients towards risk situations like depression or illness. Because of their precision, these raw data are however very intrusive. The originality of our approach is to allow a local processing of these data in each box which includes hardware security elements, in order to externalize only the relevant information: alerts, aggregated values on patient dashboards.
Sujet :
ML algorithms build a model based on a training dataset in order to make predictions, in our case, to discover the activity of an individual based on her IOT traces. Beside the classical issues of data representations (from IOT traces to a dataset that can feed an ML algorithm), our approach faces two challenges:
First, we have no possibility to obtain a training dataset for each targeted home-box user. Indeed, we cannot ask elderly people to label their activities during some weeks in order to build the corresponding training datasets: It would be too complex, costly and error prone without a personal assistant. We can however use existing datasets labelled for daily activity discovery (e.g., [1]) and use semi-supervised ML approaches [3] to dynamically adapt the produced model to the targeted home-box user. Indeed semi-supervised approaches use un-labelled data to refine an existing model obtained on labelled data. Other strategies could be defined based on a minimal feedback from the user or on some questionnaires describing the typical activities of the user.
Second, the ML algorithms must be computed inside the home-box, and more precisely in the secure part of the home-box which is composed by a microcontroller with limited RAM resource and a trusted platform module (TPM). Thus the algorithms must be efficient despite limited RAM resources. This may imply to define specific data structures adapted to this environment.
Profil du candidat :
The applicant could be willing to do a Master2 internship or a part-time trainee (Master2 level), or having completed a Master2 and willing to do a PhD
Formation et compétences requises :
• ML algorithm knowledge
• Python (knowledge in C or Rust will be appreciated)
Adresse d’emploi :
UVSQ – Versailles – 45 avenue des états unis.
Document attaché : 202202141426_Master-internship-2022-IOT-ML.pdf
Offre en lien avec l’Action/le Réseau : RoCED/– — –
Laboratoire/Entreprise : CERI Systèmes Numériques – IMT Nord Europe
Durée : 5 mois
Contact : jerry.lonlac@imt-nord-europe.fr
Date limite de publication : 2022-07-31
Contexte :
L’objectif de travail du stage est de concevoir et de mettre en place un outil permettant la migration et l’intégration d’un ensemble de données issues de diverses sources et représentées sous différents modèles (données relationnelles, données liées, données XML, etc.) dans une base de données communes. Pour effectuer cette tâche, des règles de migration devront être établies pour s’adapter à la structure de la base de données qui contient préalablement quelques données. Afin de limiter la duplication des données dans la base de données après l’intégration, un travail préliminaire d’alignement de données devra être réalisé. Pour garantir une migration efficace des données, l’intégration des données importées devrait satisfaire quelques contraintes parmi lesquelles : le maintien de la cohérence de la base données ; le maching/l’appariement entre les champs de données provenant de différentes sources et ceux de la base de données, phase préalable essentielle à la migration.
Sujet :
L’objectif de travail du stage est de concevoir et de mettre en place un outil permettant la migration et l’intégration d’un ensemble de données issues de diverses sources et représentées sous différents modèles (données relationnelles, données liées, données XML, etc.) dans une base de données communes. Pour effectuer cette tâche, des règles de migration devront être établies pour s’adapter à la structure de la base de données qui contient préalablement quelques données. Afin de limiter la duplication des données dans la base de données après l’intégration, un travail préliminaire d’alignement de données devra être réalisé. Pour garantir une migration efficace des données, l’intégration des données importées devrait satisfaire quelques contraintes parmi lesquelles : le maintien de la cohérence de la base données ; le maching/l’appariement entre les champs de données provenant de différentes sources et ceux de la base de données, phase préalable essentielle à la migration.
Profil du candidat :
– M2 ou dernière année d’école d’ingénieurs sur un cursus informatique
– Connaissances en Intelligence Artificielle (Data mining, Machine Learning)
Formation et compétences requises :
– Connaissances en intégration/analyse de données massives, ETL
– Connaissances en développement d’applications web
– Bon niveau en programmation (SQL, XML, C++, python)
– Bon niveau en communication (écrit/oral) en français et/ou en anglais.
Adresse d’emploi :
IMT Nord Europe
941, rue Charles Bourseul
CS 10838
59508 DOUAI Cedex – France
Document attaché : 202205200849_Proposal_for_internship_IMT_Nord_Europe-Data_integration.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Institut de Neurosciences de la Timone, INT, Marse
Durée : 4-6 mois
Contact : sylvain.takerkart@univ-amu.fr
Date limite de publication : 2022-07-31
Contexte :
L’Institut de Neurosciences de la Timone (INT, http://www.int.univ-amu.fr ) est une unité mixte de recherche qui a pour objectif de développer des recherches interdisciplinaires en neuroscience. Situé sur le Campus de la Faculté de Médecine d’Aix Marseille Université, il est doté de plateformes technologiques de haut niveau au service d’équipes de recherche en neurosciences théoriques et expérimentales.
Sujet :
Dans le cadre du plan national pour la science ouverte (https://www.ouvrirlascience.fr/plan-national-pour-la-science-ouverte/), la mise en place de procédures d’ouverture des données scientifiques récoltées en neurosciences reste un challenge. En effet, ces données sont complexes et la mise en place de standards basés sur des formats de données ouverts sont des initiatives récentes. En particulier, les microscopes de dernières génération qui permettent d’enregistrer l’activité cérébrale en temps réel fournissent des gros volumes de données qu’il est important de gérer de manière efficace afin d’obtenir des données FAIR (Faciles à trouver, Accessibles, Intéropérables, Réutilisables : https://www.go-fair.org/fair-principles/). L’objectif de ce stage est de développer des composants logiciels open source qui permettront la production de données FAIR-by-design en partant des données brutes acquises sur les microscopes récemment acquis dans le laboratoire.
Profil du candidat :
Nous recherchons un.e candidat.e qui soit:
– curieux.se pour les applications en imagerie biomédicale;
– volontaire et sachant avancer de manière autonome;
– bon.ne communiquant.e et sachant partager ses progrès et les obstacles rencontrés;
– motivé.e pour coder dans un environnement “open source”.
Le stage peut se dérouler sur toute l’année 2022, suivant le calendrier des stages du cursus suivi par le.la candidat.e.
Formation et compétences requises :
Formation: bac + 4 ou bac + 5, cursus « Sciences des données » ou « Développement logiciel »
Compétences requises:
– bonne connaissance de l’écosystème des sciences des données
– maitrise des concepts avancés en développement logiciel (test unitaires, gestion de version avec des outils de type GIT, intégration continue, etc.)
– maitrise du langage python
– connaissances en mathématiques appliquées et en algorithmie
– intérêt pour la biologie et/ou les neurosciences et/ou l’imagerie médicale
Adresse d’emploi :
Institut de Neurosciences de la Timone, INT
27 boulevard Jean Moulin
13005 Marseille
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CRIStAL UMR 9189, Lille
Durée : 6 mois
Contact : pierre.chainais@centralelille.fr
Date limite de publication : 2022-09-15
Contexte :
Centre de Recherche en Informatique, Signal et Automatique de Lille (UMR 9189 CRIStAL), Villeneuve d’Ascq, France.
Dates: Starting date between March and April 2022, 4 to 6 months internship.
Pierre-Antoine THOUVENIN (pierre-antoine.thouvenin@centralelille.fr), https://pthouvenin.github.io/
Pierre CHAINAIS (pierre.chainais@centralelille.fr),
pierre.chainais@centralelille.fr
The intern will be jointly supervised by Pierre Chainais, professor at Centrale Lille, and Pierre-Antoine Thouvenin, assitant professor at Centrale Lille. The internship will take place in the Centre de Recherche en Informatique, Signal et Automatique de Lille (CRIStAL, UMR 9189), France, within the SigMA team.
This project is part of the ANR Chaire IA SHERLOCK (Fast inference with controlled uncertainty: application to astrophysical observations) led by Pierre Chainais (co-funded by Agence Nationale de la Recherche (ANR), ISITE, Centrale Lille Institut and Région Haut-de-France). Participation to a national or international workshop is considered.
Period and continuation in PhD
This 4 to 6-months internship will start between March and April 2022. The precise start and end dates will be adjusted depending on the availability of the candidate. The intern will be granted the usual stipend of ∼ 600 euros/month (3,90 euros/hour).
This M.Sc. project may be continued as a PhD thesis, for which a grant is already secured for the period 2022-2025 thanks to the ANR Chaire IA SHERLOCK.
Keywords. Bayesian inference, continuous optimization, distributed asynchronous algorithms, MCMC methods.
Sujet :
Bayesian inference is a usual approach to estimate parameters from a dataset, a typical setting underlying the resolution of inverse problems. An inverse problem consists in estimating a collection of parameters involved in a physical model from degraded and noisy observations, e.g., reconstucting an image from noisy incomplete observations of the sky in radio- astronomy. In many signal and image processing applications, especially in astronomy (Abdulaziz et al. 2019; Cai et al. 2018) and remote sensing (Ghamisi et al. 2019), no ground truth is available. Fast parameter inference under controlled uncertainty is thus critical to guarantee the quality of the resulting predictions. Indeed, different values of a parameter can be associated to different physical processes, for instance in remote sensing source separation in presence of outliers.
Inference cost can be large, and increases significantly with both the number of observations (large dataset) and param- eters to be inferred (high dimensional problem). Typical signal and image processing applications lead to the resolution of high-dimensional inverse problems, relying on large datasets. Asynchronous (parallel or distributed) optimization al- gorithms have recently regained interest due to their potential of acceleration to form an estimator, in comparison with their synchronous counterparts (Hannah et al. 2017).
The project is aimed at investigating the potential of asynchrony to accelerate distributed optimization algorithms amenable to a Single Program Multiple Data (SPMD) implementation. We will study several aspects, such as the algo- rithm convergence, the resulting estimation quality and inference time. Applications to the resolution of inverse problems in remote sensing or astronomy will be considered.
Depending on the evolution of the project, the study will be extended to a few selected Markov-chain Monte Carlo (MCMC) methods (Durmus et al. 2018; Simsekli et al. 2018; Terenin et al. 2020) to provide estimators with quantified uncertainty, beyond the point estimate provided by optimization algorithms.
This M.Sc. project may be continued as a PhD thesis, for which a grant is already secured for the period 2022-2025 thanks to the ANR Chaire IA SHERLOCK.
Profil du candidat :
Master 2 or last year engineering school students with major in applied mathematics, computer science or electrical engineering. The project requires a strong background in data science and/or machine learning (statistics, optimization), signal & image processing. Very good Python coding skills are expected.
Application procedure
Applicants are invited to send the following documents in .pdf format to both co-advisors:
• a detailed curriculum;
• official transcripts from the institutions you have attended over the last 2 years (in French or in English);
• references: letters of recommendation or names of two researchers/professors willing to recommend your applica- tion.
For further information, please contact both co-advisors of the project:
• Pierre-Antoine Thouvenin, pierre-antoine.thouvenin@centralelille.fr • Pierre Chainais, pierre.chainais@centralelille.fr.
Formation et compétences requises :
A B2 English level is mandatory.
Knowledge in C++ programming, as well as experience or interest in parallel/distributed code development (MPI, OpenMP, CUDA, …) will be appreciated.
Adresse d’emploi :
CRIStAL, Cité Scientifique, 59651 Villeneuve d’Ascq Cedex
Document attaché : 202201242012_msc_proposal_2022_CRIStAL.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ImViA
Durée : 6 months
Contact : yannick.benezeth@u-bourgogne.fr
Date limite de publication : 2022-11-24
Contexte :
Titre : Driver scene monitoring / analyse de l’environnement de conducteur
Laboratoire ImViA (Univ. Bourgogne)
Location: Dijon France
Supervisor:
Yannick Benezeth – yannick.benezeth@u-bourgogne.fr – https://sites.google.com/view/ybenezeth
Cédric Demonceaux (cedric.demonceaux@u-bourgogne.fr) https://sites.google.com/view/cedricdemonceaux/home
Houda Rafi (houda.rafi@renault.com)
Keywords: Image and signal analysis, deep learning, scene understanding
If you are interested, send CV and motivation letter to yannick.benezeth@u-bourgogne.fr, cedric.demonceaux@u-bourgogne.fr and houda.rafi@renault.com.
Sujet :
(english below)
Le domaine des systèmes d’aide à la conduite s’intéresse de plus en plus à la manière dont l’environnement de conduite affecte l’état émotionnel du conducteur. Alors que certaines études de cas spécifiques montrent une corrélation entre le stress des conducteurs et l’environnement de la voiture, comme les types de routes (ville, autoroute et parking) [1, 2, 3] et les conditions de circulation [4], d’autres recherches ont exploré plus en profondeur la possibilité d’estimer directement le stress ressenti des conducteurs à partir des informations trouvées dans la scène entourant la voiture [5]. L’identification et l’analyse des objets de la scène visuelle et de leur emplacement sont essentielles pour comprendre comment la scène routière affecte le stress du conducteur. Pour atteindre cet objectif, diverses architectures de segmentation sémantique doivent être exploitées afin de surmonter les multiples problèmes qui peuvent survenir lors de l’identification d’objets dans différentes scènes enregistrées dans différents environnements. Les architectures de segmentation sémantique les plus récentes sont SFNet-R18 [6] , PSPNet-101 [7], HRNetV2 + OCR + [8] etc…
L’objectif de ce projet est de rechercher différentes architectures de segmentation sémantique, d’évaluer leur efficacité et d’utiliser les résultats de la segmentation pour déduire et estimer le stress perçu par le conducteur.
Le projet s’inscrit dans le cadre d’une collaboration avec la société Renault. Les travaux seront menés au sein du laboratoire ImViA sur le campus de Dijon.
*******************
The field of driver-assistance systems is increasingly interested in determining how the driving environment affects the driver’s emotional state. While some specific case studies show a correlation between the drivers’ stress and the car environment like the types of roads (e.g. city, highway, and parking) [1, 2, 3] and traffic circumstances [4], other research explored more in-depth the possibility of estimating directly the drivers’ subjective stress from the information found in the scene surrounding the car [5]. Identification and analysis of the objects in the visual scene and their locations are crucial to understanding how the road scene affects the driver’s stress. For this goal, various architectures of semantic segmentation should be exploited to upsample multiple issues that can occur while identifying objects in different scenes recorded in different environments. Some up-to-date semantic segmentation architectures are SFNet-R18 [6] , PSPNet-101 [7], HRNetV2 + OCR + [8] etc… This project’s objective is to research various semantic segmentation architectures, assess their effectiveness, and use the segmentation result to infer and estimate the perceived stress of the driver.
The project is part of a collaboration with the Renault company. The work will be carried out within the ImViA lab on the Dijon campus.
********************
[1] O. V. Bitkina et al. “Identifying traffic context using driving stress: A longitudinal preliminary case study,” Sensors, 2019.
[2] J. A. Healey and R. W. Picard, “Detecting stress during real-world driving tasks using physiological sensors,” IEEE Trans. on Intelligent Transportation Systems, vol. 6, no. 2, pp. 156–166, 2005.
[3] N. Elhaouij, J.-M. Poggi, S. Sevestre-Ghalila, R. Ghozi, and M. Ja¨ıdane, “AffectiveROAD system and database to assess driver’s attention,” in Proc. of the 33rd Annual ACM Symposium on Applied Computing, 2018, pp. 800–803.
[4] W.-Y. Chung, T.-W. Chong, and B.-G. Lee, “Methods to detect and reduce driver stress: a review,” Int. Journal of Automotive Technology, vol. 20, no. 5, pp. 1051–1063, 2019
[5] Bustos, Cristina, et al. “Predicting driver self-reported stress by analyzing the road scene.” 2021 9th International Conference on Affective Computing and Intelligent Interaction (ACII). IEEE, 2021.
[6] LI, Xiangtai, YOU, Ansheng, ZHU, Zhen, et al. Semantic flow for fast and accurate scene parsing. In : European Conference on Computer Vision. Springer, Cham, 2020. p. 775-793.
[7] ZHAO, Hengshuang, SHI, Jianping, QI, Xiaojuan, et al. Pyramid scene parsing network. In : Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. p. 2881-2890.
[8] YUAN, Yuhui, CHEN, Xiaokang, CHEN, Xilin, et al. Segmentation transformer: Object-contextual representations for semantic segmentation. arXiv preprint arXiv:1909.11065, 2019.
Profil du candidat :
The recruited student should have strong computer science background, applied mathematics or programming.
Formation et compétences requises :
computer science
Adresse d’emploi :
Dijon
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : DISP, Université Lyon 2
Durée : 6 mois
Contact : giacomo.kahn@univ-lyon2.fr
Date limite de publication : 2022-11-30
Contexte :
Des études menées au sein de plusieurs industries montrent que les éditeurs de logiciels ont tendance à produire des variantes de systèmes logiciels en réutilisant de manière ad-hoc des clones de projets précédents, aboutissant ainsi à des familles de logiciels similaires où chaque produit est géré et maintenu séparément. L’ingénierie des lignes de produits logiciels regroupe un ensemble de méthodes basées sur la réutilisation systématique d’artefacts logiciels afin de développer, maintenir et faire évoluer en parallèle un ensemble de variantes d’une même famille de logiciels. Cela permet de réduire le temps et le coût de développement et de maintenance de la famille de logiciels tout en augmentant sa qualité. La migration depuis une famille de produits logiciels vers une ligne de produits est donc une problématique essentielle partagée par de nombreux éditeurs de logiciels. La modélisation et la gestion de la variabilité, i.e., quels artefacts varient entre les variantes logicielles et comment, est un point central de ces méthodes.
Sujet :
L’ingénierie des lignes de produits multiples est un domaine émergeant qui se consacre à la représentation et la gestion de la variabilité dans des familles de logiciels qui sont considérés comme complexes du fait de leur hétérogénéité, de leur taille ou encore de leur architecture. Cette complexité donne lieu à des données pouvant inclure de multiples dimensions (e.g., caractéristiques logicielles, contexte et environnement, équipe de développement, dépendances avec d’autres systèmes) ce qui présente un réel défi lorsque l’on cherche à les analyser avec les techniques actuelles. La migration depuis une famille de logiciels complexes vers une ligne de produits multiples nécessite donc de reconsidérer et d’adapter les techniques traditionnelles de rétro-ingénierie de la variabilité afin de manipuler des données plus complexes.
L’objectif de ce stage est d’utiliser une extension de l’analyse formelle de concepts, l’analyse polyadique (PCA), qui permet d’extraire des motifs et des informations de données multi-dimensionnelles, afin d’extraire la variabilité d’un ensemble de familles de logiciels complexes.
Profil du candidat :
Master 2 informatique, avec des penchants pour le génie logiciel et les approches de représentation et d’extraction de connaissance.
Formation et compétences requises :
Ingénierie logicielle, représentation des connaissances
Adresse d’emploi :
Laboratoire Disp, pôle RTI, Université Lyon 2
Document attaché : 202210280931_23PropPCADISP_Fiche-appel-à-candidature.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Disp
Durée : 6 mois
Contact : giacomo.kahn@univ-lyon2.fr
Date limite de publication : 2022-11-30
Contexte :
Le projet Européen Erasmus+ DigiHealth-Asia a pour objectif le renforcement des capacités de formation en santé numérique d’universités provenant de trois pays asiatiques : la Mongolie, le Pakistan, et la Thaïlande. Des problématiques spécifiques ont été identifiées dans chacun des pays partenaires. La Mongolie est un pays particulièrement étendu, et dont les services de santé sont concentrés dans un unique pôle urbain, qui concentre 45% de la population du pays. Dans le cadre du projet DigiHealth, nous développons en partenariat avec deux universités mongoles un système de consultation à distance assisté par des modèles d’intelligence artificielle, pour le cas de la santé dentaire.
Sujet :
Ce stage s’appuie sur des données de terrain réelles. L’objectif de ce stage est de récupérer ces données, les nettoyer, prétraiter, traiter et analyser, dans le but de déployer les modèles d’apprentissage automatique dans l’architecture proposée par nos partenaires mongoles. Pour se faire, un déplacement en Mongolie est prévu lors du stage, pour rencontrer les partenaires (côté recherche et professionnels de santé) et préparer le déploiement. Pour cette raison, il faut impérativement un niveau d’anglais suffisant.
Profil du candidat :
Master ou ingénieur en informatique
Formation et compétences requises :
Anglais obligatoire (déplacement en Mongolie),
Apprentissage automatique,
Santé numérique
Adresse d’emploi :
Laboartoire DISP, RTI, Université Lyon 2
Document attaché : 202210280926_PC3DISP_Fiche appel à candidature_20191119.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ICube, University of Strasbourg
Durée : 6 mois
Contact : lampert@unistra.fr
Date limite de publication : 2022-12-12
Contexte :
Time-series are becoming prevalent in many fields, particularly when monitoring environmental changes of the Earth’s surface in the long term (climate change, urbanisation, etc), medium term (annual crop cycle, etc) or short term (earthquakes, floods, etc). With the current and future satellite constellations satellite image time-series (SITS) expand remote sensing’s impact.
Sujet :
Detailed subject: https://seafile.unistra.fr/f/7b4b402e34124fb396b7/?dl=1
The project’s goal is to develop domain invariant representations using deep learning for SITS analysis. Such methods will enable geographic generalisation, which consists of reusing information from the analysis of one geographic area to analyse others by using, or not, the same sensors, as proposed in [5]. Current approaches work for single images because they generally originate from the computer vision community.
The internship will start the evaluation of the state-of-the-art and to implement and extend approaches already developed in ICube [5,6].
Current work on domain adaptation (DA) for time-series uses either weak supervision [1] or attention-based mechanisms [2,3] for classification or focus on the related problem of time- series forecasting [4]. However, none of these approaches tackle the problem of learning DIRs that can be applied to several geographical locations simultaneously.
The work has two benefits: on the one hand, to reduce the burden of ground truth collection when sensors of different characteristics are used; and on the other to exploit the information contained in each data modality to learn representations that are more robust and general, i.e. to detect crops, land cover evolution, etc in different countries that exhibit different characteristics.
Your contributions will be part of the global work of the SDC researchers and will be validated through the partnership with CNES and potential collaboration with Tour du Valat. SDC’s aim is to propose and implement new generic methods and tools to exploit large sets of reference data from one domain/modality (sufficient to train an accurate detector) to train a multi- modal/domain detector that can be applied to imagery taken from another sensor for which there exists no reference data.
As such, the work tackles key problems in many machine learning & computer vision applications.
Profil du candidat :
• Experience with the Python (numpy, keras, tensorflow, etc.)
• Interest/experience in deep learning
• Knowledge of machine learning workflows and techniques (e.g. best practices around
training data management, understand basics of numerical optimisation)
• Familiarity with Linux environments
• Have excellent communication skills and a strong team player
• Good knowledge of English (French is not mandatory)
Formation et compétences requises :
2nd year of a Master’s in Computer Science degree or similar
Adresse d’emploi :
ICube UMR 7357 – Laboratoire des sciences de l’ingénieur, de l’informatique et de l’imagerie
300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CIRAD – UR AIDA et UMR TETIS – #DigitAg
Durée : 6 mois
Contact : sandrine.auzoux@cirad.fr
Date limite de publication : 2022-12-15
Contexte :
Les études agro-écologiques génèrent de nombreuses bases de données hétérogènes en termes de structure et de contenu, qui sont difficilement exploitables et nécessitent une curation pour être mobilisées dans des approches statistiques ou de modélisation. La curation consiste à sélectionner les données les plus pertinentes et les enrichir de métadonnées nécessaires à leur compréhension pour pouvoir les rendre accessibles, partageables et réutilisables (principes FAIR).
Pour annoter les données et augmenter la précision des termes utilisés, un collectif interdisciplinaire de chercheurs du CIRAD a construit un dictionnaire des variables (Auzoux et al, 2018). Une variable est constituée de termes sémantiques issus des connaissances expertes et d’ontologies de référence. La liste des variables du dictionnaire a été définie pour faciliter la comparaison et l’analyse des données, et les liens avec les modèles de culture.
Un premier travail exploratoire sur la curation de bases de données en agroécologie, constituées à partir de 28 expérimentations sur la canne à sucre à La Réunion, a été réalisé lors d’un stage de Master 2 (Ngaba, 2022). Il a permis de tester et de valider une approche de fouille de textes pour automatiser la normalisation des variables créées et utilisées par les chercheur.e.s pour décrire leurs données.
Sujet :
L’objectif de ce stage est d’automatiser la labellisation des variables hétérogènes des chercheur.e.s issues des bases de données en agroécologie à partir d’une liste de variables standardisées (dictionnaire des variables). Plusieurs méthodes de fouille de texte seront mobilisées pour proposer les variables du dictionnaire les plus en phase avec les variables des bases de données :
– des mesures de proximité lexicale (Maedche et al., 2002),
– des méthodes de proximités contextuelles (Salton et al., 1988) fondées sur la description des variables issues des bases de données,
– des méthodes de proximités contextuelles fondées sur des corpus : des contextes seront constitués à partir de corpus textuels et de méthodes de plongements de mots (Mikolov et al., 2013) et de modèles de langues issus des méthodes d’apprentissage profond (Devlin et al., 2019).
Au-delà d’une extension de la méthode en proposant des méthodes originales de fouille de texte, un objectif important de ce stage consiste à proposer une approche générique pour labelliser les données et faciliter l’interopérabilité des bases de données en agroécologie.
Ce stage se déroulera en 3 grande étapes :
– Etape 1 : Appropriation des données et codes
– Etape 2 : Préparation de nouveaux jeux de données pour étudier la généricité de l’approche
– Etape 3 : Extension de l’approche de mise en lien de variable
Dans le cadre d’une démarche science ouverte, les codes sources et les données seront mises à dispositions sur la forge logicielle et le Dataverse du CIRAD. Les résultats de ce stage pourront donner lieu à deux publications scientifiques (Data paper et article scientifique).
Profil du candidat :
Le profil que nous recherchons, est un informaticien (Master 2 ou école d’ingénieur) ayant une formation en science des données ayant une maitrise des bases de données, des méthodes de fouille de texte et d’analyse de données. Une ouverture sur l’interdisciplinarité est indispensable pour pouvoir dialoguer avec les experts métiers.
Formation et compétences requises :
SGBD PostgreSQL, R studio, Python
Adresse d’emploi :
– Accueil à l’UMR TETIS à la Maison De la Télédétection sur le campus Agropolis de Montpellier
– Encadrement : 2 unités de recherche de #DigitAg (UR Aïda et UMR TETIS) sont impliquées dans cet encadrement. Le stagiaire évoluera dans une équipe pluridisciplinaire composée de deux informaticiens (Sandrine Auzoux et Mathieu Roche), un biostatisticien (Benjamin
Heuclin), et deux agronomes (Aude Ripoche et Mathias Christina).
– Période de stage : de février/mars à juillet/août 2023 (6 mois)
– Rémunération : indemnité au tarif en vigueur : 600 euros/mois x 6 mois = 3600 € + tickets restaurant
– 1 mission sera réalisée à La Réunion en milieu de stage pour présenter les premiers résultats et pour discuter plus en détail avec les encadrants et les partenaires réunionnais de la généricité de l’approche.
Document attaché : 202211181636_Stage_Digitag_TextMining.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Centre National de Recherche Météorologique (CNRM)
Durée : 6 mois
Contact : laure.raynaud@meteo.fr
Date limite de publication : 2022-12-15
Contexte :
Les prévisions météorologiques de fine échelle opérées quotidiennement par Météo-France sur les domaines Outre-Mer s’appuient sur le modèle AROME et ont vu leur résolution spatiale augmenter de 2.5km à 1.3km à l’été 2022. Cette évolution a permis d’améliorer la performance des prévisions, en particulier pour les évènements à enjeux tels que les cyclones tropicaux et les fortes pluies. Des résolutions hectométriques permettraient de gagner encore en réalisme, en particulier sur l’île de la Réunion dont le relief est complexe. Néanmoins, le coût des prévisions AROME à des résolutions de quelques centaines de mètres ne permet pas d’envisager leur utilisation opérationnelle avant plusieurs années. L’objectif du stage est de mettre en place et d’évaluer une alternative moins coûteuse à cette descente d’échelle dynamique.
Sujet :
Le stage vise à mettre en place et évaluer plusieurs méthodes de descente d’échelle statistique, dont l’objectif est d’apprendre une relation statistique entre les prévisions basse résolution (par exemple 2.5km ou 1.3km) et les prévisions haute résolution (par exemple 500m). Les méthodes de descente d’échelle les plus classiques reposent sur des interpolations simples ou des approches de régression linéaire. Récemment, plusieurs études ont montré que des méthodes d’apprentissage profond tels que les réseaux de neurones convolutifs offrent des perspectives intéressantes pour la descente d’échelle.
L’objectif du travail proposé est de développer une première descente d’échelle à 500m des prévisions AROME sur la Réunion, par apprentissage profond, et pour des variables de temps sensible telles que la température, le vent et les précipitations.
Profil du candidat :
M2/Ecole d’ingénieurs.
Formation et compétences requises :
Le stage requiert un réel intérêt pour la prévision numérique du temps. De bonnes compétences en statistiques sont attendues. Le langage de programmation utilisé sera Python. Une connaissance préalable du fonctionnement des réseaux de neurones profonds (en particulier des réseaux convolutifs) est souhaitée. Une première expérience d’une bibliothèque de Deep Learning (PyTorch, Keras, TensorFlow, Caffe, …) serait un plus.
Adresse d’emploi :
CNRM, 42 avenue Gaspard Coriolis, Toulouse.
Document attaché : 202210061430_Fiche-proposition-PFE_IENM_IA500m_Madics.pdf
Offre en lien avec l’Action/le Réseau : RoCED/– — –
Laboratoire/Entreprise : Exploitation de données spatio-temporelles multimo
Durée : 6 mois
Contact : alain.bouju@univ-lr.fr
Date limite de publication : 2022-12-16
Contexte :
Ce travail s’inscrit dans le programme PLAIZPARC (Plaisance et zostère dans le Parc naturel marin de l’estuaire de la Gironde et de la mer des Pertuis) porté par le Parc naturel marin de l’estuaire de la Gironde et de la mer des Pertuis (PNMEGMP) qui vise à réduire la pression des mouillages des navires de plaisance sur les herbiers de zostère dans le Parc.
Dans ce projet, l’action 2.2 vise à obtenir une meilleure connaissance des dynamiques spatio-temporelles des pratiques de plaisance. Pour cela, le projet « Développement d’un système automatisé d’évaluation des fréquentations de plaisance à partir de données multimodales (2021-2023) » a été lancé en novembre 2021 et regroupe le PNM EGMP, La Rochelle Université (LRU) et la société IKOMIA. Il
Il vise à mettre au point de nouvelles solutions basée sur les technologies de machine learning et de fouille de données, pour l’évaluation des fréquentations des ports et des zones de mouillage à partir de données multimodales issues d’images vidéo et de données de suivi des embarcations de plaisance.
Ce projet est organisé en quatre volets :
• Volet A : Le portage du système de comptage vers Ikomia Studio ;
• Volet B : le développement d’un système de comptage spécifique aux zones de mouillages ;
• Volet C : Le traitement des données multimodales recueillies par croisements ;
• Volet D : L’amélioration des algorithmes de détection d’embarcations.
Ce stage s’inscrit dans le volet C de ce projet.
Sujet :
Objectif du stage proposé :
– Etat de l’art sur la thématique des croisements de données multimodales pour la spatialisation des activités (Méthodologie et sources fournies)
– Intégration données multimodales de comptages (issue des traitements IA, AIS, GPS, données d’enquêtes, etc. (Outils d’analyse et agrégation, base de données)
– Création outils informatiques intégrables à QGIS permettant de produire des analyses spatiales et cartographiques (Python)
Profil du candidat :
Les mots clefs du profil sont :
Fouille de données, Machine Learning, Ontologie, Acquisition, agrégation, traitement et analyse de données, géospatiale,
Les technologies :
Python, Base de données géospatiale (PostgreSQL,/PostGIS), QGIS, RDF,
Formation et compétences requises :
Formation en Master 2 Informatique en cours (Stage de fin d’étude)
Adresse d’emploi :
Laboratoire Informatique, Images et Interaction (L3i)-La Rochelle Université, Faculté des Sciences et Technologies, Bâtiment Pascal – Avenue Michel Crépeau, 17042 La Rochelle Cedex 1.
Document attaché : 202212081530_Offre de stage de master 2_informatique_AB2023.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : TETIS
Durée : 6 mois
Contact : maguelonne.teisseire@teledetection.fr
Date limite de publication : 2022-12-19
Contexte :
Au sein du laboratoire TETIS à Montpellier, un modèle de simulation des cultures (SARRA, Baron et al,, 2005) a été proposé depuis plusieurs années. Il permet, sur la base d’un bilan hydrique dynamique simple, d’estimer l’impact de scénarios climatiques sur une culture annuelle. Sa déclinaison logicielle SARRA-H est spécifiquement adaptée à l’analyse d’impact du climat sur la croissance des céréales sèches (mil, sorgho, maïs, riz) et du rendement potentiel en milieu tropical. La version la plus récente de SARRA, SARRA-O (http://sarra-h-dev.teledetection.fr), introduit la possibilité de spatialiser les simulations de culture selon le principe de modèle de simulation de cultures en grille (gridded crop model, GCM). La littérature présente également des GCM adaptés d’autres plateformes de simulation de cultures (DSSAT, WOFOST, STICS…).
L’objectif de ce stage est de réaliser une comparaison des formalismes et des performances de SARRA-O avec des GCM alternatifs, en prenant comme cas d’étude le riz pluvial en Afrique de l’Ouest. Le riz est la culture vivrière la plus importante au monde, et on estime qu’il constitue l’aliment de base de la moitié de l’humanité. Les pays d’Afrique de l’Ouest sont fortement dépendants du riz pour leurs calories alimentaires. Cependant, une gestion inadéquate de l’eau, des sols et des cultures y compromet toujours la productivité du paddy. La production rizicole y est également menacée par la variabilité des précipitations annuelles, les fluctuations dans les dates de démarrage de saison, et l’augmentation de l’aridité. L’utilisation de GCM dans ce contexte répond donc à des enjeux liés notamment à la sécurité alimentaire.
Sujet :
L’objectif de ce stage est de positionner la suite SARRA-O par rapport à ses concurrents nationaux ou internationaux, en utilisant le riz pluvial comme cas d’étude. Cette comparaison suivra une grille d’évaluation à définir en adéquation avec les standards académiques. De façon plus précise, le travail à réaliser se décompose de la façon suivante :
1. Une familiarisation des différents concepts liés au modèle SARRA-O ;
2. Un état de l’art permettant de lister les modèles similaires à SARRA-O ou partageant les mêmes objectifs d’estimation de rendements ;
3. La définition d’une grille de comparaison des modèles selon principalement les données en entrée (incluant les différents paramètres et la calibration nécessaire selon le type de culture), la méthode adoptée, les données en sortie ;
4. La sélection avec l’équipe encadrante de 2 à 3 modèles alternatifs à SARRA-O ainsi que des mesures d’évaluation adaptées aux modèles choisis ;
5. La réalisation de simulations à partir des modèles sélectionnées, et leur évaluation face à des données observées sur le riz pluvial en Afrique de l’Ouest.
Le cas d’étude s’inscrit dans le cadre de travaux de TETIS sur l’impact du changement climatique sur le rendement du riz en Afrique de l’Ouest. Le/la stagiaire bénéficiera de l’aide d’un autre étudiant qui travaillera sur la calibration du modèle SARRA-O pour le cas du riz pluvial à partir d’un ensemble de données expérimentales d’Afrique de l’Ouest (Sénégal, Côte d’Ivoire) et de Madagascar.
Bibliographie :
Baron, C., Sultan, B., Balme, M., Sarr, B., Traore, S., Lebel, T., Janicot, S., & Dingkuhn, M. (2005). From GCM grid cell to agricultural plot: scale issues affecting modelling of climate impact. Philosophical Transactions of the Royal Society B: Biological Sciences, 360(1463), 2095–2108. https://doi.org/10.1098/rstb.2005.1741
Profil du candidat :
Dernière année Ingénieur agro ou Master 2 ou (stage de césure ou de fin d’études)
Formation et compétences requises :
Le stage exige des connaissances de base en agronomie, une bonne maîtrise du langage de programmation Python (+ librairies Pandas et Numpy), une aisance à la manipulation de fichiers et de l’appétence pour les approches de modélisation.
Une bonne maîtrise écrite de l’anglais (lu) est indispensable.
Adresse d’emploi :
UMR TETIS (Territoires, Environnement, Télédétection et Information Spatiale)
Maison de la Télédetection
500, rue J.F.Breton 34093 MONTPELLIER Cedex 5
Document attaché : 202211071542_Offre de stage état des lieux modélisation.pdf
Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –
Laboratoire/Entreprise : Institut d’Astrophysique de Paris
Durée : 3 à 6 mois
Contact : florent.leclercq@iap.fr
Date limite de publication : 2022-12-26
Contexte :
Surveys of the cosmic large-scale structure carry rich scientific opportunities. Advancing the research frontier requires solving unique and challenging statistical problems, to unlock the information content of massive and complex data vectors. The recently-proposed machine learning technique BOLFI (Bayesian optimisation for likelihood-free inference) makes inference of complex Bayesian hierarchical models under the constraint of a very limited simulation budget possible. Unfortunately, its use is currently hampered by several theoretical and practical challenges.
Sujet :
The goal of this interdisciplinary project is to upgrade the BOLFI algorithm for the extraction of information distributed in massive and heterogeneous data, in the context of expensive and imperfect data models. Motivating problems and applications will come from upcoming galaxy survey data such as Euclid. We will address several issues, including: (i) the parallel acquisition of simulations when only a limited number of noisy likelihood evaluations can be obtained, (ii) the robustification of the technique against model mis-specification, (iii) the definition of summary statistics that maximise the extraction of information, e.g. via information-maximising neural networks (IMNN). The proposed algorithm will be applied to the inference of cosmological parameters using a realistic simulator. Ultimately, the developed method will be an important tool for the extraction of physical information from Euclid data, which has the potential to influence the design of future data analysis pipelines.
Related links and literature / Version française : https://florent-leclercq.eu/supervision.php#internship-2023-info
Profil du candidat :
The student will get experience of statistical modelling, machine learning, data mining, cosmology, and astronomical observations. They should be comfortable with computing (preferably, experience with python and git). This work could naturally lead to a PhD project in data science and/or cosmology, for example in the large-scale structure and distant Universe group of the Institut d’Astrophysique de Paris (IAP).
Formation et compétences requises :
Interest in information science, machine learning, data science, and a taste for (astro)physics.
Adresse d’emploi :
Institut d’Astrophysique de Paris, 98 bis boulevard Arago, 75014 Paris, France
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IFP Energies nouvelles, Lyon
Durée : 3-4 months
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2022-12-26
Contexte :
Le génie des procédés est un domaine d’ingénierie, qui s’intéresse à l’application de la chimie physique dans l’industrie avec pour but principal de transformer de la matière. Il vise à concevoir et gérer le fonctionnement d’un procédé à différentes transformations chimiques et physiques. Ce domaine s’appuie sur l’analyse régulière de différents capteurs, paramètres et quantités physiques (température, pression, concentration, etc.), permettant d’optimiser les points de fonctionnement et la qualité des produits en fonction des matières sources. Être capable de bâtir des modèles statistiques prédictifs ou explicatifs, liant les données mesurées ou calculées aux propriétés souhaitées, devient donc un enjeu important en termes d’efficacité des procédés. Depuis plusieurs années se développent des approches combinant connaissances métiers et méthodes de science des données pour améliorer la performance et la robustesse des modèles ; les défis sont nombreux : disponibilités des données, incertitudes, validité des modèles physiques, capacité des modèles off-line expérimentaux à fonctionner en conditions industrielles réelles on-line, etc. Ce sujet s’intéresse essentiellement à ce dernier aspect. En effet, les données industrielles ne disposent bien souvent que de mesures acquises à une fréquence assez lente, sans maîtrise entière du moment exact de l’acquisition, tandis que les données expérimentales produites sur unités pilotes peuvent être obtenues toutes les minutes, avec une bonne précision temporelle.
Sujet :
La ou le stagiaire sera affecté(e) au sein de la direction Expérimentation Procédés et travaillera en étroite collaboration avec la direction Sciences et Technologies du Numérique. La ou le stagiaire devra analyser les données sur un procédé identifié dans la continuité d’un stage de 2021 et devra étudier l’impact de l’échantillonnage sur la fiabilité et la robustesse de modèles d’imputation et de prédiction développés. Le coeur du travail consistera en la mise en place d’un workflow permettant de réduire la fréquence d’acquisition initiale de données pilotes pour l’approcher des mesures industrielles et de mesurer précisément la perte d’efficacité et les incertitudes induites, et à adapter les modèles en conséquence. Il est également attendu de pouvoir donner des préconisations de « bon échantillonnage » en fonction des dépendances temporelles entre les différentes variables mesurées.
Information: http://www.laurent-duval.eu/job-2022-internship-process-engineering-data-science-ifpen-sampling-robustness.html
Profil du candidat :
Ce sujet étant à l’interface de deux domaines, il s’adresse soit à des étudiants M1 ou M2 en sciences du numérique ayant un sens physique développé ou à des étudiants M1 ou M2 en génie des procédés ayant une appétence pour le machine-learning et la programmation.
Formation et compétences requises :
Statistiques, apprentissage, traitement de séries temporelles, génie des procédés
Adresse d’emploi :
France, IFP Energies nouvelles, Lyon (Solaize)
Document attaché : 202202052239_job-2022-internship-ifpen-machine-learning-robustness-process-sampling-english.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IFREMER Brest
Durée : 16 months
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2022-12-26
Contexte :
Marine seismology has made tremendous technological advances in the past decades: data recorded at the seafloor by ocean bottom seismometers (OBSs) are becoming widely available (eg IRIS consortium). An OBS is a multicomponent instrument able to continuously record pressure and earth motion. There are two types of OBSs: short-period instruments for recording high-frequency motions, and long-period instruments for acquiring a wider range of motions (cf. INSU-IPGP national OBS facility). With both instruments, OBSs record a superposition of a broad variety of signals generated by solid earth, ocean wave, biologic, ship sources and noise. These signals can be very different in amplitude, duration and frequency content. They however also overlap in those domains, making them hard to isolate from each other. That is why OBS data cannot yet be fully exploited by the seismological community, as they require more advanced processing and identification techniques.
Sujet :
This postdoctoral position funded by the BRUIT-FM project primarily aims at developing signal processing and machine learning techniques to classify and separate signals recorded by OBSs and to enhance earthquake waveforms and microseismic noise. It devotes to a better exploitation of non-seismological signals for defining a seafloor soundscape. Hence the moniker ”Ocean Bottom Noise Shazam”, from the famous music retrieval/identification application
Information: http://www.laurent-duval.eu/job-2022-postdoc-ocean-shazam-bruit-fm-data-science-signal-processing-marine-seismology.html
Profil du candidat :
PhD with strong interest in spectral analysis, adaptive filtering, machine learning, data science with a taste of physics.
Formation et compétences requises :
Languages: C/C++, Python/Matlab or similar. Seismology is a plus
Adresse d’emploi :
France, IFREMER, Brest
Document attaché : 202202052227_KER_S_2022_SUBJ_PSD-Bruit-FM-Postdoc-Ocean-Bottom-Noise-Shazam.pdf
