CFP – The 23rd IEEE Mobile Data Management – MDM 2022

Date : 2022-06-06 => 2022-06-09
Lieu : Paphos, Cyprus

****************************************************************************
C A L L F O R P A P E R S – R E S E A R C H T R A C K

IEEE MDM 2022 – The 23rd IEEE Intl. Conference on Mobile Data Management

Coral Beach Hotel & Resort, Paphos, Cyprus (hybrid format)

June 6 – 9, 2022

Home

Abstract Deadline: January 14, 2022!
https://cmt3.research.microsoft.com/MDM2022
****************************************************************************

The MDM series of conferences, since its debut in 1999, has established
itself as a prestigious forum for the exchange of innovative and
significant research results in mobile data management. The conference
provides unique opportunities to bring researchers, engineers, and
practitioners together to explore new ideas, techniques, and tools,
and exchange experiences.

Continuing its history, MDM 2022 seeks submissions of original research
contributions in the intersection of mobile computing and data management.

We welcome papers on topics including, but not limited to:
– Mobile Data Analytics
– Machine Learning/AI for Mobile Data
– Location and Trajectory Analytics
– Mobile Cloud Computing and Data Management in the Mobile Cloud
– Mobile Crowd-Sourcing and Crowd-Sensing
– Mobile Location-Based Social Networks
– Mobile Recommendation Systems
– Context-aware Computing for Intelligent Mobile Services
– Behavioral/Activity Sensing and Analytics
– Data Management for Internet of Things (IoT) and Sensor Systems
– Data Management for Augmented Reality Systems
– Data Management for Connected Cars, Intelligent Transportation
Systems, Smart Spaces
– Theoretical Foundations of Data-intensive Mobile Computing
– Data Stream Processing in Mobile/Sensor Network
– Indexing, Optimization and Query Processing for Moving Objects/Users
– Middleware and Tools for Mobile and Pervasive Computing
– Privacy and Security in Mobile Systems
– Routing, Personalized Routing, Eco-Routing, Routing for Electrical Vehicles
– Transportation-As-A-Service, Mobility-As-A-Service
– Innovative Applications driven by Mobile Data

Due to the COVID-19 global pandemic, MDM 2022 will be offered in a hybrid
format with details to be announced at a later stage. This decision will
alleviate the inherent difficulties and travel restrictions incurred
by the pandemic, offering the widest spread of new scientific knowledge
with the lowest risk to participants. The Organizers are committed in
offering the best possible physical and online experience capitalizing
and expanding on the success of earlier organizations.

* Submission Guidelines *
*************************
Please use the following URL link for submissions of Research Track Papers:

https://cmt3.research.microsoft.com/MDM2022

All submissions need to follow IEEE Computer Society Proceedings
Manuscript Formatting Guidelines. See templates here:
https://www.ieee.org/conferences/publishing/templates.html

The following are the page limits:
– Regular papers: 10 pages
– Short papers: 6 pages

Note that a paper exceeding the page limit in the respective category may
be rejected without review. If there are any appendices, they are counted
within the page limit.

Submission of a meaningful abstract by the abstract deadline is a
precondition for paper submission.

* Dates *
*********
Research Track

– Abstract Deadline January 14, 2022
– Submission Deadline January 21, 2022
– Notification of Acceptance March 4, 2022
– Camera-Ready & Author Registration Deadline April 22, 2022
– Early Registration Deadline May 13, 2022

* Publisher *
*************
IEEE CPS: https://www.computer.org/conferences/cps

All accepted papers will be published in the proceedings of the
2022 International Conference on Mobile Data Management and included
in the IEEE Xplore® digital library

* Award *
The conference will confer a Best Paper Award from the submission to
the Research Track of MDM 2022.

************************
* Organizing Committee *
************************

+ General Co-Chairs
Mohamed F. Mokbel (University of Minnesota, USA)
Jianliang Xu (Hong Kong Baptist University, Hong Kong)
Demetris Zeinalipour (University of Cyprus, Cyprus)

+ PC Co-Chairs
Mohamed Sarwat (Arizona State University, USA)
Xing Xie (Microsoft Research Asia, China)
Karine Zeitouni (University of Versailles Saint-Quentin, France)

+ Workshop Co-Chairs
Takahiro Hara (Osaka University, Japan)
Nikos Mamoulis (University of Ioannina, Greece)

+ Advanced Seminars Co-Chairs
Maria Luisa Damiani (University of Milan, Italy)
Sanjay Madria (Missouri University of Science and Technology, USA)
Manos Papagelis (York University, Canada)

+ Demo Co-Chairs
George Fakas (Uppsala University, Sweden)
‪Andreas Konstantinidis (Frederick University of Technology, Cyprus)
Matthias Renz (University of Kiel, Germany)

+ Industry Co-Chairs
Jie Bao (JD.com, China)
Christian Becker (University of Mannheim, Germany)
Lei Chen (Hong Kong University of Science and Technology, Hong Kong)

+ Keynote Co-Chairs
Wang-Chien Lee (Pennsylvania State University, USA)
Dimitrios Gunopulos (National and Kapodistrian University of Athens)
Xiaofang Zhou (Hong Kong University of Science and Technology, Hong Kong)

+ Panel Co-Chairs
Christophe Claramunt (Ecole Navale, France)
Baihua Zheng (Singapore Management University, Singapore)

+ Diversity & Inclusion Co-Chairs
Panos K. Chrysanthis (University of Pittsburgh, USA)
Vana Kalogeraki (Athens University of Economics, Greece)

+ PhD Colloquium Co-Chairs
Hua Lu (Roskilde University, Denmark)
Mohamed Sharaf (United Arab Emirates University, UAE)

+ Test-of-Time Award Committee
Karl Aberer (École polytechnique fédérale de Lausanne, Switzerland)
Christian S. Jensen (Aalborg University, Denmark
Kian-Lee Tan (National University of Singapore, Singapore)

+ Publicity Co-Chairs
Ahmed Eldawy (University of California – Riverside, USA)
Xiao Pan (Shijiazhuang Tiedao University, China)
Dimitris Sacharidis (Université Libre De Bruxelles, Belgium)

+ Sponsorship Chair
Konstantinos Pelechrinis (University of Pittsburgh, USA)

+ Proceedings Chair
Edison Chan (Hong Kong Baptist University, Hong Kong)

+ Online Platform Co-Chairs
Constantinos Costa (University of Pittsburgh, USA)
Paschalis Mpeis (University of Cyprus, Cyprus)

+ Steering Committee Liaison
Panos K. Chrysanthis (University of Pittsburgh, USA)

+ Finance Chair
George Pallis (University of Cyprus, Cyprus)

+ Website Management and Local Arrangements
Petros Stratis (Easyconferences, Cyprus)
Nicolas Kantzilaris (Easyconferences, Cyprus)


Karine Zeitouni, TPC Co-Chair
DAVID Lab., UVSQ, Université Paris Saclay
https://pages.david.uvsq.fr/kzeitouni

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Sécurisation des analyses en ligne d’entrepôts de données partagés – Cryptographie

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : ERIC Lyon
Durée : 5-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2022-02-02

Contexte :
Ce stage se déroulera dans le cadre de l’ANR BI4people ( https://eric.univ-lyon2.fr/bi4people/ ). L’utilisation des technologies de la Business Intelligence (BI) telles que les entrepôts de données et les techniques d’analyses en ligne (OLAP) restent complexes et réservées à des spécialistes. L’objet de cette ANR est de simplifier ces outils afin de les rendre accessible au plus grand nombre (petites entreprises, associations, etc.).

Sujet :
Dans ce contexte, il est important de permettre aux utilisateurs de pouvoir partager leurs données et leurs analyses. Ces aspects collaboratifs induisent des problèmes de confidentialité de données. Plus généralement, on peut considérer des scenarios où la confidentialité des données ou des requêtes doit être garantie. On pourrait également imaginer que des utilisateurs agissent de manière malveillante afin d’altérer les calculs et de compromettre le résultat des requêtes.

Quelques solutions sont proposées dans la littérature [1, 2]. Les plus abouties en termes de sécurité sont basées sur des primitives cryptographiques récentes, appelées FHE (Fully Homomorphic Encryption). Ces solutions n’ont à ce jour qu’un intérêt théorique, puisque les FHE existantes ne sont pas encore suffisamment performantes [3]. Pour obtenir des solutions utilisables en pratique, il est donc nécessaire de dégrader la sécurité ou le type de requêtes prises en charge. Des hypothèses sur les utilisateur·trices peuvent aussi être introduites, comme par exemple la proportion d’utilisateurs malveillants, le fait qu’ils soient coalisés ou non, etc.

L’objectif de ce stage est d’explorer, d’évaluer et de comparer les solutions existantes. Suite à cette analyse de l’état de l’art, il s’agira de proposer des solutions dédiées à la problématique et aux contraintes spécifiques du projet BI4 people.

Profil du candidat :
Bac + 5 en informatique

Formation et compétences requises :
Compétences avancées (niveau M2) en informatique. Notions de cryptographie ou de sécurité informatique fortement souhaitées.

Adresse d’emploi :
Laboratoire ERIC
Université Lyon 2
5 avenue Pierre Mendès France
69676 Bron Cedex

Document attaché : 202111121307_StageBI4people4.pdf

DataPlat 2022, the 1st International Workshop on Data Platform Design, Management, and Optimization

Date : 2022-03-29
Lieu : Edinburgh

Call For Papers for DataPlat 2022, the 1st International Workshop on Data Platform Design, Management, and Optimization, which will be held on March 29, 2022 at Edinburgh, co-located with EDBT/ICDT.

DataPlat focuses on the challenges originating from the paradigm change imposed by big data, which has triggered the evolution of information systems into complex data platforms or data ecosystems supporting data-intensive storage, computation, and analysis of data with heterogeneous structures. Over the last years, several research proposals have been made concerning vertical solutions that address different parts of the data management lifecycle within complex data-intensive ecosystems. DataPlat is aimed at funneling these efforts towards the development of data platforms as data-intensive ecosystems supporting data scientists and architects at a high level, and fosters innovative research solutions that contribute to further advancements in this field. DataPlat covers the topics of metadata modeling, collection, and storage to capture the distinguishing features of the data; the enabling of advanced functionalities spanning from research and data profiling to provenance control, orchestration of data transformation pipelines, incremental data integration, and efficient querying; data integration and querying within heterogeneous storage and computation engines, including multi-model DBMSs, polystores and cloud storage systems; the simplification of data management and fruition by data scientists, including artificial intelligence solutions and AutoML techniques.

The deadline for paper submission is December 12, 2021.

Authors of the best papers will be invited to submit an extended version to a Special Issue with Elsevier’s Future Generation Computer Systems (FGCS) journal (IF: 7.187).

For further information on the workshop, please head to https://big.csr.unibo.it/dataplat2022/


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Integrating and exploring linked educational resources

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Laboratoire des Sciences du Numérique de Nantes (L
Durée : 3 ans
Contact : Patricia.Serrano-Alvarado@univ-nantes.fr
Date limite de publication : 2022-01-10

Contexte :
Context and motivation
Teachers have been digitizing their courses for a while and the ongoing digital transformation was accelerated by the Covid-19 lock-downs. Teachers usually search for open educational resources (OER) on the Web to reuse and combine in a course. There are many available, useful, and pertinent resources (slides, videos, figures, text, code, etc.), but finding them and organizing them in a course plan is challenging. Ideally, the necessary analysis of available resources to match a course plan and the licenses verification should not be time-consuming.

Thanks to semantic web technologies, this work aims to allow teachers to define a sketch of a new course from which a set of relevant and license compatible educational resources will be suggested for her course. The course sketch may contain metadata such as the intended license of the course, learning outcomes, the knowledge required, knowledge attempted, skills expected, an initial course syllabus, expected duration, targeted competencies, etc. Machine-readable semantic annotations will help link and enrich educational resources thanks to well-known ontologies.

Sujet :
Problem statement
A compatibility graph of licenses [1] can allow producers of educational resources to know which license(s) can protect a combination of resources. When licenses of combined resources are incompatible, it is not possible to license the course. In that case, it is necessary to discard resources that are protected by conflicting licenses. However, this may lead to a query with empty results, i.e., the combination of educational resources is not possible without infringing licenses. Thus, given a course sketch and a set of licensed educational resources, how to guarantee to produce a course whose license is compliant with the licenses of the reused resources? The issue is to relax the course sketch goal to propose relevant, alternative, and license compatible educational resources to be combined in a course.

Ontology-based relaxation allows seeking alternative solutions to expand the scope of a query [2,3]. In [4], we propose a license-aware query processing strategy for distributed queries in the Web of Data. Our contribution allows us to detect and prevent license conflicts during distributed query processing. But, in the context of educational resources, several issues arise, for instance, (1) how semantically define a query from a course sketch, (2) how to define a ranking strategy of matching educational resources, and (3) how to guarantee a result set with a minimal number of pertinent educational resources.

Objectives
The objective of this PhD thesis is to propose a query processing strategy to explore a knowledge graph of educational resources. In particular, the following challenges will be leveraged.
– Defining a complex SPARQL query from a course sketch containing join, union, filter, optional operators, etc.
– Defining a ranking strategy that, based on the enrichment of the educational resources, will provide an ordered set of relevant resources for a course sketch.
– Defining a query relaxation strategy that guarantees a minimal number of relevant and license compatible educational resources. Ontology-based relaxation will be used to expand the scope of the query goals.
Contributions will be validated experimentally and published on high-quality international conferences and workshops.

MORE INFORMATION AT https://bit.ly/2ZZq2w0

Profil du candidat :
Master in computer science or equivalent; good programming skills in Java, JavaScript, Web applications, Python; good basis on semantic web technologies (RDF, OWL, SPARQL); good oral and written communication skills in English (French is not required).

Formation et compétences requises :
To apply: send your application to serrano-p@univ-nantes.fr with a detailed curriculum vitae, grade transcripts (with your classement), two references, and your BSc/MSc theses as PDF. Applications will be received until the position is filled.

Adresse d’emploi :
2 Rue de la Houssinière, 44322 Nantes
Faculté des Sciences et des Techniques
Université de Nantes

éveloppement d’une approche d’intégration de données multi-omiques pour expériences multi-groupes

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : INRAE & Pierre Fabre Cosmétique
Durée : 3 ans
Contact : nathalie.vialaneix@inra.fr
Date limite de publication : 2021-12-31

Contexte :
Le développement des approches haut débit en biologie permet maintenant la production massive de données omiques pour des contextes applicatifs variés. Ces données sont fréquemment obtenues sur les mêmes individus à divers niveaux de l’échelle du vivant (transcriptomique, métabolomique, protéomique, lipidomique, métagénomique, …), sous des formats très variées (données de comptage, spectres, images, …) qui ne sont pas toujours directement interprétables d’un point de vue biologique, sont de très grande dimension (de nombreuses caractéristiques sont mesurées simultanément) et ont été obtenues pour un nombre d’échantillons qui reste modeste en comparaison du nombre de mesures effectuées. Il s’agit alors de les mettre en relation entre elles et avec les informations cliniques et le plan d’expérience complexe dans lesquelles elles ont été produites.
Si certaines analyses statistiques, comme l’analyse différentielle des diverses mesures relative à une donnée omique en relation avec des groupes d’individus (contrôles / traités par exemple) est maintenant bien balisée pour la plupart des types d’omiques, les besoins en méthodes d’intégration de données, c’est à dire en méthode capable d’extraire de l’information en combinant les vues provenant de plusieurs omiques, sont en pleine expansion et sont un sujet de recherche actif.
Pierre Fabre Cosmétique est engagé dans de multiples projets dans lesquels ce type de problèmes se pose et où des données omiques multiples ont été acquises. Les questions relatives à la combinaison de données omiques y sont posées soit sous la forme d’une problématique d’association (quels sont les éléments moléculaires – métabolites, bactéries, … – que l’on retrouve en association dans les échantillons entre deux types d’omiques), soit sous la forme de la recherche de biomarqueurs (quels sont les éléments descripteurs d’un état phénotypique mesuré au travers de données cliniques multiples). Elles sont également systématiquement associées à un plan d’expérience dans lequel les échantillons sont structurés en groupes qu’il faut prendre en compte pour répondre à la question biologique ou clinique sous-jacente.

Sujet :
L’objectif de la thèse sera positionné sur le développement méthodologique pour l’intégration de données avec une implémentation et application aux données du projet. De manière plus précise, il s’agira de développee une approche à noyau (et d’un outil associé interactif et intuitif) pour l’intégration d’une paire de données omiques dans un cadre exploratoire et de problématiques d’association. L’approche développée durant cette thèse se veut flexible (adaptable à des types de données très variées), interprétable (capable d’identifier les variables importantes) et capable de prendre en compte le protocole expérimental et les groupes d’échantillons définis a priori pour proposer des interprétations communes et spécifiques de la question initiale au regard de ces groupes. L’approche développée sera déclinée pour l’interprétation biologique dans les divers projets de Pierre Fabre Cosmétique inclus dans la thèse.

Profil du candidat :
Nous recherchons un candidat⋅e avec une solide formation en mathématiques appliquées et des aptitudes à la programmation (R et python). Une expérience préalable ou un goût pour les données issues de la biologie moléculaire serait un plus.

Formation et compétences requises :
Master 2 ou école d’ingénieur en mathématiques appliquées ou sciences des données.

Adresse d’emploi :
Toulouse

RESUMES : peRsonal knowlEdge baSe constrUction froM hEterogeneous Sources

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Télécom SudParis, Laboratoire SAMOVAR, Carian Soft
Durée : 3 ans
Contact : amel.bouzeghoub@telecom-sudparis.eu
Date limite de publication : 2022-01-10

Contexte :
This thesis is a CIFRE and a collaboration between Telecom SudParis and Carian Software Development. The position will start before October 2022.

Sujet :
RESUMES : peRsonal knowlEdge baSe constrUction froM hEterogeneous Sources

The Web is composed of many documents of different nature, such as texts, images, or videos. These documents contain information about a wide range of topics that are noisy, unstructured, and ambiguous. Therefore, exploiting this variety is a huge challenge. When it comes to information about humans, one could use specialized websites such as social media, forums, blogs, or personal websites. However, it raises many problems. For example: How can we, from a single source, extract knowledge about a person? How can we know that two accounts on two different websites represent a single person? How does a person communicate with others?

This kind of information can be valuable in many applications, and in particular for CV enrichment. Given a candidate’s resume, we would like to complement it with external sources such as Linkedin, Reddit, or GitHub. These additional clues can help a recruiter to make the appropriate decisions.

This thesis aims to construct a Personal Knowledge Base (PKB) from information gathered online to complement a resume. A personal knowledge base is a collection of structured statements about a person that can be queried and on which one can reason.

For example, let’s say we have a candidate called John. He has a GitHub page that we managed to link to his resume. We extracted statements such as “John, knows, Java” and “John, contributes to, Open Source projects” from his profile. These statements are now part of his PKB. Now, we find a StackOverflow account for the same username. This account answered many questions about Java. We might suppose that the two accounts belong to the same person, and therefore we can complete John’s PKB. Suppose we know that this John is a potential candidate for a company working on open source projects written in Java. In that case, we can boost his resume and present additional information to help the recruiter.

Profil du candidat :
See below.

Formation et compétences requises :
For this thesis, we will consider candidates with a master or engineer diploma with knowledge about several of the following skills:
* Fluent written and spoken English. Some knowledge of French can be useful.
* Machine/Deep Learning
* Natural Language Processing
* Very good level in a programming language like Python and experience in software development
* Information extraction
* Knowledge bases/Ontologies
* Logic and automated reasoning
* Semantic Web and Web crawling
* Experience in a research laboratory

Adresse d’emploi :
Telecom SudParis, 9 Rue Charles Fourier, 91000 Evry-Courcouronnes FRANCE
and
Telecom SudParis, 19 place Marguerite Perey, 91120 Palaiseau, France

Document attaché : 202111041617_SujetTheseCIFRE.pdf

Analyse de données multimodales pour la détection précoce de la maladie d’Alzheimer

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : Institut Fresnel
Durée : 4-6 mois
Contact : remi.ANDRE@univ-amu.fr
Date limite de publication : 2022-01-01

Contexte :
La maladie d’Alzheimer est la maladie neurodégénérative la plus fréquente chez les personnes âgées. On estime qu’au moins 30 millions de personnes sont touchées par cette pathologie. Bien qu’il n’existe aucun traitement efficace à ce jour, on peut espérer retarder le début de la maladie et/ou atténuer les risques de la contracter en détectant suffisamment tôt des Déficiences Cognitives Légères (DCL). Plusieurs modalités d’imagerie médicale telles que l’Imagerie par Résonnance Magnétique (IRM), l’IRM fonctionnelle ou encore la Tomographie par Emission de Positron (TEP) permettent d’identifier de manière précoce des changements se produisant dans le cerveau. Les techniques d’aide au diagnostic clinique basées sur des approches d’apprentissage automatique sont aujourd’hui en plein essor. Un grand nombre de méthodes ont été développées particulièrement pour la détection de la maladie d’Alzheimer.

Sujet :
L’objectif de ce stage est de tirer simultanément avantage de plusieurs modalités d’imagerie médicale pour la détection précoce de la maladie d’Alzheimer. Le candidat retenu aura pour première tâche d’explorer différentes manières de fusionner l’information des différentes modalités dans un tableau multidimensionnel appelé tenseur. Les tenseurs peuvent être vu comme une généralisation des matrices. Les méthodes issues de l’algèbre multilinéaire sont alors des outils intéressants pour l’extraction de caractéristiques pertinentes. Le stagiaire devra comparer différentes méthodes tensorielles d’extraction de caractéristiques et déterminer lesquelles sont les plus pertinentes pour la détection de la maladie d’Alzheimer.

Profil du candidat :
Ce stage s’adresse aux étudiants en dernière école d’ingénieurs ou de Master en sciences de l’information ou de traitement du signal.

Formation et compétences requises :
Le candidat sélectionné devra avoir un goût prononcé pour l’apprentissage automatique et le traitement du signal et des images ainsi que pour les aspects mathématiques sous-jacents. De solides compétences en programmation et la maitrise des langages python et/ou matlab sont nécessaires à la réalisation du stage. Une sensibilité aux applications biomédicales sera appréciée.

Adresse d’emploi :
Institut Fresnel, Domaine Universitaire de Saint Jérôme, 13397 Marseille

Document attaché : 202111031051_Sujet_stage_Fresnel.pdf

Analyse de données textuelles sur la sécurité alimentaire en Afrique de l’Ouest

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2022-01-01

Contexte :

Le stage s’inscrit dans le cadre d’un projet pluridisciplinaire concernant la gestion des risques liés à la sécurité alimentaire en Afrique de l’Ouest, considérée comme l’un des enjeux majeurs de développement de la région. Parmi les raisons à l’origine de ce phénomène, nous pouvons citer une forte croissance démographique, une agriculture pluviale très dépendante des conditions pluviométriques, auxquels s’ajoutent des risques sécuritaires et sanitaires. Depuis les grandes sécheresses du début des années 70, plusieurs systèmes d’alerte précoce (SAP) de la sécurité alimentaire ont été développés sur la région pour permettre aux décideurs d’anticiper les crises, et d’aider à la planification des mesures d’urgence en ciblant les populations et/ou les zones à risques. Dans ces systèmes, l’information satellitaire est utilisée majoritairement pour dériver des anomalies d’indices de végétation à partir de séries temporelles d’images à basse résolution spatiale. Les organisations internationales en charge des différents systèmes de suivi et d’alerte, se réunissent mensuellement pour atteindre un consensus sur les conditions de la campagne agricole. Si les classifications sur l’état des cultures sont souvent cohérentes, il arrive que ces informations divergent ou soient en contradiction avec les observations de terrain (Becker-Reshef et al., 2020)1. Ces désaccords peuvent venir des différences en termes de couverture géographique, d’unités spatiales cartographiées, de mandat des organisations en charge des SAPs, et des méthodes mises en œuvre. Dans ce contexte, les données textuelles (par exemple, articles de journaux) représentent une source d’information inexploitée, qui peut être utilisée pour renforcer les SAPs et résoudre les situations de désaccord.

Sujet :
L’objectif de ce stage est d’utiliser et combiner des techniques avancées de fouille de texte et de traitement automatique du langage naturel (TALN) à un corpus de données textuelles sur le thème de la sécurité alimentaire en Afrique de l’Ouest, afin d’apporter des informations complémentaires permettant de lever des incohérences observées et d’établir un diagnostic sur l’état de la végétation. Plus précisément, étant donné un cas d’étude spécifique (par exemple, pays et/ou épisode de désaccord), dans une première étape, des méthodes de l’état de l’art de Topic Modeling seront utilisées pour obtenir des sous-ensembles de données thématiquement homogènes. Le stage sera focalisé sur des documents textuels en Français, ce qui représente un autre défi scientifique vu la mineur quantité de ressources dans l’état de l’art par rapport à l’Anglais.
Une fois ces clusters obtenus pour chaque cas d’étude, différentes approches pourront être testées pour la phase de recherche de consensus :
• Approches fondées sur des techniques de Sentiment Analysis et Opinion Mining afin de comparer les polarités d’opinion (positif, négatif, neutre) ;
• Approches supervisées fondées sur des techniques de Machine Learning. Dans ce cas, l’idée est d’exploiter des données labélisés pour entraîner un classificateur de textes, afin de reconnaître une situation favorable ou défavorable à l’état des cultures. Le classifieur sera ensuite utilisé pour classifier les sous-ensembles de documents textuels associé aux épisodes de désaccord.

Des modelés de langages pour la langue Française basés sur la technologie des Transformers (p.ex., CamemBERT, FlauBERT) pourront aussi être utilisés pour supporter les deux taches. Ces méthodes devront être combinées pour apporter des connaissances nouvelles. Dans ce travail, les différentes propositions devront intégrées les dimensions spatio-temporelles associées aux données textuelles qui devront être prises en compte dans les analyses réalisées. Ces dernières seront effectuées à partir de cas d’étude déterminés permettant d’évaluer les différentes propositions. Ainsi, le ou la stagiaire contribuera à la constitution d’un corpus de données textuelles sur la sécurité alimentaire en Afrique de l’Ouest liés aux cas d’étude. Enfin, le travail sera valorisé à travers l’écriture d’un article scientifique qui présentera les contributions méthodologiques et les résultats obtenus.

Divers :

Durée : 6 mois
Gratification : taux légal en vigueur
Localisations : TETIS (Maison de la Télédétection) à Montpellier

Candidature :

Envoyer un CV + relevés de notes des deux dernières années à roberto.interdonato@cirad.fr et
mathieu.roche@cirad.fr

Profil du candidat :
Etudiant M2

Formation et compétences requises :
Langage Python, outils NLP
Capacité de travail en équipe pluridisciplinaire.

Adresse d’emploi :
TETIS (Maison de la Télédétection), 500 Rue Jean François Breton, Montpellier

Document attaché : 202111030914_Sujet de stage_FRESA_2022_final.pdf

Analyse de séries temporelles d’images satellitaires pour prédiction indices de sécurité alimentaire

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2021-12-31

Contexte :
Ce projet s’inscrit dans la thématique générale de la sécurité alimentaire en Afrique de l’Ouest considérée comme l’un des enjeux majeurs de développement de la région.
Aujourd’hui, de plus en plus de données issues de missions satellitaires sont disponibles. La possibilité d’acquérir plusieurs images satellitaires sur la même zone pendant le temps nous permet de générer des séries temporelles d’image satellitaires grâce auxquelles un suivi de la dynamique du développement des cultures sur une ou plusieurs années est aujourd’hui possible. Par exemple, la mission spatiale Sentinel, à travers les satellites Sentinel-1(a/b) et Sentinel-2(a/b), permet de produire des séries d’image satellitaire radar et optique à très haute résolution temporelle (chaque 5 jours) avec une résolution spatiale à 10 mètres. D’autres séries temporelles comme la température de brillance, les précipitations et les prix des céréales sont disponibles.
Des indicateurs dérivés d’enquêtes ménagères permettent aujourd’hui de mesurer la sécurité alimentaire, mais ils sont particulièrement difficiles à mettre en place dans les zones de conflit où les enquêtes ne peuvent se dérouler normalement.
Le développement de méthodes permettant de tirer parti de ces différentes sources d’information hétérogènes et d‘ordre temporelles reste encore un défi ouvert.

Sujet :
L’objectif de ce stage est de mettre en place et de réaliser un benchmark des méthodes permettant de traiter les informations temporelles multi sources afin d’estimer les indicateurs de sécurité alimentaire. Un focus sera mis sur des méthodes de machine/deep learning permettant d’estimer ces indicateurs de sécurité alimentaire dans les zones à risques et donc uniquement avec les données accessibles dans ces zones. Des méthodes de réseaux de neurones comme RNN, LSTM seront premièrement étudiées dans ce travail.

Profil du candidat :
Durée de 6 mois, à partir de février 2022

• Rigueur scientifique
• Curiosité et ouverture d’esprit
• Capacité d’analyse rédactionnelle et de synthèse

Formation et compétences requises :
• Connaissance/goût pour la programmation (une expérience en Python est requise)
• Intérêt pour l’agronomie/ science environnementale

Adresse d’emploi :
Le stage se déroulera au CIRAD, dans l’UMR TETIS (Territoire, Environnement, Télédétection et Information Spatiale), située dans les locaux de la Maison de la Télédétection à Montpellier, 500 Rue Jean François Breton.

Document attaché : 202111020841_Stage-M2.pdf

Stage Master 2 : Analyse de performance d’un réseau de neurones profond compressé

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire I3S (Sophia Antipolis, France)
Durée : 4 à 5 mois
Contact : cabral@i3s.unice.fr
Date limite de publication : 2022-01-15

Contexte :
Les réseaux de neurones profonds sont devenus un élément incontournable de l’état de l’art pour diverses problématiques d’inférence complexe en traitement de données telles que la détection, la classification et la segmentation d’objets dans les images et vidéos. La complexité croissante de ces réseaux rend difficile leur implantation sur un système embarqué dans un contexte temps-réel. Par conséquent, la réduction de leur complexité en termes d’empreinte mémoire et de complexité de calcul est actuellement un sujet d’intense investigation de plusieurs équipes de recherche.

Pour réduire leur empreinte mémoire, les paramètres d’un réseau profond doivent être compressés. Différentes techniques, telles que l’élagage des poids du réseau [1], la quantification [2] ou une combinaison des deux [3], ont été appliquées. Avec la méthode proposée en [3], il a été montré de manière expérimentale qu’une forte réduction de l’empreinte mémoire peut être obtenue avec une très faible perte des performances d’inférence.

Des membres de l’équipe Signal, Images et Systèmes (SIS) du Laboratoire I3S s’intéressent à la compréhension théorique des effets de la compression sur les performances d’inférence d’un réseau profond, notamment, à donner une prédiction de la perte de performance en fonction du taux de compression des paramètres. Dans un cadre de classification binaire et en se focalisant sur la compression par la quantification des paramètres de la dernière couche du réseau, un travail récent de l’équipe [4] donne une approximation de la perte de justesse de classification introduite par la compression. Cette approximation est donnée en fonction des paramètres de la couche, des caractéristiques du problème de classification sous-jacent et du nombre de bits de quantification utilisé pour la compression.

Sujet :
L’approximation obtenue en [4] n’est valable que sous certaines hypothèses de travail, notamment sur les distributions des entrées de la dernière couche du réseau et sur la distribution des erreurs de quantification des paramètres. Le but premier de ce stage est de réaliser un certain nombre d’expériences pour vérifier ces hypothèses dans un cadre pratique, i.e. lorsque le réseau étudié est un réseau profond utilisé en pratique (ex. : ResNet [5]) et lorsque les données du problème de classification sont réelles (ex. : données CIFAR [6] ou ImageNet [7]). Ces expériences seront réalisées en langage python et nécessiteront l’utilisation de librairies dédiées à l’apprentissage profond (pytorch [8] ou tensorflow [9]).

Selon l’avancement du stagiaire, différentes pistes théoriques pourraient être explorées : adaptation des hypothèses de travail dans le cas où elles ne sont pas exactement vérifiées en pratique, extension de l’étude [4] à la compression de plusieurs couches du réseau, ou encore, extension de [4] à la classification multi-classes.

Références :
[1] S. Anwar, K. Hwang et W. Sung, “Structured pruning of deep convolutional neural networks,” JETC, vol. 13,no. 3, pp. 32:1-32:18, 2017.
[2] B. Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. G.Howard, H. Adam et D. Kalenichenko, “Quantization and training of neural networks for efficient integer-arithmetic-only inference,” IEEE CVPR, pp. 2704-2713, 2018.
[3] S. Han, H. Mao et W. J. Dally, “Deep compression: Compressing deep neural network with pruning, trained quantization and Huffman coding,” 4th ICLR, Y. Bengio and Y. LeCun, Eds., 2016.
[4] D. Resmerita, R. Cabral Farias, B. D. de Dinechin et L. Fillatre, “Distortion Approximation of a Compressed Softmax Layer,” IEEE SSP, pp. 491-495, 2021.
[5] K. He, X. Zhang, S. Ren et J. Sun, “Deep residual learning for image recognition,” IEEE CVPR, pp. 770-778, 2016.
[6] A. Krizhevsky et G. Hinton, “Learning multiple layers of features from tiny images,” 2009. https://www.cs.toronto.edu/~kriz/cifar.html
[7] J. Deng, W. Dong, R. Socher, L. J. Li, K. Li et L. Fei-Fei, “Imagenet: A large-scale hierarchical image database,” IEEE CVPR, pp. 248-255, 2009.
[8] https://pytorch.org/
[9] https://www.tensorflow.org

Profil du candidat :
Étudiant de Master 2 ou fin de cycle ingénieur avec une des spécialisations suivantes :
– Traitement statistique du signal
– Statistiques
– Science des données

Formation et compétences requises :
– Formation en traitement statistique du signal ou en statistiques.
– Maîtrise du langage python.
– Connaissance des réseaux de neurones profonds et des librairies python dédiées (pytorch et/ou tensorflow).
– Écriture de rapports scientifiques avec LaTex.

Adresse d’emploi :
Laboratoire d’Informatique, Signaux et Systèmes de Sophia-Antipolis (I3S) – UMR7271 – UNS CNRS
2000, route des Lucioles – Les Algorithmes – bât. Euclide B 06900 Sophia Antipolis – France

Document attaché : 202111011758_compression_reseaux_neurones_vf.pdf