apprentissage automatique pour la prévision météorologique

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR SPE
Durée : 5 à 6 mois
Contact : paoli_c@univ-corse.fr
Date limite de publication : 2023-01-30

Contexte :
Ce stage s’inscrit dans le cadre du projet ANR SAPHiR1 (“Sensor Augmented weather Prediction at HIgh Resolution”) coordonné par le laboratoire Sciences Pour l’Environnement (SPE) UMR CNRS 6134. Ce programme scientifique consiste à proposer de nouvelles méthodes de prévision d’événements météorologiques rares et extrêmes à haute résolution spatiale et temporelle. Dans ce contexte, deux missions complémentaires sont envisagées, la première orientée analyse de données et Machine Learning (ML), la seconde orientée ingénierie logicielle.

Sujet :
Missions : deux missions complémentaires sont envisagées
1. ML : le stagiaire aura pour mission de développer des codes informatiques permettant de prédire des séries temporelles environnementales, basés sur des techniques et architectures de Deep Learning. Le stagiaire participera également à l’analyse et la gestion des données hétérogènes nécessaire au projet : données météorologiques historiques, données issues de capteurs, données Lidar SAETTA2, images satellites, etc.
2. Ingénierie logicielle : le stagiaire aura pour mission de réaliser une application Web/mobile (multi-plateformes type Flutter) pour la visualisation grand-public des données et résultats de simulation. Le stagiaire participera à la réflexion de l’architecture du SI de SAPHIR : déploiement continu, structuration des codes, etc.

Profil du candidat :
Profil recherché : Bac+5 Informatique – Mathématiques

Modalité de candidature : envoyer un mail à paoli_c@univ-corse.fr en joignant un CV, une lettre de motivation et vos relevés de notes postbac. Un classement en année n-1 serait un plus nous permettant de bien compléter le dossier.

Formation et compétences requises :
Compétences requises : Développement Web/Mobile – Analyse de données – Machine Learning – Python – Gestionnaire de versions – autonomie – intérêt pour la recherche et le travail en équipe.

Adresse d’emploi :
UMR SPE 6134 – Université de Corse – Travail possible en télétravail occasionnel

Document attaché : 202212130946_2022-12-09-cpaoli-offreStageM2-Saphir.pdf

Postdoc position in Machine/Deep Learning/Computer Vision

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CReSTIC lab, University of Reims Champagne-Ardenne
Durée : 18 months, extendabl
Contact : valeriu.vrabie@univ-reims.fr
Date limite de publication : 2023-01-30

Contexte :
Within the framework of a collaboration between the Comité de Champagne, Segula Technologies company, and the University of Reims, we are looking to optimize the detection of the presence of vine diseases by developing and integrating imaging and machine learning concepts. This project includes several axes in which 2 PhD students participate and several master internships together with 3 (associate) professors. In this context we are recruiting a PostDoc for 18 months, extendable to 36 months, to complete the team.

Sujet :
The flavescence dorée, a serious and epidemic disease, is one of the two grapevines yellow diseases that might cause a rapid decay in Champagne and other wine regions, being considered as the new phylloxera of the vineyard. To date, the detection approach of the yellows is to collectively explore the vineyard on foot every year to identify affected vines and to perform biomolecular tests by approved laboratories. As the survey is not precise nor optimal enough for a large-scale monitoring, the development and integration of detection solutions based on imagery appear necessary.
We conducted several acquisition campaigns between 2019 and 2022 under controlled and in situ conditions. New CNN-based hierarchical architectures developed by our lab have proven to be efficient on separate data sets composed of multispectral images. But the generalization capabilities of these models are not sufficient to compensate for the variability induced by endogenous and exogenous factors. The objective is to propose new detection strategies for grapevine yellows that are more robust to this variability. Several tracks could be explored, including, but not limited to:
• Fusion of multispectral images through vegetation indices to be defined and used within adapted Deep Learning architectures
• Fusion of features extracted with heterogeneous Deep Learning models from multispectral images
• Identification of an optimal subset of multispectral images and development of reinforcement or continuous learning approaches
It might also be interesting to design semi-supervised approaches to take advantage of the possibility of acquiring many unlabeled images during new acquisition campaigns to which the Postdoc will be associated.

Profil du candidat :
• Self-motivated scientist seeking to pursue a scientific career, holding a Ph.D. or in the process of completing it, in a relevant field of machine/deep learning or other relevant fields

Formation et compétences requises :
• Excellent knowledge and skills in AI learning, machine learning and data science with hand-on skill and experience
• Excellent experience, knowledge, and skills in programming languages, especially Python (environment Tensorflow, Pytorch, Keras, Pandas, Scikit-learn, etc.)
• Deep understand of digital image processing; prior experience in working with image analysis projects (industrial or academic) will be a plus
• Independent and passionate about data science projects, however good team player, able to undertake research projects together with other team members
• Excellent scientific/technical writing skills and communication capability; ability to present research achievements at internal/external seminars, conferences and journals

Adresse d’emploi :
The PostDoc will be based at the CReSTIC lab of the University of Reims Champagne-Ardenne on the Moulin de la Housse campus in Reims. Within the framework of the project, he/she may be required to intervene to the project partners, the Comité de Champagne in Epernay or Segula Technologies in Reims downtown.

Faculty position (Tenure track professor) at Telecom Paris in Numerical optimization for frugal artificial intelligence

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Télécom Paris, LTCI
Durée : 3 ans
Contact : olivier.fercoq@telecom-paris.fr
Date limite de publication : 2022-03-15

Contexte :
Telecom Paris’s [1] machine learning, statistics and signal processing group (a.k.a S²A group) [2], within the laboratoire de traitement et communication de l’information (LTCI) [4], is inviting applications for a tenure track faculty position at the *Associate Professor* level (Maitre de Conferences) in *Numerical optimization for frugal artificial intelligence*.

Scientific context

Recent advances in computing and widespread access to massive digital information are leading to an unprecedented deployment of optimization algorithms in many domains (e.g. healthmedicine, (cyber-) security, intelligent transport, predictive maintenance, etc.). Most of the algorithmic approaches developed over the last decade have mainly aimed to solve scaling issues, so as to be able to exploit Big Data in an exhaustive way. The objective of the future researcher will be to develop numerical optimization in the service of the mathematics of frugal artificial intelligence. This can be attained by sparse models or online algorithms but also by studying the interplay between artificial intelligence models and the optimization algorithms used to solve them. Moreover, the optimization of neural networks is a central problem for the community and requires to set up various ways of reducing the computation time or memory footprint.

Sujet :
Main missions

The recruit will be expected to:

Research activities
•    Develop groundbreaking research in the field of numerical optimization and frugal artificial intelligence. This includes the design of numerical optimization algorithms, stochastic optimization and artificial intelligence models that are efficiently using data or computing resources. Other expertise of interest include Monte Carlo methods, optimal transport, sequential learning, active learning, sketching methods, non-differentiable functions and statistical learning theory.
•    Develop both academic and industrial collaborations on the same topic, including collaborative activities with other Telecom Paris research departments and teams, and research contracts with industrial players
•    Set up research grants and take part in national and international collaborative research projects
   
Teaching activities
•    Participate in teaching activities at Telecom Paris and its partner academic institutions (as part of joint Master programs), especially in machine learning and Data science, including life-long training programs (e.g. the local Data Scientist certificate)

Impact
•    Publish high quality research work in leading journals and conferences
•    Be an active member of the research community (serving in scientific committees and boards, organizing seminars, workshops, special sessions…)

Profil du candidat :
As a minimum requirement, the successful candidate will have:

•    A PhD degree
•    A track record of research and publication in one or more of the following areas: numerical optimization, stochastic optimization, frugal artificial intelligence
•    Experience in teaching
•    Good command of English

The ideal candidate will also (optionally) have:
•    Experience in Monte Carlo methods, optimal transport, sequential learning, active learning, sketching methods, non-differentiable functions and statistical learning theory.

NOTE:
The candidate does *not* need to speak French to apply, just to be willing to learn the language (teaching will be mostly given in English)
   
Other skills expected include:
•    Capacity to work in a team and develop good relationships with colleagues and peers
•    Good writing and pedagogical skills

Formation et compétences requises :
PhD degree

Adresse d’emploi :
Télécom Paris
19 place Marguerite Perey
91123 Palaiseau
France

Document attaché : 202212091436_tenure_track_telecom_paris_optimization_frugal_AI.pdf

Offre de stage M2 BRGM/Univ.Orléans : Fusion Textes/images sur des tweets de gestion de crise

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : BRGM, LIFO, PRISME
Durée : 5 mois
Contact : guillaume.cleuziou@univ-orleans.fr
Date limite de publication : 2023-01-10

Contexte :
Aujourd’hui, 2/3 des communes françaises sont considérées comme exposées à des catastrophes naturelles (inondations, séismes, etc.). Il est établi que cette situation s’accentuera dans les prochaines décennies, si bien que l’analyse des témoignages diffusés de manière agile et spontanée sur les réseaux sociaux (tels que Twitter) constituera un formidable outil pour qualifier rapidement et automatiquement l’ampleur des catastrophes et ainsi contribuer aux stratégies de gestion de crise.

Des travaux récents menés dans ce domaine exploitent les techniques d’apprentissage de représentations vectorielles dans des espaces sémantiques pour mener une analyse centrée soit sur le contenu textuel des posts, soit sur les images et/ou les vidéos associées. Bien que ces deux niveaux d’analyse soient complémentaires, l’analyse conjointe des images et du texte qui leur est associé reste difficile à mettre en oeuvre dans le contexte de la gestion de crise.

Sujet :
Certaines techniques multimodales exploitant notamment les captions des images au moyen de Transformers (BERT) ont montré des performances prometteuses sur des tâches de classification sur le corpus de tweets en langue anglaise CrisisMMD.

L’objectif du stage est d’adapter ces techniques multimodales au traitement des tweets en langue française. Cette adaptation offrira différents choix dans la chaîne de traitement, dont – en particulier – la possibilité de travailler dans des espaces de représentation mono- ou multilingues. Il s’agira alors de (1) proposer plusieurs architectures d’implémentation et (2) de les évaluer sur (3) un jeu de données préparé pour l’occasion à partir de sources existantes au BRGM.

L’objectif du stage est d’adapter ces techniques multimodales au traitement des tweets en langue française. Cette adaptation offrira différents choix dans la chaîne de traitement, dont – en particulier – la possibilité de travailler dans des espaces de représentation mono- ou multilingues. Il s’agira alors de (1) proposer plusieurs architectures d’implémentation et (2) de les évaluer sur (3) un jeu de données préparé pour l’occasion à partir de sources existantes au BRGM.

Profil du candidat :
Vous disposez d’une culture scientifique en Machine Learning et d’une expérience dans la mise en oeuvre de modèles de Deep Learning (ex. Transformers). Vous manifestez un intérêt pour l’analyse de données textes et/ou images.

Formation et compétences requises :
Vous êtes étudiant·e en master et/ou école d’ingénieur en Mathématiques/Informatique.

Adresse d’emploi :
Merci d’adresser votre candidature (CV + notes + lettre de motivation) avant le 10/01/2023 à badreddine.farah@univ-orleans.fr et guillaume.cleuziou@univ-orleans.fr.

Document attaché : 202212090739_Annonce_StageM2_2023_CrisisMMDeepL_Orleans.pdf

Exploitation de données spatio-temporelles multimodales pour l’études de trajectoires d’activités nautiques de loisirs

Offre en lien avec l’Action/le Réseau : RoCED/– — –

Laboratoire/Entreprise : Exploitation de données spatio-temporelles multimo
Durée : 6 mois
Contact : alain.bouju@univ-lr.fr
Date limite de publication : 2022-12-16

Contexte :
Ce travail s’inscrit dans le programme PLAIZPARC (Plaisance et zostère dans le Parc naturel marin de l’estuaire de la Gironde et de la mer des Pertuis) porté par le Parc naturel marin de l’estuaire de la Gironde et de la mer des Pertuis (PNMEGMP) qui vise à réduire la pression des mouillages des navires de plaisance sur les herbiers de zostère dans le Parc.

Dans ce projet, l’action 2.2 vise à obtenir une meilleure connaissance des dynamiques spatio-temporelles des pratiques de plaisance. Pour cela, le projet « Développement d’un système automatisé d’évaluation des fréquentations de plaisance à partir de données multimodales (2021-2023) » a été lancé en novembre 2021 et regroupe le PNM EGMP, La Rochelle Université (LRU) et la société IKOMIA. Il

Il vise à mettre au point de nouvelles solutions basée sur les technologies de machine learning et de fouille de données, pour l’évaluation des fréquentations des ports et des zones de mouillage à partir de données multimodales issues d’images vidéo et de données de suivi des embarcations de plaisance.

Ce projet est organisé en quatre volets :
• Volet A : Le portage du système de comptage vers Ikomia Studio ;
• Volet B : le développement d’un système de comptage spécifique aux zones de mouillages ;
• Volet C : Le traitement des données multimodales recueillies par croisements ;
• Volet D : L’amélioration des algorithmes de détection d’embarcations.

Ce stage s’inscrit dans le volet C de ce projet.

Sujet :
Objectif du stage proposé :

– Etat de l’art sur la thématique des croisements de données multimodales pour la spatialisation des activités (Méthodologie et sources fournies)
– Intégration données multimodales de comptages (issue des traitements IA, AIS, GPS, données d’enquêtes, etc. (Outils d’analyse et agrégation, base de données)
– Création outils informatiques intégrables à QGIS permettant de produire des analyses spatiales et cartographiques (Python)

Profil du candidat :
Les mots clefs du profil sont :
Fouille de données, Machine Learning, Ontologie, Acquisition, agrégation, traitement et analyse de données, géospatiale,

Les technologies :
Python, Base de données géospatiale (PostgreSQL,/PostGIS), QGIS, RDF,

Formation et compétences requises :
Formation en Master 2 Informatique en cours (Stage de fin d’étude)

Adresse d’emploi :
Laboratoire Informatique, Images et Interaction (L3i)-La Rochelle Université, Faculté des Sciences et Technologies, Bâtiment Pascal – Avenue Michel Crépeau, 17042 La Rochelle Cedex 1.

Document attaché : 202212081530_Offre de stage de master 2_informatique_AB2023.pdf

Stage de M2 Informatique – projet JOKER: Détection et interprétation des Jeux de Mot avec des méthodes d’Apprentissage Profond

Offre en lien avec l’Action/le Réseau : SimpleText/– — –

Laboratoire/Entreprise : Centre Européen de Réalité Virtuelle (ENIB) / HCTI
Durée : 5-6 mois
Contact : liana.ermakova@univ-brest.fr
Date limite de publication : 2023-02-01

Contexte :
Ce stage participe au projet JOKER qui vise à faire progresser l’automatisation de la traduction des jeux de mots en fournissant un corpus parallèle (c’est à dire multilingue) approprié [1].
Alors que la traduction moderne est fortement aidée par des outils technologiques, pratiquement aucun n’a de support spécifique pour les jeux de mots. En effet, la plupart des outils de traduction basés sur l’IA nécessitent une qualité et une quantité de données d’entraînement (par exemple, des corpus parallèles) qui ont toujours fait défaut pour les jeux de mots. L’objectif du projet JOKER est de construire automatiquement un corpus parallèle de jeux de mots en entraînant un classificateur basé sur l’IA à détecter automatiquement les instances de jeux de mots et à les aligner avec leurs traductions.

Références
[1] L. Ermakova et al., « Overview of JOKER@CLEF 2022: Automatic Wordplay and Humour Translation Workshop », in Experimental IR Meets Multilinguality, Multimodality, and Interaction, Cham, 2022, p. 447‑469.
Version ouverte: https://ceur-ws.org/Vol-3180/

Sujet :
Objectifs du stage (liste indicative):

– Détection des jeux de mots: Une première étape de détection sera de traiter les données de sources électroniques (pdf, html etc) variées sélectionnées pour vous (romans, essais, etc.) pour augmenter les corpus disponibles, avec des méthodes d’intelligence artificielle.
– Alignement des traductions avec les algorithmes traditionnels ou avec les modèles neuronaux
Interprétation des jeux de mots en français et en anglais
– Augmentation des corpus monolingues

Environnement technique (liste indicative):

– Python, Pandas, NLTK, expressions régulières
– bibliothèques pour traiter différents formats de fichiers (pdf, epub,…)
– De grands modèles pré-entraînés:
Google mT5 (https://github.com/google-research/multilingual-t5)
BLOOM (https://huggingface.co/bigscience/bloom)

Profil du candidat :
– M1 informatique ou équivalent;
– intérêt pour les projets de recherche;
– la maîtrise de la langue française et anglaise est souhaitable;
– les connaissances de Python, Pandas, expressions régulières sont souhaitables;
– le sens de l’humour est souhaitable.

Formation et compétences requises :
– M1 informatique ou équivalent;
– la maîtrise de la langue française et anglaise est souhaitable;
– les connaissances de Python, Pandas, expressions régulières sont souhaitables.

Adresse d’emploi :
Centre Européen de Réalité Virtuelle (ENIB), 25 rue Claude Chappe, Plouzané, France

Document attaché : 202212081524_Stage JOKER 2023 (1).pdf

Interhsip – deep super-resolution for sequences of satellite images

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : Cnam/UBS
Durée : 6 months
Contact : nicolas.audebert@cnam.fr
Date limite de publication : 2023-02-01

Contexte :
Location : Cnam, Paris or UBS, Vannes (France)
Salary : ≈ 600€/month
Contract : Internship (4 to 6 months)
Starting date : Flexible in 2023

Research topic

Earth Observation through satellite imagery is a major tool for geoscience. However, there is a dilemma on whether to deploy systems that acquire many images at high frequency but with a low spatial resolution or systems with high spatial resolution but few revisits. The Sentinel-2 constellation, operated by the European Space Agency (ESA), leans towards high frequency for better temporal monitoring of dynamic phenomena. Yet, its 10m/px resolution is often not enough in urban applications since buildings, roads, and sparse vegetation are barely visible in the images. Conversely, commercial satellites, such as SPOT-6/7, often embark very high-resolution sensors. For example, the French mapping agency (IGN) distributes a yearly high-resolution cloud-free mosaic of the entire French metropolitan area. These panchromatic SPOT-6/7 images at a 1.5m/px resolution are helpful for precise land cover and land use mapping but are produced only once a year.

This research work aims to bridge the gap between those two data sources by investigating super-resolution. Super-resolution is an image processing technique aiming to increase the resolution of an image. It does not use a reference high-resolution image, but instead relies on prior knowledge regarding the structure of the data. Using deep learning for super-resolution has been frequently investigated in the last years [1], starting with Convolutional Neural Networks(CNN) [3], then later using Generative Adversarial Networks (GAN) [5, 8]. Nowadays, diffusion models [9, 6], already state-of-the-art generative models for image synthesis, have established themselves as strong candidates for the next generation of super-resolution algorithms.

Some works have transposed those deep architectures to remote sensing [4, 10], with two main shortcomings. First, most focus on single-image resolution, i.e., transforming a single image into a more detailed one. But low-resolution remote sensing data draws its strength from the temporal information contained in the satellite image time series (SITS). Second, super-resolution systems are mostly trained on artificial pairs of (low resolution, high resolution) images where the LR image is a downsampled version of the HR reference. This means that training sets and benchmarks are mostly synthetic and do not actually inform us of the performance of super-resolution systems on actual data. To overcome these issues, new benchmark datasets have been proposed such as Sen2Venus [7] and WorldStrat [2]. The latter includes pairs of a sequence of low-resolution Sentinel-2 images and a high-resolution Spot-6/7 image acquired worldwide. This dataset opens opportunities for the development of new approaches relying on modern state-of-the-art super-resolution techniques such as diffusion models.

Sujet :
The goal of this research project is (i) to leverage the temporal information contained in satellite time series to improve the super-resolution process, and (ii) to train deep diffusion models to power a super-resolution system on real data.

Objectives
The research intern will perform the following tasks:
• searching and summarizing the literature for suitable multi-image super-resolution approaches, diffusion models for super-resolution, and super-resolution of temporal data,
• collecting and analysing the WordStrat dataset,
• implementing and adapting state-of-the-art approaches, such as SRDiff [6], to SITS,
• investigating techniques to exploit the temporal structure in SITS, for example by using attention mechanisms and temporal blocks in the conditional encoder of diffusion models.

Profil du candidat :
The ideal applicant is pursuing an MSc. in Computer Science, Artificial Intelligence or Computer Vision or an equivalent degree (e.g. engineering diploma).

Formation et compétences requises :
• A good grasp of the fundamentals of machine learning and deep learning for computer vision is expected.
• The candidate should have an interest in scientific research and good written and oral communication skills.
• Knowledge of the Python programming language is a must, including some level of experience with at least one deep learning framework (PyTorch, Keras, TensorFlow, JAX…).
• A first experience with time series, image processing or generative models is a plus.
All applications, independently of previous experience, will be considered, provided that the candidate’s motivation and profile fit the internship topic. 
French is not required but can help with everyday life.

Adresse d’emploi :
This position is for an internship from 4 to 6 months, with a flexible starting date in 2023. The internship will either take place at the Center for research and studies in computer science and communications (Cédric), the computer science laboratory of the Conservatoire national des arts et métiers (Cnam) in Paris or at the Institute for Research in Informatics and Random Systems (Irisa), the computer science laboratory of the University of South Brittany in Vannes.
Depending on their preference, the intern will join the Complex Data, Machine Learning and Representations team in Paris or the Environment observation with complex imagery team in Vannes. In either cases, gratification is approximately 600€/month as imposed by the law for public institutions.

Semantic attack on graph databases

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO – Equipe Systems and Data Security
Durée : 5 à 6 mois
Contact : adrien.boiret@insa-cvl.fr
Date limite de publication : 2023-02-01

Contexte :
Cette offre s’inscrit dans le cadre du projet Semantic Networks of Data: Utility and Privacy (SENDUP) qui étudie la sécurité et la vie privée sur les bases de données sous forme de graphes (e.g. RDF) soumises à des contraintes sémantiques.

Sujet :
Data safety and privacy are concerns currently receiving intense attention, notably through the introduction of GDPR reglementations that aim to ensure data collection, treatment, and publication never trespass on a person’s right to privacy.
The notion of differential privacy (DP) grew popular as a yardstick
of privacy for data publication processes, where a database containing sensitive information can still answer queries without compromising privacy.
The guaranty provided by DP is that it is difficult to differentiate between a graph and one of its neighbours (i.e. the same graph differing on exactly one information) when observing the answer to a query. This is a convincing guaranty of privacy, as it means that a graph yields results so similar to its neighbours’, that an attacker cannot deduce with certainty any specific information
in a graph.
However, this guaranty works best under the assumption
that any graph has neighbours to “hide behind”. If a graph is isolated from any of its neighbours, then the guaranty provided by DP weakens.
We posit that such situations can arise if the graph databases we consider are known to follow structural constraints (e.g. “every patient has a doctor”) or semantic constraints (e.g. “Dr Wilson is an oncologist”). If all possible graphs must follow specific rules, then it is possible that some graphs have no neighbours that an attacker could confuse them with.
In this internship, we aim to formalise and evaluate through experimentation the damage that prior knowledge of a target graph’s schema can make on the privacy of a DP-guarantying process.

Profil du candidat :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Intérêt pour les bases de données sous forme de graphes et la sécurité des données.
Capable de travailler seul et en équipe.

Formation et compétences requises :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Capacité à lire et écrire des documents scientifiques en anglais.
Capacité à coder dans un langage de programmation (préférence pour Java).

Adresse d’emploi :
INSA Centre Val de Loire, 88 boulevard Lahitolle 18022 Bourges

Document attaché : 202212081435_Stage_SDS_SemanticAttack.pdf

Differential privacy in relational or graph databases

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO – Equipe Systems and Data Security
Durée : 5 à 6 mois
Contact : adrien.boiret@insa-cvl.fr
Date limite de publication : 2023-02-01

Contexte :
Cette offre s’inscrit dans le cadre du projet Semantic Networks of Data: Utility and Privacy (SENDUP) qui étudie la sécurité et la vie privée sur les bases de données sous forme de graphes (e.g. RDF) soumises à des contraintes sémantiques.

Sujet :
Data safety and privacy are concerns currently receiving intense attention, notably through the introduction of GDPR reglementations that aim to ensure data collection, treatment, and publication never trespass on a person’s right to privacy.
The notion of differential privacy (DP) grew popular as a yardstick
of privacy for data publication processes, where a database containing sensitive information can still answer queries without compromising privacy.
Previous works established methods to guaranty DP for publication processes in graph databases (e.g. RDF databases). However, the use and study of databases is generally centered around relational databases through languages like SQL.
Works on privacy are no exceptions. This presents a challenge when trying to compare the efficacy of a newly proposed method on graphs to existing methods in relational databases, as methods and metrics have no clear translation from one to the next.
In this internship, we aim to design and implement translation methods between graphs and relational databases, as well as their metrics. Furthermore, we want to compare the efficacy of some methods to guaranty DP in graph databases to that of methods in graphs aiming at similar results.

Profil du candidat :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Intérêt pour les bases de données sous forme de graphes et la sécurité des données.
Capable de travailler seul et en équipe.

Formation et compétences requises :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Capacité à lire et écrire des documents scientifiques en anglais.
Capacité à coder dans un langage de programmation (préférence pour Java).

Adresse d’emploi :
INSA Centre Val de Loire, 88 boulevard Lahitolle 18022 Bourges

Document attaché : 202212081430_Stage_SDS_ReltoGraph.pdf

Use of semantic pertinence to improve accuracy in differentially private projection processes

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO – Equipe Systems and Data Security
Durée : 5 à 6 mois
Contact : adrien.boiret@insa-cvl.fr
Date limite de publication : 2023-02-01

Contexte :
Cette offre s’inscrit dans le cadre du projet Semantic Networks of Data: Utility and Privacy (SENDUP) qui étudie la sécurité et la vie privée sur les bases de données sous forme de graphes (e.g. RDF) soumises à des contraintes sémantiques.

Sujet :
Data safety and privacy are concerns currently receiving intense attention, notably through the introduction of GDPR reglementations that aim to ensure data collection, treatment, and publication never trespass on a person’s right
to privacy.
The notion of differential privacy (DP) grew popular as a yardstick
of privacy for data publication processes, where a database containing sensitive information can still answer queries without compromising privacy.
To facilitate the creation of processes that guaranty DP in graph databases, one method is projection, that limits the degree of graphs by selecting for each node a bounded number of edges.
However, if the choice of edges to maintain is arbitrary, the impact of this method on the accuracy of the published results
is too variable to guarantee accuracy.
In this internship, we aim to develop methods that allow the priorization of certain edges above others in the projection process, as to improve the accuracy of query results. This optimization would be based on prior knowledge of one
or several queries we know to be of interest.

Profil du candidat :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Intérêt pour les bases de données sous forme de graphes et la sécurité des données.
Capable de travailler seul et en équipe.

Formation et compétences requises :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Capacité à lire et écrire des documents scientifiques en anglais.
Capacité à coder dans un langage de programmation (préférence pour Java).

Adresse d’emploi :
INSA Centre Val de Loire, 88 boulevard Lahitolle 18022 Bourges

Document attaché : 202212081426_SDS_Stage_Pertinence.pdf