Interhsip – deep super-resolution for sequences of satellite images

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : Cnam/UBS
Durée : 6 months
Contact : nicolas.audebert@cnam.fr
Date limite de publication : 2023-02-01

Contexte :
Location : Cnam, Paris or UBS, Vannes (France)
Salary : ≈ 600€/month
Contract : Internship (4 to 6 months)
Starting date : Flexible in 2023

Research topic

Earth Observation through satellite imagery is a major tool for geoscience. However, there is a dilemma on whether to deploy systems that acquire many images at high frequency but with a low spatial resolution or systems with high spatial resolution but few revisits. The Sentinel-2 constellation, operated by the European Space Agency (ESA), leans towards high frequency for better temporal monitoring of dynamic phenomena. Yet, its 10m/px resolution is often not enough in urban applications since buildings, roads, and sparse vegetation are barely visible in the images. Conversely, commercial satellites, such as SPOT-6/7, often embark very high-resolution sensors. For example, the French mapping agency (IGN) distributes a yearly high-resolution cloud-free mosaic of the entire French metropolitan area. These panchromatic SPOT-6/7 images at a 1.5m/px resolution are helpful for precise land cover and land use mapping but are produced only once a year.

This research work aims to bridge the gap between those two data sources by investigating super-resolution. Super-resolution is an image processing technique aiming to increase the resolution of an image. It does not use a reference high-resolution image, but instead relies on prior knowledge regarding the structure of the data. Using deep learning for super-resolution has been frequently investigated in the last years [1], starting with Convolutional Neural Networks(CNN) [3], then later using Generative Adversarial Networks (GAN) [5, 8]. Nowadays, diffusion models [9, 6], already state-of-the-art generative models for image synthesis, have established themselves as strong candidates for the next generation of super-resolution algorithms.

Some works have transposed those deep architectures to remote sensing [4, 10], with two main shortcomings. First, most focus on single-image resolution, i.e., transforming a single image into a more detailed one. But low-resolution remote sensing data draws its strength from the temporal information contained in the satellite image time series (SITS). Second, super-resolution systems are mostly trained on artificial pairs of (low resolution, high resolution) images where the LR image is a downsampled version of the HR reference. This means that training sets and benchmarks are mostly synthetic and do not actually inform us of the performance of super-resolution systems on actual data. To overcome these issues, new benchmark datasets have been proposed such as Sen2Venus [7] and WorldStrat [2]. The latter includes pairs of a sequence of low-resolution Sentinel-2 images and a high-resolution Spot-6/7 image acquired worldwide. This dataset opens opportunities for the development of new approaches relying on modern state-of-the-art super-resolution techniques such as diffusion models.

Sujet :
The goal of this research project is (i) to leverage the temporal information contained in satellite time series to improve the super-resolution process, and (ii) to train deep diffusion models to power a super-resolution system on real data.

Objectives
The research intern will perform the following tasks:
• searching and summarizing the literature for suitable multi-image super-resolution approaches, diffusion models for super-resolution, and super-resolution of temporal data,
• collecting and analysing the WordStrat dataset,
• implementing and adapting state-of-the-art approaches, such as SRDiff [6], to SITS,
• investigating techniques to exploit the temporal structure in SITS, for example by using attention mechanisms and temporal blocks in the conditional encoder of diffusion models.

Profil du candidat :
The ideal applicant is pursuing an MSc. in Computer Science, Artificial Intelligence or Computer Vision or an equivalent degree (e.g. engineering diploma).

Formation et compétences requises :
• A good grasp of the fundamentals of machine learning and deep learning for computer vision is expected.
• The candidate should have an interest in scientific research and good written and oral communication skills.
• Knowledge of the Python programming language is a must, including some level of experience with at least one deep learning framework (PyTorch, Keras, TensorFlow, JAX…).
• A first experience with time series, image processing or generative models is a plus.
All applications, independently of previous experience, will be considered, provided that the candidate’s motivation and profile fit the internship topic. 
French is not required but can help with everyday life.

Adresse d’emploi :
This position is for an internship from 4 to 6 months, with a flexible starting date in 2023. The internship will either take place at the Center for research and studies in computer science and communications (Cédric), the computer science laboratory of the Conservatoire national des arts et métiers (Cnam) in Paris or at the Institute for Research in Informatics and Random Systems (Irisa), the computer science laboratory of the University of South Brittany in Vannes.
Depending on their preference, the intern will join the Complex Data, Machine Learning and Representations team in Paris or the Environment observation with complex imagery team in Vannes. In either cases, gratification is approximately 600€/month as imposed by the law for public institutions.

Semantic attack on graph databases

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO – Equipe Systems and Data Security
Durée : 5 à 6 mois
Contact : adrien.boiret@insa-cvl.fr
Date limite de publication : 2023-02-01

Contexte :
Cette offre s’inscrit dans le cadre du projet Semantic Networks of Data: Utility and Privacy (SENDUP) qui étudie la sécurité et la vie privée sur les bases de données sous forme de graphes (e.g. RDF) soumises à des contraintes sémantiques.

Sujet :
Data safety and privacy are concerns currently receiving intense attention, notably through the introduction of GDPR reglementations that aim to ensure data collection, treatment, and publication never trespass on a person’s right to privacy.
The notion of differential privacy (DP) grew popular as a yardstick
of privacy for data publication processes, where a database containing sensitive information can still answer queries without compromising privacy.
The guaranty provided by DP is that it is difficult to differentiate between a graph and one of its neighbours (i.e. the same graph differing on exactly one information) when observing the answer to a query. This is a convincing guaranty of privacy, as it means that a graph yields results so similar to its neighbours’, that an attacker cannot deduce with certainty any specific information
in a graph.
However, this guaranty works best under the assumption
that any graph has neighbours to “hide behind”. If a graph is isolated from any of its neighbours, then the guaranty provided by DP weakens.
We posit that such situations can arise if the graph databases we consider are known to follow structural constraints (e.g. “every patient has a doctor”) or semantic constraints (e.g. “Dr Wilson is an oncologist”). If all possible graphs must follow specific rules, then it is possible that some graphs have no neighbours that an attacker could confuse them with.
In this internship, we aim to formalise and evaluate through experimentation the damage that prior knowledge of a target graph’s schema can make on the privacy of a DP-guarantying process.

Profil du candidat :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Intérêt pour les bases de données sous forme de graphes et la sécurité des données.
Capable de travailler seul et en équipe.

Formation et compétences requises :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Capacité à lire et écrire des documents scientifiques en anglais.
Capacité à coder dans un langage de programmation (préférence pour Java).

Adresse d’emploi :
INSA Centre Val de Loire, 88 boulevard Lahitolle 18022 Bourges

Document attaché : 202212081435_Stage_SDS_SemanticAttack.pdf

Differential privacy in relational or graph databases

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO – Equipe Systems and Data Security
Durée : 5 à 6 mois
Contact : adrien.boiret@insa-cvl.fr
Date limite de publication : 2023-02-01

Contexte :
Cette offre s’inscrit dans le cadre du projet Semantic Networks of Data: Utility and Privacy (SENDUP) qui étudie la sécurité et la vie privée sur les bases de données sous forme de graphes (e.g. RDF) soumises à des contraintes sémantiques.

Sujet :
Data safety and privacy are concerns currently receiving intense attention, notably through the introduction of GDPR reglementations that aim to ensure data collection, treatment, and publication never trespass on a person’s right to privacy.
The notion of differential privacy (DP) grew popular as a yardstick
of privacy for data publication processes, where a database containing sensitive information can still answer queries without compromising privacy.
Previous works established methods to guaranty DP for publication processes in graph databases (e.g. RDF databases). However, the use and study of databases is generally centered around relational databases through languages like SQL.
Works on privacy are no exceptions. This presents a challenge when trying to compare the efficacy of a newly proposed method on graphs to existing methods in relational databases, as methods and metrics have no clear translation from one to the next.
In this internship, we aim to design and implement translation methods between graphs and relational databases, as well as their metrics. Furthermore, we want to compare the efficacy of some methods to guaranty DP in graph databases to that of methods in graphs aiming at similar results.

Profil du candidat :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Intérêt pour les bases de données sous forme de graphes et la sécurité des données.
Capable de travailler seul et en équipe.

Formation et compétences requises :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Capacité à lire et écrire des documents scientifiques en anglais.
Capacité à coder dans un langage de programmation (préférence pour Java).

Adresse d’emploi :
INSA Centre Val de Loire, 88 boulevard Lahitolle 18022 Bourges

Document attaché : 202212081430_Stage_SDS_ReltoGraph.pdf

Use of semantic pertinence to improve accuracy in differentially private projection processes

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO – Equipe Systems and Data Security
Durée : 5 à 6 mois
Contact : adrien.boiret@insa-cvl.fr
Date limite de publication : 2023-02-01

Contexte :
Cette offre s’inscrit dans le cadre du projet Semantic Networks of Data: Utility and Privacy (SENDUP) qui étudie la sécurité et la vie privée sur les bases de données sous forme de graphes (e.g. RDF) soumises à des contraintes sémantiques.

Sujet :
Data safety and privacy are concerns currently receiving intense attention, notably through the introduction of GDPR reglementations that aim to ensure data collection, treatment, and publication never trespass on a person’s right
to privacy.
The notion of differential privacy (DP) grew popular as a yardstick
of privacy for data publication processes, where a database containing sensitive information can still answer queries without compromising privacy.
To facilitate the creation of processes that guaranty DP in graph databases, one method is projection, that limits the degree of graphs by selecting for each node a bounded number of edges.
However, if the choice of edges to maintain is arbitrary, the impact of this method on the accuracy of the published results
is too variable to guarantee accuracy.
In this internship, we aim to develop methods that allow the priorization of certain edges above others in the projection process, as to improve the accuracy of query results. This optimization would be based on prior knowledge of one
or several queries we know to be of interest.

Profil du candidat :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Intérêt pour les bases de données sous forme de graphes et la sécurité des données.
Capable de travailler seul et en équipe.

Formation et compétences requises :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Capacité à lire et écrire des documents scientifiques en anglais.
Capacité à coder dans un langage de programmation (préférence pour Java).

Adresse d’emploi :
INSA Centre Val de Loire, 88 boulevard Lahitolle 18022 Bourges

Document attaché : 202212081426_SDS_Stage_Pertinence.pdf

Ingénieur.e de recherche 24 mois : interopérabilité d’outils de fouille de graphes et de données relationnelles

Offre en lien avec l’Action/le Réseau : RoCED/– — –

Laboratoire/Entreprise : IRISA
Durée : 24 mois
Contact : ferre@irisa.fr
Date limite de publication : 2023-02-01

Contexte :
L’Analyse de concepts formels (FCA) [1] est une méthode de découverte de connaissances. Elle est employée dans des tâches d’analyse de données, de fouille de données, de classification ou de recherche d’information ; et appliquée dans domaines variés tels que les sciences de la vie, les sciences humaines ou la linguistique. De multiples extensions de FCA ont été proposées par différentes équipes pour traiter des données complexes telles que des séquences, des trajectoires, des arbres ou des graphes [2]. Au-delà des verrous théoriques et pratiques, il y a un problème d’interopérabilité entre ces différentes extensions, ce qui freine leur adoption et leur composition dans des workflows.
Un objectif important du projet SmartFCA est de rendre ces extensions de FCA interopérables en les encapsulant dans des composants logiciels ayant des interfaces compatibles sur les plans conceptuels et technologiques. Il s’agit aussi d’implémenter une plateforme permettant la contruction de workflows à partir des composants. Le partenaire IRISA/Rennes est responsable du composant Graph-FCA [3], une extension de FCA aux données relationnelles et aux graphes. Nous collaborons étroitement avec le partenaire ICube/Strasbourg qui est responsable du composant pour une autre extension de FCA aux données relationnelles, RCA (Relational Concept Analysis) [4].
Un autre objectif du projet est développer des cas d’usage dans divers domaines, pour leur intérêt intrinsèque et pour évaluer la plateforme développée. IRISA/Rennes développera des cas d’usage sur les données linguistiques de langues peu dotées (breton [5,6] et géorgien [7] notamment).

Sujet :
Après une phase de familiarisation avec Graph-FCA et son implémentation actuelle, ainsi que RCA, il s’agira de collaborer avec ICube/Strasbourg pour concevoir une interface compatible entre les deux extensions de FCA (modélisation des entrées/sorties, jeux d’options). Il s’agira ensuite d’encapsuler l’implémentation existante de Graph-FCA dans une API RESTful, en accord avec les normes établies dans le cadre du projet. Il est attendu de la candidate ou du candidat de collaborer avec les autres partenaires du projet dans l’établissement de ces normes, et d’être force de proposition. Il sera également nécessaire de développer des interfaces de test et de démo du composant Graph-FCA pour ne pas dépendre de la plateforme qui ne sera achevée que vers la fin du projet.

Le candidat ou la candidate devra également apporter un support technique et être force de proposition dans les cas d’usage en linguistique (aucune connaissance en linguistique n’est requise). Cela comprend l’aide à la préparation des données, à l’application du composant Graph-FCA et des autres composants dévelopés dans le projet et à la mise en valeur des résultats, c’est-à-dire des connaissances extraites des données.

Profil du candidat :
Nous cherchons un.e candidat.e motivé.e par une expérience de recherche & développement dans le cadre d’un projet de recherche académique.

Formation et compétences requises :
La formation requise est un doctorat ou un master en informatique.
Expertise requise pour le poste :
• programmation web, surtout backend et Node.js : conception, développement, configuration et documentation
• modèles de données, notamment relationnels et graphes
• outils et méthodes de développement
• travail collaboratif
• rédaction de rapports techniques et présentations orales
Connaissances ou expériences souhaitées :
• extraction de connaissances (fouille de données, data mining, classification)
• programmation Caml ou autre langage fonctionnel (Haskell, Scala, …)

Qualités attendues : autonomie, rigueur, aptitude à collaborer en présentiel et distanciel avec plusieurs équipes, force de proposition

Adresse d’emploi :
équipe LACODAM
IRISA / INRIA
Campus de Beaulieu, 35042 Rennes cedex

Document attaché : 202212081254_fiche_poste_IR_SmartFCA.pdf

Résolution d’entités nommées dans des corpus de documents historiques de grande taille et partiellement redondants: le cas des annuaires commerciaux de Paris du XIXème siècle

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LASTIG, Univ Gustave Eiffel, IGN-ENSG
Durée : 5 mois
Contact : nathalie-f.abadie@ign.fr
Date limite de publication : 2023-02-01

Contexte :
Ce stage s’inscrit dans le projet ANR SODUCO qui vise à étudier l’évolution de la structure spatiale de Paris en lien avec les pratiques sociales de la population, sur la période allant de la Révolution Française au début du 20ème siècle. Le projet exploite deux types de sources historiques rassemblées en deux corpus:
• un corpus spatial : plans et cadastres, qui représentent les structures urbaines (rues, bâti, etc.)
• un corpus social : “annuaires du commerce”, sorte de “pages jaunes” avant l’heure, qui contiennent les noms, statuts sociaux, activités professionnelles et adresses d’une partie des parisiens.
Un premier stage a permis de proposer une approche pour l’appariement des entrées représentant un même commerce d’une année à l’autre. Cette dernière a été appliquée aux métiers de la photographie, qui représentent une faible portion du corpus des annuaires.

Sujet :
Ce sujet de stage comporte un objectif méthodologique principal : proposer et mettre en œuvre une approche reproductible et qui passe à l’échelle pour identifier des relations d’équivalence entre les principales entités nommées extraites dans les annuaires du commerce parisien du XIXe siècle et qui représentent un même élément du monde réel.
Il comporte trois objectifs applicatifs: produire trois graphes spatio-temporels permettant le suivi des commerces, des adresses et des activités parisiennes au XIXe siècle.

Profil du candidat :
Master 2 ou troisième année d’école d’ingénieur en informatique, ou en géomatique.

Formation et compétences requises :
– Données spatio-temporelles,
– Résolution d’entités nommées, liage, appariement,
– Graphes de connaissances géohistoriques,
– Développement Python,
– Un intérêt pour l’histoire sociale est un plus.

Adresse d’emploi :
Institut National de l’Information Géographique et Forestière
73 avenue de Paris
94160 Saint-Mandé

Document attaché : 202212072201_SoDUCo2022NELInternship.pdf

5th ESAO Webinar, Wednesday, December 14th, 2022 — Call for Participation

Date : 2022-12-14
Lieu : Online

The Educational Series on Applied Ontology (ESAO) [1] is open for everyone and welcomes students, researchers and practitioners alike.

–> The fourth of its regular webinar sessions will be held on
Wednesday, December 14th, 2022 at 10:00 EST / 15:00 UTC / 16:00 CET / 17:00 SAST via a Zoom meeting (full connection details at the end of this message):

https://univ-tlse2.zoom.us/j/94922889721?pwd=T2ozYlFKMUNreGMwVVlTWTZEdzl4QT09

No registration needed; please find full connection details at the end of this message.

Program
——-

* 10:00-10:30 EST / 15:00-15:30 UTC / 16:00-16:30 CET / 17:00-17:30 SAST

Nathalie Aussenac-Gilles, Institut de Recherche de Toulouse, CNRS, Toulouse, France

“From Semantic metadata to an ontology-based legal decision support system for data sharing”

Abstract: With the increasing availability of open datasets, data sharing becomes an evidence, in particular in the research domain. The FAIR principles have provided some guidelines to facilitate data sharing. They strongly recommend the use of semantic, machine processable and standard metatada. Nevertheless, these metadata are not sufficient to check if the data sharing is compatible with data sharing regulations like the General Data Protection Regulation (GDPR), other regulations about AI-based data analysis, or even the anticipation of inappropriate reuses of data. In the first part of my talk I will illustrate the advantages and limitations of semantic metadata. Then I will expose a research line based on collaborations with lawyers to design a rule-based and ontology-based support system that could guide data producers in their decision to share data according tho regulations and preferences.

Series Description
——————

The IAOA [2] has created ESAO [1], a new educational effort directed towards topics of Applied Ontology, primarily established basics and foundations.

The series is inspired by the Interdisciplinary Schools on Applied Ontology (ISAO) [3] (whose next edition will be held in 2023). ESAO is complementary in format and its overall approach. The goal is to provide a combination of an archive of educational material (e.g., short video lectures) and a series of webinars for presenting and discussing that material.

Organization
————

Members of the Education Technical Committee of IAOA [2] and among those primarily (in alphabetical order):

* Lucía Gómez Álvarez
* Frank Loebe
* Sandra Lovrenčić
* Cassia Trojahn (Chair)
* Laure Vieu

Contact
E-Mail: info@iaoa.org

[1] Educational Series on Applied Ontology
https://wiki.iaoa.org/index.php/Edu:ESAO

[2] IAOA website

Landing

[3] ISAO History page

ISAO history

Connection Details
——————

Topic: ESAO 5th Session
Time: Dec 14, 2022 04:00 PM Paris

Join Zoom Meeting
https://univ-tlse2.zoom.us/j/94922889721?pwd=T2ozYlFKMUNreGMwVVlTWTZEdzl4QT09

Meeting ID: 949 2288 9721
Passcode: 936862

Join by SIP
94922889721@zoomcrc.com

Join by H.323
162.255.37.11 (US West)
162.255.36.11 (US East)
221.122.88.195 (China)
115.114.131.7 (India Mumbai)
115.114.115.7 (India Hyderabad)
213.19.144.110 (Amsterdam Netherlands)
213.244.140.110 (Germany)
103.122.166.55 (Australia Sydney)
103.122.167.55 (Australia Melbourne)
209.9.211.110 (Hong Kong SAR)
149.137.40.110 (Singapore)
64.211.144.160 (Brazil)
69.174.57.160 (Canada Toronto)
65.39.152.160 (Canada Vancouver)
207.226.132.110 (Japan Tokyo)
149.137.24.110 (Japan Osaka)
Meeting ID: 949 2288 9721
Passcode: 936862

Join by Skype for Business
https://univ-tlse2.zoom.us/skype/94922889721


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Stage LIVIA – La conservation des livres par l’IA

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ETIS, UMR8051, CY Cergy Paris Université, ENSEA Ce
Durée : 6 mois
Contact : michel.jordan@cyu.fr
Date limite de publication : 2023-01-01

Contexte :
Le contexte du stage est le développement d’un outil permettant de repérer automatiquement les altérations dangereuses sur le dos des reliures pour aider les conservateurs de bibliothèques à évaluer l’état des fonds de livres.

Contacts : Camille Simon Chane, camille.simon-chane@ensea.fr; Michel Jordan, michel.jordan@cyu.fr

Sujet :
Description de la mission :
Le contexte du stage est le développement d’un outil permettant de repérer automatiquement les altérations dangereuses sur le dos des reliures pour aider les conservateurs de bibliothèques à évaluer l’état des fonds de livres. Un premier travail a été réalisé en partenariat avec les Archives. Il a permis de mettre en place un pipeline complet (voir photo) basé sur les techniques de la segmentation sémantique pour repérer les altérations dangereuses sur les reliures des archives du Parlement de Paris, constituant un corpus très homogène d’environ 11 000 ouvrages. Un partenariat avec les Archives nationales du Québec (BanQ) nous a permis d’acquérir et d’annoter des images d’ouvrages plus récents et hétéroclites. Cette base de données est composée de 300 photographies, soit plus de 5000 ouvrages. Il s’agit désormais d’évaluer les algorithmes de segmentation des livres et de détection des altérations sur cette base de données.

L’étudiant sera responsable des tâches suivantes :
1. Évaluation des algorithmes existant sur les nouvelles images
2. Adaptation et développement de nouveaux algorithmes
3. Choix et implémentation de métriques adaptées à l’évaluation de l’état sanitaire.

En sus de l’encadrement scientifique, un dialogue continu avec une restauratrice et avec les bibliothèques guidera le travail. Ce projet permettra à l’étudiant de mettre en pratique ses connaissances en deep-learning dans un contexte avec des contraintes fortes et stimulantes.

Calendrier de travail : nous prévoyons un stage de 6 mois :
– Mois 1 : bibliographie. Prise en main du travail existant
– Mois 1 : Évaluation de la détection de livres
– Mois 2 : Évaluation de la détection d’altérations
– Mois 1 à 3 : Choix et implémentation de métriques
– Mois 2 à 3 : Adaptation de l’algorithme de détection de livres
– Mois 4 à 6 : Développement d’un nouvel algorithme de détection des altérations
– Mois 6 : Rédaction du rapport de stage et de la documentation

A propos du laboratoire ETIS :
ETIS est une unité mixte de recherche (UMR 8051) commune à CY Cergy Paris Université, à l’ENSEA (Ecole nationale supérieure de l’électronique et de ses applications, Cergy) et au CNRS, rattachée principalement à l’INS2I. Le laboratoire mène des recherches aussi bien théoriques qu’expérimentales en vue de permettre à des systèmes de traitement de l’information d’acquérir des capacités d’autonomie. L’autonomie s’entend ici aussi bien en termes d’apprentissage et d’adaptation à l’environnement (y compris l’utilisateur), que de prise de décision et de faible consommation énergétique ou de puissance de calcul par exemple. Les domaines concernés sont l’analyse des données, l’indexation d’images, la robotique développementale, la théorie de l’information et les télécommunications. ETIS est doté d’un pôle de recherche d’excellence en intégration de données pour le patrimoine culturel qui a participé activement au LabEx Patrima et à l’EquipEx Patrimex.

Candidature :
Contacter les responsables du stage, Camille Simon Chane et Michel Jordan.
Date limite de candidature : 31 décembre 2022.
Début du stage : à partir du 1er mars 2023.

Profil du candidat :
Nous cherchons un étudiant en master 2 ou équivalent (ingénieur) dans l’un des domaines suivants: sciences de la donnée, intelligence artificielle, machine learning. Nous cherchons également un candidat qui a une appétence pour les sciences du patrimoine.

Formation et compétences requises :
Des compétences en programmation Python sont indispensables. L’étudiant doit avoir codé, entraîné et paramétré un réseau au cours de ses études. Une expérience avec la librairie PyTorch sera appréciée.

Niveau de qualification requis : Bac + 4/5 et +

Adresse d’emploi :
ETIS, UMR 8051, CY Cergy Paris Université, ENSEA, CNRS

ENSEA
6 avenue du Ponceau
95014 Cergy-Pontoise cedex

Representation of physical quantities on the Semantic Web

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIMOS at Institut Henri Fayol, Mines Saint-Étienne
Durée : 5 mois
Contact : antoine.zimmermann@emse.fr
Date limite de publication : 2023-03-01

Contexte :
Physical quantities form an important part of what is represented in scientific data, medical data, industry data, open data, and to some extent, various private data.

Whether it is distances, speeds, payloads in transportation, concentrations, masses, moles in chemistry, powers, intensities, voltages in the energy sector, dimensions of furniture, weights, heights of people, durations, and many others in health, there is a need to represent physical quantities, to store them, to process them, and to exchange them between information systems, potentially on a global scale, often on the Internet and via the Web.

Sujet :
In this internship, we seek to precisely define a way to unambiguously represent physical quantities for the Web of Data. More precisely, we will study the proposals made to encode physical quantities in the standard data model of the Semantic Web, RDF. We will be particularly interested in the use of a data type dedicated to this encoding, probably adapted from the proposal of Lefrançois & Zimmermann (2018) based on the UCUM standard.

Having established a rigorous definition of the data type (possibly its variants, if relevant), we will focus on implementing a module that can read/write and process physical quantities and their operations within the RDF data manipulation APIs, for the management, querying and reasoning with knowledge graphs containing physical quantities.

The ambition is that, on the one hand, the specification will become in a few years a de facto standard, before perhaps becoming a de jure standard; and that, on the other hand, the implementation will be the reference allowing to compare the compliance levels of other future implementations.

This study should lead to the publication of a scientific paper in a high impact scientific journal.

References
1. Maxime Lefrançois and Antoine Zimmermann (2018). The Unified Code for Units of Measure in RDF: cdt:ucum and other UCUM Datatypes. In The Semantic Web: ESWC 2018 Satellite Events – ESWC 2018 Satellite Events, Heraklion, Crete, Greece, June 3-7, 2018, Revised Selected Papers, volume 11155 of the Lecture Notes in Computer Science, pp196–201, Springer.
2. Gunther Shadow and Clement J. McDonald. The Unified Code for Units of Measure. Technical report, Regenstrief Institute, Inc, November 21 2017.

Complete description available at https://www.emse.fr/~zimmermann/Teaching/SemWeb/Internship/

Profil du candidat :
Interested in the definition of specifications and their implementation.
Interested in research activities.

Formation et compétences requises :
Master 2 in computer science
Knowledge of Semantic Web technologies
Java programming
Preferably good writing skills

Adresse d’emploi :
École des mines de Saint-Étienne, bâtiment espace Fauriel, 29 rue Ponchardier, Saint-Étienne. https://www.openstreetmap.org/node/2794933485

InteX-ML : Conception d’une plateforme d’aide à l’explicabilité et l’interprétabilité d’algorithmes usuels de Machine Learning

Offre en lien avec l’Action/le Réseau : PLATFORM/– — –

Laboratoire/Entreprise : Unité de Recherche LIST3N (Laboratoire Informatiqu
Durée : 6
Contact : babiga.birregah@utt.fr
Date limite de publication : 2023-01-15

Contexte :
En parallèle des progrès du Machine Learning, et particulièrement des modèles « black box » de deep learning, les questions d’interprétabilité et d’explicabilité des décisions algorithmiques occupent une place grandissante aussi bien dans la communauté scientifique qu’auprès du grand public ([1], [2], [3]). Ces deux problématiques constituent l’enjeux majeur pour les chercheurs et les industriels qui souhaitent « garantir » l’acceptabilité des solutions d’IA. De même la standardisation de l’interprétabilité et de l’explicabilité reste un problème ouvert ([4]).
Le projet InteX-ML a justement pour objectif de poser les bases d’une démarche générique pour l’explicabilité et l’interprétabilité des algorithmes de l’IA, en partant de cas usuels.

Sujet :
Objectifs du projet
Le projet InteX-ML a pour objectif de proposer un cadre méthodologique et technique, suffisamment générique, d’aide à l’explicabilité et l’interprétabilité d’un algorithme sur des cas d’usages proposés par l’utilisateur. Il s’agira de construire la première version d’un outil capable de « révéler » les étapes de l’exécution d’un algorithme d’IA à son utilisateur afin de permettre à ce dernier de mieux expliquer les choix et d’ interpréter les résultats associés. Au-delà de l’aide à l’explicabilité il s’agit aussi de fournir une approche « standardisée » d’évaluation des impacts du choix des valeurs d’entrée et des paramètres de l’algorithme.
Méthodologie
Le stage est structuré en trois grandes étapes :
1. Revue de littérature : Identifier le cadre théorique dans lequel s’inscrivent les différents travaux, afin de se positionner vis-à-vis d’un domaine où le vocabulaire n’est pas encore figé (e.g. explicabilité vs interprétabilité vs transparence…). Identifier les types d’explicabilités (model-agnostic vs local) et les méthodes courantes pour chaque type
3. Proposition d’un framework  : Définir les métriques et critères d’explicabilité et d’interprétabilité à retenir dans le cadre de ce projet ainsi que l’apport de ces derniers
4. Prototypage : Réalisation d’une plateforme (package logiciel par exemple) intégrant ces critères et métriques pour l’XAI d’algorithmes classiques du Machine Learning
Références
[1] Lipton, Z. C. The Mythos of Model Interpretability. ACM Queue (2018)
[2] Adedjouma, Morayo, et al. “Towards the engineering of trustworthy AI applications for critical systems-The Confiance. ai program.” (2022).
[3] Burkart, Nadia, and Marco F. Huber. “A survey on the explainability of supervised machine learning.” Journal of Artificial Intelligence Research 70 (2021): 245-317.
[4] Doshi-Velez, F., & Kim, B. (2017). Towards A Rigorous Science of Interpretable Machine Learning. stat, 1050, 2.

Profil du candidat :
En fin de cursus Ingénieur ou Master, vous avez de bonnes connaissances en Machine Learning et vous souhaiter travailler dans le domaine émergent et challengeant de l’explicabilité de l’Intelligence Artificielle.

Formation et compétences requises :
Vous êtes capable de mener à bien une mission d’analyse et de synthèse bibliographique et de présenter/défendre vos résultats (esprit critique et de synthèse).
Sur le plan technique: Très bonne maîtrise de Python et/ou Rstudio pour le data science.

Adresse d’emploi :
UTT – Université de Technologie de Troyes
12 rue Marie Curie – CS 42060 – 10004 TROYES CEDEX
Tél. : (+33) 03 25 71 58 69