MaDICS

Fouille de modèle pour explorer les avenirs plausibles de la zone des Niayes au Sénégal

Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : camille.jahel@cirad.fr
Date limite de publication : 2022-03-31

Contexte :
La zone des Niayes fournit 70% des produits horticoles à Dakar, profitant d’une nappe phréatique peu profonde, d’un climat favorable et de sols fertiles. Mais ces dernières années ont été marquées par une baisse importante du niveau de la nappe et une salinisation progressive des terres par invasion marine, du fait d’une diminution de la pluviométrie. A cela s’ajoute des problématiques de surexploitation des ressources hydriques par les exploitations agricoles, les agro-industries et les exploitations minières qui ne cessent de s’agrandir. Les prévisions climatiques pour les prochaines années, particulièrement alarmantes pour le Sénégal, tendent à montrer que ces tendances risquent de s’amplifier, menaçant directement toutes les exploitations agricoles de la zone.
Il est donc urgent de prendre la mesure de ces changements pour tenter de les atténuer. Dans ce contexte, une série d’ateliers de prospective ont été menés en 2018, qui ont permis de dessiner les contours de scénarios d’évolution des Niayes (Camara et al., 2020 ). Mais ces scénarios sont dans un registre narratif et qualitatif et doivent maintenant être illustrés d’indicateurs quantitatifs.
Pour cela, une équipe multidisciplinaire de modélisateurs et thématiciens ont écrit un modèle des dynamiques de la zone des Niayes, à l’aide de la plateforme de modélisation spatiale Ocelet (www.ocelet.fr). Le modèle articule plusieurs modules, et permet de simuler des dynamiques de la nappe phréatique, l’étalement urbain, l’avancée du domaine cultivé, les productions agricoles, les revenus agricoles et les emplois agricoles. Le modèle a été construit de manière à reproduire les dynamiques de ces différents modules observés ces 15 dernières années. Il s’agit pour le stagiaire d’explorer la diversité des résultats en entrée et en sortie de modèle et enfin de l’utiliser pour simuler les différents scénarios plausibles.

1 Camara, C., Bourgeois, R., & Jahel, C. (2019). Anticiper l’avenir des territoires agricoles en Afrique de l’Ouest: le cas des Niayes au Sénégal.

Sujet :
La première phase consistera à identifier dans les résultats de sortie du modèle ceux qui correspondent aux scénarios qualitatifs identifiés par les acteurs en 2018 (approche experte). A partir de cet espace des sorties et en utilisant une des méthodes telle qu’OSE, le stagiaire identifiera dans l’espace des entrées les jeux de paramètres qui conduisent aux espaces des sorties considérées par les experts. Pour cela, des séries de simulations seront lancées sur des périodes simulées de 20 ans, en fonction de jeux de paramètres cohérents avec les scénarios qualitatifs produits plus tôt et en insérant différentes « ruptures » dans les simulations (par exemple, introduction d’un nouveau paramètre en cours de simulation). Ce travail d’exploration et d’analyse de l’espace des sorties sera mené par le stagiaire, en s’inspirant là aussi des travaux de la communauté d’OpenMole.
Le stagiaire sera alors à même de produire une interface de visualisation des trajectoires territoriales qui permette aux décideurs et aux chercheurs d’identifier les bifurcations dans les scénarios simulés parmi les avenirs plausibles de la zone des Niayes. Le travail de visualisation des données en sortie – comme par exemple, des cartes d’occurrence de phénomène pour un même scénario, ou une présentation de l’espace des possibles, etc. – fournira le contenu à la plateforme de visualisation.

Profil du candidat :
Durée du stage :
6 mois. Début du stage Avril 2022.

Encadrement :
Le stagiaire sera co-encadré par deux chercheurs du Cirad, Camille Jahel (TETIS) et Etienne Delay (SENS)

Rémunération :
Indemnité de stage en vigueur (environ 573 €/mois).
Prise en charge des frais relatifs aux éventuels déplacements.

Contact :
camille.jahel@cirad.fr
etienne.delay@cirad.fr

Formation et compétences requises :
–

Adresse d’emploi :
Le stagiaire sera accueilli à la maison de la télédétection (www.teledetection.fr), à Montpellier, en fonction du contexte sanitaire en France.

Document attaché : 202202110922_Fouille de modèle et visualisation de données pour explorer les avenirs plausibles de la zone des Niayes au Sénégal_vf.pdf

Categories: Stages

Fouille de motifs fréquents pour l’analyse de comportement touristique

Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DVRC/ESILV
Durée : 5 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2022-03-31

Contexte :
L’appréciation des visites effectuées par les touristes est un enjeu majeur dans le monde du tourisme afin d’anticiper les évolutions de tendances, mais aussi la manière dont ils circulent sur le territoire. Une approche permettant d’estimer cette appréciation est de reposer sur l’extraction de motifs fréquents sur un graphe de circulation, comme l’extraction de Graphlet [1], k-decomposition [2]. Ainsi, les tendances touristiques sont extraites grâce à leurs fréquences d’apparition de manière topologique.
Toutefois, les données touristiques provenant de sites prescripteurs d’expérience tels que TripAdvisor sont d’un volume difficile à intégrer dans les techniques traditionnelles de fouille de données. En effet, avec un grand nombre de lieux visité (millions), et un nombre énorme de commentaires laissés par les utilisateurs (milliards), il est nécessaire de développer une nouvelle approche pour le passage à l’échelle d’algorithmes basés sur les graphes.

Sujet :
Pour ce faire, au sein du groupe digital du DVRC, nous travaillons sur le développement en Pregel [3] de différentes approches existantes pour pouvoir définir la meilleure stratégie de fouille de motifs. De plus, l’aspect géodésique des données est un facteur important lié à la topologie des données [4, 5], tout autant que la fréquentation. Nous étudions donc l’adaptation des méthodes existantes pour améliorer l’efficacité de la fouille de motifs basé sur ces informations.
Le but de ce stage est donc double :
– Intégrer des méthodes de fouille de motifs dans une base de données Neo4j (en Pregel/Java)
– Améliorer une méthode pour donner une heuristique de fouille adaptée au contexte géodésique.

Profil du candidat :
Étudiante ou étudiant de niveau M1/M2 en informatique (Master ou école d’ingénieurs).

Formation et compétences requises :
Connaissances en bases de données, Data Mining, BD graph (Neo4j, Cypher), Java, programmation répartie

Adresse d’emploi :
Pole Universitaire Léonard de Vinci
2 avenue Léonard de Vinci, Paris La Défense

Document attaché : 202201171105_Stage_PatternMining.pdf

Categories: Stages

link prediction in distributed knowledge graphs

Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LORIA UMR7503 CNRS-Universtié de Lorraine
Durée : 6 mois
Contact : sabeur.aridhi@loria.fr
Date limite de publication : 2022-03-31

Contexte :
Today, vast and diverse sources of data exist for almost every scientific domain, making their integration and intelligent exploitation challenging. Indeed, complex data require expressive data representation models such as graph representation. The Linked Open Data (LOD) movement along with the FAIR (Findability, Accessibility, Interoperability, Reusability) data principles are intended to facilitate heterogeneous data integration and analyses. In the LOD context, graphs are called knowledge graphs as they encompass domain ontologies for typing objects and describing their relationships. Semantic web languages (RDFS, OWL, SPARQL) have reached an interesting level of maturity on which ambitious machine learning techniques can rely. Interestingly, big data and NoSQL solutions make possible web-scale data analyses. So far, such analyses on dedicated big-data architectures are often limited to MapReduce scenarios on rather simple data models (key-value oriented, homogeneous graphs with only one type of nodes and one type of edges). Graph databases, as one NoSQL approach, allow for rich representation of multi-typed attributed nodes and edges. This better expressivity comes with a cost as graph and program distribution is not an easy task.

The objective of this Master project is to make progress to the state-of-the-art of link prediction problem in knowledge graphs in a distributed setting [1][2][3]. We will mainly focus on link prediction approaches proposed by the CAPSID team to solve biological problems like drug discovery.
The proposed distributed approaches will be evaluated using web-scale knowledge graphs for inferring missing links (data completion). YAGO, DBpedia, and synthetic benchmarks are usable for such evaluation and validation purposes [4].

Sujet :
This Master thesis project aims to develop scalable link prediction methods in large and complex graphs. More specifically, the aims of this project are:

– to design scalable implementations of the studied approaches for distributed architectures. In this context, the use of big graph processing frameworks such as Pregel, Trinity, GraphLab and BLADYG need to be studied [5];
– to define evaluation and validation protocols for the proposed algorithms in the context of web-scale knowledge graphs;

This project will be carried out mainly within the Capsid team at INRIA Nancy which combines expertise in knowledge graphs and distributed graph computing (https://capsid.loria.fr).

Profil du candidat :
Candidates must have a bachelor degree in computer science, mathematics, or one of the physical sciences.

Formation et compétences requises :
Good programming skills in an object-oriented programming language such as JAVA or C++ are essential. Experience of NoSQL solutions (Neo4j, Titan, MongoDB), parallel/distributed programming (Spark, Hadoop, Flink) and graph processing frameworks (Pregel, GraphLab, GraphX) is also desirable but not essential.

Adresse d’emploi :
Laboratoire Lorrain de Recherche en Informatique et ses Applications
LORIA
Campus Scientifique
BP239
54500 Vandoeuvre les Nancy

Categories: Stages

Mining Frequent Gradual Itemsets From Noise Data

Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CERI Systèmes Numériques – IMT Nord Europe
Durée : 5 mois
Contact : jerry.lonlac@imt-nord-europe.fr
Date limite de publication : 2022-03-31

Contexte :
Frequent Itemset Mining (FIM, for short) is an active part of data mining field and an important first step in data analysis. In the last decades, FIM has been applied in a broad range of applications such as e-commerce [4], e-learning [10], malware detection [3]. The application of FIM in a wide range of domains with a proliferation of different type of data has inspired the development of numerous other pattern-mining techniques. Recently, gradual itemsets [6, 2, 11, 7, 9] have then been proposed for analysing numerical data and different algorithms have been designed to automatically extract gradual itemsets from different data model [12, 13, 1, 5]. Gradual itemsets aroused great interest for extracting frequent complex co-variations between numerical attributes in a multitude of areas. However, in some real- world applications, data are subject to noise and measurement error. To date, the effect of noise on classical frequent gradual itemset mining algorithms has been not addressed.

Sujet :
The goal of this work is to propose a noise tolerant gradual itemset model, which unlike classical gradual itemsets [2, 8] tolerates a controlled fraction of errors on the extent of the gradual itemset. By allowing noise, the proposed models will generalize the level-wise enu- meration of different forms of frequent gradual itemsets [2, 12, 8, 7] that can be extracted from different types of complex numerical data but obscured by noise.

References
[1] Aymeric Cˆome and Jerry Lonlac. Extracting frequent (closed) seasonal gradual patterns using closed itemset mining. In IEEE International Conference on Tools with Artificial Intelligence, ICTAI, pages 1442–1448, 2021.
[2] Lisa Di-Jorio, Anne Laurent, and Maguelonne Teisseire. Mining frequent gradual item- sets from large databases. In IDA, pages 297–308, 2009.
[3] Yiheng Duan, Xiao Fu, Bin Luo, Ziqi Wang, Jin Shi, and Xiaojiang Du. Detective: Automatically identify and analyze malware processes in forensic scenarios via dlls. In ICC, pages 5691–5696, 2015.
[4] Philippe Fournier-Viger, Jerry Chun-Wei Lin, Bay Vo, Tin Chi Truong, Ji Zhang, and Hoai Bac Le. A survey of itemset mining. Wiley Interdiscip. Rev. Data Min. Knowl. Discov., 7(4), 2017.
[5] Amel Hidouri, Sa ̈ıd Jabbour, Jerry Lonlac, and Badran Raddaoui. A constraint-based approach for enumerating gradual itemsets. In IEEE International Conference on Tools with Artificial Intelligence, ICTAI, pages 582–589, 2021.
[6] Eyke Hu ̈llermeier. Association rules for expressing gradual dependencies. In PKDD, pages 200–211, 2002.
[7] Jerry Lonlac, Arnaud Doniec, Marin Lujak, and St ́ephane Lecoeuche. Mining frequent seasonal gradual patterns. In Big Data Analytics and Knowledge Discovery – DaWaK, volume 12393, pages 197–207, 2020.
[8] Jerry Lonlac, Yannick Miras, Aude Beauger, Vincent Mazenod, Jean-Luc Peiry, and Engelbert Mephu Nguifo. An approach for extracting frequent (closed) gradual patterns under temporal constraint. In FUZZ-IEEE, pages 878–885, 2018.
[9] Jerry Lonlac and Engelbert Mephu Nguifo. A novel algorithm for searching frequent gradual patterns from an ordered data set. Intell. Data Anal., 24(5):1029–1042, 2020.
[10] Esp ́erance Mwamikazi, Philippe Fournier-Viger, Chadia Moghrabi, and Robert Bau- douin. A dynamic questionnaire to further reduce questions in learning style assess- ment. In Lazaros Iliadis, Ilias Maglogiannis, and Harris Papadopoulos, editors, Artificial Intelligence Applications and Innovations, pages 224–235, 2014.
[11] Benjamin N ́egrevergne, Alexandre Termier, Marie-Christine Rousset, and Jean-Franc ̧ois M ́ehaut. Para miner: a generic pattern mining algorithm for multi-core architectures. DMKD, 28(3):593–633, 2014.
[12] NhatHai Phan, Dino Ienco, Donato Malerba, Pascal Poncelet, and Maguelonne Teis- seire. Mining multi-relational gradual patterns. In SDM, pages 846–854, 2015.
[13] Faaiz Shah, Arnaud Castelltort, and Anne Laurent. Extracting fuzzy gradual patterns from property graphs. In FUZZ-IEEE, pages 1–6, 2019.

Profil du candidat :
– 2nd year student of a Master’s or Engineering of Computer Science degree.
– Goods skills in Artificial Intelligence, more particularly in pattern mining.
– Goods skills in programming language (C++, Python).

Formation et compétences requises :
– 2nd year student of a Master’s or Engineering of Computer Science degree.
– Goods skills in Artificial Intelligence, more particularly in pattern mining.
– Goods skills in programming language (C++, Python).

Adresse d’emploi :
IMT Nord Europe
941, rue Charles Bourseul
CS 10838
59508 DOUAI Cedex – France

Document attaché : 202202041800_Proposal_for_internship_IMT_Nord_Europe_2022.pdf

Categories: Stages

Multi-omics dimensionality reduction approaches for the study of Sepsis

Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire DAVID, UVSQ, Université Paris-Saclay
Durée : 5 à 6 mois
Contact : zaineb.chelly-dagdia@uvsq.fr
Date limite de publication : 2022-03-31

Contexte :
Ce sujet de M2 s’inscrit dans le cadre du projet ANR RHU RECORDS (Rapid Recognition of Corticosteroid Resistant or Sensitive Sepsis) qui a pour objectif d’identifier et de valider des biomarqueurs de prédiction de la réponse thérapeutique aux corticoïdes dans le cadre du sepsis.

Sujet :
L’objectif principal de ce stage est d’étudier l’application des méthodes existantes de réduction de dimensions, dédiées aux données multi-omiques, sur les données omiques obtenues dans le cadre du RHU RECORDS, et de proposer une nouvelle méthode de réduction de dimensions en fonction des limites qui seront identifiées.

Profil du candidat :
Le ou la candidat(e) doit être titulaire d’une Licence en informatique ou bio-informatique.

Formation et compétences requises :
Le ou la candidat(e) doit avoir :
● Compétences solides en programmation objet et système et bases de données;
● Bonne expérience en bio-informatique (souhaitable mais non obligatoire);
● Bonne expérience en statistiques;
● Bonne expérience en machine learning;
● Bonne communication orale en anglais, compétences techniques en lecture et en écriture;
● La maîtrise du français est souhaitable mais pas obligatoire.

Adresse d’emploi :
Université de Versailles Saint-Quentin-en-Yvelines
45 avenue des États-Unis
78035 Versailles

Document attaché : 202201170955_Multic Omics & dimentionality reduction.pdf

Categories: Stages

Stage M2 Reims — Analyse de données de lectures EEG en néonatologie

Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : U. Reims — CReSTIC
Durée : 6 mois
Contact : nicolas.passat@univ-reims.fr
Date limite de publication : 2022-03-31

Contexte :
Le service de Néonatologie du CHU de Reims dispose de données IRM/EEG/aEEG (EEG d’amplitude) issues d’une cohorte d’environ 800 nouveau-nés à terme dans le cadre de l’étude LyTONEPAL dont l’un des objectifs est d’étudier les facteurs prédictifs du devenir défavorable (neuropathologies, troubles psychomoteurs) à 3 ans. Il s’agit également de déterminer les mesures de neuroprotection à mettre en place, en particulier pour la prise en charge pré-hospitalière des encéphalopathies anoxo-ischémiques.

Sujet :
L’expertise des cliniciens semble montrer que la généralisation d’acquisitions EEG pour la prise de décision de mise en hypothermie des prématurés dans les premières heures de vie est un facteur déterminant pour le devenir.
Dans ce contexte, l’extraction et la mise en corrélation des données issues de ces différentes modalités de mesure semblent déterminantes dans le choix de facteurs prédictifs. Actuellement, l’analyse des EEG est effectuée par une lecture empirique des signaux, grâce notamment à une expertise terrain des praticiens.
Nous souhaitons analyser une base de données d’annotations de lecture EEG construite par la communauté de néonatologie sur la base LyTONEPAL. Durant ce stage, l’étudiant(e) stagiaire devra s’approprier et s’appuyer sur les différents outils de traitement mis en place lors de précédents travaux. Le stage s’appuiera fortement sur l’expertise de lecture des médecins du CHU. Cela se traduira par des échanges réguliers avec le service de néonatologie du CHU de Reims. Les algorithmes de traitement des EEG donneront lieu à des codes programmés en langage Python (et/ou R) qui devront être documentés, testés et vérifiés sur des jeux de données fournis par le CHU et la litérature existante.

Profil du candidat :
Profil recherché : Étudiant(e) (M2 ou Bac+5) informatique scientifique et/ou mathématiques, intéressé(e) par la recherche en traitement du signal

Formation et compétences requises :
Compétences : statistiques des données, traitement du signal, techniques d’apprentissage (deep learning. . . ), programmation (Python, R)

Adresse d’emploi :
Localisation : CReSTIC – UFR Sciences Exactes et Naturelles – Moulin de la Housse – 51100 Reims

Document attaché : 202110201234_2022_stage_proposal_eeg.pdf

Categories: Stages

Fri

Industrial Control with Knowledg Graphs

Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIMOS / Mines Saint-Étienne
Durée : 6 mois
Contact : victor.charpenay@emse.fr
Date limite de publication : 2022-04-01

Contexte :
With the rise of an Industrial Internet of Things (IIoT) and the increased connectivity of industrial equipment, of sensors and of actuators, industrial control now is at the intersection between information technologies (IT) and operational technologies (OT). Industrial processes can be controlled with agility and efficiency by remote software components. The objective of SIRAM (Integrated Systems for Mobile Assistant Robots), a regional project involving Mecaconcept, Creative’IT and Mines Saint-Etienne, is to develop an interoperable, adaptive information system that integrates mobile assistant robots (RAM) in the Industry 4.0 environment of the IT’m Factory. The prototype developed in SIRAM aims at showing how a control system can automatically adapt to contextual evolution and deal with heterogeneous objects on the same factory floor, including production equipment equipped with a pre-programmed industrial controller, low-power connected devices mounted on that equipment and industrial robotic arms.

Sujet :
The objective of the internship is to extend an existing Knowledge Graph (KG) describing the IT’m Factory, such that a remote agent-based control system can observe the real-time state of the factory and act on it in a unified manner. KGs are particular kinds of databases designed to capture knowledge from various sources, represented as a set of interlinked entities.

Profil du candidat :
– good programming level in an object-oriented programming language (preferred: Java)
– basics of RDF and Semantic Web technologies
– basics of logical inference
– (optional) basics of logic programming

Formation et compétences requises :
2nd year master program in Computer Science or Data Science

Adresse d’emploi :
Saint-Étienne (Espace Fauriel)

Document attaché : 202201061152_WS_Industrial Control with Knowledge Graphs.pdf

Categories: Stages

Méthodes d’apprentissage profond pour la segmentation du cerveau de la souris

Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CRMBM et insitut Fresnel
Durée : 6 mois
Contact : andre@fresnel.fr
Date limite de publication : 2022-04-01

Contexte :
L’IRM, une modalité d’imagerie biomédicale permettant de collecter des informations anatomiques, physiologiques, fonctionnelles et métaboliques, est employée dans l’étude de modèles souris de maladies cérébrales afin de mieux comprendre le développement des pathologies, d’identifier de possibles biomarqueurs d’intérêt diagnostique ou pronostique et d’évaluer l’efficacité de nouvelles thérapies. L’IRM du cerveau de souris nécessite le développement d’outils d’analyse automatisés permettant la segmentation d’un très grand nombre d’images de façon précise et reproductible, la tâche de segmentation manuelle étant longue et fastidieuse.

Sujet :
Les derniers développements en intelligence artificielle, comme le réseau de neurones convolutifs U-net spécifiquement conçu pour la segmentation automatique d’images, sont particulièrement performants. Bien que l’étape d’apprentissage des réseaux de neurones puisse être longue et complexe, l’étape de prédiction est quant à elle simple et rapide. Ce dernier point constitue le principal intérêt de l’apprentissage profond à base de réseau de neurones pour notre application. Les objectifs de ce stage sont multiples : réaliser un état de l’art des différentes méthodes d’apprentissage profond pour la segmentation du cerveau de la souris, implémenter et entrainer des réseaux les plus pertinents sur notre base de données. Selon l’avancement du stage, deux choix seront possibles, orientés vers l’ingénierie ou la recherche. Le premier consistera à intégrer au système en place une solution existante répondant au problème. Le second concernera la recherche de solutions méthodologiques novatrices. Dans les deux cas, la constitution d’une base d’apprentissage et l’entraînement de réseaux (éventuellement sur un centre de calcul régional) seront réalisés.

Profil du candidat :
La/le stagiaire recruté(e) devra faire preuve d’autonomie et d’initiative, avec des compétences avérées en programmation en langage Python et un fort intérêt pour le domaine de l’intelligence artificielle par réseaux de neurones

Formation et compétences requises :

Ce stage s’adresse aux étudiants de M2 ou d’école d’ingénieurs en traitement du signal/image ou sciences des données

Adresse d’emploi :
Centre de Résonance Magnétique Biologique et Médicale – UMR 7339

Faculté de Médecine, 27 Bd Jean Moulin, 13385 Marseille

Document attaché : 202112170939_sujet-master-segmentation21-22_ER-RA-ER-AV-ER.pdf

Categories: Stages

Sun

INGÉNIEUR(E) R&D Réalité augmentée pour la téléopération sécurisée de robots

Apr 10 – Apr 11 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Awabot
Durée : 6 mois
Contact : ana-maria.roxin@ubfc.fr
Date limite de publication : 2022-04-10

Contexte :
Awabot Intelligence est spécialisée dans la prestation de conseils et de développement informatique pour des projets de conception et d’intégration robotique.

Awabot Intelligence développe et intègre des solutions de navigation autonome, d’intelligence artificielle et de téléprésence dans le domaine de la robotique de service.
Les robots sur lesquels ces solutions sont implémentées sont parfois amenés à être téléopérés par des utilisateurs au sein d’environnements complexes, conçus pour les êtres humains.

Cependant, en téléopération, les éléments perçus par l’utilisateur ne sont que ceux qui peuvent être captés par l’œil humain au travers d’un écran retranscrivant les données des capteurs embarqués sur le robot.

Sujet :
Afin d’améliorer l’expérience utilisateur en amplifiant ses capacités de perception du monde, Awabot Intelligence souhaite étudier l’utilisation de la réalité augmentée lors de la téléopération.

En particulier, l’équipe R&D souhaite pouvoir exploiter les capteurs visuels d’un robot pour détecter les éléments nuisibles à son fonctionnement (e.g., escaliers, câbles électriques, zones sécurisées, etc.) dans le but d’afficher des informations contextuelles à l’utilisateur afin de le guider dans ses manœuvres.

Le candidat retenu sera ainsi amené à intervenir sur le développement de nouveaux outils logiciels, que ce soit en se basant sur des technologies existantes ou en implémentant de nouveaux algorithmes de vision par ordinateur et de deep learning pour la réalité augmentée.

Le projet se déroulera idéalement sur 6 mois :
Etat de l’art sur la détection d’objets appliquée à la réalité augmentée. Analyse de l’existant.
Identification de solutions adaptées à la problématique. Définition de métriques pour l’analyse de performance.
Implémentation des solutions retenues pour différents cas d’usages.
Évaluation des solutions implémentées.
Documentation des avancées et des résultats.

Ce stage peut déboucher sur une proposition de thèse de doctorat.

Profil du candidat :
De formation Ingénieur ou Master 2 (Bac +5) en informatique/robotique/vision, vous recherchez un stage de fin d’études de six mois.

Formation et compétences requises :
Autonome, rigoureux et force de proposition, vous disposez des compétences suivantes :

bon niveau de compréhension des modèles mathématiques et de l’algorithmie,
aisance avec les langages de programmation (C++, Python, C#),
bonne capacité rédactionnelle.
Une première expérience avec le framework ROS/ROS2 et/ou un SDK de réalité augmentée est un plus.

Adresse d’emploi :
Awabot – 16 bis avenue de la République, 69200 Vénissieux

Categories: Stages

Fri

Apprentissage profond de la qualité de maillages 3D

Apr 15 – Apr 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire GREYC – Caen
Durée : 6 mois
Contact : olivier.lezoray@unicaen.fr
Date limite de publication : 2022-04-15

Contexte :
Stage Master 2/Ingénieur – Laboratoire GREYC – Équipe Image – 2022
Sujet : Apprentissage profond de la qualité de maillages 3D
Mots clés : Apprentissage Profond, maillages, estimation de la qualité.
Équipe et laboratoire : Équipe IMAGE, Laboratoire GREYC (UMR CNRS 6072).
Encadrants : Christophe Charrier (MC UNICAEN), Olivier Lézoray (PR UNICAEN).
Adresses email : {christophe.charrier,olivier.lezoray}@unicaen.fr
Stage : durée de 5-6 mois, à Caen, au Campus 2, Bâtiment F de l’ENSICAEN

Sujet :
Les technologies 3D ont très fortement évolué ces dernières années au point d’être largement utilisées dans plusieurs applications grand public, notamment les jeux 3D en réseau, les applications de visualisation 3D, et les mondes virtuels et immersifs 3D (avec l’apparition du MetaVerse). Dans ces applications, les modèles 3D sont la principale forme de média utilisée, généralement représentés sous la forme de maillages 3D triangulés. Les maillages 3D sont habituellement composés d’un grand ensemble de sommets et de faces connectés qui doivent diffusés en temps réel. L’utilisation d’un grand nombre de sommets/faces permet une représentation très détaillée d’un modèle et améliore sa qualité visuelle mais cela au détriment d’une augmentation conséquente des temps de calculs requis pour effectuer un rendu du maillage. Par conséquent, un compromis apparaît souvent nécessaire entre la qualité visuelle des maillages 3D et le temps de traitement associé, d’où le besoin de pouvoir évaluer la qualité des maillages 3D.

L’objectif d’une méthode d’évaluation de la qualité des maillage (MQA pour Mesh Quality Assessment) est alors de déterminer automatiquement, en utilisant ou non le maillage de référence, un score de qualité pour le maillage 3D donné. Si les méthodes d’évaluation de la qualité des images (IQA pour Image Quality Assessment) [1] ont connu un très fort développement et on été intégrées dans de nombreuses applications de VOD (avec VMAF [2] pour Netix par exemple), ce n’est pas encore le cas des méthodes de MQA qui sont encore peu développées [3, 4]. Si certaines sont apparues récemment [5, 3, 6, 7, 8, 9], peu d’entre-elles (à l’exception de [10, 11]) font usage de l’apprentissage profond. Pourtant, là où les méthodes classiques exploitent des caractéristiques géométriques locales telles que la saillance ou la courbure, une méthode par apprentissage profond de MQA pourrait fortement bénéficier de l’intégration de caractéristiques de plus haut niveau et apprises de manière supervisée.
L’objectif du stage est de faire un bilan des approches existantes, d’implémenter les plus représentatives, et de les comparer sur des données de référence pour lesquelles la qualité de référence des maillages 3D est connue. Une partie du stage sera également dédié à la conception d’un nouvelle méthode profonde de MQA, qui prendra en entrée des descripteurs locaux extraits du maillage (patchs, matrice de covariances, ou sous graphes) et exploitera un apprentissage faiblement supervisé avec le formalisme MIL (Multiple Instance Learning).

Plan de travail :
— Bibliographie sur les méthodes de MQA (Mesh Quality Assessment),
— Implémentation de méthodes de l’état de l’art, en particulier de [10]
— Proposition d’une nouvelle méthode profonde reposant sur des descripteurs locaux du maillage,
— Comparaisons sur les bases Liris/EPFL et Liris Masking

Références
[1] Lanjiang. Wang, “A survey on iqa,” 2021.
[2] Reza Rassool, “VMAF reproducibility : Validating a perceptual practical video quality metric,” in 2017 IEEE International
Symposium on Broadband Multimedia Systems and Broadcasting, BMSB 2017, Cagliari, Italy, June 7-9, 2017. 2017, pp. 1–2,
IEEE.
[3] Abdullah Bulbul, Tolga K. Çapin, Guillaume Lavoué, and Marius Preda, “Assessing visual quality of 3-d polygonal models,”
IEEE Signal Process. Mag., vol. 28, no. 6, pp. 80–90, 2011.
[4] Guillaume Lavoué and Massimiliano Corsini, “A comparison of perceptually-based metrics for objective evaluation of
geometry processing,” IEEE Transactions on Multimedia, vol. 12, no. 7, pp. 636–649, 2010.
[5] Ilyass Abouelaziz, Mohammed El Hassouni, and Hocine Cheri, “Blind 3d mesh visual quality assessment using support
vector regression,” Multim. Tools Appl., vol. 77, no. 18, pp. 24365–24386, 2018.
[6] Guillaume Lavoué, “A multiscale metric for 3d mesh visual quality assessment,” Comput. Graph. Forum, vol. 30, no. 5, pp.
1427–1437, 2011.
[7] Anass Nouri, Christophe Charrier, and Olivier Lézoray, “3d blind mesh quality assessment index,” in 3D Image Processing,
Measurement (3DIPM), and Applications 2017, Burlingame, CA, USA, 29 January 2017 – 2 February 2017, William Puech and
Robert Sitnik, Eds. 2017, pp. 9–16, Ingenta.
[8] Fakhri Torkhani, KaiWang, and Jean-Marc Chassery, “Perceptual quality assessment of 3d dynamic meshes : Subjective
and objective studies,” Signal Process. Image Commun., vol. 31, pp. 185–204, 2015.
[9] Kai Wang, Fakhri Torkhani, and Annick Montanvert, “A fast roughness-based approach to the assessment of 3d mesh
visual quality,” Comput. Graph., vol. 36, no. 7, pp. 808–818, 2012.
[10] Ilyass Abouelaziz, Aladine Chetouani, Mohammed El Hassouni, Longin Jan Latecki, and Hocine Cheri, “3d visual saliency
and convolutional neural network for blind mesh quality assessment,” Neural Comput. Appl., vol. 32, no. 21, pp. 16589–
16603, 2020.
[11] Ilyass Abouelaziz, Aladine Chetouani, Mohammed El Hassouni, Hocine Cheri, and Longin Jan Latecki, “Learning graph
convolutional network for blind mesh visual quality assessment,” IEEE Access, vol. 9, pp. 108200–108211, 2021.

Profil du candidat :
Prol recherché :
— Etudiant.e en Master 2 Recherche ou en dernière année d’école d’ingénieur spécialisé en informatique, image et/ou intelligence artificielle .
— Une solide formation en machine learning est indispensable.
— Des connaissances et expériences solides en traitement d’images, apprentissage profond et programmation (Python, TensorFlow/PyTorch) sont nécessaires.
— La maîtrise de l’anglais scientique et des qualités rédactionnelles sont importantes.
— Autonomie et curiosité pour la recherche scientique.

Formation et compétences requises :
Candidature : Pour postuler, envoyer par email aux encadrants un dossier avec CV, lettre de motivation, relevés de notes des deux dernières années de formation, ainsi que toute pièce susceptible de renforcer la candidature (lettre de recommandation, etc.).

Adresse d’emploi :
Laboratoire GREYC UMR CNRS 6072, Caen

Document attaché : 202201110915_sujetMasterDeepMQA2022.pdf

Categories: Stages

Apprentissage profond de superpixels

Apr 15 – Apr 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : GREYC
Durée : 6 mois
Contact : olivier.lezoray@unicaen.fr
Date limite de publication : 2022-04-15

Contexte :
Sujet de stage Master 2/Ingénieur – Laboratoire GREYC – Équipe Image – 2022
Apprentissage profond de superpixels
Mots clés : Apprentissage profond, Traitement d’images, Vision par ordinateur, Segmentation, Superpixels.
Équipe et laboratoire : Équipe IMAGE, Laboratoire GREYC (UMR CNRS 6072).
Encadrants : Olivier Lézoray (PR UNICAEN), Sébastien Bougleux (MC UNICAEN).
Adresses email : {olivier.lezoray,sebastien.bougleux}@unicaen.fr
Stage : durée de 5-6 mois, à Caen, au Campus 2, ENSICAEN, Bâtiment F.

Sujet :
En traitement et analyse d’images, un superpixel désigne une région formée de pixels ayant des caractéristiques bas niveau similaires, typiquement perceptuelles comme la couleur. Le partitionnement d’une image en superpixels fournit généralement une sur-segmentation dont la taille et la forme des régions dépendent du choix des caractéristiques, de la mesure de similarité, et de la façon dont les pixels sont regroupés. Les différentes méthodes de segmentation en superpixels se distinguent par ces choix, souvent guidés par le contexte, l’application sous-jacente. Parmi les méthodes de sur-segmentation, celles basées sur les superpixels assurent une simplification des images perceptuellement plus cohérente, s’avérant plus performant dans de nombreuses problématiques, par exemple la stylisation, la vectorisation, la compression, l’estimation de la saillance, la détection d’objets, la segmentation sémantique, ou l’estimation du flux optique dans des vidéos.

Ces dernières années, on a pu assister à une augmentation spectaculaire de l’adoption de l’apprentissage profond pour un large éventail de problèmes de traitement et analyse d’images. À l’exception de quelques méthodes (par exemple [1, 2, 3, 4]), les superpixels sont rarement utilisés en conjonction avec les réseaux profonds modernes. Une formulation par apprentissage profond de superpixels qui puisse être effectuée de bout-en-bout (une image en entrée, une segmentation en superpixels en sortie) serait pourtant très intéressante. En effet, les algorithmes classiques tels que SLIC [5] opèrent uniquement sur des caractéristiques de couleur, ce qui peut limiter leur adaptation à des domaines d’images spécifiques, médicales par exemple. Une segmentation en superpixels pourrait fortement bénéficier de l’intégration de caractéristiques de plus haut niveau et apprises de manière supervisée. L’objectif du stage est de faire un bilan des approches existantes, d’implémenter les plus représentatives, et de les comparer sur des données pour lesquelles la segmentation de référence est connue. Une partie du stage sera également dédiée à la conception d’une nouvelle méthode profonde de superpixels, en s’inspirant des avantages des méthodes existantes.

Plan de travail :
— Bibliographie sur les méthodes de superpixels par apprentissage profond,
— Implémentation de méthodes de l’état de l’art,
— Proposition d’une nouvelle méthode,
— Comparaisons sur la Berkeley Segmentation Data Base et autres bases.

Références
[1] Varun Jampani, Deqing Sun, Ming-Yu Liu, Ming-Hsuan Yang, and Jan Kautz, “Superpixel sampling networks,” in Computer
Vision – ECCV 2018 – 15th European Conference, Munich, Germany, September 8-14, 2018, Proceedings, Part VII, Vittorio
Ferrari, Martial Hebert, Cristian Sminchisescu, and Yair Weiss, Eds. 2018, vol. 11211 of Lecture Notes in Computer Science,
pp. 363–380, Springer.
[2] Wei-Chih Tu, Ming-Yu Liu, Varun Jampani, Deqing Sun, Shao-Yi Chien, Ming-Hsuan Yang, and Jan Kautz, “Learning superpixels
with segmentation-aware afnity loss,” in 2018 IEEE Conference on Computer Vision and Pattern Recognition, CVPR
2018, Salt Lake City, UT, USA, June 18-22, 2018. 2018, pp. 568–576, Computer Vision Foundation / IEEE Computer Society.
[3] Thomas Verelst, Matthew B. Blaschko, and Maxim Berman, “Generating superpixels using deep image representations,”
CoRR, vol. abs/1903.04586, 2019.
[4] Fengting Yang, Qian Sun, Hailin Jin, and Zihan Zhou, “Superpixel segmentation with fully convolutional networks,” in 2020
IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020, Seattle, WA, USA, June 13-19, 2020. 2020,
pp. 13961–13970, Computer Vision Foundation / IEEE.
[5] Radhakrishna Achanta, Appu Shaji, Kevin Smith, Aurélien Lucchi, Pascal Fua, and Sabine Süsstrunk, “SLIC superpixels
compared to state-of-the-art superpixel methods,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 34, no. 11, pp. 2274–2282,
2012.

Profil du candidat :
Prol recherché :
— Etudiant.e en Master 2 Recherche ou en dernière année d’école d’ingénieur, spécialisé en informatique, image et/ou intelligence artificielle.
— Une solide formation en machine learning est indispensable.
— Des connaissances et expériences en traitement d’images, apprentissage profond et programmation (Python, TensorFlow/PyTorch) sont nécessaires.
— La maîtrise de l’anglais scientique et des qualités rédactionnelles sont importantes.
— Autonomie et curiosité pour la recherche scientique.

Formation et compétences requises :
Candidature : Pour postuler, envoyer par email aux encadrants un dossier avec CV, lettre de motivation, relevés
de notes des deux dernières années de formation, ainsi que toute pièce susceptible de renforcer la candidature
(lettre de recommandation, etc.).

Adresse d’emploi :
Laboratoire GREYC UMR CNRS 6072, Caen

Document attaché : 202201110909_sujetMasterDeepSuperPixels2022.pdf

Categories: Stages

Sun

Commonsense Reasoning For Question Answering

Apr 17 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Télécom SudParis, Laboratoire SAMOVAR, Carian Soft
Durée : 6 mois
Contact : julien.romero@telecom-sudparis.eu
Date limite de publication : 2022-04-17

Contexte :
Commonsense is a skill every human has but that is hard to get for computers. A simple observation can convince us: When we write a text, we rarely state the obvious, what is commonsense. For example, we will rarely say that at night, the sun is not visible!

We can divide the problem of commonsense into two parts. First, there is commonsense knowledge, i.e. statements that we intuitively know are true. For example, the fact that elephants have a trunk. It is opposed to encyclopedic knowledge that is acquired by studying. For example, we learn that Paris is the capital of France at school. The second part is commonsense reasoning, i.e. using reasoning over commonsense knowledge. This kind of reasoning is particularly useful when it comes to question-answering. For example, to the question “where would I not want a fox?”, I could answer a hen house as foxes eat hens and hens are found in hen houses.

Sujet :
The goal of this project is to study the limitations of the current approaches. In particular, we will be interested in the CommonsenseQA dataset. State-of-the-art algorithms rely on a knowledge base called ConceptNet. This is a problem for several reasons:

* CommonsenseQA is partially built from ConceptNet, which biased the results.
* It is not clear if the approaches would generalize to other knowledge bases.
* They rely on a clear path between the question and the answer in the knowledge graph.
end{enumerate}

In the first part of this internship, we will study the existing methods such as MHGRN or QA-GNN. We will compare them by changing the knowledge base they use to see how they generalize. Then, we will see how we can leverage the weaknesses to propose a new approach.

Profil du candidat :
* English (French can be useful for daily life).
* Good knowledge of Python.
* Experience with machine learning and deep learning, in particular with frameworks like Pytorch.
* Basic knowledge about knowledge bases/ontologies.

Formation et compétences requises :
Master internship

Adresse d’emploi :
19 place Marguerite Perey, 91120 Palaiseau
or
9 Rue Charles Fourier, 91000 Evry

Document attaché : 202201170857_internship_commonsense_reasoning.pdf

Categories: Stages

Fri

ACDC with deep learning : Automatic Crater Detection and Characterization

Apr 29 – Apr 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Université Paris-Saclay, Centrale SUPELEC
Durée : 4-6 months + 3 years
Contact : frederic.schmidt@universite-paris-saclay.fr
Date limite de publication : 2022-04-29

Contexte :
This study takes place in the data deluge from the numerous space missions across the Solar System. The project proposes to develop a tool to automatically detect and characterize the most ubiquitous feature on planetary body : craters.
The aim is to developed a tool to define precise size and position of all craters in the scene, whatever the illumination conditions, the type of sensor and the scale. As a second goal, the project will have to determine the crater characteristics, such primary / secondary (ejecta from a previous impact, not from a direct impactor), presence / absence of rays, erosion level…

Sujet :
This study will take advantage of the machine learning and deep learning libraries available as open source to propose the most versatile and robust detection method. We propose to develop a new tool dedicated to this task. Such software pipeline is required to tackle fundamental questions in planetary science to study the surface processes across the Solar System. It will be a crucial tool to precisely date the surface and open a new era for onboard decisions on landing or targeting, to maximize the science return of future deep space missions.

The internship subject should continue in PhD and will take place in collaboration between planetary scientist and IA expert within University Paris-Saclay/Centrale SUPELEC.

Profil du candidat :
The candidate must have a engineer or master grade in machine learning/data mining or in astronomy/planetary science. Double competence in both fields will be encouraged.

Formation et compétences requises :
An excellent level of programming skills is required (Python, Linux). We expect the candidate to have a good level of communication in English (written and oral).

Adresse d’emploi :
Campus Université Paris-Saclay
91400 ORSAY, FRANCE

Categories: Stages

Sat

Deep neural network compression using tensor methods

Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : laboratoire d’informatique et systèmes (LIS) UMR
Durée : 5 to 6 months
Contact : zniyed@univ-tln.fr
Date limite de publication : 2022-04-30

Contexte :
Deep Neural Networks (DNNs) demonstrate good prediction performances in numerous applications. However, the architectures of neural networks are very large, reaching several million parameters, and running them on systems with limited computing capacity (embedded systems) becomes a difficult task. For this reason, we will focus in this internship project on the compression of DNNs by tensor methods.

Sujet :
This internship project deals with the study of new compression techniques for deep neural networks, by resorting to tensor decompositions to model and factorize the DNN weights. Recent studies show that DNN weight matrices are often redundant, and by restricting their ranks, it is possible to significantly reduce the number of parameters without a significant drop in performance. In this project, we propose to convert these matrices to a tensorial format and to use multidimensional data processing methods to compress them. The goal of this internship is to study different tensor representations, such as the canonical polyadic decomposition (CPD) or Tucker decomposition (TD), for the compression of the converted multidimensional weights. Specifically, we will study the compactness of these representations and their impact on the predictive accuracy of DNNs. In a first stage, the intern student will review the existing state-of-the-art tensor-based compression techniques and will get familiar with the tensor decompositions. Then, we will compare different representations with the goal to improve them and propose new tensor-based scheme for DNN compression.

This internship can be followed by a Ph.D research project, starting October, 2022, at LIS, Toulon

Profil du candidat :
M2R or engineering school students with major in signal processing, machine learning or applied mathematics.

Formation et compétences requises :
Good python programming skills are required. The knowledge of deep learning frameworks is a desirable plus. The candidate should have good writing and oral communication skills.

Adresse d’emploi :
The intern student will join the Signal and Image (SIIM) research team at the LIS laboratory, Toulon.
The internship will be supervised by Yassine Zniyed (Associate Professor at Université de Toulon) and Thanh Phuong Nguyen (Associate Professor/HDR at Université de Toulon).

Document attaché : 202202210815_Stage_M2R_2022.pdf

Categories: Stages

La fouille de données et l’analyse informatique de réactions chimiques

Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : GREYC (Groupe de recherche en informatique, image
Durée : six mois
Contact : bertrand.cuissart@unicaen.fr
Date limite de publication : 2022-04-30

Contexte :
Le projet AMPERE (stAtistically Motivated oPtimizations for ElectRosynthEsis) est porté par les laboratoires GREYC (UMR6072, INS2I) et LIMA (UMR7042, INC). Il rassemble une communauté d’informaticiens et de chimistes afin de développer des processus d’aide à la décision facilitant la découverte et l’optimisation de transformations chimiques innovantes s’inscrivant dans le contexte du développement durable. Le consortium du projet AMPERE souhaite mettre au point un outil d’optimisation adapté aux transformations électrochimiques, réactions répondant par définition aux critères de soutenabilité des processus réactionnels. Dans le domaine de l’électrochimie, il est difficile de développer ce type d’outil informatique en raison de la multiplicité des paramètres expérimentaux, de la diversité de leurs natures (continus et discontinus) et de la complexité de leurs interactions. Des efforts isolés pour lever ce verrou apparaissent depuis 2018 mais le développement d’un outil d’aide à la décision, puissant et versatile, permettra de démocratiser l’utilisation de l’électrochimie dans les laboratoires académiques et industriels, et d’accélérer la mise au point de processus chimiques sobres en ressources et énergie. Cet enjeu majeur fait l’objet de recherches actives dans les meilleurs laboratoires aux États-Unis et en Allemagne.

Sujet :
Le stage s’inscrit dans le projet mentionné au-dessus. Il a pour objectif de produire une première analyse des réactions produites par les chimistes du projet. Dans un premier temps, en collaboration avec l’encadrement, le stagiaire s’appropriera les méthodes actuelles de représentation et d’analyses des réactions chimiques. Ensuite, il donnera les éléments qui permettront aux scientifiques impliqués de faire les choix concernant la représentation des réactions, les techniques d’analyse adoptées.
Enfin, il implémentera ces choix et les évaluera pratiquement sur les données produites par le projet.

Profil du candidat :
Le stage s’adresse à un étudiant en Informatique dans le cadre du M2 ou de la cinquième année d’école d’ingénieur.

Le stage sera encadré par par deux chercheurs en informatique qui portent le projet, Jean-Luc Lamotte et Bertrand Cuissart.
Pour candidater, envoyez votre CV, vos relevés de notes et une lettre de motivation aux deux encadrants (prenom.nom@unicaen.fr).

Formation et compétences requises :
Le travail s’intégrant dans un projet de recherche informatique et orienté vers le traitement de données chimiques, le stagiaire devra assimiler des travaux récents de ce domaine, en étudiant les textes associés.
Il participera aux discussions sur les choix techniques, il aura la responsabilité de mettre en oeuvre un flot de traitement des réaction chimiques et d’en évaluer expérimentalement l’intérêt pratique.
La mission nécessite des connaissances informatiques concernant l’algorithmie des graphes, la fouille de données, un intérêt pour l’étude de la littérature scientifique ainsi que les compétences techniques pour réaliser un nouveau processus d’analyse de données.

Adresse d’emploi :
6 Boulevard du Maréchal Juin
Bâtiment Sciences 3
CS 14032, 14032 CAEN cedex 5

Categories: Stages

Performance of tensor-based machine learning methods for large-scale data

Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut de Recherche en Informatique de Toulouse
Durée : 5 to 6 months
Contact : henrique.goulart@irit.fr
Date limite de publication : 2022-04-30

Contexte :
Several machine learning problems can be addressed by leveraging
tensor methods, especially in unsupervised settings. This approach typically relies on estimating a low-rank tensor model from a noisy dataset, which is usually a challenging task. In general, it is difficult to anticipate the best (or the actual) estimation performance that can be attained. Nevertheless, recent years saw substantial progress in this direction, with many authors studying the attainable performance of estimators of such models under the assumption that the dimensions of the observed data tensor are large. This setting is particularly relevant for large-scale (also known as “big data”) scenarios, where a large number of observations is available.

Sujet :
The primary goal of this internship is to explore the implications of these recent results for some selected practical machine learning problems such as community detection in hyper-graphs, latent variable model estimation and high-order co-clustering. The intern will thus perform computer simulations aimed at understanding the behavior of estimation algorithms in these target problems, whose performance will be confronted to the existing theoretical predictions. New algorithms and strategies for dealing with these problems may be developed based on the the experimental findings. Scientific dissemination of these developments will be encouraged, via publication of papers and/or participation in scientific events.

Please see the attached file for more information.

Profil du candidat :
We look for strongly motivated candidates with a solid background on mathematics and statistics, having good programming skills in scientific computing languages (Python, Matlab, Julia).

Formation et compétences requises :
Optimization theory, linear algebra, probability and statistics. Knowledge/interest in tensors is a strong plus.

Adresse d’emploi :
2 rue Charles Camichel, 31071 Toulouse

Document attaché : 202112231624_sujet-stage.pdf

Categories: Stages

Stage M2 : Algorithme pour la prédiction de structures 3D des ARN

Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IBISC. Université d’Evry, Université Paris-Saclay
Durée : 6 mois
Contact : fariza.tahi@univ-evry.fr
Date limite de publication : 2022-04-30

Contexte :
Les ARN non codants sont des macro-molécules du vivant dont la fonction est liée à leur structure 3D (résultat du repliement de la séquence de nucléotides dans l’espace). La prise de conscience lors de la dernière décennie de la grande variété de ces ARN et des rôles importants qu’ils jouent à différents niveaux de la vie de la cellule, ainsi que de leur implication dans un grand nombre de maladies telles que le cancer donne lieu à un regain d’intérêt pour leur étude structurale. Par exemple, ils sont maintenant envisagés comme de possibles cibles thérapeutiques, comme le sont déjà différentes classes de protéines.

Notre équipe de recherche s’intéresse à la prédiction in-silico de la structure des ARN non codants. Récemment, un outil appelé MOARNA [1], a été développé, basé sur un algorithme multi-objectif, combinant différents critères ou objectifs : l’énergie de la structure 3D (modélisée en gros grain), l’énergie de la structure secondaire (structure intermédiaire composée uniquement de liaisons canoniques), des données expérimentales de type SHAPE, et des données statistiques sur les distances entres les nucléotides dans la structure, données générées notamment à partir de notre base de données RNANet [2], disponible sur la plateforme EvryRNA (http://EvryRNA.ibisc.univ-evry.fr.

Sujet :
L’objectif de ce stage est d’apporter des extensions et améliorations à cet outil. Notamment, deux aspects seront abordés :

1- L’outil utilise l’algorithme génétique multiobjectif classique NSGA-III, mais les solutions générées ne sont pas suffisamment uniformément réparties le long de l’ensemble de Pareto.
Il s’agit ici de réaliser une étude bibliographique sur les différentes techniques permettant d’améliorer la diversité des solutions générées, et de tester expérimentalement ces approches. Plusieurs articles [3,4,5] serviront de point de départ. La méthode la plus adéquate sera ensuite éventuellement adaptée, puis implémentée.

2- De nombreux algorithmes d’optimisation sont basés sur l’utilisation de voisinages pour explorer l’espace de solutions d’un problème. Dans la version actuelle de MOARNA, cet espace est exploré en effectuant des modifications des liaisons atomiques au niveau de la structure 3D, rendant l’espace d’exploration trop important et conduisant souvent à des solutions non réalistes. Dans ce stage nous souhaitons implémenter une méthode basée sur l’exploration de l’espace de solutions en effectuant des modifications sur la structure secondaire, et plus précisément sur ses appariements canoniques.

Il s’agira ensuite d’effectuer des benchmarks de l’outil final obtenu, en vue d’une publication dans une conférence ou revue internationale. L’outil obtenue sera mis à disposition de la communauté scientifique sur la plateforme EvryRNA (http://EvryRNA.ibisc.univ-evry.fr).

Bibliographie
[1] Louis Becquey, Algorithmes multicritères pour la prédiction de structures d’ARN, thèse de doctorat de l’université Paris-Saclay, 2021.

[2] L. Becquey, E. Angel et F. Tahi. RNANet: An automatically built dual-source dataset integrating homologous sequences and RNA structures, , Bioinformatics, 2020. https://doi.org/10.1093/bioinformatics/btaa944

Profil du candidat :
Etudiant en Master 2 (ou équivalent) en informatique ou bioinformatique

Formation et compétences requises :
Formation en informatique requise. Des connaissances en bioinformatique ou biologie sont les bienvenus.

Adresse d’emploi :
IBGBI. 23 bv. de France. 91000 Evry.

Categories: Stages

May

Sun

Exploiter les formats compacts pour concevoir un moteur d’inférence pour Internet des objets

May 1 – May 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Hubert Curien, St-Etienne
Durée : 6 mois
Contact : singh.d.kamal@gmail.com
Date limite de publication : 2022-05-01

Contexte :
Le Web des Objets (WoT) est le résultat de l’intégration dans le Web, d’objets communicants de l’Internet des Objets pouvant présenter des capacités limitées. Les applications du WoT concernent l’agriculture numérique, le bâtiment intelligent, les villes intelligentes, la santé, etc [Raw14]. Le Web sémantique forme un socle théorique privilégié pour les graphes de connaissances émergeant de l’échange, du stockage, du traitement et du raisonnement sur des données dans le WoT.

Nous focalisons à donner aux objets connectés une capacité de raisonnement sur les graphes de connaissances en embarquant les traitements au plus près de ces objets. Il s’agit pour cela de définir une architecture logicielle compatible à la fois avec la nature contrainte de ces objets et avec les standards du WoT – et notamment la notion de servient [WoT20] – et d’y intégrer un moteur d’inférences incrémental à base de règles. L’objectif de ce stage est de proposer une évolution de ce moteur en y intégrant des optimisations non prévues dans notre projet CoSWoT pour le parsing et l’échange de données compressées.

Les enjeux majeurs de l’utilisation des technologies du Web sémantique dans un environnement embarqué sont la verbosité des syntaxes concrètes de graphes de connaissances (e.g. Turtle ou JSON-LD) [Cha18] et la complexité du traitement sémantique de ces graphes [Ben21]. L’autre problématique est liée à la complexité du raisonnement différentiel sur données arrivant en flux : au fil du temps, les données peuvent évoluer, modifiant le graphe de connaissances sur lequel s’effectue le raisonnement.

Sujet :
Nous souhaitons exploiter les formats compacts de connaissances formelles pour concevoir un moteur d’inférence différentiel capable de raisonner de manière efficace en termes de mémoire, de calcul (bien adapté au type de processeur ou microcontrôleur), d’utilisation de la bande passante et de l’énergie.

Les tâches à réaliser sont les suivants :

i) L’étude des formats compacts de la littérature (notamment CBOR-LD et HDT) [CBOR-LD] [https://www.rdfhdt.org/]

ii) Concevoir et réaliser un parseur/serialiseur différentiel qui transforme efficacement les faits RDF dans une représentation compacte, qui sera fournie en entrée du raisonneur.

iii) Nous allons aussi adapter l’algorithme de RSP4J [Tom21] aux environnements embarqués pour parser les données à la volée.
L’implémentation du prototype sera réalisée en C pour avoir un code au plus proche des contraintes matérielles sur Arduino, ESP32, etc.

iv) Nous évaluerons l’efficacité de ces propositions via des expérimentations sur divers matériels et dans divers scénarios correspondant à des cas d’usage du raisonnement dans le WoT.

Références :

Profil du candidat :
Niveau 5A ou M2 (en cours)

Modalités de candidature :
Les candidats doivent envoyer les documents suivants :
une lettre de motivation
un CV
le dernier relevé de notes
Ces documents doivent être envoyées à : singh.d.kamal@gmail.com

Formation et compétences requises :
Des compétences en représentation des connaissances du Web sémantique.
Des compétences en programmation en C.

Adresse d’emploi :
Le stagiaire serait un/une membre du laboratoire LabHC, St-Etienne, France. Le Laboratoire Hubert Curien (https://laboratoirehubertcurien.univ-st-etienne.fr/en/index.html) est une unité mixte de recherche CNRS (UMR 5516) de l’Université Jean Monnet à Saint-Etienne, et de l’Institut d’Optique Graduate Ecole, travaillant sur des thématiques liées à l’optique, la photonique et les hyperfréquences, l’informatique, les télécoms et l’image. Les membres du LaHC impliqués dans le projet CoSWoT sont des chercheurs d’équipe nommée Data Intelligence. Ils sont spécialisés dans l’IA et le traitement des données.

Encadrants : Kamal Singh (LaHC), Riccardo Tommasini (LIRIS), Victor Charpenay (LIMOS)

Categories: Stages

Optimisation d’un moteur d’inférences embarqué

May 1 – May 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS, Université Claude Bernard Lyon 1, Campus de
Durée : 6 mois
Contact : lionel.medini@liris.cnrs.fr
Date limite de publication : 2022-05-01

Nous focalisons à donner aux objets connectés une capacité de raisonnement sur les graphes de connaissances en embarquant les traitements au plus près de ces objets. Il s’agit pour cela de définir une architecture logicielle compatible à la fois avec la nature contrainte de ces objets et avec les standards du WoT – et notamment la notion de servient [WoT20] – et d’y intégrer un moteur d’inférence incrémental à base de règles. Une première version de moteur d’inférences a été développée en C et fonctionne notamment sur architecture Arduino Due. L’objectif de ce stage est de proposer une évolution de ce moteur en y intégrant des optimisations non prévues dans CoSWoT pour le parsing et l’échange de données compressées.

Sujet :
Dans ce stage, nous nous focalisons sur le moteur d’inférence intégré au servient. Nous partons du principe que les données échangées entre les différents modules logiciels sont déjà compressées en CBOR-LD ou bien en HDT.
L’objectif principal de ce stage est de modifier le moteur d’inférence du projet CoSWoT pour tirer parti de cette compression en ré-indexant plus efficacement les triplets et leurs termes. Autrement dit, il s’agit de substituer la bibliothèque de stockage de faits actuelle pour la remplacer par des structures de données plus légères, afin de réduire l’empreinte mémoire du moteur d’inférence et d’optimiser sa vitesse de traitement. Différentes solutions pourront être envisagées pour cela, qui devront être compatibles avec le fonctionnement de l’algorithme, les capacités du dispositif sur lequel il est déployé et l’arrivée des données sous forme de flux.

Dans un second temps, ces améliorations devront être évaluées en termes d’espace mémoire et de temps de traitement sur différents jeux de données, différents scénarios et différents appareils. L’objectif est de déterminer les limites de cette approche par rapport aux autres moteurs du marché, et également de caractériser les capacités de raisonnement des différents dispositifs utilisés.

En fonction du temps restant, l’automatisation du déploiement sur différents appareils pourra également être réalisée.

Le code réalisé sera déposé en open source.

Références :

[Ben21] Bento, A., Médini, L., Singh, K., & Laforest, F. (2021, June). Raisonnement embarqué et distribué pour le Web des Objets: un état de l’art. In Journées Francophones d’Ingénierie des Connaissances (IC) Plate-Forme Intelligence Artificielle (PFIA’21) (pp. pp-48).
[Bon19] Bonte, P., Tommasini, R., De Turck, F., Ongenae, F., & Valle, E. D. (2019, June). C-sprite: efficient hierarchical reasoning for rapid RDF stream processing. In Proceedings of the 13th ACM International Conference on Distributed and Event-based Systems (pp. 103-114).
[CBOR-LD] Sporny, M. & Longley, D.. CBOR-LD 1.0 – A CBOR-based Serialization for Linked Data. W3C Member Submission, 2021. URL : https://digitalbazaar.github.io/cbor-ld-spec/
[Cha18] Charpenay, Victor, Sebastian Käbisch, and Harald Kosch. “Towards a binary object notation for RDF.” European Semantic Web Conference. Springer, Cham, 2018.
[Fer10] Fernandez, J.D., Martinez-Prieto, M.A. & Gutierrez, C.. Compact Representation of Large RDF Data Sets for Publishing and Exchange. In: The Semantic Web ISWC 2010, vol. 6496, pp. 193–208. Springer Berlin Heidelberg, Berlin, Heidelberg, 2010.
[Med16] Médini, L. An Avatar-based Workflow for the Semantic Web of Things. In WWW 2016 W3C Track.
[Mot12] Motik, B., Horrocks, I., Kim, S.M. Delta-reasoner: a semantic web reasoner for an intelligent mobile platform. In WWW 2012 companion volume.
[Mri15] Mrissa, M., Médini, L., Jamont, J.-P., Le Sommer, N., Laplace, J. An Avatar Architecture for the Web of Things. Internet Computing 19(2). IEEE, 2015.
[Raw14] Rawat, P., Singh, K. D., Chaouchi, H., & Bonnin, J. M. (2014). Wireless sensor networks: a survey on recent developments and potential synergies. The Journal of supercomputing, 68(1), 1-48.
[Roj16] Rojas, R., Médini, L., Cordier, A. Toward Constrained Semantic WoT. In WoT 2016.
[Sub16] Subercaze, J., Gravier, C., Chevalier, J., Laforest, F. Inferray: fast in-memory RDF inference. PVLDB 9(6). VLDB Endowment, 2016.
[Ter16] Terdjimi, M., Médini, L., Mrissa, M. HyLAR+: Improving Hybrid Location-Agnostic Reasoning with Incremental Rule-based Update. In WWW 2016, companion volume.
[Tom21] Tommasini, R., Bonte, P., Ongenae, F., & Della Valle, E. (2021). RSP4J: An api for rdf stream processing. In European Semantic Web Conference (pp. 565-581). Springer, Cham.
[WoT20] Kovatsch & al. (2020), Web of Things (WoT) Architecture, W3C Recommendation, https://www.w3.org/TR/2020/REC-wot-architecture-20200409/

Profil du candidat :
5A ingénierie ou master 2

Formation et compétences requises :
Programmation en C (éventuellement embarquée)
Représentation et raisonnement sur des graphes de connaissances
Programmation Web en JavaScript (facultatif)

Adresse d’emploi :
Université Claude Bernard Lyon 1, Campus de la Doua, Villeurbanne.

Le stagiaire sera rattaché au Laboratoire d’InfoRmatique en Image et Systèmes d’information (LIRIS). Le LIRIS est une unité mixte de recherche (UMR 5205) du CNRS, de l’INSA de Lyon, de l’Université Claude Bernard Lyon 1, de l’Université Lumière Lyon 2 et de l’Ecole Centrale de Lyon. Il compte 330 membres. Les recherches du LIRIS concernent un large spectre de la science informatique au sein de ses douze équipes de recherche structurées en six pôles de compétences.

Encadrants :
Lionel Médini, Pierre-Antoine Champin, Frédérique Laforest

Modalités de candidature :

Les candidats doivent envoyer les documents suivants :
-un CV
-une lettre de motivation
-le dernier relevé de notes

Ces documents doivent être envoyés à lionel.medini à liris.cnrs.fr

Categories: Stages

May

Tue

Prédiction des Concentrations de Polluants Atmosphériques en zone Aéroportuaire par Apprentissage Automatique