Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Dec
5
Sat
2020
Classification de séquences temporelles de déformations 2D d’organes
Dec 5 – Dec 6 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIS UMR CNRS 7020
Durée : 5 à 6 mois
Contact : marc-emmanuel.bellemare@univ-amu.fr
Date limite de publication : 2020-12-05

Contexte :
Dans le cadre d’un projet de recherche concernant la modélisation de la dynamique des organes pelviens (projet MoDyPe : http://modype.lsis.org) nous nous intéressons particulièrement à la déformation d’organes à tissus mous. Ce projet développé en collaboration avec des services de chirurgie du CHU La Timone (AP-HMarseille) vise à comprendre la physiopathologie des troubles de la statique pelvienne.

Sujet :
. Nous proposons une approche qui repose sur les résultats obtenus par la caractérisation de la dynamique des déformations des contours des principaux organes observés en 2D. Les principaux organes concernés par les pathologies sont observés par IRM dynamique 2D. Les déformations sont estimées à partir des contours extraits des images IRM de ces organes. Il s’agit alors de proposer une classification des patientes et de leurs pathologies, basée sur l’analyse de la réponse de descripteurs des déformations subies au cours du temps lors d’un « exercice de poussée ». Si ce premier résultat peut permettre une aide au diagnostic nous souhaitons en particulier mettre en évidence une parcellisation des contours des organes en fonction des déformations subies de sorte à pouvoir décrire les phénomènes en cours pour éventuellement pouvoir les reproduire par simulation bio-mécanique.

Profil du candidat :
Le candidat ou la candidate de niveau Bac+5, en formation d’ingénieur ou de master sera intéressé(e) par un projet pluridisciplinaire et l’imagerie médicale.

Formation et compétences requises :
La formation initiale attendue est dans le domaine du traitement des images. Des compétences en mathématiques appliquées seront particulièrement appréciées. Une expérience de la programmation avec l’environnement python est attendue. Le stage aura une durée de 4 à 6 mois avec la gratification d’usage

Adresse d’emploi :
Le travail se déroulera à Marseille au laboratoire d’informatique et des systèmes (LIS) dans l’équipe Image & Modèles. Le LIS UMR 7020 fédère plus de 375 membres. La recherche y est structurée au sein de pôles (calcul, science des données, analyse et contrôle des systèmes, signal et image), et centrée sur les activités dans les domaines de l’informatique, de l’automatique, du signal et de l’image

Document attaché : 202012051305_Sujet_Master2_ClassifDef2D.pdf

Stage en modélisation géostatistique
Dec 5 – Dec 6 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS, Rouen Normandie
Durée : 4 à 6 mois
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2020-12-05

Contexte :
La caractérisation des sites pollués s’effectue à l’aide de prélèvements de sol et d’analyses en laboratoire. Ces étapes longues et coûteuses limitent le nombre d’analyses réalisées sur le terrain. Dans ce contexte, L’entreprise Tellux développe des appareils de mesures innovants permettant d’analyser en temps réel la quantité de polluants.

Récemment des approches géostatistiques adaptées aux particularités des sites et sols pollués ont été développées pour cartographier les sols en fonction des quantités de matériaux contaminés. Elles visent à quantifier les incertitudes sur la quantité de polluants entre les sites de forages. Le couplage des analyses sur site et les méthodes géostatistiques, permettent d’envisager des campagnes de reconnaissance optimisées où le nombre et la localisation de nouveaux points de mesures sont déterminés au fur et à mesure de l’acquisition des données. Le but est de réduire l’incertitude sur la cartographie de la pollution.

Sujet :
L’objectif du stage est de concevoir et de tester les fonctionnalités d’un module de cartographie conçu à partir d’une librairie de fonctions existantes (méthode M-GS, développée par l’entreprise Estimages). Le stage se compose d’une étude bibliographique sur des algorithmes géostatistiques et la mise en œuvre d’algorithmes géostatistiques sur des données provenant d’un site réel. Cette démarche vise à tester les paramètres de la modélisation géostatistique afin de planifier des améliorations par des méthodes 3D, co-variogramme multiples, pour la poursuite du projet.

Profil du candidat :
– Étudiant.e en M2 ou 5ème année d’une école d’ingénieur, en génie mathématique ou sciences des données similaire, avec une motivation particulière pour les sciences des données (méthodes statistiques) ;

Formation et compétences requises :
– De solides compétences en programmation en Python ;
– De bonnes connaissances en statistique ;
– Un bon sens des relations humaines pour travailler en étroite collaboration avec l’équipe Tellux et les partenaires ;
– Un intérêt pour les sciences de la terre est un plus.

Localisation : Rouen
Rémunération : 600€ par mois
Possibilité de poursuite en thèse : oui

Contacts (CV + notes) : antonin.vanexem@tellux.fr, paul.honeine@univ-rouen.fr, maxime.berar@univ-rouen.fr thomas.demongin@estimages.com

Adresse d’emploi :
LITIS, Université de Rouen Normandie

Document attaché : 202012051433_Stage_géostatistique_LITIS.pdf

Dec
15
Tue
2020
Implémentation temps-réel de réseaux de neurones sur un système embarqué dans un véhicule autonome
Dec 15 – Dec 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UHA/IRIMAS EA 7499, Mulhouse, France
Durée : 6 mois
Contact : maxime.devanne@uha.fr
Date limite de publication : 2020-12-15

Contexte :
Le stage proposé s’inscrit dans le contexte actuel des véhicules autonomes. De nos jours, la perception de l’environnement autour du véhicule représente encore un verrou scientifique. Cette information est primordiale pour la planification de la trajectoire à suivre, et une erreur peut très vite coûter des vies. La perception de l’environnement peut se décomposer en deux tâches hiérarchiques : la détection des zones d’intérêt et l’analyse de la scène perçue. Ce stage se focalise sur l’analyse et l’interprétation de la scène. Une fois les zones d’intérêt détectées, il s’agira de définir le contour des potentiels obstacles (bounding boxes) ainsi que de définir la nature de ces obstacles (notamment leur caractère mobile ou non) et les caractériser (taille, vitesse…).
Avec l’augmentation des puissances de calcul, les approches basées données comme les réseaux de neurones et le Deep Learning permettent avec des données d’apprentissage, de concevoir un algorithme robuste et réactif à une grande variété de situations. Cependant, ces solutions sont extrêmement dépendantes des données d’entraînement, ainsi que des capacités de calcul des systèmes embarqués.
L’objectif de ce stage est d’implémenter dans les véhicules autonomes du laboratoire IRIMAS, des systèmes de perception basés sur le Deep Learning, et notamment sur les réseaux de neurones permettant d’intégrer les informations issues de plusieurs capteurs (cross-fusion).

Sujet :
Le/la stagiaire aura pour objectifs de faire un état de l’art sur les Réseaux de Neurones Convolutifs (CNN), ainsi que leurs applications à la perception des véhicules autonomes. Sachant que l’objectif est l’implémentation des algorithmes, le choix des solutions considérera comme critères la performance de l’analyse de la scène (« faux positifs », classification…) ainsi que le coût de calcul. Des méthodes de réduction de ce coût peuvent être explorées.
La partie pratique s’effectuera suivant la structure suivante : choix de l’algorithme de CNN cross-fusion, implémentation des algorithmes dans les systèmes embarqués des véhicules autonomes (PC embarqué ou GPU, programmation sous ROS/RTMaps/Python). Cette partie pratique s’accompagnera d’essais temps-réel sur les plateformes de recherche. De ces expérimentations techniques, le stagiaire analysera les résultats et fournira des pistes de recherche à la synthèse d’algorithmes de cross-fusion. L’ensemble des travaux de recherche réalisé par le/la stagiaire donnera lieu à des publications scientifiques pour des conférences internationales et/ou des journaux à facteur d’impact.

Profil du candidat :
Pour toute demande d’information supplémentaire ou pour candidater, merci d’envoyer CV, résultats de Master/ingénieur et lettre de motivation avant le 15/12/2020. Compte tenu de la situation d’urgence sanitaire actuelle, nous n’accepterons que des candidatures issues d’étudiant(e)s actuellement en études supérieurs sur le sol français.

Formation et compétences requises :
En dernière année de Master 2 ou équivalent
Compétences de programmation
Première expérience en deep learning

Adresse d’emploi :
UHA/IRIMAS EA 7499, Mulhouse, France

Document attaché : 202011171711_Stage_IRIMAS_CNN_2021.pdf

Specifying and Reasoning about Preferences over Inconsistent Knowledge Bases
Dec 15 – Dec 16 all-day

Offre en lien avec l’Action/le Réseau : RoD/– — –

Laboratoire/Entreprise : LaBRI – Laboratoire Bordelais de Recherche en Info
Durée : 5 mois
Contact : meghyn.bienvenu@labri.fr
Date limite de publication : 2020-12-15

Contexte :
Accessing the relevant information contained in real-world data to support informed decision making is difficult, time-consuming, and error-prone due to the need to integrate data across multiple heterogeneous sources. Moreover, even if this first hurdle is overcome, a perhaps even more daunting challenge arises: how to obtain reliable insights from imperfect data? It is widely acknowledged that real-world data is plagued with quality issues, such as incompleteness (missing information) and errors (false or outdated information).

The ontology-mediated query answering (OMQA) paradigm facilitates access to (potentially heterogeneous) data sources through the use of ontologies that specify a convenient user-friendly vocabulary for query formulation (which abstracts from the way the data is stored) and capture domain knowledge that can be exploited at query time, via automated reasoning, to obtain more complete query results. For example, querying for patients with infectious heart disease is non-trivial due to the myriad of ways such a generic condition can manifest, but by leveraging the knowledge formalized in medical ontologies (like SNOMED CT), it is possible to correctly return patients diagnosed with Chagall’s disease, toxoplasma myocarditis, etc. The OMQA approach is relevant to a wide range of data-intensive applications, and recent industrial projects have witnessed its practical benefits.

While OMQA systems are growing in maturity, they too often fail to address the data quality issue, aside from issuing warnings when inconsistencies are discovered. To widen the applicability of the OMQA approach, it is essential to equip OMQA systems with appropriate mechanisms for handling imperfect data: how to obtain meaningful answers to queries posed over imperfect data, and how best to generate a high-quality version of the data ?

The Master’s internship is part of the INTENDED Chair on Artificial Intelligence, whose aim is to develop intelligent, knowledge-based methods for handling imperfect data. A PhD position on a related topic is available.

Sujet :
Several different inconsistency-tolerant semantics have been proposed with the aim of providing meaningful answers to queries posed over inconsistent knowledge bases. Recent work has focused on how to integrate preferences into such semantics in order to exploit information about the relative reliability of facts in the data.

The aim of this internship is to explore declarative languages for specifying preferences between facts in the OMQA context. Specifically, we envision rule-based preference languages, along the lines of “If the data contains Salary(EMP,s1) and Salary(EMP,s2) and s1>s2, then prefer Salary(EMP,s1) to Salary(EMP,s2)” or “If fact1 and fact2 are in contradiction, fact1 was inserted after fact2, and fact2 is not from source A, then prefer fact1 over fact2”.

After defining a syntax and semantics for such preference rules, the student will investigate the associated reasoning tasks: Can we decide whether a given set of preference rules always yields an acyclic preference relation? Do the rules always define a total relation (i.e. precisely determine how to correct the data)? How does adopting preference rules rather than assuming an explicit preference relation affect the complexity of query answering under preference-based semantics?

Profil du candidat :
This is a foundational research topic and no programming or implementation will be done during the internship. Rather the student will define formally a preference representation language and study its properties (with formal arguments and proofs).

Formation et compétences requises :
Candidates should be currently enrolled in a M2 program in computer science (or possibly mathematics, if accompanied by relevant computer science background).

Candidates should have some prior experience with logic, and knowledge of one of more of the following topics would be helpful: knowledge representation and reasoning (in particular, description logics), Semantic Web (ontologies), database theory, logic in AI, theoretical computer science (computational complexity).

Knowledge of French is not required, while strong English skills are desired. The working language can be either French or English.

Adresse d’emploi :
LaBRI, Université de Bordeaux, Talence, France

Document attaché : 202011111016_master1-intended.pdf

Dec
20
Sun
2020
Lac de données pour l’archéologie
Dec 20 – Dec 21 all-day

Offre en lien avec l’Action/le Réseau : MaDICS-HN/– — –

Laboratoire/Entreprise : Laboratoire ERIC (Université Lyon 2, Campus Porte
Durée : 5 mois à partir de m
Contact : sabine.loudcher@univ-lyon2.fr
Date limite de publication : 2020-12-20

Contexte :
L’université Lumière Lyon 2 et l’université autonome de Barcelone travaillent ensemble depuis 2018 dans le cadre d’un projet visant à l’élaboration d’un lac de données en archéologie (projet HyperThésau du Labex IMU). Même si les données de l’archéologie sont aujourd’hui numériques ou ont été numérisées (carnets de fouille incluant texte, plans, croquis, photos…), il n’existe pas de norme pour ces données, ni de consensus sur les systèmes d’information archéologiques (SIA) : tableur bureautique, base de données FileMaker, serveur SQL propriétaire ou libre, etc. Pour maîtriser cette hétérogénéité, gérer la qualité et faciliter le partage et l’analyse, les partenaires du projet ont décidé d’utiliser le concept de « lac de données » pour conserver celles-ci, primaires ou enrichies, dans leur forme originelle.
Après avoir démontré l’intérêt et la faisabilité d’utiliser un lac de données dans le contexte de l’archéologie, les partenaires du projet (et en particulier le laboratoire ERIC, le laboratoire Archéorient et le musée d’archéologie de Catalogne) souhaitent poursuivre avec la conception et la mise en place d’un lac pour les données du site d’Ullastret du musée d’archéologie de Catalogne.

Sujet :
L’objectif du stage en informatique sera, dans un premier temps, de concevoir et de mettre en œuvre le lac de données pour stocker et interroger des données archéologiques hétérogènes. Dans un second temps, il s’agira d’expérimenter l’utilisation de méthodes d’Intelligence Artificielle pour extraire depuis les données primaires des informations qui permettent de les enrichir et de constituer les métadonnées nécessaires à l’analyse des données hétérogènes réunies dans le lac.

Les missions confiées au stagiaire seront :
1. la compréhension des données archéologiques à prendre en compte et une familiarisation avec la littérature consacrée aux lacs de données ;
2. la compréhension et l’appropriation d’un lac de données déjà implémenté dans le cadre d’un premier projet en archéologie ;
3. la conception du lac de données, du système de métadonnées et le choix des technologies à utiliser pour la création du lac ;
4. l’implémentation du lac de données et du modèle de métadonnées, en particulier sémantiques ;
5. l’alimentation du lac avec les données primaires dans leur forme originelle ;
6. l’alimentation du lac avec la documentation ou la transcription des données primaires.

Si le temps le permet, le stagiaire pourra également travailler sur :
7. l’utilisation de méthodes d’Intelligence Artificielle pour extraire des données primaires des informations qui permettent de constituer de nouvelles métadonnées ;
8. la création d’une interface pour l’alimentation du lac par les archéologues.

Profil du candidat :
Le sujet de stage s’adresse à des étudiant·es en 1re ou 2e année de master (ou équivalent) en informatique décisionnelle ou en sciences des données.

Formation et compétences requises :
Des compétences en bases de données, en traitement des données massives ou en technologies liées aux big data seront particulièrement appréciées.

Adresse d’emploi :
Merci d’adresser, avant le 15 décembre 2020, votre candidature avec un CV, une lettre de motivation ainsi que vos notes de l’année universitaire en cours et de l’année dernière à jerome.darmont@univ-lyon2.fr, sabine.loudcher@univ-lyon2.fr et jean-pierre.girard@mom.fr

Les candidat·es retenu·es seront convoqué·es pour un entretien en visioconférence en janvier.

Prédiction du niveau de pauvreté par Deep Learning à partir d’une séquence d’image satellites
Dec 20 – Dec 21 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIRMM (campus St Priest) dans l’équipe ICAR
Durée : 5-6 mois
Contact : Marc.Chaumont@lirmm.fr
Date limite de publication : 2020-12-20

Contexte :
Le Centre de synthèse et d’analyse de la biodiversité (CESAB) est un programme phare de la Fondation pour la Recherche sur la Biodiversité (FRB) et a pour objectif de mettre en œuvre des travaux innovants de synthèse etd’analyse des jeux de données déjà existants dans le domaine de la biodiversité. Faire progresser les connaissances, développer la culture et la collaboration, faciliter les liens entre les disciplines scientifiques et avec les acteurs, sont les principaux objectifs du CESAB, qui accueille chaque année un grand nombre de chercheurs de tous les continents. Plus d’informations sur le CESAB:http://www.fondationbiodiversite.fr/la-fondation/le-cesab/

Sujet :
Bien souvent en télédétection, on souhaite produire une cartographie géographique, c’est-à-dire produire une carte découpée en zones, où chaque zone est labellisée par une valeur. Cette valeur peut par exemple être le niveau de consommation annuel des ménages, la santé des actifs, etc. L’approche standard pour produire une cartographie consiste à extraire des caractéristiques / traits / informations pour chaque zone étudiée .Ces caractéristiques / traits / informations sont représentés par un ensemble de valeurs entières, réelles ou binaires. Elles peuvent être le matériau des bâtiments, le matériau des toits, le nombre de pièces d’une maison, le type de maison, les distances entre divers points d’infrastructure, la classification urbaine ou rurale, la température annuelle, les précipitations annuelles, etc. [Xieet al 2016 -Transfer]. Il est bien évident qu’il n’est pas aisé d’avoir accès à de telles informations qui nécessitent de faire des relevés ou des enquêtes sur le terrain. Une solution moins coûteuse pour faire la cartographie consiste à utiliser des images satellites de haute résolutio n(le principe de la télédétection consiste à faire de la mesure à distance), et d’extraire des caractéristiques qui pourront alors servir à prédire la valeur de chaque zone de la carte. Par exemple, en 2016, Xie et al. [Xie et al 2016 -Transfer] ont proposé de prédire le niveau de pauvreté (= niveau de consommation annuel des ménages) pour des zones de 1 km x 1 km. Toute la problématique de la cartographie par image satellite est qu’il est nécessaire d’avoir suffisamment d’images labellisées (images + valeurs pour chaque zone) pour pouvoir utiliser des algorithmes d’apprentissage automatique. Dans une publication plus récente, Jean et ses collaborateurs [Jean et al. 2019 -Tile2Vec], toujours dans un esprit d’approche faiblement supervisé, proposent un apprentissage par “triplet loss”. Cela correspond a apprendre avec des triplets d’imagettes (deux zones proches dans l’image satellite et une zone distante), un vecteur caractéristique discriminant la zone proche de la zone distante. Cet apprentissage est ainsi totalement non supervisé. Dans un deuxième temps, une régression est effectuée pour prédire le niveau de pauvreté à partir du vecteur des caractéristiquesde l’imagette en entrée. Les résultats de cette nouvelle proposition donnent une régression dont la corrélation est meilleure que celle obtenuepar l’approche par transfert [Xie et al 2016 -Transfer]. Il reste cependant encore une marge de progression puisque la corrélation après régression n’est que de 70%. La méthodologie est intéressante, mais comme indiqué par les auteurs [Jean et al. 2019 -Tile2Vec], elle ne prend pas assez en compte l’aspect temporel. Par ailleurs, les données sur lesquelles les expériences ont été effectuées ont été volontairement bruitées par les agences gouvernementales.

L’étudiant devra donc étudier et proposer une solution dans le cas où l’on dispose d’un ensemble d’images satellites prises sur une dizaine d’années, avec une fréquence variable, un échantillonnage à “trous”, une échelle en résolution variable et un faible nombre de données annotées. Dans un premier temps, l’étudiant devra faire un état de l’art des approches de segmentation (labellisation) d’images satellites, en veillant à étudier plus particulièrement les approches de prédiction utilisant des séquences d’images satellite. En parallèle, l’étudiant reprendra les expériences menées par l’équipede Jean et al. pour avoir une base de comparaison, mais également pour prendre en main les données dont nous disposons. En fin de stage, l’étudiant pourra comparer l’approche de Jean et al. et son approche basée sur la prédiction par séquence d’images.

Références
https://nealjean.com/

[Jean et al. 2019 -Tile2Vec] N. Jean, S. Wang, A. Samar, G. Azzari, D. Lobell, S. Ermon.Tile2Vec: Unsupervised representation learning for spatially distributed data. AAAI Conference on Artificial Intelligence (AAAI), 2019

[Jean et al. 2016 -PredictPoverty] N. Jean, M. Burke, M. Xie, W. M. Davis, D. B. Lobell, S. Ermon. Combining satellite imagery and machine learning to predict poverty Science, 353(6301), 790-794, 2016.

[Xie et al 2016 -Transfer] Transfer learning from deep features for remote sensing and poverty mapping. M. Xie, N. Jean, M. Burke, D. B. Lobell, S. Ermon AAAI Conference on Artificial Intelligence (AAAI), 2016

Profil du candidat :
Master 2 Informatique

Formation et compétences requises :
Programmation C/C++, Python, Classification, Fouille de données, connaissances en traitement d’images, connaissances de base en Deep Learning, anglais écrit scientifique.
Aucune connaissance en télédétection n’est requise

Adresse d’emploi :
LIRMM (Laboratoire d’Informatique, de Robotique et Microélectronique de Montpellier) Equipe ICAR, Bât. 5, CC 05016 -860 rue de St Priest, 34095 Montpellier cedex 5, France

Document attaché : Stage_Master_PARSEC_2020_FR.pdf

Dec
31
Thu
2020
Analyse tactique de sport collectif
Dec 31 2020 – Jan 1 2021 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : GREYC
Durée : 6 mois
Contact : francois.rioult@unicaen.fr
Date limite de publication : 2020-12-31

Contexte :
En analyse de la performance, la capture des informations conceptuelles est essentielle à la description et la modélisation des scénarios de jeu explorés par les joueurs, en entraînement ou en compétition [1]. De plus, la qualité collective de certains sports motive des besoins en identification de classes de situations, en détection de motifs de mouvements coordonnés au sein de situations similaires afin de faire émerger des régularités entre des ensembles hétérogènes de situations de jeu [2].

Ce travail s’intéresse plus particulièrement au handball, pour lequel de nombreuses données sont disponibles, en particulier des données de trajectoires. La pratique du handball implique de nombreuses séquences de jeu et un répertoire de tactiques bien délimité. Ce sport est bien étudié dans la littérature sur les aspects individuels de coordination et d’agilité, de force et de puissance, d’endurance et de cognition (voir [3] pour une revue extensive). Cependant, d’un point de vue collectif, les approches tactiques et stratégiques ont fait l’objet de développement mineurs. À l’exception de [4, 5, 6, 7], les aspects collectifs du handball sont très peu étudiés. Pourtant, c’est un sport où cet aspect domine.

Sujet :
L’objectif est donc d’appliquer une démarche exploratoire à des données de positions en handball, de manière à détecter des régularités dans les enchaînements tactiques. Pour cela, il convient de reproduire le cadre générer/tester utilisé par la fouille de données, de motifs ou de séquences, de façon à obtenir des résultats en terme de graphes dynamiques fréquents. L’espace de recherche des graphes dynamiques étant d’une taille qui rend difficile leur génération, on pourra plutôt utiliser une approche sans génération, pilotée par les données, initiée par la méthode FP-growth dans le domaine de l’extraction de motifs fréquents [8].

Ce stage est susceptible d’être poursuivi en thèse.

Envoyer CV, relevés de notes, recommandation et lettre de motivation montrant l’intérêt pour la recherche dans ce domaine à francois.rioult@unicaen.fr, avant le 31/12/2020.

Bibliographie
[1] Tim McGarry. Applied and theoretical perspectives of performance analysis in sport : Scientific issues and challenges. International Journal of Performance Analysis in Sport, 9(1) :128–140, 2009.
[2] Gennady Andrienko, Natalia Andrienko, Gabriel Anzer, Pascal Bauer, Guido Budziak, Georg Fuchs, Dirk Hecker, Hendrik Weber, and Stefan Wrobel. Constructing spaces and times for tactical analysis in football. IEEE Transactions on Visualization and Computer Graphics, 2019.
[3] Herbert Wagner, Thomas Finkenzeller, Sabine Würth, and Serge P Von Duvillard. Individual and team performance in team-handball : A review. Journal of sports science & medicine, 13(4) :808, 2014.
[4] Norbert Schrapf and Markus Tilp. Action sequence analysis in team handball. Journal of Human Sport and Exercise, 8 :S615–S621, 09 2013.
[5] M Tilp and N Schrapf. Analysis of tactical defensive behavior in team handball by means of artificial neural networks. IFAC-PapersOnLine, 28(1) :784–5, 2015.
[6] António Lopes, Oleguer Camerino, M Teresa Anguera, and Gudberg K Jonsson. Ball recovery in the handball tournament of the 2008 beijing olympic games : sequential analysis of positional play as used by the spanish team’s defence. In Proceedings of the 7th International Conference on Methods and Techniques in Behavioral Research, pages 1–4, 2010.
[7] Udo Feuerhake and Monika Sester. Mining group movement patterns. In Proceedings of the 21st ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems, pages 520–523, 2013.
[8] Jiawei Han, Jian Pei, and Yiwen Yin. Mining frequent patterns without candidate generation. ACM sigmod record, 29(2) :1–12, 2000.

Profil du candidat :
Étudiant.e en M2/ingénieur spécialité science des données. Une expertise ou un fort intérêt pour les problématiques liées à l’analyse de données sportives est un plus.

Formation et compétences requises :
Sciences des données, culture du sport collectif.

Adresse d’emploi :
Université de Caen – campus 2 Côte de Nacre – Laboratoire CNRS UMR6072 GREYC

Document attaché : 202012021159_stageDonneesSport.pdf

Apprentissage semi et faiblement supervisé pour de l’analyse vidéo
Dec 31 2020 – Jan 1 2021 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : SNCF
Durée : 6 mois
Contact : tony.marteau@sncf.fr
Date limite de publication : 2020-12-31

Contexte :
Au sein de SNCF Voyageurs, le Centre d’Ingénierie du Matériel réalise des missions d’expertise dans diverses spécialités lors de l’acquisition et la rénovation de matériels roulants. Intégré à l’équipe ETF1, le pôle « Intelligence Artificielle » expertise et conçoit des systèmes de vision artificielle ainsi que des solutions de surveillance audio et vidéo.

La problématique de disponibilité de jeu de données avec une labélisation forte pour entrainer de manière supervisé les modèles de deep learning est commune à tous les projets du pôle. L’acquisition de ce type de données est couteuse en temps et introduit des biais d’annotation. Pour contrer ces problématiques les modèles sont entrainés avec des données synthétiques ou scénarisées. Malheureusement, même si ce genre de données est intéressant pour valider la pertinence d’un modèle, ces données ne reprennent pas toute la diversité d’un environnement commercial.

Avant de pouvoir déployer les modèles en production il est donc nécessaire de les entrainer sur des données provenant de services commerciaux. La difficulté est que ces données sont soit faiblement labélisés ou partiellement labélisés. L’objectif de ce stage est donc d’évaluer et de mettre en place des approches faiblement et semi supervisé afin d’entrainer des modèles précédemment validé avec des entrainements supervisés.

Sujet :
Appliqué à un cas d’usage vidéo le stage aura pour but d’étudier deux approches afin d’évaluer les atouts, les faiblesses et la pertinence au regard du cas d’usage

1. Faiblement supervisé
2. Semi supervisé

Il sera nécessaire de se baser sur les travaux déjà menés dans le pôle et les techniques récentes dans la communauté scientifique.

La finalité du stage sera le développement d’un framework logiciel permettant d’entrainer facilement, sur des jeux de données faiblement ou partiellement annotés, des modèles validés via un entrainement supervisé.

Le stage sera découpé en trois parties :
– La première partie « littérature » permettra de découvrir les différentes approches et d’établir l’état de l’art dans le domaine
– La seconde partie « implémentation » sera l’application sur des cas d’usage SNCF des méthodes précédemment repérées
– Enfin la troisième et dernière partie sera dédiée au développement d’un framework afin de pouvoir entrainer tous les modèles

La publication en conférence sera possible et encouragé.

Concernant le matériel une unité de calcul équipé d’un GPU dernier cri (V100, RTX 8000, RTX 6000, Titan RTX, 2080Ti) sera mise à disposition du stagiaire pour évaluer ses implémentations.

Enfin des déplacements ponctuels sont prévus dans le cadre de certains essais ou réunions.

Profil du candidat :
Le stage s’adresse aux étudiants en Master 2 informatique ou traitement de signal ou en dernière année d’école d’ingénieur (BAC+5).

Le stagiaire devra faire preuve d’autonomie et d’initiative ainsi que d’un bon sens relationnel. Curiosité technique et un esprit de synthèse seront également nécessaires.

Formation et compétences requises :
Les compétences techniques ciblées pour ce stage sont :
– Système d’exploitation : Linux
– Langages : Python
– Librairies : OpenCV, TensorFlow ou PyTorch

Les compétences fonctionnelles suivantes sont demandées :
– Intelligence artificielle : Deep Learning (DNN, CNN, RNN)
– Computer Vision

Adresse d’emploi :
4 Allée des Gémeaux – 72100 LE MANS

Document attaché : 202010231149_2021-ApprentissageSemiSuperviséPourAnalyseVideo.pdf

Approches non supervisées pour le monitoring des espaces passagers
Dec 31 2020 – Jan 1 2021 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : SNCF
Durée : 6 mois
Contact : tony.marteau@sncf.fr
Date limite de publication : 2020-12-31

Contexte :
Au coeur du quartier d’affaires Novaxud, à deux pas de la gare du Mans, le centre d’ingénierie du matériel (CIM) regroupe toute l’expertise pour la conception du matériel roulant. Intégré aux pôles ingénierie du CIM, le pôle intelligence artificielle réalise la recherche appliquée sur les systèmes IA d’aujourd’hui et demain, afin de porter sur les matériels roulants, les innovations technologiques en computer vision et machine listening. La veille technologique active des équipes permet ainsi de réaliser des communications en conférence internationale, de proposer des brevets et de développer des systèmes embarqués intelligents permettant de répondre aux contraintes de l’exploitation ferroviaire

Sujet :
Le pôle intelligence artificielle vous propose d’embarquer avec elle pour un projet de recherche visant à monitorer l’ambiance des espaces passagers au sein des matériels roulants afin de reconnaître toute situation sortant de l’ordinaire.

Les approches supervisées, consistant à utiliser des jeux de données annotées pour détecter des situations bien particulières, se heurtent quelques fois à la disponibilité des données et aux complexités des situations à détecter. Depuis l’avènement des divers réseaux génératifs et auto encodeurs, les approches non supervisées se positionnent comme des approches complémentaires ayant des performances intéressantes.

Ainsi, votre stage consistera en 2 phases à développer d’abord à partir de données audio puis à partir de données vidéo, des algorithmes de détection d’anomalies dans les espaces voyageurs. Chacune des 2 phases de votre stage passera par 3 étapes principales
o Réaliser une veille technologique efficace afin de déterminer l’état de l’art des algorithmes de détection d’anomalies sur les données audio et vidéo.
o Développer et entraîner une architecture de machine learning permettant de détecter avec précision une situation anormale à partir de l’apprentissage de données
o Tester l’algorithme développé en environnement réel sur un train.

Enfin, à partir de la conception des deux architectures proposées pour l’audio et la vidéo, vous proposerez les mutualisations possibles entre les deux modèles.

Pour valoriser votre travail et pour votre rayonnement, la rédaction d’un article de conférence vous sera proposée.

Profil du candidat :
Vous êtes étudiant en dernière année d’école d’ingénieur ou Master 2 informatique, Data science, Computer Vision, ou machine learning. Vous êtes intéressés par les technologies nouvelles d’intelligence artificielle, et vous êtes curieux des récentes avancées. Vous parlez anglais et savez exploiter de la documentation anglaise.

Formation et compétences requises :
Vous avez une des compétences techniques suivantes ?
– Langages : Python, OpenCV, Scikit-image, Pillow, Flask
– Framework deep learning : Keras, TensorFlow, Pytorch
– Système d’exploitation : LINUX (Ubuntu / Fedora) & Windows

Adresse d’emploi :
4 Allée des Gémeaux – 72100 LE MANS

Document attaché : 202010231155_2021-ApprochesNonSupervisées.pdf

Deep Learning pour la détection, délimitation et discrimination d’arbres et de vergers de manguiers
Dec 31 2020 – Jan 1 2021 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2020-12-31

Contexte :
Le CIRAD est engagé dans le développement agricole des Pays du Sud, où la réduction de la pauvreté et la sécurité alimentaire sont des préoccupations sensibles. Ce développement passe notamment par le déploiement de solutions numériques innovantes, incluant l’acquisition d’information sur les filières agricoles et les systèmes de cultures. En Afrique de l’Ouest, notamment, la compréhension et la modélisation des filières fruitières sont freinées par un manque de méthodes et d’outils adaptés pour caractériser les systèmes à base d’arbres fruitiers, souvent complexes (ex. systèmes agroforestiers). Dans ce contexte, le projet PixFruit (UPR HortSys) vise à acquérir des données sur la production de mangues aux échelles de l’arbre et du verger pour informer des modèles de production régionaux afin de fournir aux acteurs de la filière des informations précises et fiables répondant à leur besoin. Afin d’extrapoler les productions de mangues à l’échelle d’une région à partir des données relevées sur le terrain par l’application smartphone PixFruitApp en cours de développement, il est nécessaire de délimiter et de classifier les arbres et les vergers pour fournir des données d’entrées complémentaires (surface cultivée, type de système de culture, densité de plantation, composition variétale…) aux modèles régionaux.

Les produits de télédétection, par le biais de l’analyse des images satellites multispectrales à très haute résolution spatiale, sont désormais reconnus comme des outils numériques innovants pour l’aide à la décision en agriculture. Leur capacité à cartographier et caractériser les surfaces agricoles a été démontrée depuis plusieurs années dans le contexte des grandes cultures. Toutefois, en pratique ces outils sont encore loin d’être adaptés à l’arboriculture, et encore plus fortement aux systèmes agroforestiers. La variabilité et l’hétérogénéité spatiales et spectrales de l’arbre lui-même comme de la plantation d’arbres restent des défis méthodologiques en télédétection. Les résultats obtenus en délimitation comme en classification par les approches classiques pixels ou orientés objets (random forest, SVM, etc…) sont en effet très limités et peu précis, la plupart du temps dès les premiers niveaux de segmentation. Ils sont aussi contraints par un grand déploiement sur le terrain et difficilement généralisables d’un type de système arboricole à un autre. Il est donc aujourd’hui nécessaire de rechercher des méthodes d’analyse de données plus adaptées aux données volumineuses et aux indicateurs complexes et inhomogènes issus de la télédétection, pour assurer l’extraction d’informations pertinentes de manière plus automatique et générique.

Sujet :
Nous proposons donc mettre en place des méthodes de classification et de segmentation neuronales par apprentissage profond (deep learning) pour la production d’informations cartographiques à partir des données du capteur Pléiades.
– Le premier objectif est d’identifier et détourer les manguiers eux-mêmes, en tant qu’arbres individuels, qu’ils soient isolés ou en verger
– Le second objectif est de développer des outils permettant de détecter, délimiter et classifier les vergers dans un bassin de production.
Dans tous les cas, il s’agira d’obtenir de meilleurs résultats en segmentation (délimitation des vergers, détourage des arbres) et en classification (reconnaissance des vergers selon leur espèce majoritaire, classification typologique des vergers selon la structure et la composition variétale, identification de l’espèce fruitière…) qu’avec les outils utilisés auparavant dans l’équipe du projet.

Au cours de ce stage, l’étudiant(e) évaluera le potentiel des deux types de réseaux de neurones les plus utilisés, sur plusieurs architectures de données, pour délimiter et classifier les vergers: les réseaux convolutifs (CNN) sur deux images Pléiades acquises en mars et juillet 2017, puis des architectures basées sur une combinaison de CNNS et de réseaux récurrents (RNN) sur l’association de ces images Pléiades et d’une série temporelle Sentinel-2.
Enfin, il/elle analysera les performances du réseau Mask-RCNN (Regional Convolutional Neural Network) pour identifier et segmenter correctement les arbres.

La zone des Niayes au Sénégal (503 km2) fera office de zone d’étude, pertinente par sa diversité de systèmes de culture comprenant différents niveaux de complexité et de densité (monocultures, systèmes extensifs et systèmes agroforestiers) et de nombreuses espèces d’arbres cultivés (manguiers, agrumes, anacardiers, neems…). En outre, cette zone bénéficie d’une importante base de données de terrain (11 300 manguiers et 12 211 vergers détectés, détourés et classifiés) et d’une expertise agronomique obtenues dans le cadre du projet PixFruit, qui seront mis à disposition du stagiaire pour permettre la réalisation technique de cette étude.

Mots clefs :
Télédétection, images satellites, très haute résolution spatiale, deep learning, réseaux de neurones, délimitation, discrimination, classification, vergers, arbres.

Durée du stage: 6 mois, en 2021.

Accueil:
L’étudiant(e) sera hébergé(e) pour la durée de son stage à la Maison de la Télédétection, 500 Rue JF Breton, 34000 Montpellier. Il/elle aura à sa disposition une machine de calcul et un accès aux outils informatiques de la MTD.
Il/elle sera potentiellement soumis à des périodes de télétravail selon les circonstances sanitaires.

Encadrement:
Le/la stagiaire sera encadré par deux chercheurs de l’UMR TETIS du CIRAD: C. Lelong, spécialiste en télédétection expérimentée dans les milieux agroforestiers, et R. Interdonato, informaticien spécialisé dans l’intelligence artificielle. Il/elle bénéficiera aussi du réseau de collaborateurs du projet Pixfruit, dont E. Faye (UPR HortSys) chef de projet et spécialiste de la filière mangue en Afrique de l’Ouest, J. Sarron (UPR HortSys) agronome mangue et spécialiste du traitement d’images drone, et F. Borne (UMR AMAP), spécialiste en traitement d’images et réseaux de neurones.

Financement:
Ce stage est soutenu par l’institut Convergences en Agriculture Numérique #DigitAg et bénéficie à ce titre d’un budget de fonctionnement, permettant notamment d’enrichir la base de données.
La rémunération du stagiaire sera de l’ordre de 600 euros par mois, calculée sur la base d’un pointage journalier et de 35h de travail par semaine.

Profil du candidat :
L’étudiant(e) sera spécialisé(e) dans le traitement des données numériques multidimensionnelles au format image. Il/elle sera en particulier sensibilisé(e) aux nouvelles approches de fouilles et d’analyses de données et les réseaux de neurones lui seront familiers. Il/elle devra être à l’aise en programmation, préférablement avec le langage Python et les bibliothèques pour le développement des réseaux des neurones (TensorFlow, PyTorch). Il/elle devra apprécier la découverte et l’exploration méthodologique, la démarche scientifique, et fera preuve d’un bon esprit d’analyse critique.
Un bon sens du travail en équipe est fortement souhaité, ainsi que le goût pour les collaborations interdisciplinaires. Une bonne culture dans les domaines thématiques de l’agroforesterie et de l’agriculture en Afrique de l’Ouest sera appréciée.

Formation et compétences requises :
Python (TensorFlow ou Pytorch)
GIS

Adresse d’emploi :
500, rue Jean François Breton, 34090 Montpellier

Document attaché : 202011171351_stageM2digitagTETIS_deepmango.pdf

Détection d’animaux marins sur des images aériennes par des méthodes non-supervisées et faiblement s
Dec 31 2020 – Jan 1 2021 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : IRISA/équipe OBELIX
Durée : 6 mois
Contact : minh-tan.pham@irisa.fr
Date limite de publication : 2020-12-31

Contexte :
Ce stage s’intègre dans le cadre du projet SEMMACAPE (https://semmacape.irisa.fr/), qui vise le développement d’un système automatique de suivi de la mégafaune marine. Ce projet est un partenariat entre le laboratoire de recherche IRISA (Institut de recherche en informatique et systèmes aléatoires) à Vannes, l’entreprise d’analyse d’image pour l’écologie Wipsea, l’institut pour la transition énergétique dédié aux énergies marines renouvelables (France Energie Marines – FEM), l’Office Français de la Biodiversité (OFB), et l’Institut Français de Recherche pour l’Exploitation de la Mer (Ifremer).

Sujet :
Afin d’analyser l’impact causé par l’installation des parcs éoliens sur la mégafaune marine, ce projet vise à automatiser les suivis environnementaux des parcs éoliens en utilisant des méthodes d’apprentissage profond supervisées et non-supervisées. Les tâches de ce projet, partagées entre les différents partenaires académiques et industriels, comprennent l’acquisition des images aériennes des animaux marins, l’annotation de ces images par des spécialistes du domaine, l’évaluation des méthodes de détection existantes et le développement des nouvelles méthodes de détection d’animaux marins.
Le-a futur-e stagiaire sera impliqué-e dans la détection d’animaux marins par des méthodes non-supervisées [1,2,3] et faiblement supervisées [4,5], i.e., des méthodes dont la détection se fait sans avoir des annotations ou avec peu d’information sur les images. Cela comprendra l’utilisation et l’évaluation des méthodes pré-existantes sur les données du projet, et, possiblement, l’adaptation de ces méthodes afin d’améliorer les résultats sur les objets ciblés.
Le-a futur-e stagiaire rejoindra l’équipe OBELIX (OBsErvation de L’environnement par Imagerie compleXe, http://www.irisa.fr/obelix) de l’IRISA à Vannes (Université Bretagne Sud, Campus de Tohannic).

Profil du candidat :
Formation Master 2 ou Ecole d’Ingénieur

Formation et compétences requises :
Traitement d’image, Machine Learning (expérience en Deep Learning appréciée)
Programmation Python (expérience avec Tensorflow et/ou Pytorch appréciée)

Adresse d’emploi :
Université Bretagne Sud – IRISA (équipe OBELIX), Vannes 56000, France

Document attaché : 202009241551_Proposition de stage.pdf

Modèles d’exploration et de synthèse
Dec 31 2020 – Jan 1 2021 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ERIC
Durée : 6 mois
Contact : jairo.cugliari@univ-lyon2.fr
Date limite de publication : 2020-12-31

Contexte :
En France, l’étude menée en 2016 par Santé Publique France a estimé à 48 000 le nombre de décès prématurés attribuables à la pollution de l’air (Pascal, 2016). Le Centre International de Recherche sur le Cancer (CIRC) a classé la pollution de l’air extérieur dans son ensemble et les particules fines en particulier, comme cancérogènes pour l’homme, avec des indications suffisantes pour un lien avec le cancer du poumon et des associations positives avec le cancer de la vessie (IARC Working Group on the Evaluation of Carcinogenic Risks to Humans, 2012).
C’est dans ce contexte que travaille depuis des années le Département Prévention Cancer Environnement du Centre Léon Bérard avec différents partenaires (e.g. Laboratoire de Mécanique des Fluides et d’Acoustique (UMR CNRS 5509 LMFA – École Centrale), Laboratoire Environnement Ville Société (UMR CNRS 5600 EVS – Lyon2/Lyon3) ou encore le Laboratoire d’Informatique (UMR CNRS 5205 LIRIS – Lyon2), l’INERIS ou encore Santé
Publique France) sur des études épidémiologiques sur les facteurs de risques environnementaux liés à différents cancers hormonaux (e.g. sein, testicule, etc.).
À titre d’illustration, pour le cancer du sein, le plus fréquent chez la femme, les causes environnementales et notamment l’exposition chronique à la pollution de l’air sont suspectées d’avoir un impact sur son incidence. En effet le dépistage, le vieillissement de la population et les facteurs de risque liés au mode de vie (alcool, alimentation, etc.) ne permettent pas d’expliquer à eux seuls les variations géographiques des taux d’incidence, et incitent, dès lors, à investiguer ces causes environnementales.
Dans le cadre d’une étude sur le risque de cancer du sien associée à l’exposition à la pollution de l’air, une simulation des concentrations de 8 polluants atmosphérique sur le territoire français a été réalisée via le modèle CHIMERE (modèle chimie-transport développé par l’INERIS). Nous disposons donc des concentrations horaires pour 8 polluants pour une
résolution fine (0,0625° x 0,125° soit environ 8 x 8 km) sur 21 ans 1990-2010.
Ce jeu de données permet d’analyser les expositions individuelles tout au long de la période pour les sujets d’études. La précision temporelle et la couverture spatiale permettent l’étude individuelle sur la période d’étude en suivant les parcours de vie : succession des lieux de résidence et des lieux de travail mais aussi les mobilités quotidiennes et prochainement
l’ensemble des autres activités quotidiennes (loisirs, visites, etc.) ainsi que des mobilités induites.
Néanmoins, ces données demeurent pour l’instant sous-exploitées notamment quant aux modèles spatio-temporels intrinsèques particulièrement aux niveaux les plus fins.
Dans ce contexte, le stage a pour objectif de contribuer, au sein d’un partenariat inédit entre le Centre Léon Bérard et le laboratoire ERIC, spécialisé en exploration de données temporelles, d’appréhender les modèles temporels et spatiaux sous-jacents permettant la synthèse et dès
lors l’exploitation routinière de ces données massives dans le cadre des présents et futurs projets épidémiologiques.

Sujet :
Vous serez chargé de la mise en place d’une méthodologie pour explorer des données spatio-temporelles complexes dans le but de proposer une/des synthèse·s de ces données singulières ou plurielles. Les données présentent plusieurs caractéristiques d’intérêt, ce sont de données multivariées avec une structure spatio-temporelle et la présence de phénomènes extrêmes. Il est envisagé que la personne recrutée exploite le plus grand nombre de ces caractéristiques dans les analyses. Une liste non exhaustive de missions du stage suit :
• Exploration statique des données horaires infra- et inter-polluant pour la détermination de profils types de pollution
• Analyse spatiale des polluants afin de déterminer les profils d’interactions
• Modélisation de la structure spatio-temporelle (par exemple en utilisant modèles additifs ou de données fonctionnelles)
• Caractériser les épisodes de concentration liés aux interactions de plusieurs polluants

Profil du candidat :
* Rigueur scientifique, capacité d’innovation et de synthèse.
* Capacité à lire et comprendre la littérature internationale (maîtrise de l’anglais scientifique)
* Maîtrise d’au moins un logiciel d’analyse de données (R, Python)
* Autonomie, bonnes qualités relationnelles et capacité à travailler en équipe
pluridisciplinaire

Formation et compétences requises :
Étudiant·e de M2 à orientation data science

Adresse d’emploi :
Laboratoire ERIC | Université Lumière Lyon 2 (5 avenue Pierre Mendès France, 69676 Bron, https://eric.msh-lse.fr/)

Merci d’adresser, votre candidature avec un CV, une lettre de motivation ainsi que vos notes de l’année universitaire en cours et de l’année dernière à Leny.Grassot@lyon.unicancer.fr, Thomas.Coudon@lyon.unicancer.fr et Jairo.Cugliari@univ-lyon2.fr.

Document attaché : 202011261447_OffreStageM2_CLB-ERIC_2021.pdf

Jan
1
Fri
2021
Reconnaissance de texte de règles métiers
Jan 1 – Jan 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Rman Sync
Durée : 6 mois
Contact : francois.rioult@unicaen.fr
Date limite de publication : 2021-01-01

Contexte :
Rman Sync est une startup spécialisée dans la transformation numérique des PME. Pour cela nous développons des solutions autour du Saas et de l’intelligence artificielle. Notre ambition et d’utiliser l’intelligence artificielle au quotidien en laissant l’humain prendre les bonnes décisions.

Sujet :
Pour simplifier ses interfaces graphiques, Rman Sync souhaite réaliser de la reconnaissance de texte de règles métiers en langue française.
Cette reconnaissance devra permettre la construction de règles de gestion « compréhensible » par un système expert defini.
Par exemple une règle du type « 3% de remise sur le rayon Lego sur la période de Noel » devra aboutir à la définition de la règle suivante :

regle.type(VENTE)
.trigger(Ligne.class)
.trigger(Produit.class).plv(“Lego”)
.until(new Event(« Periode de Noel »))
.mark(Remise.class).coef(new BigDecimal(“0.03”));

Dans ce cadre, le stage consistera à concevoir et à déployer un réseau “Named Entity Recognition” afin de permettre de créer un pipeline de transformation du texte en déclenchement de règles expertes.

Profil du candidat :
M2 / ingénieur en science des données – TAL

Formation et compétences requises :
Science des données
Traitement automatique de la langue
Reconnaissance d’entités nommées

Adresse d’emploi :
Caen

Jan
3
Sun
2021
Applications Web d’Apprentissage de Modèles de Connaissances
Jan 3 – Jan 4 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N Université de Nantes / Capacités
Durée : 5-6 mois
Contact : pierre-hugues.joalland@univ-nantes.fr
Date limite de publication : 1/3/2021

Contexte :
Capacités – filiale privée de l’Université de Nantes – valorise les travaux des laboratoires universitaires et accompagne les entreprises dans leurs projets innovants. L’entité KnowEdge collabore en lien étroit avec l’équipe DUKe du laboratoire LS2N dans le domaine de l’IA :
– construction et manipulation de modèles de connaissances
– réseaux bayésiens et modèles graphiques d’événements
PILGRIM est une librairie utilisée par de multiples projets : systèmes de recommandation, modèles de vieillissement, assistants médicaux personnalisés (https://www.lesechos.fr/pme-regions/innovateurs/capacites-cree-une-application-contre-la-recidive-du-suicide-1265447)

Sujet :
Nous recherchons un(e) stagiaire pour participer au développement d’applications Web en vue d’illustrer deux cas d’utilisation de PILGRIM :
– l’aide à la décision pour un réseau de capteurs connectés
– la simulation du vieillissement d’un champ d’éoliennes

Profil du candidat :
-> Savoir-faire technique en architecture client / serveur et développement d’applications Web
-> Autonomie dans l’organisation du travail
-> Intérêt pour l’IA, le machine learning

-> rémunération 1500 € net mensuel

Formation et compétences requises :
-> Bac + 5 Informatique
-> Développement d’applications Web
-> Compétences en C++, Python, binding SIP, API, Swagger, Flask, RQ, Redis, Git
-> Maîtrise de l’anglais

Adresse d’emploi :
Polytech’ Nantes
Campus de La Chantrerie
NANTES

Construction d’un vocabulaire de l’Agroécologie via le traitement automatique d’un corpus document
Jan 3 – Jan 4 all-day

Offre en lien avec l’Action/le Réseau : RoD/– — –

Laboratoire/Entreprise : Cirad
Durée : 6 mois
Contact : pierre.martin@cirad.fr
Date limite de publication : 01/03/2021

Contexte :
Le projet ASSET (Agroecology and Safe food System Transitions in Southeast Asia), coordonné par le Cirad et le Gret, a pour objectif d’accompagner et de promouvoir les approches territoriales de l’innovation, en partenariat avec l’ensemble des acteurs et en tirer des enseignements par une évaluation de leurs performances et impacts (2020-2025). Parmi ses activités, ASSET souhaite transformer une librairie existante en ligne ALiSEA (https://ali-sea.org) conçue pour des acteurs de la sous-région (Myanmar, Cambodge, Vietnam et Laos) en une plateforme de partage et de diffusion plus large des connaissances sur l’agroécologie, enrichie notamment par des travaux de recherche et d’experts, des traductions, des documents pratiques ou de vulgarisation, etc. Le corpus d’ALiSEA comporte actuellement 900 documents en anglais classés selon 6 approches de l’agroécologie, le pays et le type de document. Pour permettre la navigation au sein de ce corpus et accéder aux connaissances, la plateforme souhaite se doter d’un thésaurus documentaire. L’enjeu du stage est d’élaborer une première version de ce thésaurus.

La plateforme logicielle KEOPS (Knowledge ExtractOr Pipeline System) a, entre autres, été retenue pour instrumenter le développement de ce thésaurus. Cette plateforme logicielle propose différentes méthodes d’indexation de documents (en utilisant des mots clés libres ou un thésaurus, fouille de données basée sur un traitement lexical, etc.) et de classification.

Sujet :
L’objectif du stage est de produire une première version du vocabulaire contrôlé d’ALiSEA via l’analyse du corpus avec KEOPS, ce vocabulaire contrôlé étant le socle du thésaurus documentaire. Le stage sera co-tutoré par le Cirad et le Gret, avec d’une part une Convention de stage établie entre le Gret et l’organisme de formation, et d’autre part, un accueil par le Cirad.

En préalable à la construction du vocabulaire contrôle, l’étudiant conduira une revue de la littérature sur les méthodes de construction de thésaurus et les thésaurus de l’agroécologie développés et comparera les résultats d’indexation et de classification de KEOPS sur le corpus d’Alisea avec les thématiques considérées par ASSET. Cette évaluation inclut l’adéquation du thésaurus Agrovoc pour des classifications terminologiques diverses (e.g. expertes vs profanes).

Profil du candidat :
Etudiant de Master 2 (informatique) ayant des compétences solides en gestion des connaissances et text mining sensibilisé à l’agroécologie.

Formation et compétences requises :
Master 2 (informatique) ayant des compétences solides en gestion des connaissances et text mining

Adresse d’emploi :
Cirad -UR AIDA
Avenue Agropolis
34032 Montpellier cedex 5
France

Jan
4
Mon
2021
Analyse collaborative dans le décisionnel pour tou.tes
Jan 4 – Jan 5 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ERIC (Université Lyon 2, Campus Porte
Durée : 5 mois à partir de m
Contact : cecile.favre@univ-lyon2.fr
Date limite de publication : 2021-01-04

Contexte :
L’accès à l’informatique décisionnelle a été facilité par l’infonuagique. Toutefois, le décisionnel à la de-mande est soit limité, soit reste réservé aux spécialistes et hors d’atteinte des petites structures, indépen-dant.es et citoyen.nes, alors qu’il existe une forte demande sociétale d’analyse de données (self/open) simple et collaborative.
L’objectif du projet BI4people, financé par l’Agence Nationale de la Recherche (ANR), est de rendre le décisionnel disponible en ligne à des utilisateur/trices disposant de peu de ressources financières et de connaissances techniques, en automatisant des processus actuellement au mieux semi-automatiques. Dans le cadre du projet BI4people (http://eric.univ-lyon2.fr/bi4people/), le laboratoire ERIC (Lyon 1/Lyon 2) recrute un∙e stagiaire pour une durée de 5 à 6 mois, afin de participer à la mise en œuvre des recherches prises en charge par ERIC sur la dimension d’analyse décisionnelle collaborative.

Sujet :
L’analyse collaborative dans le contexte de la Business Intelligence (BI) a été étudiée selon différents points de vues, mais reste rare et se concentre principalement sur des aspects techniques. Il n’existe pas de solution globale à ce jour.

Le stage comportera 2 volets :
– Définition d’une typologie des moyens collaboratifs pertinents pour l’analyse BI
– Conception / spécifications / implémentation d’un framework pour l’analyse collaborative qui s’inscrira dans le développement global du projet ANR

– Définition d’une typologie des moyens collaboratifs pertinents pour l’analyse BI
Cette tâche est importante pour obtenir à la fois une vue d’ensemble globale des méthodes de collabora-tion pertinentes pouvant être utilisées dans la BI et une idée précise de la manière dont les utilisa-teur/trices pourraient bénéficier de la collaboration. L’analyse collaborative comprend le partage d’analyse, le mashup, l’annotation, la comparaison, la publication…
– Conception / spécifications / implémentation d’un framework pour l’analyse collaborative qui s’inscrira dans le développement global du projet ANR
Le framework développé inclura la gamme de propositions déterminées dans la typologie précédente. Un schéma sera dessiné pour représenter le processus collaboratif envisagé. Des spécifications devront être proposées avant la mise en œuvre.

Profil du candidat :
Business Intelligence, programmation/programmation web, gestion de données, rigueur.

Formation et compétences requises :
Le sujet de stage s’adresse à des étudiant·es en 1re ou 2e année de master (ou équivalent) en informatique décisionnelle

Adresse d’emploi :
Candidature à adresser à cecile.favre@univ-lyon2.fr et sabine.loudcher@univ-lyon2.fr ayant pour objet « Candidature Stage collaboratif BI4people » d’ici le 22 décembre 2020, accompagnée d’un CV et d’une lettre de motivation, ainsi que vos notes de l’année universitaire précédente.
Les candidat∙es retenu∙es après examen des dossiers seront convoqué∙es pour un entretien en visioconférence en janvier

Document attaché : 202012041321_sujet-stage_BI4PEOPLE_collaboratif.pdf

Synthèse et apprentissage de réseaux booléens prédictifs pour la différenciation cellulaire
Jan 4 – Jan 5 all-day

Offre en lien avec l’Action/le Réseau : RoD/– — –

Laboratoire/Entreprise : LaBRI, Univ Bordeaux
Durée : 4-6 mois
Contact : loic.pauleve@lri.fr
Date limite de publication : 2021-01-04

Contexte :
L’apprentissage de modèles informatiques permettant de reproduire et prédire les processus de différenciation cellulaire est un défi majeur avec de nombreuses applications en biologie et en médecine. D’un côté, les modèles logiques, en particulier avec les réseaux booléens, sont de plus en plus employés par les équipes en biologie théorique et expérimentale car ils correspondent bien avec le niveau de granularité des connaissances actuelles. D’un autre côté, l’essor des technologies de mesures en cellule unique, en particulier avec le single-cell RNA-seq, offre des données précises sur l’évolution des expressions des gènes au cours de processus de différenciation cellulaire.
Actuellement, à l’aide de méthodes logiques, nous savons énumérer des réseaux booléens qui satisfont les pré-requis demandés sur leur comportement, mais nous ne savons pas encore comment sélectionner ceux qui ont de bonnes capacités prédictives.

Sujet :
L’objectif de ce stage est d’ouvrir la voie à l’apprentissage de réseaux booléens prédictifs, en mettant au point différents scores de prédiction et en appliquant des méthodes d’apprentissage pour mettre en avant des caractéristiques des réseaux à optimiser. Par exemple: vaut-il mieux privilégier les réseaux simples, ou au contraire les plus complexes?

Le travail consistera dans un premier temps à mettre au point différents scores de prédictions d’un réseau booléen vis-à-vis de données de tests, et de les appliquer à différents jeux de données relatifs à la différenciation cellulaire. Puis, il faudra explorer différentes méthodes de type “Random Forests” ou encore “Principal Feature Analysis” pour apprendre les caractéristiques des réseaux booléens qui influent leur score de prédiction.
Le résultat du stage sera intégré dans la bibliothèque Python BoNesis (github.com/bioasp/bonesis).

Profil du candidat :
Étudiant de master informatique ou bio-informatique, avec une spécialisation IA/machine learning

Formation et compétences requises :
Une bonne connaissance des méthodes de type “Random Forests” et “Principal Component Analysis” est requise.
Des connaissances générales en logique propositionnelle et SAT, et des compétences en programmation (Python préférable, mais pas nécessaire) sont recommandées.
Aucune connaissance particulière en biologie n’est nécessaire.

Adresse d’emploi :
LaBRI UMR CNRS 5800
351, cours de la Libération 33400 Talence
France

Jan
8
Fri
2021
Détection d’objets et localisation dans les images sur smartphone
Jan 8 – Jan 9 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFAT, Université de Tours
Durée : 6 mois
Contact : cyril.derunz@univ-tours.fr
Date limite de publication : 2021-01-08

Contexte :
Financement pour 5 à 6 mois de stage à partir du 1er février pouvant être ajusté en fonction des contraintes du master.
Ce stage de Master 2, orienté Recherche, qui peut ouvrir sur une thèse, s’inscrit dans un projet de proposition d’un outil a destination des aveugles. Ce projet a pour but de développer des outils innovants basés sur des approches d’apprentissage profond pour l’aide aux déplacements des personnes malvoyantes.

Sujet :
Depuis quelques années, avec notamment l’avènement de l’apprentissage profond, l’IA fait des avancées importantes et son utilisation s’étend à de nombreux secteurs de l’activité humaine. Les jeunes handicapés sont soumis à un paradoxe : d’une part l’accès aux ressources numériques est une véritable révolution pour eux, mais d’autre part, ils sont souvent les laissés pour compte de ces progrès. Ce stage a pour mission de poser les jalons pour la production d’un assistant intelligent destiné à aider les handicapés visuels lors de leur déplacement.

Notre point de départ va concerner l’aide aux déplacements, avec trois volets liés entre eux. Une assistance intelligente doit permettre la reconnaissance d’objets dans l’environnement (objets du quotidien, objets personnels, objets mobiles, obstacles fixes, etc.), la cartographie de cet environnement pour adapter le déplacement à l’environnement direct, la définition d’interfaces homme-machine adéquates. Les objectifs de la thèse sur laquelle peut ouvrir ce stage portent sur trois thématiques de recherche en Informatique qui vont être liées entre elles par l’objectif que nous nous fixons : l’apprentissage machine à partir d’images, la géomatique, et l’interface homme/machine. Ce stage a pour objectif principal la question de l’apprentissage et de la reconnaissance des objets.

La détection d’objets à partir d’images/vidéos pour la reconnaissance de l’environnement proche a fortement bénéficié de l’avènement du Deep Learning allié aux évolutions récentes des capacités calculatoires [1,2]. Cependant, il reste de nombreux challenges pour l’instant non parfaitement couverts tels que la reconnaissance d’objets du quotidien, d’objets personnels, la détection d’obstacles fixes/mobiles, etc. Un aspect supplémentaire à la reconnaissance d’objets génériques concerne l’apprentissage en ligne et incrémental de la reconnaissance d’objet spécifiques choisis par la personne handicapée (comme ses objets personnels, l’entrée de son lycée, etc).

Une fois les objets détectés et reconnus, il faut pouvoir potentiellement les géolocalisés à l’aide des informations présentes dans les images et des données GPS du capteur exploité. Nous pourrions pour cela nous inspirer des travaux de [3,4] sur la localisation et l’identification des profondeurs.

L’objectif de ce stage est de proposer un premier outil permettant la reconnaissance d’objets à partir de photos en apprentissage profond et de leur localisation sur smartphone ANDROID. Après avoir fait un état de l’art sur les approches et outils existants, il s’agira donc de proposer un premier prototype.

Profil du candidat :
Etudiant en dernière année d’école d’ingénieur ou de master 2

Formation et compétences requises :
Etudiant en informatique.
Compétences attendues : Programmation Android, apprentissage (profond), notion de traitement d’images.

Adresse d’emploi :
LIFAT, Université de Tours, Site de Blois, 3 Place Jean-Jaurès 41000 BLOIS

Jan
10
Sun
2021
Stage PFE: Moteur d’exploration Big Data des données de campagne de mensuration
Jan 10 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : Université de Technologie de Troyes
Durée : 6 mois
Contact : babiga.birregah@utt.fr
Date limite de publication : 2021-01-10

Contexte :
DiTeX est une un laboratoire commun de R&D en Data-Innovation pour l’industrie du Textile et de l’habillement (DiTeX) qui regroupe l’Université de Technologie de Troyes (UTT) et l’Institut Français Textile et Habillement (IFTH). Il a pour ambition d’explorer les nouvelles voies dans le domaine de la modélisation statistique et des Big Data pour l’analyse et la valorisation des données appliquées aux problèmes et aux données de l’habillement. L’un des axes de développement de nouveau services concerne la segmentation des données métier (matériaux, mensurations, morphologie, etc.) pour permettre une exploration exhaustive des panels.

Sujet :
Pour avoir une bonne connaissance des données et de leur « richesse intrinsèque », il est important de mettre en place un moteur d’exploration. Ce moteur devra intégrer des algorithmes de classification et de segmentation de profils de campagnes de mensuration. L’objectif à terme est de pouvoir mesurer la fiabilité en identifiant (voir prédire) les critères impactant pour préconiser des techniques d’enrichissement de données.
Vos missions:
– Création d’une data pipeline
– Dimensionnement et création de la plateforme d’exploration
– Mise en place d’algorithmes de de segmentation
– Mise en place d’un outil de prédiction de la qualité des données.

Profil du candidat :
Le profil recherché doit avoir de bonnes connaissances en :
– Statistiques,
– Data science ou Big Data
– Ingénierie de la donnée (plus globalement),
De plus le candidat doit être en fin de cursus ingénieur ou master ou mastère spécialisé en Mathématiques ou Informatiques. Elle/il doit être capable de mener à bien une mission de « data exploration », présenter et défendre ses résultats.

Formation et compétences requises :
Sur le plan technique :
– Très bonne maîtrise de Python pour le data science,
– Rigueur dans la création et la gestion de bases de données,
– Connaissance en DataLake.

Adresse d’emploi :
Equipe Modélisation et Sûreté des Systèmes (M2S)
Département Recherche Opérationnelle, Statistiques Appliquées, Simulation (ROSAS)
Université de Technologie de Troyes
12, rue Marie Curie
CS 42060 – 10004 Troyes Cedex

Jan
15
Fri
2021
Automatic generation of session for fitness training
Jan 15 – Jan 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : PLEYO SAS / CNRS UMR6072 GREYC
Durée : Six months, e.g. Mar
Contact : riad.makdessi@pleyo.fr
Date limite de publication : 2021-01-15

Contexte :
The startup Pleyo, in development within Normandie incubation, works in the field of connected fitness. Its goal is to offer the user a complete experience by interacting in a playful way on a fitness device with a computer or game console.

Sujet :
The work required of the trainee is to design a training program generator. Depending on certain data, parameters and constraints, this generator will have to propose a training sequence made up of layers supporting multiple interacting training data and media formats, within the defined constraints.

A proposed approach for the work consists in the realization of a plan with techniques such as Markov decision process, and possibly machine learning techniques.

Profil du candidat :
Master 2 student in computer science or 3rd year of engineering school

Formation et compétences requises :
• Specialization in multi-agent systems, planning, reinforcement learning, MDP, constrained systems.
• Good level of English (read, written, spoken)
• Taste for sport, fitness, video games

Adresse d’emploi :
Caen (France)

Document attaché : 202101040906_PleyoInternshipProposal.pdf