[CFP] SUMAC’22: The 4th workshop on Structuring and Understanding of Multimedia heritAge Contents @ ACM Multimedia 2022

Date : 2022-10-10 => 2022-10-14
Lieu : Lisbon, Portugal
Hybrid mode attendance

*** Call for Papers for SUMAC 2022 ***
The 4th workshop on Structuring and Understanding of Multimedia heritAge Contents
In conjunction with ACM Multimedia 2022
10-14 October 2022, Lisbon, Portugal

Workshop: https://sumac-workshops.github.io/2022/
Conference: https://2022.acmmm.org

*** Aims and scope

The digitization of large quantities of analogue data and the massive production of born-digital documents for many years now provide us with large volumes of varied multimedia data (images, maps, text, video, multi-sensor data, etc.), an important feature of which is that they are cross-domain. “Cross-domain” reflects the fact that these data may have been acquired in very different conditions: different acquisition systems, times and points of view. These data represent an extremely rich heritage that can be exploited in a wide variety of fields, from Social Sciences and Humanities to land use and territorial policies, including smart city, urban planning, smart tourism and culture, creative media and entertainment. In terms of research in computer science, they address challenging problems related to the diversity and volume of the media across time, the variety of content descriptors (potentially including the time dimension), the veracity of the data, and the different user needs with respect to engaging with this rich material and the extraction of value out of the data. These challenges are reflected in various research topics such as multimodal and mixed media search, automatic content analysis, multimedia linking and recommendation, and big data analysis and visualization, where scientific bottlenecks may be exacerbated by the time dimension, which also provides topics of interest such as multimodal time series analysis.

The objective of the third edition is to present and discuss the latest and most significant trends in the analysis, structuring and understanding of multimedia contents dedicated to the valorization of heritage, with the emphasis on enabling access to the big data of the past. We welcome research contributions for the following (but not limited to) topics:

– Multimedia and cross-domain data interlinking and recommendation
– Dating and spatialization of historical data
– Mixed media data access and indexing
– Deep learning in adverse conditions (transfer learning, learning with side information, etc.)
– Multi-modal time series analysis, evolution modelling
– Multi-modal and multi-temporal data rendering
– Heritage – Building Information Modelling, Art Virtualisation
– HCI / Interfaces for large-scale datasets
– Smart digitisation of massive quantities of data
– Bench-marking, Open Data Movement
– Generative modelling of cultural heritage

*** Important dates

– Paper submission: 6 July 2022 (11:59 p.m. AoE)
– Author acceptance notification: 29 July 2022
– Camera-Ready: 21 August 2022
– Workshop date: 10 or 14 October 2022 (TBA)

*** Submission guidelines

Submission format. All submissions must be original work not under review at any other workshop, conference, or journal. The workshop will accept papers describing completed work as well as work in progress. One submission format is accepted: full paper, which must follow the formatting guidelines of the main conference ACM MM 2022. Full papers should be from 6 to 8 pages (plus 2 additional pages for the references), encoded as PDF and using the ACM Article Template. For paper guidelines, please visit: https://2022.acmmm.org/call-for-papers/.

Peer Review and publication in ACM Digital Library. Paper submissions must conform with the “double-blind” review policy. All papers will be peer-reviewed by experts in the field, they will receive at least two reviews. Acceptance will be based on relevance to the workshop, scientific novelty, and technical quality. Depending on the number, maturity and topics of the accepted submissions, the work will be presented via oral or poster sessions. The workshop papers will be published in the ACM Digital Library.

*** Organizers

Valerie Gouet-Brunet (LaSTIG Lab / IGN – Gustave Eiffel University, France)
Ronak Kosti (Pattern Recognition Lab / FAU Erlangen-Nurnberg, Germany)
Li Weng (Hangzhou Dianzi University, China)

Lien direct

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Changements morpho-structurels cérébraux chez les enfants de 1 à 4 ans avec paralysie cérébrale après thérapie motrice HABIT-ILE.

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LaTIM, CHRU Brest
Durée : 3 ans
Contact : beachild.contact@gmail.fr
Date limite de publication : 2022-06-06

Contexte :
La paralysie cérébrale (PC) est le handicap moteur le plus fréquent chez l’enfant, avec une prévalence de 2 à 3.6 cas pour 1000 naissances, concernant ainsi 125 000 personnes en France. Ce trouble non progressif lié à une lésion cérébrale intervenue pendant la vie foetale ou lors des 2 premières années de vie, entraîne notamment des mouvements et des postures anormaux. Alors qu’aucun traitement ne permette de “guérir” de la PC, des thérapies motrices innovantes existent pour favoriser la motricité de l’enfant avec PC. Des études cliniques ont démontré que des interventions intensives, basées sur l’activité et orientées vers une tâche précise, tel que le protocole d’intervention Hand and Arm Bimanual Intensive Therapy Including Lower Extremities (HABIT-ILE), améliorent efficacement la fonction motrice chez les enfants d’âge scolaire atteints de PC et auraient un impact positif sur la connectivité structurelle et fonctionnelle du cerveau. Etant donné que la majeure partie du développement cortical a lieu dans le décours temporel des 2 à 4 premières années de vie, le programme européen “early HABIT-ILE”, mené par l’équipe Brestoise, propose pour la première fois d’investiguer l’efficacité de la rééducation intensive et des mécanismes neurophysiologiques associés chez les enfants en âge préscolaire avec une PC uni et bilatérale.

Sujet :
Hypothèses et questions posées:
Les améliorations constatées sur le plan clinique suite à la thérapie HABIT-ILE chez l’enfant en âge scolaire pourraient être associées à des modifications de la connectivité structurelle et fonctionnelle du cerveau. Cependant, aucun lien fort n’a été clairement établi à ce jour par manque de données et l’utilisation de méthodologies d’imagerie différentes. Par ailleurs, la majeure partie de l’organisation corticale ayant lieu dans le décours temporel des 2 premières années de vie, la mise en place d’interventions précoces constitue l’un des objectifs critiques en réadaptation pédiatrique. Notre hypothèse est que l’amélioration des capacités fonctionnelles induite par HABIT-ILE avant l’âge de 4 ans pourrait être corrélée à des changements majeurs de la morphostructure cérébrale au niveau du cortex sensorimoteur et du CST. Dans le cadre de cette étude, le travail de thèse aura pour objectif d’évaluer les changements morpho- structurels du cerveau en fonction du type de thérapie reçu, et d’étudier une potentielle corrélation entre les variations morphologiques cérébrales et la fonction motrice des sujets avant et après stage HABIT-ILE.
Grandes étapes de la thèse:
Grâce aux données d’imagerie cérébrales préalablement collectées lors de l’étude “early HABIT- ILE”, le/la doctorant(e) étudiera dans un premier temps l’effet de la thérapie intensive sur la structure et l’organisation du cerveau. Les changements neuroplastiques seront évalués au niveau de la substance grise corticale, en utilisant des analyses morphométriques (e.g. épaisseur de la substance grise corticale, plissement du cortex, et profondeur des sillons) et des approches d’intelligence artificielle. La/le doctorant(e) étudiera dans un second temps la relation entre les changements neurologiques structurels mesurés et les données préalablement acquises liées au contrôle moteur des membres supérieurs et inférieurs mesurées par analyse biomécanique spécifique aux tâches fonctionnelles. Un certain nombre d’algorithmes analysant la morpho-structure cérébrale ont été développés pour étudier les corrélats entre paramètres cérébraux et paramètres moteurs. Ces logiciels, comme CAT 12, ont été développés pour l’adulte, et non chez l’enfant jeune. La/le doctorant(e) développera les algorithmes en lien avec CAT 12 et le pipeline de pre-processing pour adapter ces algorithmes à la population étudiée, afin de pouvoir analyser les corrélats entre motricité et changements morpho-structurels. La définition de corrélats entre structure cérébrale et fonction motrice apportera une démonstration unique de cause à effet permettant non seulement de mieux comprendre au niveau fondamental l’intérêt d’instaurer des thérapies intensives avant l’âge de 4 ans, mais aussi de proposer, en s’appuyant sur un argument rationnel, une amélioration des protocoles de prise en charge d’enfants présentant une PC.

Profil du candidat :
Titulaire d’un diplôme bac+5 (Master 2 ou diplôme d’ingénieur) en traitement du signal, neurosciences, bio-engineering ou sciences du vivant.

Formation et compétences requises :
Traitement du signal et des images, neurosciences, programmation Python/Matlab

Adresse d’emploi :
LaTIM, CHRU Brest, Hopital Morvan.

Document attaché : 202205100948_Thèse iCAP.pdf

Analyse de Nouvelles Formes de Protestation

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LIP6 (CNRS et Sorbonne Université), Paris
Durée : 3 ans
Contact : Matthieu.Latapy@lip6.fr
Date limite de publication : 2022-06-06

Contexte :
Depuis quelques années, les militants et activistes à travers le monde inventent de nouvelles façons de faire entendre leurs voix, de protester, qui viennent en complément des manifestations classiques.

L’impact réel ou potentiel de tels mouvements est mal connu, et très peu étudié. Par exemple, la perturbation est-elle potentiellement forte ? Avec combien de participants, sous quelles hypothèses, et quelles cibles ? Est-elle comparable à celle d’une manifestation classique ?

Ces questions sont très liées à des problématiques classiques en informatique, comme par exemple la robustesse des graphes en cas de suppressions de sommets et/ou d’arêtes. Ici, le graphe représente le réseau de routes, et les activistes suppriment (temporairement) un sommet ou une arête du graphe. Ils peuvent être vus comme des agents ayant pour objectif de maximiser la perturbation tout en minimisant les risques, ou le nombre d’agents nécessaires. Des modélisations de dynamiques de graphes à base de flots de liens semblent alors particulièrement pertinentes.

Par ailleurs, les données nécessaires pour explorer ces questions sont aujourd’hui disponibles. En particulier, OpenStreetMap fournit librement des cartes extrêmement précises de réseaux de routes dans le monde entier. On dispose également de traces GPS de mobilité de nombreux individus.

Sujet :
L’objectif central de ce projet est d’étudier l’impact potentiel d’actions comme rebellion of one ou les convois de la liberté, avec un haut niveau de réalisme obtenu grâce aux données de terrain et à une modélisation appropriée.

En reposant sur OpenStreetMap, nous voulons tout d’abord modéliser la ville (ou plus largement le réseau de transports) comme un graphe de rues et de carrefours 8 9 . Nous verrons ensuite les activistes comme des agents susceptibles de supprimer ou surcharger, pour un temps (court) donné, des arêtes de ce graphe. L’objectif devient alors de mesurer l’impact (en termes de connexité, ou de durée des trajets, par exemple) d’une action. Cet impact dépend du placement et des déplacements des agents ; nous voulons donc étudier l’efficacité de plusieurs stratégies simples pour ces placements et déplacements.

En un second temps, nous souhaitons développer une modélisation adversariale : les agents activistes suppriment des arêtes ou des sommets, mais d’autres agents les rétablissent peu après, typiquement en supprimant (arrêtant) ou en dispersant des activistes. Les questions autour de la dynamique des agents des deux camps, ainsi que des questions de budget (combien d’agents dans chaque camp) deviennent
alors centrales.

Profil du candidat :
Le projet nécessite clairement une forte ouverture interdisciplinaire, entre informatique et mathématiques notamment, mais également avec la physique et les SHS. De façon similaire, une ouverture à une combinaison de travaux à la fois théoriques et pratiques est essentielle.

Formation et compétences requises :
En termes de compétences, une formation sur les réseaux complexes et/ou les processus stochastiques sera nécessaire (préliminaire ou à acquérir en début de thèse). De même, des compétences en programmation et en observation/analyse des résultats (statistiques) empiriques seront cruciales.

Adresse d’emploi :
LIP6, Sorbonne Université, Campus Pierre et Marie Curie, Paris

Document attaché : 202205100739_main.pdf

L’IA pour un meilleur accès au réseau de textes juridiques – Application à la législation française

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CEDRIC – CNAM Paris
Durée : 3 ans
Contact : nada.mimouni@cnam.fr
Date limite de publication : 2022-05-20

Contexte :
Dans un cadre de transparence envers ses citoyens et afin de faciliter leur participation à la vie démocratique, plusieurs pays ont opté pour le partage de l’information publique et adopté des lois favorisant l’accès à cette information sous toutes ses formes.

En particulier, l’accès au droit est rendu possible via des outils en ligne comme Legifrance (https://www.legifrance.gouv.fr/), un service public de diffusion du droit créé en 2002 en France. Il propose une base très complète constituée des codes officiels et textes consolidés en vigueur, textes du journal officiel et de jurisprudence.

Cet accès doit permettre au citoyen de tracer le cadre de ces droits et devoirs face aux situations auxquelles il est confronté tous les jours. Or, tel qu’il est conçu le droit peut s’avérer complexe et inaccessible pour un simple citoyen.

En effet, malgré l’encadrement dont bénéficie l’utilisateur de Legifrance pour interroger son contenu, un usage optimal suppose de maîtriser le mode d’élaboration des textes, leurs structures et chainages dans le temps, la hiérarchie des normes ainsi que le langage utilisé.

D’autres sites publics offrent des versions explicatives du droit présenté sous sa forme brute sur Legifrance. Leurs consultation s’impose au spécialiste du secteur de droit, tout comme au simple utilisateur, lorsqu’il s’agit d’interpréter les règles de droit. Ils seront souvent amenés à naviguer parmi les pages de ces sites et à travers les différents corpus (législation, jurisprudence, etc.) pour pouvoir construire une réponse à un besoin spécifique.

Dans ce contexte, l’accès à l’information juridique est la première grande question dans l’accès au droit.
Les textes dans le domaine juridique possèdent des caractéristiques spécifiques qui sont importantes à prendre en compte pour améliorer l’accès à l’information.
D’un côté, le contenu sémantique de ces textes est souvent exprimé par un vocabulaire et sous des formes linguistiques complexes. D’un autre côté, les documents sont de différents types avec une structure particulière à chacun de ces types et ils contiennent des références de différentes natures vers d’autres textes qui définissent le contexte dans lequel ils doivent être interprétés.

Sujet :
Les récentes avancées dans les différents domaines de l’IA ont mis en avant de nouvelles approches et méthodes de traitement de données de différentes natures (brutes, formatées, etc.) et types (numériques, textuelles, etc.). En particulier, dans le contexte d’accès à l’information juridique, nous jugeons très pertinent la mise en place d’une approche pluridisciplinaire d’analyse et de fouille dans ces collections de textes pour la prise en compte de ces dimensions sémantique et intertextuelle. L’objectif à terme est de proposer un système qui utilise des méthodes d’IA (méthodes statistique, symboliques, de traitement automatique de textes) combinées avec des techniques d’analyse de graphes pour mieux répondre aux besoins des utilisateurs.

Le projet a un double objectif qui se décline en deux étapes :

* Explorer l’utilisation des nouvelles technologies de l’IA pour la fouille de gros volumes de textes juridiques disponibles en ligne (modélisation sémantique, résumé automatique, traduction automatique, classification, régression, etc.).
* Intégration des résultats de la première étape dans un modèle sémantique plus complet pour un système riche d’accès à l’information juridique.

Profil du candidat :
Le (la) candidat(e) devra avoir de très bonnes aptitudes en apprentissage automatique et traitement de données. Une connaissance en ingénierie de connaissances et techniques du web sémantique sera très appréciée. Le (la) candidat(e) devra avoir de très bonnes aptitudes linguistiques en français et en anglais (parlé et écrit).

Formation et compétences requises :
Master 2 ou équivalent en informatique.

Adresse d’emploi :
CNAM Paris, laboratoire CEDRIC.

Document attaché : 202205091416_2022-AI-for-legal-access-cnam.pdf

Vers la découverte automatique de zones d’intérêt (ZOI) dans le domaine du transport maritime

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIS
Durée : 36 mois
Contact : etienne.thuillier@univ-amu.fr
Date limite de publication : 2025-06-05

Contexte :
Le transport maritime assure 90% des échanges mondiaux de biens et marchandises. D’un point de vue environnemental, il est de loin le moyen de transport le plus efficient à la tonne de marchandise transportée, bien qu’il doive lui aussi relever le défi de réduire significativement ses émissions. Aujourd’hui l’industrie maritime a initié une profonde transformation qui nécessite un effort important d’innovation et de recherche de la part de l’ensemble des acteurs de l’industrie pour lever les verrous technologiques et scientifiques actuels.

Le projet TNTM (Transformation Numérique du Transport Maritime) s’intègre dans ce contexte d’optimisation de l’industrie maritime et se propose d’agir sur l’ensemble des acteurs aussi bien en mer que sur terre, pour réussir le pari d’un transport moins-carboné voire décarboné. Ainsi, un des axes pour parvenir à ces objectifs est l’excellence opérationnelle qui vise à optimiser l’usage des navires.
Cette excellence opérationnelle est basée sur deux innovations majeures, la première innovation est celle de l’IoT et des données, encore très peu présentes sur les navires et les conteneurs maritimes. La deuxième innovation est liée à l’utilisation d’algorithmes d’optimisation pour améliorer la chaîne logistique maritime du transport par conteneur, en intégrant les dernières avancées de la recherche opérationnelle, des méthodes d’optimisation, de la simulation et du traitement de données (machine learning, etc.). C’est dans ce cadre que se situe cette thèse.

Aujourd’hui, de multiples acteurs différents (sites de chargements et déchargements, transporteurs, terminaux, etc.) sont impliqués dans le transport d’un conteneur. Chaque passage de responsabilité entre deux acteurs crée un risque de mauvaise exécution du plan de transport et cette chaîne logistique est désynchronisée. Il n’existe souvent aucune contextualisation dynamique du plan de voyage du conteneur, et ce, même en ayant connaissance des données issues du conteneur intelligent. Par exemple, les zones d’intérêts géographiques (ZOI) du plan de voyage sont créés manuellement par les utilisateurs et les clients. Autre exemple, des surveillances et des extractions manuelles des données sont réalisées quotidiennement pour fournir des alertes et des informations au client face à des événements inattendus.

Sujet :
Le contexte scientifique de cette thèse relève du Trajectory (Data) Mining, i.e., un ensemble de techniques visant à explorer, analyser, et fouiller des données spatio-temporelles issues des trajectoires d’objets mobiles. Différentes problématiques sont associées à ce domaine, comme par exemple l’analyse exploratoire, le clustering de trajectoires, la classification, la détection d’anomalies, etc.
Parmi les nombreuses problématiques liées à ce domaine, nous nous focaliserons dans cette thèse sur : (1) la reconstruction géographique des trajectoires à partir de données de géopositionnement de conteneurs maritimes, et (2) l’enrichissement sémantique des trajectoires, notamment par l’identification dynamique de ZOI.
Il existe de nombreux modèles mathématiques pour reconstruire des trajectoires à partir du clustering ou de l’identification de patterns dans des données spatio-temporelles. L’algorithme DBscan, et ses variantes, sont souvent les plus utilisés car bien adaptés aux traces de positionnement fournies par les technologies GNSS (Global Navigation Satellite System) ou aux données issues des télécommunications ou du radiopositionnement (Call Detail Records, indoor-positioning, etc.). Le challenge ici réside dans l’application de tels modèles à des données à grosse granularité temporelle comme celles utilisées dans le projet TNTM et qui sont des données AIS (Automatic Identification System).
Concernant l’enrichissement sémantique des trajectoires, le problème consiste à représenter et exploiter un ensemble d’informations contextuelles telles que la détection du mode de transport, le motif et le contexte de déplacement, la découverte des zones d’intérêts, etc. Dans le cadre de cette thèse nous nous limiterons à la détection automatique des ZOI et à leur classification. L’extraction de ZOI à partir de données spatio-temporelles se base généralement sur les algorithmes de reconstruction des trajectoires. On observe toutefois un recours accru aux données issues des connaissances terrain (données sursol, connaissance métier, etc.) pour enrichir et affiner la reconstruction de telles zones. C’est sur ce dernier point que nous concentrerons nos efforts pour développer un modèle de classification des ZOI.
Les principaux objectifs du projet de thèse sont les suivants :
* Analyser la qualité des données issues des conteneurs intelligents.
* Concevoir un modèle de représentation des trajectoires.
* Identifier les ZOI et leur emprise spatiale à partir des trajectoires spatio-temporelles des conteneurs.
* Classifier ces ZOI en fonction des informations contextuelles et des connaissances métier de notre partenaire industriel dans le projet TNTM.

Profil du candidat :
* Titulaire d’un master 2 ou diplome d’ingénieur en informatique

Formation et compétences requises :
* Solides compétences en apprentissage automatique (machine learning)
* Solides compétences en programmation objet et bases de données (python est un plus)
* Bonne expérience en statistiques
* Connaissances sur les SIG
* Bonne communication orale et écrite en français et anglais

Adresse d’emploi :
Laboratoire LIS, Marseille (Campus St Jérôme)

Document attaché : 202205091335_Thesis_TNTM.pdf

Semantic Segmentation of Heterogeneous Data by Deep Learning for the Prevention of Natural Hazards

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : PRISME / BRGM
Durée : 36 months
Contact : yves.lucas@univ-orleans.fr
Date limite de publication : 2025-06-05

Contexte :
The aim of this thesis is to evaluate the contribution of artificial intelligence to better assess the vulnerability of assets facing natural hazards, by unfolding impact scenarios in a multi-risk and multi-scale perspective. The highly multimodal and heterogeneous character of remote sensing data (visible, IR, hyperspectral, lidar, radar, topography, spectral libraries of materials ….) to characterize a territory, brings out a new methodological challenge: to develop network architectures adapted for the classification and semantic segmentation of these massive and complex data. This thesis work is also in synergy with the actions carried out at BRGM (H2020 COCLICO, VIGIRISKS, ANR RICOCHET projects) and the ANR-IA where joint work has been initiated between PRISME and BRGM

Sujet :
Complete description is available in the attached file.

Profil du candidat :
The candidate should have obtained a Master’s degree in computer science. Autonomy, scientific rigor and a strong motivation for the proposed subject will be undeniable assets to successfully complete the thesis.

Candidates must send the following documents in a single pdf file :
CV + cover letter + Master grades – optional letters of recommendation.

Contacts:

yves.lucas@univ-orleans.fr
a.hohmann@brgm.fr
c.negulescu@brgm.fr

Formation et compétences requises :
The candidate should have a broad knowledge of image processing, including deep learning techniques and their implementation in software and hardware. Fundamental notions in remote sensing are also required. Fluency in English is essential.

Adresse d’emploi :
Polytech Orléans · 12, rue de Blois, BP 6744 · 45067 cedex 2 Orléans , France

BRGM 3 avenue Claude-Guillemin, BP 36009 45060 Orléans Cedex 02 France

Document attaché : 202205091216_these_BRGM_PRISME_annonce_MADICS.pdf

Lac de données et référentiels de métadonnées pour élaborer des indicateurs de développement durable de la ville à l’aide de l’open Big data. Application aux pratiques sportives en ville

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IGN/DVRC/CNAM
Durée : 36 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2022-05-25

Contexte :
La disponibilité croissante de données couvrant des aspects variés de notre réalité est une opportunité pour mieux observer et comprendre cette réalité dans sa complexité en exploitant et croisant ces données. Des approches internationales se penchent alors sur la définition d’indicateurs suffisamment comparables dans l’espace et dans le temps, à l’échelle des pays ou des villes, pour évaluer et comparer des situations. Un indicateur des ODD plus précis à considérer pour élaborer et valider notre proposition est l’indicateur ODD11.7 de l’ODD11 ; à savoir l’accès pour tous à des espaces publics sûrs, tels que les espaces verts, les espaces pour les pratiques sportives, etc. En particulier, un domaine qui nous intéresse ici est celui de la pratique sportive dans la ville durable et l’impact de l’organisation de (méga-) évènements sur ces villes et sur les pratiques sportives.
Un évènement sportif est un phénomène spatio-temporel qui affecte structurellement, économiquement et socialement un territoire (le lieu accueillant cet évènement), et générant ainsi un héritage (Harada, 2005 ; Preuss, 2019). L’étude de l’impact des évènements sportifs sur les territoires et sur les pratiques sportives, en comparant des situations par exemple avant et après un (méga-) évènement, ou encore entre deux villes différentes, nécessite l’exploitation de données massives connues par leur volume, variété et vélocité. Il est également indispensable de pouvoir les croiser au-delà des domaines couverts, et de maîtriser suffisamment les biais possibles de comparaison. Cela peut s’avérer particulièrement complexe quand les données sont hétérogènes, de volume, de vélocité et de variété qui peuvent surpasser les capacités des systèmes traditionnels de stockage et de traitement des données. Par exemple, la région Île-de-France possède près de 2,4 millions de licenciés, 19 100 clubs et plus de 101 000 emplois dans le domaine sportif et plus de 7 millions de Franciliennes et Franciliens pratiquent une activité physique et sportive de manière régulière, sans compter les infrastructures et les équipements des pratiques sportives (Gautier et al., 2017).
Diverses solutions informatiques sont avancées dans la littérature pour améliorer le croisement de données hétérogènes et mettre en place des SI plus ouverts, comme les lacs sémantiques. En géomatique, des référentiels de référencement direct ou indirect sont spécifiés et produits pour permettre que la caractéristique de localisation de sources diverses soit employée pour les croiser. Des modèles de métadonnées sont enfin proposés pour rendre compte de sources d’incertitudes et de biais.

Sujet :
Ces recherches visent à faciliter l’étude comparée de phénomènes localisés grâce à l’open data et à des solutions avancées d’intermédiation, que ce soit pour étudier un même espace à deux dates (avant et après un évènement) ou pour étudier deux espaces (deux villes différentes). Plus précisément, nous ne visons pas la production automatique d’un diagnostic, mais plutôt d’accroître l’exploitabilité croisée des données ainsi que l’accès aux métadonnées nécessaires à l’adoption d’une perspective critique sur les résultats.
Le sujet de la thèse porte plus précisément sur la structuration de données et de métadonnées en vue de permettre des analyses critiques et comparées relatives à l’impact d’évènements et mégaévènements sur les pratiques sportives en ville. Ce sujet prend tout son intérêt pour les collectivités territoriales, pour des porteurs de projets numériques autour des pratiques sportives et pour les sponsors de grands évènements tels que les JO’2024 et d’autres grands évènements sportifs internationaux (GESI), tels que Roland Garros, et de Grands Évènements Sportifs Nationaux (GESN), tels que la Parisienne.
Le verrou principal est l’absence de cadre unificateur pour mobiliser des données pourvues d’hétérogénéités sémantiques. Celui-ci s’intéresse donc à réconcilier cette hétérogénéité, mais également à faciliter la manipulation et l’analyse de données avec une forte connectivité.
L’approche se positionne dans le domaine de la modélisation sémantique (extraction et transformation de schémas pour des bases de données graphes) et de la qualité en géomatique (description explicite des informations utiles à l’interprétation des données et à la détection de biais possibles).
Deux cas d’étude plus précis seront considérés pour élaborer et valider la proposition :
– La comparaison des parcours sportifs en ville, à vélo ou à pied, avant et après un mégaévènement comme les JO à l’aide d’open data : quels référentiels de données et métadonnées pour permettre le croisement et la comparaison ? Pour ce qui est du référencement spatial, la thèse étudiera particulièrement les référentiels indirects adoptés par les communautés, c’est-à-dire la description d’une localisation dans une donnée par une référence vers un objet pourvu de coordonnées géographiques (ISO, 2003 ; Hill and Zheng, 1999 ; Chen et al., 2018). Pour ce qui est de la comparaison avant-après, une question concerne la valorisation durable d’un patrimoine, par exemple la promotion de lieux importants de l’histoire du sport cycliste lors de JO, comme l’INSEP ou le Vélodrome Jacques Anquetil, nouvelle dénomination de l’antique Cipale, ou encore le bâtiment où l’union cycliste internationale a été créée le 14 avril 1900, devrait permettre que ce patrimoine structure davantage de parcours après les JO qu’avant, soit en matière de tronçons parcourus ou de pauses. On étudiera dans cette thèse, a priori, quelles conditions de disponibilité de référentiels et de solutions de croisement de données permettront de conduire ces analyses a posteriori.
– La comparaison des parcours sportifs en ville, à vélo ou à pied, entre deux villes en se fondant sur des données produites par différentes administrations et participants et pourvues de biais différents.

Profil du candidat :
● Un CV,
● Une lettre de motivation adaptée au sujet proposé,
● Les relevés de notes des dernières années d’étude,
● L’avis du directeur de master (ou de la personne responsable du diplôme donnant l’équivalence du master), le cas échéant des lettres de recommandation.

Formation et compétences requises :
Le candidat doit répondre aux exigences suivantes :
● Possède de solides compétences en informatique, en science des données ou en mathématiques (Master 2 ou équivalent en Informatique ou en Sciences de l’Information Géographique),
● Possède de bonnes connaissances en modélisation des systèmes d’information,
● À un intérêt marqué pour la recherche en science des données et les applications réelles de l’analyse avec un goût pour la pluridisciplinarité orientée vers les sciences de la ville,
● Possède de solides compétences en développement de logiciels pour pouvoir réaliser des idées de recherche en matière de prototypes de logiciel,
● Possède d’excellentes compétences en communication en anglais.

Adresse d’emploi :
50% ALDV (Paris la défense)
50% IGN (Marne la vallée)

Document attaché : 202205091006_Sujet-de-these_IGN-CNAM-DVRC_2022-2025Apublier032022.pdf

Contributions au diagnostic et au pronostic des Hyperparathyroïdies basées sur la fusion des connaissances des experts et l’intelligence artificielle

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Femto-st
Durée : 3 ans
Contact : moncef.soualhi@univ-fcomte.fr
Date limite de publication : 2025-10-01

Contexte :
Médecine nucléaire

Sujet :
Dans le cadre de cette thèse, nous proposons une aide au diagnostic des pathologies des parathyroïdes pour lesquelles il n’existe pas de processus automatique de localisation, de visualisation et de détection. Les praticiens ont recours à l’imagerie nucléaire grâce à l’usage de deux radios traceurs avec différentes opérations de reconstruction 3D puis de soustraction avec mise en évidence des parathyroïdes après un recalage des niveaux de gris. Le traitement laborieux demande encore aujourd’hui un réglage manuel des paramètres utilisés avec à l’issu un résultat qui dépend du manipulateur avant l’interprétation des images. Il s’agit alors de recourir à des techniques de machine learning pour identifier le bon paramétrage, différent à chaque acquisition pour automatiser le processus. Ainsi, grâce à la connaissance des nombreux cas cliniques connus (plusieurs centaines) au CHRU de Besançon dans le service de médecine nucléaire du pôle cœur poumon, il sera possible
d’entraîner un modèle issu de l’intelligence artificielle pour faire ce travail d’aide au diagnostic, sous le contrôle des praticiens du service.

Profil du candidat :
Le candidat titulaire d’un master en informatique, en science des données, en application mathématique, en automatisation doit avoir une connaissance étendue du traitement des images, notamment des techniques d’apprentissage profond et de leur mise en œuvre dans les logiciels et le matériel. Des notions fondamentales en exploration des données sont également requises. La maîtrise de l’anglais est essentielle. L’autonomie, la rigueur scientifique et une forte motivation pour le sujet proposé seront des atouts indéniables pour mener à bien la thèse. Le langage de programmation Matlab, Python, C++.

Formation et compétences requises :
Science des données
Sciences de l’ingénierie
Informatique
Mathématiques appliquées
Apprentissage profond
Apprentissage automatique
Traitement de l’image
Traitement du signal

Adresse d’emploi :
26 Rue de l’Épitaphe, 25000, Besançon

Document attaché : 202205090913_Thesis_PHM_Nucleaar_Imaging.pdf

Mise au point d’un assistant virtuel d’enseignement

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISN
Durée : 12 mois
Contact : anne.vilnat@limsi.fr
Date limite de publication : 2022-06-30

Contexte :
Nous recherchons un ingénieur de recherche/post-doctorant expérimenté pour travailler au sein du laboratoire LISN (laboratoire mixte CNRS-Université Paris-Saclay), avec des chercheurs spécialisés en Traitement Automatique des Langues (TAL).
Cette recherche s’inscrit dans le cadre du programme de maturation de 18 mois entre l’entreprise Professorbob.ai, leader dans l’apprentissage adaptatif, la SATT Paris Saclay (Société d’Accélération du Transfert de Technologies) et le CNRS. Les postes sont localisés dans les locaux du CNRS LISN.
Il s’agit de travailler sur un projet d’assistant virtuel d’enseignement dédié à l’éducation et la formation, qui fait l’objet d’une collaboration entre le laboratoire et l’entreprise qui travaille sur la mise au point de Professorbob.ai ( https://professorbob.ai/ )

Cet assistant devra être en mesure d’aider des étudiants dans leurs apprentissages :
– En répondant à des questions en rapport avec les sujets des cours
– En proposant des outils pour l’ancrage de connaissances
– En personnalisant l’apprentissage via des méthodes “d’apprentissage adaptatif”.
La création de l’assistant virtuel requiert des connaissances et une maîtrise techniques avancées sur les modèles et problématiques en traitement du langage naturel. Plus spécifiquement, nous nous intéresserons aux problématiques de génération de textes, de recherche d’informations, d’évaluation du langage et de transfert de domaine.
Les récentes avancées en matière de traitement de la langue nous permettent d’envisager la construction d’un tel système, en particulier grâce aux approches neuronales pour la génération de questions ou la recherche d’informations. Malheureusement, si les modèles les plus performants permettent d’obtenir des résultats satisfaisants en langue anglaise, peu de modèles pré-existent pour la langue française. Aussi, même s’il existe des corpus publiquement accessibles pour la tâche de génération de questions, ces corpus ne correspondent que partiellement aux types de question souhaités pour un assistant de cours. Pour pallier ce manque de données, nous travaillons à la mise en place d’un corpus de questions de cours en langue française d’ici à la date du début de contrat.
Les principales problématiques étudiées dans le poste proposé porteront sur la génération de questions et de réponses.
Les principales problématiques étudiées dans le poste proposé porteront sur la génération de questions et de réponses.

Sujet :
Le but global du projet est d’assister un enseignant en l’aidant à répondre à des questions nombreuses et répétitives des apprenants. Il faut donc apprendre à répondre aux questions, en s’appuyant sur des données fiables, fournies par les enseignants. En s’appuyant sur les travaux récents dans le domaine du TAL, on sait qu’il est possible d’améliorer les systèmes classiques et basiques de réponses à des questions. Cependant, les données au sein desquelles les réponses devront être trouvées ne sont pas les données classiques utilisées dans les campagnes d’évaluation, mais des données en lien avec la discipline en cours d’apprentissage.
Il sera dans un premier temps demandé de traiter les données de questions/réponses récoltées lors de la campagne d’annotation. Le travail consistera donc à formater et nettoyer les données disponibles.
Dans un second temps, les travaux porteront sur la génération de questions, mais aussi sur leur évaluation. Pour cela, il faudra évaluer quels sont les modèles et métriques les plus adéquats, mais aussi mettre en place un protocole d’évaluation pour valider les approches proposées. Il faudra par la suite être en mesure de déployer ces approches sur le système.
Enfin, les approches de sélection/génération de réponses seront étudiées et mises en place afin de permettre des améliorations significatives de l’assistant. Notons aussi que les problématiques d’évaluations étudiées pour la génération de questions pourront s’avérer aussi utiles dans cette dernière étape.
Le travail sera fait dans un cadre collaboratif avec 2 autres chercheurs et devra prendre notamment en compte les axes de recherche de l’équipe : transfer learning, continuous learning et IA conversationnelle.

Le but global du projet est d’assister un enseignant en l’aidant à répondre à des questions nombreuses et répétitives des apprenants. Il faut donc apprendre à répondre aux questions, en s’appuyant sur des données fiables, fournies par les enseignants. En s’appuyant sur les travaux récents dans le domaine du TAL, on sait qu’il est possible d’améliorer les systèmes classiques et basiques de réponses à des questions. Cependant, les données au sein desquelles les réponses devront être trouvées ne sont pas les données classiques utilisées dans les campagnes d’évaluation, mais des données en lien avec la discipline en cours d’apprentissage.
Il sera dans un premier temps demandé de traiter les données de questions/réponses récoltées lors de la campagne d’annotation. Le travail consistera donc à formater et nettoyer les données disponibles.
Dans un second temps, les travaux porteront sur la génération de questions, mais aussi sur leur évaluation. Pour cela, il faudra évaluer quels sont les modèles et métriques les plus adéquats, mais aussi mettre en place un protocole d’évaluation pour valider les approches proposées. Il faudra par la suite être en mesure de déployer ces approches sur le système.
Enfin, les approches de sélection/génération de réponses seront étudiées et mises en place afin de permettre des améliorations significatives de l’assistant. Notons aussi que les problématiques d’évaluations étudiées pour la génération de questions pourront s’avérer aussi utiles dans cette dernière étape.
Le travail sera fait dans un cadre collaboratif avec 2 autres chercheurs et devra prendre notamment en compte les axes de recherche de l’équipe : transfer learning, continuous learning et IA conversationnelle.

Profil du candidat :
Doctorat ou Master en rapport avec le Deep learning, idéalement avec le traitement de la langue naturelle

Formation et compétences requises :
Bonne maîtrise des outils du TAL :
– Modèles Deep Learning: connaissance théorique et manipulation avancée des RNN, Auto-encoders, Transformers (BERT / Roberta / T5,..), etc.. surtout des modèles de Question Answering, Question Generation, etc..
Bibliothèques et frameworks Deep Learning/Machine Learning comme Pytorch, Tensorflow, Keras, NLTK, Spacy, Scikit-learn, etc..
– Algorithmique: très bonne connaissance et maîtrise pratique des algorithmes classiques sur les textes, arbres, graphe – Statistiques: connaissances des techniques d’échantillonnage
– Expérience du développement et du débogage en Python
– Maîtrise de la démarche Data Science : définition des tâches, définition de métriques de performance, veille technologique, analyse de publications scientifiques, implémentation, fine-tuning et évaluation de modèles
– Anglais scientifique courant
– Aptitude à communiquer et à travailler en équipe

Compétences supplémentaires souhaitables
Moteurs de recherche et traitements textuels: indexation, utilisation d’ElasticSearch, Lucène / SolR, formalisation et recherche d’expressions régulières

Adresse d’emploi :
LISN
Campus universitaire bât 507
Rue du Belvedère
F – 91405 Orsay cedex

Document attaché : 202205051010_LISNingénieurR&D-Post-Doc.pdf

Enseignants/Ingénieurs d’étude

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoires de recherche de l’EPITA (LRDE/LSE)
Durée : CDI
Contact : pierre.parrend@unistra.fr
Date limite de publication : 2022-06-15

Contexte :
L’EPITA ouvre plusieurs postes d’Enseignants/Ingénieurs d’étude en informatique à temps complet, pour un recrutement au plus tard en début d’année scolaire 2022-2023.

Sujet :
Leur mission sera de mener des projets fortement innovants, développer les plates-formes de l’école et accompagner les projets des étudiants du Cycle ingénieur sur ses cinq sites,
afin d’accompagner la dynamique de développement de l’École à l’échelle nationale.

Profil du candidat :
Selon profil, les missions peuvent s’impliquer dans des projets de recherche, voire mener à la réalisation d’une thèse de doctorat.

Les informations précises concernant ces postes et le lien pour nous transférer votre dossier de candidature sont disponibles ici :

– https://www.lrde.epita.fr/~theo/postes_EPITA_EIE_2022.pdf

Formation et compétences requises :
Ingénieur ou docteur en informatique.

Il s’agit de soutenir nos équipes et axes de recherche sur les thématiques suivantes :
– Sécurité des logiciels et des architectures : identification, protection, détection et réaction,
– Système bas-niveau (noyau, assembleur), systèmes d’exploitation, machines virtuelles et informatique en nuage,
– Système embarqué (dont robotique),
– Science et ingénierie des données, extraction de connaissances,
– Apprentissage automatique et autres sous-domaines de l’IA,
– Traitement d’images, reconnaissance des formes et vision,
– Automates et leurs applications (dont vérification et synthèse),
– Logiciel et performance (dont HPC, GPU).

Adresse d’emploi :
L’EPITA a des campus dans les villes suivantes:
– Paris (Kremlin-Bicêtre et Campus Cyber à la Défense)
– Lyon
– Rennes
– Strasbourg
– Toulouse

Document attaché : 202205050942_postes_EPITA_EIE_2022.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Archives

[CFP] SUMAC’22: The 4th workshop on Structuring and Understanding of Multimedia heritAge Contents @ ACM Multimedia 2022

Changements morpho-structurels cérébraux chez les enfants de 1 à 4 ans avec paralysie cérébrale après thérapie motrice HABIT-ILE.

Analyse de Nouvelles Formes de Protestation

L’IA pour un meilleur accès au réseau de textes juridiques – Application à la législation française

Vers la découverte automatique de zones d’intérêt (ZOI) dans le domaine du transport maritime

Semantic Segmentation of Heterogeneous Data by Deep Learning for the Prevention of Natural Hazards

Lac de données et référentiels de métadonnées pour élaborer des indicateurs de développement durable de la ville à l’aide de l’open Big data. Application aux pratiques sportives en ville

Contributions au diagnostic et au pronostic des Hyperparathyroïdies basées sur la fusion des connaissances des experts et l’intelligence artificielle

Mise au point d’un assistant virtuel d’enseignement

Enseignants/Ingénieurs d’étude