MaDICS

Huitième édition du Symposium MaDICS (les inscriptions sont ouvertes !)

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Une Session Poster sera spécialement consacrée aux jeunes chercheuses et jeunes chercheurs souhaitant présenter leurs travaux en analyse et gestion de données et dans les domaines interdisciplinaires autour de la Science des Données. Cette session sera également l’occasion d’échanger avec des collègues académiques et des acteurs industriels sur les thématiques de recherche présentées.

Dates importantes :

Soumission de posters : au plus tard le ~~23 mars 2026~~ 2 avril 2026
Retour : 9 avril 2026
Date limite d’inscription : 30 avril 2026
Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda et à vous inscrire !
Inscrivez-vous ici

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…

Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.

Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus…
Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus…
Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus…
Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…

Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS

Jun

Sun

2019

PhD proposal on fairness in machine learning — NAVER LABS Europe / LIG

Tickets

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : NAVER LABS Europe / LIG
Durée : 3 ans
Contact : patrick.loiseau@univ-grenoble-alpes.fr
Date limite de publication : 2019-06-30

Contexte :
Recommendation is a prominent machine learning task, used in a variety of platforms ranging from news aggregators to webtoons providers, ad publishers, online dating application, job marketplace, etc. At the heart of recommendation lies a ranking algorithm that ranks contents presented to a user. As recommendation platforms aﬀect users in many important ways, it is crucial to make them fair, but what is a fair ranking remains very unclear.

Algorithmic fairness has recently received great attention from the machine learning and data mining communities. A number of mathematical definitions of fairness have been proposed (demographic parity, equal opportunity, etc.) and researchers have proposed various solutions to build learning algorithms that respect those constraints . However, this line of work is currently limited in two directions. First, most of it considers classification whereas very little exists for ranking/recommendation (where it is arguably more complex to define/satisfy fairness). Second, it always considers one-sided fairness notions from the point of view of either content producers (e.g., news providers) or content consumers (e.g., users) in isolation. Recommendation platforms on the other hand act as mediators between these two actors and need to consider fairness notions from both points of view simultaneously. Naturally, whether a ranking is fair or not depends on the stakeholder’s perspective: intuitively, producers expect fairness in the exposure of their content objects while consumers expect fairness in the variety of items they are exposed to. These (possibly contradictory) objectives raise the crucial question of how to define fairness in multi-stakeholder recommendation settings and how to build algorithms that satisfy the defined notion.

Sujet :
The PhD student will conduct research on fairness in multi-stakeholder recommendation platforms, with three main objectives. First, we will empirically study one such platform. We will do that on the example of the news and webtoons recommendation platforms of Naver. We will work in particular on empirically quantifying unfairness. That will help us better understand the multi-stakeholder fairness issue from a data-driven perspective and to formalize the notions for this setting. Second, we will work on designing ranking algorithms that provide fair recommendation by design. This will involve theoretical work to prove that the designed algorithm satisfies the fairness properties identified. We will also work on characterizing the trade-oﬀ between the fairness of the diﬀerent stakeholders. Finally, we will test the algorithm in practice and design methods to audit the result so as to prove in practice to a third party that the algorithm respects the fairness properties. That involves in particular questions such as how to measure fairness, which data is needed to show that fairness is respected on a particular run, for how long, etc.

Profil du candidat :
Candidates should hold (or be about to get) a MSc degree in computer science, applied mathematics, or a related field and have:
• a strong background in mathematics (at least in probability/statistics) and some background in ma-chine learning;
• programming capabilities to perform data-driven empirical studies;
• interest in the societal impact of machine learning and the research area of algorithmic bias (no prior experience working in this area is required).

Formation et compétences requises :
Candidates should hold (or be about to get) a MSc degree in computer science, applied mathematics, or a related field and have:
• a strong background in mathematics (at least in probability/statistics) and some background in ma-chine learning;
• programming capabilities to perform data-driven empirical studies;
• interest in the societal impact of machine learning and the research area of algorithmic bias (no prior experience working in this area is required).

Adresse d’emploi :
NAVER LABS Europe
6 Chemin de Maupertuis
38240 Meylan

Document attaché : PhDoffer_CifreNaverLIG_FairnessRecommendation.pdf

Categories: theses

PhD studenship at Aix Marseille Université in Machine learning for Astrophysics

Tickets

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : MAESTROFormation

Laboratoire/Entreprise : Laboratoire d’Astrophysique de Marseille
Durée : 3 years
Contact : jean.gabriel.cuby@lam.fr
Date limite de publication : 2019-06-30

Contexte :
Contexte. Les galaxies et quasars à très grand décalage spectral (redshift, z > 7) sont des sondes de l’Univers primordial qui nous éclairent sur les processus de formation et d’évolution des galaxies et sur les processus en jeu dans la ré-ionisation de l’Univers qui s’est produite à z = 7.7 ± 0.7 (point médian, Planck collaboration VI, 2018). L’observation de l’Univers à très grand décalage spectral est au centre de beaucoup des grands projets de l’astrophysique des décennies à venir. Avant WFIRST, SKA, ATHENA et LISA, les missions susceptibles de découvrir le plus grand nombre d’objets à très grands z sont Euclid et JWST. JWST détectera les galaxies dans la partie faible de leur fonction de luminosité tandis qu’Euclid détectera les plus brillantes d’entre elles dans le relevé profond (DEEP). Qui plus est, Euclid détectera des quasars aux mêmes redshifts dans le relevé large (WIDE). Ces échantillons brillants de galaxies et de quasars à grand z pourront être observés en spectroscopie par JWST et les grands télescopes sol (VLT, ELT, etc.), et ils permettront des avancées décisives dans le domaine de la ré-ionisation et de la formation des premiers objets : nature des sources responsables de la ré-ionisation, topologie de celle-ci, populations stellaires et dynamique des galaxies à très grand z, formation et assemblage des trous noirs super-massifs, etc. De par les échantillons de plusieurs centaines et milliers d’objets à l’époque de la ré-ionisation qu’elle découvrira, l’impact de la mission Euclid sera considérable et permettra de mener les premières études de cross-corrélation avec les données 21-cm.

Sujet :
Sujet. Sondages de l’Univers à grand décalage spectral avec la mission Euclid de l’Agence Spatiale Européenne.

Méthodologie et Programme de travail. Euclid permettra l’identification de plusieurs centaines (resp. dizaines) de quasars à z > 7 (resp. > 8), ainsi que de plusieurs milliers de galaxies à z > 7. Toutefois, la contamination par les galaxies de type précoce à redshift intermédiaire et les naines brunes de type L et T dont les couleurs sont semblables à celles de galaxies ou quasars à 7

Profil du candidat :
Master en physique ou machine Learning

– Connaissances en Astrophysiques seraient un plus
– Autonome
– curieux
– Anglais nécessaire

Formation et compétences requises :
Master en physique ou machine Learning
ou ecole d’ingénieur

Adresse d’emploi :
Laboratoire d’Astrophysique de Marseille
38 Rue Joliot Curie, technopole de chateau Gombert
13388 Marseille cedex 13

Document attaché : sujet-cuby-euclid-Fr.pdf

Categories: theses

Transfert de style par apprentissage profond (deep learning) pour la synthèse d’images radar

Tickets

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : ONERA DEMR
Durée : 3 ans
Contact : flora.weissgerber@onera.fr, gilles.vieillard@onera.fr, elise.koeniguer@onera.fr
Date limite de publication : 2019-06-30

Contexte :
Pour soutenir le développement de nouvelles missions d’imageurs radars, l’ONERA développe un nouveau système de simulation d’image radar qui doit permettre de produire rapidement de grandes scènes dans de nombreuses configuration d’acquisition (fréquences des ondes émises, l’orbite du porteur, etc.). Dans ce sujet de thèse, nous nous intéressons à la simulation par apprentissage profond (Deep-Learning), et plus particulièrement au transfert de style entre deux images ayant été acquises dans des configurations différentes. L’objectif de ce sujet est de tirer parti des grandes bases de données satellitaires existantes (TerraSAR-X, Sentinel-1, etc.) et de l’augmentation des données disponibles sur les scènes (information cadastrale, Modèle numérique de terrain) pour simuler des nombreuses configurations satellitaires ou aéroportées.

Sujet :
L’évaluation des performances de systèmes d’imagerie radar RSO (Radar à Synthèse d’ouverture, Synthetic Aperture Radar (SAR) en anglais) et des algorithmes de reconnaissance de cibles dans un contexte opérationnel nécessite un grand nombre de scénarios de test. Cependant, acquérir des bases de données de mesures représentant au mieux la diversité des scenarios est très onéreux, voire impossible. Pour construire ces bases de données, on peut alors recourir à des outils de simulation de scène. En plus de la création de base de données, la simulation permettrait aussi d’obtenir des données de références lorsqu’il n’est pas possible d’effectuer des acquisitions préalables avec le capteur opérationnel, notamment pour des scénarios de défense. Dans le domaine civil, la simulation pourrait suppléer les images d’archive pour la détection de changement, par exemple lorsqu’aucune image n’a été acquise avant une catastrophe naturelle, et ainsi d’améliorer la réactivité dans des missions de Search-and-Rescue (SAR).

Les méthodes actuelles de simulation sont basées sur la modélisation des propriétés physiques de diffuseurs présents sur la scène. Cette scène est construite manuellement à partir de divers éléments (photos sur site, photos aériennes, informations cadastrales, modèles numériques de terrain). L’un des risques des méthodes de simulation basées sur la modélisation physique est l’obtention de données synthétiques n’ayant pas vraiment la texture, « le grain » des mesures, bien que présentant les statistiques théoriques de l’imagerie radar liées au phénomène de chatoiement (speckle). Ce phénomène est principalement dû au niveau de détail utilisé pour décrire la scène, limité afin de la simuler dans un délai raisonnable. Or, le manque de réalisme de l’arrière-plan (le fouillis) des images simulées peut entraîner une mauvaise évaluation des algorithmes de détection ou de reconnaissance de cibles.

Grâce aux nombreuses missions satellites et aux acquisitions aéroportées, il existe un large répertoire d’images qui pourrait être utilisés pour améliorer les simulations. Mais les conditions d’acquisition de ces images sont limitées (bande X pour TerraSAR-X, bande C pour Sentinel-1, incidences entre 30 et 40°, etc.). Or, les images radars sont sensibles à la fréquence d’acquisition (la bande), la polarisation ainsi qu’à la géométrie d’acquisition (direction de la trajectoire, l’angle de vue ou le dépointage). A titre d’exemple, la figure 1 (voir sujet en pdf) présente deux acquisitions dans les environs d’Amsterdam par le satellite Sentinel-1 selon deux caps différents (orbite ascendante ou descendante). Les deux images sont la composition en fausses couleurs des signaux acquis pour deux polarisations différentes (canaux HV et VV). Les variations d’intensité dans les différents canaux couleur illustre l’impact du cap sur la polarimétrie du fouillis urbain et de la végétation.

L’objectif de cette thèse est de pouvoir obtenir des images radar simulées plus réalistes en utilisant des approches par apprentissage profond (Deep Learning – DL) et principalement par le transfert de style. L’idée du transfert de style est d’apprendre les styles (ou les textures) des images selon la nature des zones imagées et les paramètres d’acquisition puis de reporter cette texture sur les zones de même type dans les données synthétiques. Pour cela, on envisage une méthode d’apprentissage profond qui ferait appel à une base d’apprentissage dédiée obtenue sur diverses zones de terrain, constituée des couples d’images radar, chacune acquise dans des conditions différentes (en termes d’incidence, de cap, de résolution, de fréquence, de conditions de prises de vue). Une fois entraîné, le modèle pourra être appliqué à des images acquises dans certaines des conditions similaires à celles de la base d’apprentissage afin de générer des images du même lieu semblables à celles qui seraient acquises dans des conditions de mesure différentes. Les réseaux de neurones à apprentissage profond ont déjà montré des capacités intéressantes pour le transfert de style sur les images et le sur-échantillonnage de portraits photographiques. A l’ONERA, cette deuxième approche a été sondée en l’adaptant pour le sur-échantillonnage de modèles numériques de terrain (MNE) et a montré des premiers résultats encourageants lors d’un stage. Ces travaux sont devenus possibles grâce au développement des technologies des cartes graphiques (GPU) qui réduisent fortement le coût des calculs d’apprentissage.

Ces premiers travaux se sont néanmoins limités à des données optiques ou des cartes de hauteur. L’objectif est de définir un nouveau cadre méthodologique pour que ces techniques puissent s’appliquer sur des images SAR. Plusieurs thématiques sont ainsi envisagées : la génération d’image SAR à partir de données de vérité terrain telles que des MNE ou des informations de classification, le transfert d’une bande de fréquence à une autre, d’un point de vue à un autre (incidence ou cap), ou le transfert de canal de polarisation. Ces efforts d’amélioration de la simulation seront aussi complétés par des apports méthodologiques dans l’évaluation de la qualité de la simulation. Il sera par exemple intéressant d’étudier la définition d’indicateurs quantitatifs qui pourront capturer l’idée de « grain » ou de texture pour les images RSO. Cette réflexion pourra aussi déboucher sur la définition de pré-traitements permettant un meilleur apprentissage par le réseau de neurone ou une modification de son architecture.

Ce travail pourra s’appuyer sur des données acquises en bande X et Ku par les moyens ONERA (SETHI) ainsi que sur des données de satellites commerciaux (TerraSAR-X, Sentinel, etc.).

Profil du candidat :
Grandes Ecoles, M2R

Formation et compétences requises :
Traitement Signal, Machine Learning, Méthodes de Reconnaissance

Adresse d’emploi :
ONERA Palaiseau (www.onera.fr)

Document attaché : TheseStyleRadar_GDRISIS.pdf

Categories: theses

Jul

Mon

2019

Apprentissage profond des conditions de courant océanique, de vent et de vague à partir de flux de données AIS

Tickets

Jul 1 – Jul 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Lab-STICC/Eodyn
Durée : 36 mois
Contact : ronan.fablet@telecom-bretagne.eu
Date limite de publication : 2019-07-01

Contexte :
Le trafic maritime est en constant essor et la concentration de bateau en transit dans certains endroits du globe permet aujourd’hui une qualification voire une quantification précise des phénomènes géophysiques tels que les courants océanographiques, le vent ou encore les vagues. Ce lien entre le trafic des bateaux et la géophysique n’est pas récent et l’existence même du Gulf Stream a été découverte par B. Franklin en examinant les carnets de bord des bateaux contenant des informations sur leur dérive. Cette analyse détaillée des carnets de bord bien qu’elle ait perduré est depuis lors tombée aux oubliettes face à l’essor des altimètres satellitaires capable de détecter les variations de hauteur des océans et d’en déduire certains des principaux courants océaniques.

Sujet :
Dans ce contexte, la société Eodyn utilise aujourd’hui de manière systématique les messages AIS (Automatic Identification System) et détourne astucieusement leur fonction première de surveillance et de sécurité en remettant au goût du jour les techniques du traitement de la navigation à l’estime. La précision de localisation des navires et la densité du trafic qu’offre les flux de données AIS confère un nouvel horizon à cette technique. La nature même des données AIS non vouée à l’obtention de signaux géophysiques ne rend néanmoins pas immédiat le calcul des courants, vagues et vent et une approche de type « deep learning » et plus spécifiquement des modèles récurrents et des formulations probabilistes à variables latentes paraissent très prometteurs pour les applications considérées.

Mots clés : trafic maritime, AIS, navigation à l’estime, modélisation statistique, deep learning, réseaux de neurones récurrents, modèles à variables latentes

Profil du candidat :
Master ou ingénieur en mathématiques appliquées science des données et/ou traitement du signal avec un intérêt pour le domaine de l’observation de la terre et/ou de l’océanographie.

Formation et compétences requises :
Compétences souhaitées en Python
Des connaissances sur les modèles et frameworks de deep learning (eg, tensorflow, keras, pytorch) seraient un plus.

Adresse d’emploi :
IMT Atlantique, technopôle Brest-Iroise, Brest

Document attaché : Sujet_de_these_eodynE280A8.pdf

Categories: theses

Data-driven and AI-guided multi-platform observing systems for poorly-resolved ocean processes

Tickets

Jul 1 – Jul 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Lab-STICC/IMT Atlantique
Durée : 36 mois
Contact : ronan.fablet@telecom-bretagne.eu
Date limite de publication : 2019-07-01

Contexte :
Understanding, modeling, forecasting and reconstructing fine-scale and large-scale processes and their interactions are among the key scientific challenges in ocean-atmosphere science. State-of-the-art approaches strongly rely on joint research effort in observing systems (e.g., in situ monitoring, satellite observations) and numerical simulations, especially ensemble simulation schemes [e.g., 6-7]. The ability to relate models and observation data, though significant advances in data assimilation, remain open questions for numerous processes (e.g., small-scale parameterization, ocean-atmosphere interactions, biogeochemical ocean dynamics, climate-scale dynamics) [e.g., 1-4]. Artificial Intelligence (AI) technologies, models and strategies open new paradigms to address these questions from the in-depth exploration of the existing observation and simulation big data [4,7-11].

Sujet :
The general goal of this project is to explore and develop these AI paradigms and their interactions with model-based approaches [5] for the design of future multi-platform adaptive ocean observing systems. It is widely acknowledged that no single-platform system may provide direct observations of all ocean processes and scales of interest. Sea surface winds, currents and waves are typical examples, for which for instance no in situ or space observing system can alone provide the direct observation of their dynamics at a synoptic scale even for the mesoscale range (i.e., up to horizontal scales of ~ten kilometers).
Synergies between different satellite sensors (e.g., scatterometers, SAR sensors, multi-spectral sensors), in situ networks (e.g., ARGO floats, buoys,…), airborne sensors (e.g., lidar sensors embedded on drones),… are clearly of interest. The rapid development of new embedded communication and processing capacities of such sensors further push for the design of context-aware systems for the adaptive and optimized deployment of multi-platform observing systems (e.g., acquisition or streaming of high-resolution satellite data conditionally to pre-analysis steps based on other observation/simulation data, adaptive routing of drone-based acquisitions based on synoptic observation and simulation data). This PhD will investigate the data-driven and AI-guided methods and strategies that we envision to be the processing core of these new systems.

Profil du candidat :
MSc and/or Engineer degree in Applied Math., Data Science and/or Signal Processing with a strong interest in earth science

Formation et compétences requises :
Computer skills, especially Python programming
Skills in deep learning (models and frameworks such as Keras, TensorFlow and/or Pytorch) would be appreciated

Adresse d’emploi :
IMT Atlantique, Technopôle Brest-Iroise, Brest

Document attaché : phd_proposal_rfablet201901.pdf

Categories: theses

Méta-heuristiques et algorithmes d’apprentissage pour accélérer la boucle Simulation-Optimisation-Résolution de problèmes

Tickets

Jul 1 – Jul 2 all-day

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : ICUBE/INSA-Strasbourg
Durée : 3 ans
Contact : pierre.parrend@unistra.fr
Date limite de publication : 2019-06-31

Contexte :
Cette thèse s’inscrit dans le cadre du projet Interreg VIRTFac (Virtual Innovative Real Time Factory): Optimiser le chemin vers l’Industrie 4.0 en planifiant le bon système de production au bon moment. VIRTFac et la thèse débutent le 1er octobre 2019.
L’un des objectifs du projet VIRTFac est d’assister le partage et l’analyse des données entre les moyens de simulation, d’optimisation et d’invention lors de la planification et de la reconfiguration des systèmes de production.

La recherche doctorale bénéficie notamment de l’expertise de deux équipes de recherche du Laboratoire Icube : CSTB (Systèmes complexes et bio-informatique translationnelle) et CSIP (Conception, Système d’Information et Processus inventifs ). Le projet VIRTFac s’appuie sur des partenaires académiques et industriels, ainsi que sur les ressources d’analyse et de stockage des données de la plate-forme BICS du laboratoire ICube, entre autres.

Sujet :
L’objectif du doctorat est de proposer un nouveau modèle d’apprentissage [1] utilisant des méta-heuristiques et l’approche des algorithmes d’apprentissage actifs, c’est à dire pilotés par l’utilisateur [2],[3].

Ce modèle sera appliqué au cas d’utilisation VIRTFac traitant de l’optimisation et de l’invention [4]-[15] pour l’industrie du futur (IdF). Il vise à améliorer l’analyse, l’optimisation et les étapes inventives du processus de (re)configuration du système de production. Il sera mis en œuvre au moyen d’une bibliothèque indépendante du domaine et d’une application web spécifique à l’IdF.

Les propriétés suivantes de l’apprentissage basé sur l’expertise sont au centre de l’intérêt de ce travail : l’apprentissage accéléré par l’expertise, le renforcement, l’apprentissage de la nouveauté par la classification assistée par l’expert, le soutien à l’invention par l’investigation experte. La thèse priorisera l’une de ces trois propriétés en fonction des besoins identifiés du projet VIRTFac.

Profil du candidat :
• Une formation en informatique est requise. De l’expérience en optimisation statistique ou en intelligence artificielle est la bienvenue.
• Capacité à travailler au sein d’une équipe multidisciplinaire

Formation et compétences requises :
idem.

Adresse d’emploi :
Laboratoire ICube, Strasbourg.

Document attaché : 190429-VirtFac_AI-thesis_subject_proposal-FR.pdf

Categories: theses

Phd: Deep learning representations for dynamical systems: application to space oceanography

Tickets

Jul 1 – Jul 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Lab-STICC/IMT Atlantique
Durée : 36 mois
Contact : ronan.fablet@imt-atlantique.fr
Date limite de publication : 2019-07-01

Contexte :
Artificial Intelligence (AI) technologies, models and strategies open new paradigms to address the modeling, simulation, forecasting and reconstruction of complex systems. In the context of ocean-atmosphere science, they may offer new means to exploit the potential of available observation and simulation big data. This PhD will aim to investigate data-driven and AI-guided strategies for complex dynamical.

Contact person: ronan fablet, ronan.fablet@imt-atlantique.fr

Sujet :
From a methodological point of view, bridging the physical model-driven paradigm underlying ocean science and AI paradigms will at the core of this PhD with a view to developing geophysically-sound learning-based and data-driven representations of geophysical flows accounting for their key features (e.g., chaos, extremes, high-dimensionality). A key targeted application will be space oceanography for future multi-platform observing systems.

This PhD proposal involves a collaboration between Lab-STICC/IMT Atlantique (R. Fablet), Ifremer & IGE (B. Chapron, J. Le Sommer) and Univ. of Washington (S. Brunton). The PhD candidate will benefit from the gathered multidisciplinary expertise of the supervision team in Ocean Science, Ocean Remote Sensing, Fluid Dynamics, Artificial Intelligence and Control.

Additional information on our research activities at:
https://researchgate.net/profile/Ronan_Fablet

Profil du candidat :
Msc. or engineer degree in applied math, computer science, data science, signal processing and/or geoscience with a strong interest in interdisciplinary topics.

Formation et compétences requises :
Good math and computer science background
Skills in machine learning and deep learning would be highly appreciated.

Adresse d’emploi :
Principal hosting lab: Lab-STICC, IMT Atlantique
Planned stays at IGE/OceanNext (Grenoble) and Univ. of Washington (Seattle)

Document attaché :

Categories: theses

Jul

Mon

2019

Modèle de qualification interactif de données de commerce maritime imparfaites sur le XVIIIème siècle.

Tickets

Jul 15 – Jul 16 all-day

Annonce en lien avec l’Action/le Réseau : RoD

Laboratoire/Entreprise : UMR 7266 LIENSs, Université de la Rochelle; CNRS
Durée : 3 ans
Contact : alain.bouju@univ-lr.fr
Date limite de publication : 2019-07-15

Contexte :
Le projet ANR PORTIC est interdisciplinaire
dans le domaine des humanités numériques avec une équipe d’historiens de rang international.
Par ailleurs, le modèle de curation interactif de PORTIC couplé au système de géovisualisation interactif de données imparfaites est réutilisable pour beaucoup de domaines et projets.

Sujet :
Ce sujet s’inscrit dans le cadre d’un programme financé par l’Agence Nationale de la Recherche, dénommé PORTIC, qui entend étudier les dynamiques spatiales et économiques à l’œuvre dans le processus de construction de marchés de plus en plus intégrés qui prépare et accompagne la Révolution industrielle. A cette fin, il croisera les données sur la navigation des ports français et celles issues de la balance du commerce afin de mieux saisir l’articulation entre espaces régionaux, nationaux et internationaux du commerce français du XVIIIe siècle, en s’appuyant sur deux corpus existants – Navigocorpus et Toflit18 – produits au cours de deux programmes ANR achevés. Le croisement des
deux corpus permettra, entre autres, d’estimer plus précisément la part respective du commerce national et étranger, d’affiner les connaissances sur les ports qui articulent les marchés et leurs interactions, d’analyser les phénomènes régionaux de spécialisation entre plusieurs ports, de mesurer l’impact des conflits sur l’économie d’un port, de prendre la mesure de la contrebande à travers la Manche, de peser la part prise par les Français dans les services de transport international qui échappe aux statistiques commerciales de l’époque, ou encore de calculer la ratio entre la valeur du commerce et le tonnage ou les effectifs de main-d’œuvre affectés au transport maritime en fonction des flux.
PORTIC est un projet co-construit par des historiens, des économistes, des géomaticiens, des informaticiens, et des spécialistes de la communication de l’information par le Web, et qui vise à offrir
des outils permettant une visualisation et une interaction pour des
publics différents, d’informations historiques, en prenant pleinement en compte leur caractère imparfait.
L’imperfection des données historiques dérive de lacunes documentaires, d’informations contradictoires délivrées par des sources différentes, ou de leur contenu imprécis. Ce caractère incertain
d’une partie des informations, fondamental du point de vue de la compréhension du passé, est actuellement insuffisamment intégré par les outils de visualisation des données, notamment des flux.
Les humanités numériques accompagnent toutes les étapes du projet, en permettant tout d’abord la mise en évidence des caractères aberrants et contradictoires des données par des outils de fouille et la mise en
place de procédures interactives semi-automatisées par lesquelles les chercheurs qualifient la valeur des informations. Tout ce qui sera développé par PORTIC sera sous licence libre.
Ce projet de thèse aborde la question de la qualification de ces données avec une approche combinant à la fois des méthodes symboliques et numériques à travers un processus itératif intégrant les retours
d’experts pour la curation des données du corpus.
Différents aspects seront abordés au cours de ce projet de thèse:
– Un modèle sémantique de trajectoires dérivé d’un modèle spatio-temporel générique (Tran et al. 2016) sera utilisé pour déduire des incohérences dans la base de données (informations contradictoires,
itinéraires incohérents).
– Ce modèle sera connecté à un moteur exécutant des méthodes de fouille de données statistiques non paramétriques et non supervisées pour la détection de patrons récurrents et de valeurs aberrantes.
– Un modèle de qualité sémantique étendra le modèle sémantique actuel pour les trajectoires afin de gérer des annotations qualitatives.
– Les résultats seront affichés dans les interfaces de géo- visualisation de données (développées dans d’autres parties du projet), permettant ainsi aux commentaires de l’expert d’être intégrés dans le modèle sémantique pour une exploration itérative de différentes hypothèses. Cela implique un support pour un raisonnement non monotone en logique formelle de premier ordre.
L’approche sera évaluée tout d’abord en comparant d’anciens ensembles de données brutes avec les mêmes déjà corrigés manuellement, puis avec les données nouvellement collectées dans le projet en faisant en sorte que le logiciel interagisse avec les historiens possédant le rôle d’expert.

Profil du candidat :
Expérience souhaitée en fouille de données (détections de similarités), Web sémantique et données liées (LOD), Statistiques,

Formation et compétences requises :
Formation : Master 2 spécialité Informatique / Ingénierie des connaissances

Adresse d’emploi :
LIttoral ENvironnement et Sociétés (LIENSs) – UMR 7266

Bâtiment ILE, 2, rue Olympe de Gouges, 17000 La Rochelle – France

Document attaché : projet-these_fr_en_20190313.pdf

Categories: theses

PhD Statistical Learning

Tickets

Jul 15 – Jul 16 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Universite Bretagne Sud / Lab-STICC
Durée : 36 months
Contact : francois.septier@univ-ubs.fr
Date limite de publication : 2019-07-15

Contexte :
Statistical Optimality of Decision Rules for Humans and Rational Machines Interacting Together
Institution: Univ. Bretagne Sud, Lab-STICC UMR CNRS 6285
Advisors: François Septier & Alexandru Olteanu

Sujet :
Subject
Cognitive behavior has traditionally been modeled using rationality models, where the human agents are assumed to behave in an unbiased manner. Unbiased decision-makers are often assumed to minimize Bayes risk, which is defined as the expected cost of making decisions [1]. However, in the real world, human agents may have a cognitive bias, due to the limited availability of information and/or other complex behaviors such as emotions, loss-aversion and endowment effect [2–6]. Such complex agents were successfully modeled by Kahneman and Tversky using prospect theory in [3], where human behavior is modeled using weight and value functions over probabilities and costs respectively.

With the advent of the Internet of Things (IoT) and a rapid deployment of smart devices and wireless sensor networks (WSNs), humans interact extensively with machine data. These human decision makers use sensors that provide information through a sociotechnical network. The sensors can be other human users or they can be IoT devices. The decision makers themselves are also part of the network, and there is a need to understand how they will behave.

Another important situation of high interest concerns systems that are designed to emulate human behavior in order to reduce human effort and intervention. One example is the design of self- driving cars by Google and Uber, which move in traffic alongside human-driven vehicles. In contrast, there are other applications where there is a need to steer/nudge human decisions in order to improve the overall performance of the system [7].

As a consequence, it is therefore important to clearly understand how some local human decisions can impact the final decision. The applications related to this research are far reaching and include Environmental monitoring, Social networking, Autonomous vehicles, Industry 4.0, Intelligent Tutoring Systems (ITS), Digital health and more. Recently, in [8], the authors derive optimal decision rules for generic behavioral decision-makers in binary hypothesis testing problems. Assumptions remain quite simple with only a single agent taking a binary decision. More advanced systems with multiple agents, generally named social learning [9], were studied in the literature. As an example, in [10], the authors consider a two-agent (say advisor-learner) sequential binary hypothesis test where the learner infers the hypothesis based on the decision of the advisor, a prior private signal, and individual belief. A similar work for sequential binary hypothesis testing was considered in [11]. Finally, a hierarchical statistical model from psychology experiments was proposed in [12] in order to characterize how people fuse multiple decisions to make their own decisions.

The aim of this thesis is to propose a rigorous statistical study of optimal decision rules given some local decisions from multiple hybrid and heterogeneous agents, i.e. humans and (rational) machines.

We propose to firstly extend and generalize the current state-of-the-art by deriving optimal statistical decision rules in the presence of both humans and rational machines in more complex scenarios. An important aspect that will also be covered in this thesis is the proposition of efficient online inference techniques to estimate, from some local decisions of a human agent, the functions that characterize its behavior regarding the decision to take.

Profil du candidat :
Candidate Profile:
We are looking for a motivated and talented student holding a Master degree with:
• background in statistics, machine learning, signal processing or applied mathematics
• experience in programming, preferably in Matlab and/or Python.

Details:
A fully funded PhD position (three-year contract) is available from September/October 2019 at the Université Bretagne Sud located at Campus Tohannic in Vannes and in the DECIDE team of the CNRS laboratory Lab-STICC.
During the thesis, the student will have the opportunity to collaborate with internationally renowned researchers from institutions such as TUM Create (Singapore), Institute of Statistical Mathematics-Tokyo (Japan), etc.
The student will be supervised by:
• François Septier: francois.septier@univ-ubs.fr
• Alexandru Olteanu: alexandru.olteanu@univ-ubs.fr
The candidate is requested to send us a CV and a motivation letter to apply for this position.

Formation et compétences requises :
~

Adresse d’emploi :
Campus de Tohannic, Centre Y. Coppens, Vannes – France

Document attaché : PhD_offer.pdf

Categories: theses

Jul

Wed

2019

Structured classification of structured data with application on remote sensing data

Tickets

Jul 31 – Aug 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : IRISA
Durée : 3 ans
Contact : minhtan2209@gmail.com
Date limite de publication : 2019-07-31

Contexte :
Remote sensing data processing has long been conducted at pixel level, since times when objects of interest were way smaller or at most comparable to a pixel size. The significant developments on the spatial resolution front have led to the emergence of object-based image analysis, that no longer handles every pixel independently, but in contextual groups. In particular, multiscale models such as hierarchical representations (or trees) have been proposed and widely acknowledged as the appropriate solution since they enable us to model efficiently the relations between different image objects at multiple detail levels. In fact, depending on the required level of analysis, it is no longer uncommon for image regions to require multiple labels; e.g. a region might be identified as a road at a fine scale, as a residential area at an intermediate scale, or even as town or city at a coarse scale. These labels might be known a priori (supervised classification) or not (unsupervised classification or segmentation). While hierarchical representations inherently encode structural and rich information at several scales, its processing is merely a succession of monoscale analysis, either in an unsupervised fashion where the objective is to produce segmentations, or in a supervised one where classification maps with a set of labels (or a taxonomy of labels) are produced. No scientific solution allows for now a multiscale classification of the multiscale representation.
In the same time, in the machine learning community has emerged new tools to deal with hierarchical representations but they have barely been exploited in the remote sensing community. Structured prediction deals with the prediction of a structured output rather than a single label, which is relevant is our case as the structure of the data inherently defines a semantic taxonomy of labels. While supervised classification of flat labels (i.e. labels with no dependence between each others) is a marked up research field, hierarchical classification deals with labels organized in a hierarchy. This paradigm suits particularly to multiscale remote sensing data as it allows one to fully take advantage of the inherent hierarchical nature of the representation. Nevertheless, there exists no method that enables the labeling of the nodes of a tree with a hierarchy of labels. Few examples on the literature consider the classification of entire trees by a hierarchy of labels but no individual nodes. Another family of methods focuses to the classification of nodes of the tree, spreading labels from nodes to other nodes. This latter problem is called theNode Classification or Graph Labeling and arises naturally in many real-life problems that have inherently a network structure, but they do not consider any structured prediction.

Sujet :
The objective of the PhD is to define a new formulation of the structured classification of structured data problem, in which the labels are themselves structured. Two directions will be explored:
– the prerequisite of classification is the ability to measure in a relevant way the similarity between two nodes or (pieces of) trees. Optimal transport (OT) have inspired a number of recent breakthroughs in machine learning because of its capacity to compare efficiently empirical distributions. The lead of relying on an OT based-formulation of a distance, that deals inherently with structured or hierarchical outputs, shall be explored.
– there is nowadays no way around learning end-to-end solutions that rely on nodes or graph convolution. Solutions that rely on convolutional networks shall be considered.
The solutions shall be able to be embedded in either a supervised (where some labels are available — also known as the node classification problem) or unsupervised (as in the community clustering solutions) approach. A particular emphasis will be put on the development of efficient solutions, able to deal with large datasets.
From an application point of view, a special emphasis will be given on remote sensing datasets, but the solution should be applicable to other application domains. Targeted publications will be conferences and journals from both the machine learning and the remote sensing communities.

Profil du candidat :
Applicants are expected to be graduated in computer science and/or machine learning and/or signal & image processing and/or applied mathematics/statistics, and show an excellent academic profile.

Formation et compétences requises :
Beyond, good programming skills are expected.

Adresse d’emploi :
The OBELIX Team is a team from Irisa (http://www.irisa.fr/). The team is dedicated to environment observation problems, implying advanced image processing techniques and machine learning. The team is co-located between Rennes and Vannes, two beautiful cities from Brittany, France.

Document attaché : Sujet-these-ANR-MULTISCALE.pdf

Categories: theses

Aug

Sat

2019

Authentification hybride de documents par leurs contenus graphiques et textuels

Tickets

Aug 10 – Aug 11 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire L3i – Université de La Rochelle
Durée : 3 ans
Contact : antoine.doucet@univ-lr.fr
Date limite de publication : 2019-08-10

Contexte :
De plus en plus de documents sont dématérialisés et traités dans des grands flux d’images de documents dans les entreprises, les banques ou les administrations. Ainsi, la détection des fraudes dans ces documents devient un facteur de plus en plus important dans ces flux. La fraude sur les documents peut être la modification intentionnelle des documents (falsification) ou la production des faux documents (contrefaçon). Même si on détecte de plus en plus de document frauduleux, un nombre significatif reste toujours non détecté.
Actuellement, il n’existe aucune solution fiable pour protéger les entreprises des fraudes documentaires, alors que des nombreuses entreprises perçoivent l’enjeu pour leur activité et manifestent un intérêt pour ce type de solution : selon une étude du cabinet PricewaterhouseCoopers (PwC), 49 % des répondants déclarent que leur entreprise a été victime d’une fraude ces deux dernières années, contre 36 % en 2016. Le taux de fraude constaté en France atteint un niveau record : 71% des entreprises françaises ont déclaré avoir été victimes d’une fraude au cours des deux dernières années.
Comme, il n’existe aucune méthode fiable de détection de fraude, nous souhaitons dans cette thèse poursuivre nos travaux sur la détection de la fraude dans les documents. Plus précisément, cette thèse vise à développer un nouvel outil pour la détection de la fraude (documents falsifiés et documents contrefaits) dans les flux documentaires. Nous proposons de combiner une nouvelle méthode d’authentification du modèle de document par hachage basé sur le contenu (approche analyse d’image) avec une nouvelle méthode de vérification de la cohérence de contenus (approche analyse du texte).

Sujet :
Malgré des besoins importants, la détection des fraudes automatique dans les documents est très peu étudiée. Les approches passives de détection de faux document peuvent s’appliquer à n’importe quel type de document. Le filtrage des faux parmi un flux de documents est une tâche de classification pour laquelle il s’agit de trouver les meilleurs indices ou caractéristiques de l’image et de sélectionner et entrainer le meilleur algorithme de classification automatique. La difficulté des flux de documents est la grande hétérogénéité des documents. Les documents peuvent être numérisés par un scanner ou capturés par un smartphone avec des résolutions différentes (entre 150 et 600 dpi) et des niveaux de couleur différents (noir et blanc, niveaux de gris, couleur) avec une grande diversité dans les contenus et les mises en page.
Il existe peu de méthodes dans l’état de l’art pour l’authentification ou la reconnaissance des modèles de documents. Les inconvénients de ces méthodes sont qu’elles supposent que le modèle du document est connu ou qu’elles sont conçues pour la recherche de documents. Pour cette raison, nous proposons de nous appuyer sur le hachage basé sur le contenu pour développer une nouvelle méthode d’authentification du modèle de document. La difficulté principale du hachage basé sur le contenu reste la stabilité des algorithmes d’analyse d’image de document. En outre, un code de hachage pour représenter le modèle de document doit être développé.
Parallèlement à l’analyse d’image, il existe des méthodes qui s’intéressent aux informations textuelles contenues dans le document. Il existe très peu de travaux scientifiques sur la vérification automatique d’information. Si on considère que les informations à vérifier sont localisées, la vérification de contenu présente deux difficultés principales. L’utilisateur ne dispose pas systématiquement dans ses bases de données d’une version fiable et vérifiée de l’information. En revanche, Internet est une source considérable d’information. Une approche pour confirmer des informations sans contexte peut être de mettre en œuvre des requêtes sur des moteurs de recherche, combinées à des techniques de web scraping. Le rapprochement entre une donnée vérifiée et une donnée extraite n’est pas trivial car cette dernière peut être dans une forme rédigée différente soit car sa rédaction est elle-même différente, soit car la donnée extraite a été impacté par des erreurs d’OCR.

Aucune méthode de détection de fraude hybride n’a à ce jour été proposée. Donc, il s’agit de proposer également une méthode de fusion d’informations provenant de l’image et du texte.

[Artaud18] Artaud C., Doucet A., Ogier J.-M., Poulain d’Andecy V., Automatic Matching of Abbreviated Phrases and their Expansions without Context, CICLing 2018.
[Eskenazi15a] S. Eskenazi, P. Gomez-Krämer, and J.-M. Ogier. The Delaunay document layout descriptor. In ACM International Symposium on Document Engineering (DocEng), 2015.
[Eskenazi17] S. Eskenazi, P. Gomez-Krämer, and J.-M. Ogier. A perceptual image hashing algorithm for hybrid document security. In International Conference on Document Analysis and Recognition (ICDAR), 2017.
[Duthil14] B. Duthil, M. Coustaty, V. Courboulay, J.-M. Ogier, Annotation sémantique de documents administratifs. Revue des Nouvelles Technologies de l’Information, 2014; Extraction et Gestion des Connaissances, RNTI-E-26:47-52.

Profil du candidat :
Seuls les étudiants ressortissants de l’Union européenne ou de la Suisse, n’ayant pas entamé leur carrière professionnelle sont éligibles pour ce financement.

Formation et compétences requises :
* Étudiant(e) titulaire d’un Master Recherche en informatique ou équivalent, avec des bonnes bases en mathématiques, en analyse et traitement du signal et des images, ou en traitement automatique de la langue
* Avoir des bonnes compétences en programmation
* Très bon niveau en anglais

Adresse d’emploi :
Laboratoire L3i – Université de La Rochelle

Document attaché : Sujet_These_2019_AuthentificationHybride.pdf

Categories: theses

Aug

Sat

2019

Cadre de thèse de doctorat pour la Chaire « Smart Intelligence » de l’ESILV

Tickets

Aug 31 – Sep 1 all-day

Annonce en lien avec l’Action/le Réseau : RoDFormation

Laboratoire/Entreprise : DVRC / ESILV
Durée : 36 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2019-08-31

Contexte :
Les outils de veille technologique et stratégique permettent de délivrer des services de recherches d’information et de notifications de données ciblées, que ce soit en direct ou en temps réel. Ces données ciblées correspondent à des évolutions technologiques visibles sur le Web pour lequel un expert du domaine souhaite rester au courant de la concurrence ou des usages dans son périmètre.
La difficulté pour ces outils de veille est de devoir traiter d’une part les données avec à la fois la multitude de domaines d’expertise pour répondre à la demande des experts, acquérir et gérer un grand volume de données à récupérer sur le Web, analyser le contenu des informations pour en ressortir de la pertinence. Et d’autre part, gérer le profil des experts sur leurs usages de recherche, d’interactions avec la plateforme de veille, mais également les connaissances de l’expert sur son environnement, comme sa propre base de connaissances ou un réseau d’experts.
La société Coexel se positionne dans ce domaine de la veille technologique & stratégique en proposant la plateforme MyTwip dédié à ne nombreux domaines d’expertise, avec un moteur de recherche dédié, intégrant des analyses sémantiques basées sur une ontologie pour classifier automatiquement les informations par domaines d’expertise, du traitement de textes pour identifier des signaux faibles pour détecter ces évolutions technologiques pertinentes, ou de l’extraction de connaissances pour relier les concepts liés à une information.

Sujet :
Afin de mieux intégrer l’expert dans le processus de veille, nous envisageons d’intégrer le profil utilisateur, l’expert, au sein même de l’environnement de recherche à différents niveaux. En effet, en intégrant ses recherches ainsi que les interactions effectuées, l’intégration de ses connaissances, un réseau social reliant les experts par affinités de domaines, le tout pouvant produire des informations en temps réel, cela donne une dimension complexe à l’environnement d’analyse et de définition de la pertinence. En effet, il est nécessaire de se focaliser sur la notion de distance entre un expert et la donnée ciblée. Ce profil a pour conséquence de redéfinir cette distance pour l’adapter à l’utilisateur et permettre à l’expert de recevoir des informations plus pertinentes.
La complexité de cette approche réside dans la combinaison de critères :
• Le système doit traiter la donnée à la fois à la demande (moteur de recherche) et en temps-réel : il est donc nécessaire de délivrer une information dans une architecture Lambda (Marz et Warren 2015) tout en respectant la pertinence. Dans cet environnement, le Batch Layer stocke l’ensemble des données utiles (information et profil) permettant d’effectuer des recherches pertinentes à la demande, tandis que le Speed Layer doit maximiser le profil utilisateur pour traiter le flux de données en temps réel pour générer des notifications pertinentes.
• La pertinence d’une information, que ce soit dans la Batch ou Speed Layer, repose sur la combinaison subtile de plusieurs critères : des recherches étendues (sémantique, taxonomies, proximité, etc.) et des profils des experts complexes (historiques, réseau, etc.). Cela nécessite la définition d’une distance adaptée entre la donnée et la requête utilisateur, rentrant dans le cadre de la réécriture de requêtes (He, et al. 2016, Grbovic, et al. 2015), afin de produire des résultats pertinents à l’utilisateur. Le profil des experts repose sur plusieurs dimensions : l’historique des données précédemment lues/étiquetées/consultées (données explicites vs implicites), un réseau social d’experts impliquant une propagation de l’information basé sur la proximité d’intérêt, un graphe de connaissances dédié par expert regroupant les informations proches pour représenter les besoins de l’expert sous formes de « concepts » (Wang, Tan et Zhang 2010, Grossetti, et al. 2018). Il est à noter que ces dimensions peuvent être incomplètes, impliquant une adaptabilité pour la réécriture de requêtes. De plus, les usages des experts évoluant au cours du temps, la pertinence des résultats peut se dégrader. Il est nécessaire de rendre ces mesures auto-adaptatives pour leur permettre améliorer la qualité des résultats.
• Les notifications produites par la Speed Layer, doivent être traité en temps réel et prendre en compte plusieurs critères : la temporalité de l’information (un expert s’intéresse aux données récentes), la nouveauté de l’information (pas de redondance), la mutualisation des recherches de nombreux experts ayant souscrits au système. Le domaine du Publish/Subscribe répond à ce besoin en optimisant en temps réel les recherches par pertinence et nouveauté (Travers et du Mouza 2018). Les systèmes de recommandations répondent également à la question tout en peinant à répondre au problème de la temporalité des données (Ludmann 2015, Siddiqui, et al. 2014, Subbian, Aggarwal et Hegde 2016).
Ainsi, la croisée de ces différents critères produit un système complexe dont le mélange particulier a pour but de produire des informations pertinentes aussi bien par recherche à la volée qu’en temps-réel. Cette combinaison subtile n’est pas traitée dans la littérature, en effet nous comptons pouvoir produire des recommandations pertinentes de manière efficace en temps réel avec des profils multidimensionnels en se basant à la fois sur des historiques d’événements et sur des graphes de connaissances ou un réseau social.
Ce défi à relever repose sur certains verrous que nous devons soulever :
• Définir une mesure de pertinence de recommandations reposant sur un profil utilisateur riche, reposant sur son historique étendu (données explicites & implicites), son réseau social et son graphe de connaissances ;
• Définir un système optimisé pour la recherche d’information et la recommandation de veille technologique, combinant temps-réel et traitements lourds pour des milliers d’expert.

Profil du candidat :
Le candidat devra bien connaître le développement informatique, avec des connaissances en Web, Web sémantique, Recherche d’information et bases de données.

Formation et compétences requises :
BAC+5 Informatique
– Web sémantique
– Recherche d’information et/ou TAL
– Bases de données : centralisées. Connaître les bases distribuées est un plus.
– Théorie des graphes

Adresse d’emploi :
Coexel – Palais Realtor
203 Avenue Colonel Fabien
83000 TOULON

Document attaché : These_Coexel_v1.pdf

Categories: theses

Etude expérimentale et numérique pour l’identification et la classification des ruptures dans la chaîne du froid

Tickets

Aug 31 – Sep 1 all-day

Annonce en lien avec l’Action/le Réseau : ATLASDoctorants

Laboratoire/Entreprise : AgroParisTech-Inra, Université Paris Saclay & IRSTEA, Antony
Durée : 3 ans
Contact : steven.duret@irstea.fr
Date limite de publication : 2019-08-31

Contexte :
La chaîne du froid est un réseau logistique complexe dont l’objectif est d’acheminer aux consommateurs des denrées périssables dans de bonnes conditions hygiéniques, nutritionnelles et organoleptiques. L’intérêt du terme chaîne est de souligner l’importance de la continuité des étapes ; aucun maillon de la chaîne (entrepôts, véhicules, équipements…) ou transfert entre maillons ne devant « céder » et ainsi anéantir l’effort général mis en place pour garantir un produit préservé de tout échauffement non maîtrisé au moment de la consommation. Cependant, plusieurs études de terrain réalisées par l’unité Génie des Procédés Frigorifiques d’Irstea avec des capteurs de température placés dans des produits alimentaires montrent des remontés rapides de températures caractéristiques de ruptures dans la chaîne du froid. Ces ruptures sont principalement liées aux contraintes logistiques associées à tout circuit de distribution, notamment lors du transfert des produits d’un maillon à un autre. Par exemple, les produits peuvent rester sur un quai de déchargement d’un magasin ou à l’extérieur lors de leur livraison en attendant d’être pris en charge par les opérateurs. L’évaluation et la maîtrise des conditions dans lesquelles ces ruptures se produisent (température de l’air environnant, durée, position des produits impactés dans un carton ou une palette) et leurs impacts sur la température des produits (vitesse de réchauffement, niveaux de température atteints par les produits) représentent ainsi des enjeux de sécurité alimentaire (sureté et gaspillage), économiques et environnementaux. Malgré ces enjeux, les conditions opératoires dans lesquelles ces ruptures se produisent et leurs impacts sur les produits sont mal connus des professionnels et des pouvoirs publics. En effet, ces phénomènes sont difficiles à observer sur le terrain car le comportement des opérateurs peut être modifié par la présence d’un observateur.

Sujet :
L’objectif de cette thèse est de développer des méthodes d’apprentissage automatique permettant de diagnostiquer des ruptures dans la chaîne du froid (de l’usine au consommateur) et d’évaluer leurs impacts sur les qualités des aliments et sur les consommations énergétiques.
I- Comme il est difficile d’avoir accès directement aux conditions externes (ou conditions opératoires) d’une chaîne du froid (température de l’air environnant, durée, position des produits impactés dans un carton ou une palette, vitesse d’air), mais que l’on peut disposer de capteurs à proximité des produits alimentaires, la première tâche consiste à chercher à inférer ces conditions externes, et leurs évolutions, en particulier lors des ruptures, à partir d’une série de mesures de température réalisées sur les produits le long de la chaîne du froid. Il s’agit d’une certaine façon d’un problème d’ingénierie inverse. Le premier objectif du travail de thèse consistera à utiliser des méthodes d’apprentissage automatique pour inférer la présence et la succession la plus probable de ruptures de chaîne du froid à partir de séquences de mesures réalisées sur les produits alimentaires. Pour ce faire, on partira de séquences de mesures obtenues en milieu contrôlé en laboratoire (température de l’air environnant, durée, position, vitesse d’air) pour lesquelles les conditions externes et les mesures sur produits sont connues pour entrainer un algorithme d’apprentissage. Une fois ce modèle validé en conditions « laboratoire », il sera ensuite utilisé pour déterminer les conditions opératoires réelles des ruptures à partir de profils de températures enregistrés lors d’expérimentations sur le terrain. Ces données seront issues d’études terrain réalisées par l’unité de génie des procédés frigorifiques d’IRSTEA et consistant à enregistrer la température des produits à l’aide de capteurs placés à l’intérieur de ces produits. En effet, Irstea dispose d’une base de données de température de plusieurs types de produits réfrigérés tout au long de la chaîne du froid de l’usine au réfrigérateur domestique du consommateur. Cette base de donnée a été développée lors de précédents projets (Cemagref et ANIA, 2002-2004, Projet Européen Frisbee, 2010-2014)
Un aspect intéressant et novateur de ce premier point est que la disponibilité de modèles mécanistes à Irstea permettant de prédire l’évolution de température des produits à partir des données externes. Ainsi, la méthode d’apprentissage peut contrôler si les inférences réalisées correspondent aux conditions externes raisonnables. En effet, dans ce cas, les conditions externes inférées devraient prédire, grâce au modèle mécaniste, les mesures sur produit. Cette boucle entre apprentissage automatique pour réaliser d’ingénierie inverse et modèle mécaniste expert d’ingénierie directe est intéressante à exploiter et correspond à toute une classe de problèmes dans lesquels des modèles mécanistes directs ont été construits par les experts.
II- Une fois qu’un algorithme aura été mis au point permettant l’inférence des conditions externes de chaîne du froid et leurs évolutions, un deuxième objectif concernera le calcul de l’impact de ces conditions, avec des ruptures éventuelles, sur les qualités des produits. Ici, le modèle d’ingénierie directe pourra être utilisé. On peut noter qu’il permettra aussi de réaliser une étude de sensibilité qui identifiera les facteurs et les circonstances les plus critiques sur les qualités des produits (par exemple, il pourrait être plus important de contrôler la chaîne du froid en amont qu’en aval). Cette étude de sensibilité pourra être utilisée dans la méthode d’apprentissage évoquée plus haut pour déterminer les prédictions dont la précision est la plus critique par rapport à d’autres prédictions (par exemple, l’existence de rupture en fin de chaîne du froid) pour lesquelles la précision de la prédiction l’est moins.
III- Les deux objectifs cités ci-dessus supposent une analyse des données de mesures déjà existantes de la chaîne du froid. Or, les nouvelles technologies de capteurs (Internet des Objets) permettent d’envisager la possibilité de mesures avec transmission en quasi temps réel tout le long de la chaîne du froid. Dans ce cas, il peut être intéressant d’en faire une analyse en-ligne pour, par exemple, émettre des alertes en temps réel pour les opérateurs en cas de détection/inférence de ruptures ou d’évolutions anormales de la température au cours de la chaîne du froid. Dans cette perspective, un objectif de la thèse pourra être d’étudier les conditions d’une classification en-ligne des conditions de la chaîne du froid en cours. La méthode étudiée devra en particulier optimiser un compromis entre la confiance dans la classification (par exemple, détection d’une condition anormale) et la précocité de cette prédiction. Plus la prédiction est précoce en effet, plus le nombre de mesures sur lesquelles elle s’appuie est important et moins la confiance dans la prédiction peut être élevée. Ce problème de classification précoce est important et général, se retrouvant par exemple dans les alertes dans les services d’urgence des hôpitaux ou dans le problème de détection d’intrusion dans les réseaux informatiques. Les travaux de développés dans cet axe pourront être réalisés en collaboration avec la société francilienne Biotraq. Cette société dispose d’une plate-forme permettant de visualiser en direct la température des produits à travers la chaîne logistique.
IV- Finalement, l’ensemble des questions évoquées : ingénierie inverse avec utilisation d’un modèle mécaniste direct et classification précoce d’anomalies, seront dans un premier temps étudiées pour un type de produit alimentaire dont la rupture de la chaîne du froid a un impact important sur la qualité (par exemple, les plats préparés). Une question sera alors de voir à quel point les modèles appris par des algorithmes d’apprentissage sur les données d’entraînement concernant ce produit pourront être adaptés facilement ou non à d’autres produits pour lesquels les données seront plus rares. Il s’agit d’un problème d’apprentissage par transfert, très étudié actuellement dans le cadre des réseaux de neurones profonds, en particulier pour la reconnaissance d’images. Dans le travail de thèse lié à ce projet, il faudra étudier les conditions optimales pour un transfert efficace de modèle appris entre les différents produits alimentaires, et, éventuellement, pour couvrir d’autres scénarios de chaîne du froid, par exemple dans des pays dans lesquels la logistique de la chaîne du froid ou le climat sont différents.
L’objectif final applicatif est que les informations sur les conditions opératoires des ruptures puissent être utilisées dans une approche globale de la chaîne du froid développé par l’unité génie des procédés frigorifiques d’IRSTEA (approches physique, microbiologique et statistique). Cela permettra d’évaluer les impacts des ruptures sur l’évolution de la température, les qualités organoleptique et sanitaire des produits alimentaires et sur les consommations énergétiques. La méthodologie développée pourra être utilisée par les professionnels et les pouvoirs publics comme un outil d’aide à la décision dans la gestion de la chaîne du froid pour réduire le gaspillage alimentaire et les consommations énergétiques sans augmenter le risque pour les consommateurs lorsque des ruptures sont observées.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
université Paris-Saclay

Document attaché : Sujet-Thèse-Irstea.pdf

Categories: theses

Sep

Sun

2019

Offre de thèse CIFRE en Statistique

Tickets

Sep 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoires ERIC et ICJ / Entreprise Arpege MasterK
Durée : 3 ans
Contact : julien.jacques@univ-lyon2.fr
Date limite de publication : 2019-10-01

Contexte :
Arpege Master K est un constructeur historique lyonnais dans le domaine du pesage industriel, qui conçoit et installe des solutions hardware et software en BtoB développées autour d’une technologie propriétaire. Les instruments de pesage actuellement en service et dotés de cette technologie constituent un vivier de données exploitables pour modéliser des comportements d’instruments de pesage dans un environnement de conditions exogènes qui seront à prendre en compte, dans le but de bâtir des algorithmes d’évaluation de la qualité des résultats de mesure et de maintenance prédictive, et de relever les comportements anormaux, voire défaillants. Un tel outil permettra l’optimisation et l’anticipation des interventions de maintenance, ainsi que l’augmentation du taux de disponibilité des équipements de pesage, qui constituent souvent une ressource critique dans les processus industriels.

Sujet :
D’un point de vue mathématique, chacun des multiples capteurs d’un pont bascule fournit des données quantitatives mesurées continuellement à haute fréquence, que l’on peut qualifier de séries temporelles (ou données fonctionnelles) multivariées. A partir de ces données, les tâches à réaliser seront les suivantes :
1. Détecter automatiquement la présence d’une pesée, et donc le début et la fin de celle-ci, à partir des données mesurées en continues.
2. Détecter et caractériser un ensemble de pesées atypiques liées à des défaillances du systèmes de pesées.
3. Une fois ces pesées atypiques caractérisées, une approche supervisée online devra permettre le suivi en temps réel des mesures afin de détecter à tout moment une potentielle défaillance ou défaillance à venir.

Profil du candidat :
– Master / ingénieur en data science (mathématiques appliquées, statistique, informatique…) avec un fort intérêt pour les applications industriels.
– Ingénieur génie industriel ou généraliste avec un fort intérêt pour la science des données, la statistique et l’informatique.

Formation et compétences requises :
Compétences en Statistique, logiciel R.

Adresse d’emploi :
Lyon

Document attaché : AnnonceThese-MasterK-ERIC.pdf

Categories: theses

Development of machine learning algorithms for the identification of biomarkers of neurotoxicity

Tickets

Sep 1 – Sep 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIMOS, UMR 6158 CNRS
Durée : 36 mois
Contact : vincent.barra@isima.fr
Date limite de publication : 2019-09-01

Contexte :
Projet européen NeuroDeRisk, 19 partenaires de 13 pays.

Sujet :
There is still a lack of complete understanding of the complex pathways and mechanisms leading to central and peripheral drug-induced neurotoxicity. However, these adverse effects are to a considerable extent (up to 25%) responsible for failure in clinical trials, affecting volunteers or patients administered with experimental drugs, and also, to some extent, albeit less than 1%, for hospitalizations caused by hidden neurotoxic adverse effects of marketed drugs.

The ambition of NeuroDeRisk (Neurotoxicity De-Risking in Preclinical Drug Discovery) H2020 project is to bundle the scientific expertise of experimental and theoretical scientists and to collaborate with computer scientists to address the challenge of preclinical prediction of neurotoxicity using a fully integrated approach: by linking unique expertise for building in vitro and in vivo models with in silico prediction tools, the project will establish a new and validated toolbox for preclinical prediction of neurotoxicity in humans.

The PhD subject is centered on the development of new machine learning strategies to optimize the identification of predictive and alerting biomarkers of neurotoxicity. The objectives here will be:
– to classify subjects (with respect to neurotoxicity based on data (collected by previous extensive behavioral and biochemical signatures of neurotoxicity in vivo, in vitro and ex vivo);
– to compute low dimensional manifolds on which subjects lie, and be able to explore the trends and directions of all possible neurotoxic effects in the manifold;
– to be able to early predict biomarkers of neurotoxicity, based on only a subset of data or on new features derived from the original data.
Both classical and innovative machine learning algorithms will be explored.

Having selected the most promising biomarker candidates from in vivo, in vitro, and ex vivo studies, in silico prediction of biomarkers using a suitably modified version of a predictive platform will be performed. Additional bioinformatics tools will be used in biomarker validation and prioritization by other partners of the European project.

Profil du candidat :
Candidat ouvert aux aspects méthodologiques et aux applications dans les domaines biologiques.
Capacité de dialogue important avec des acteurs issus de domaines multiples.

Formation et compétences requises :
Compétences en analyse de données, apprentissage statistique.
Compétence en développement python et librairies associées (scikit learn, Tensorflow, Keras,…)

Adresse d’emploi :
LIMOS UMR 6158 CNRS
1 rue de la chébarde
63173 AUBIERE

Document attaché :

Categories: theses

Optimisation de code HPC pour la simulation en astrophysique

Tickets

Sep 1 – Sep 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Université de Perpignan Via Domitia, équipe DALI/LIRMM
Durée : 3 ans
Contact : arrabito@in2p3.fr
Date limite de publication : 2019-09-01

Contexte :
Résumé
Le projet CTA (Cherenkov Telescope Array) se propose de construire et d’exploiter le premier observatoire pour les photons gamma de très haute énergie. Les simulations Monte Carlo permettant de caractériser la réponse de l’instrument consomment dès à présent plus de 200 millions d’heures CPU par an et produisent plusieurs Péta-octets de données chaque année.

Aujourd’hui, les différentes générations de processeur proposent des améliorations architecturales qui permettent des gains importants en temps d’exécution (x2 à x16) et en consommation d’énergie. Les programmes doivent prendre en compte les différentes spécificités matérielles afin d’en exploiter pleinement les performances.

L’objectif de cette thèse est d’optimiser le code de simulation des gerbes atmosphériques de CTA en profitant au maximum des capacités de ces nouvelles générations de processeurs afin de réduire les coûts associés au calcul. Cette thèse s’insère aussi dans le développement d’un nouveau framework de simulation performant destiné aux différents projets internationaux du domaine. Ces travaux contribuent ainsi aux recherches relatives à l’optimisation automatique de performance dans un environnement matériel hétérogène.

La thèse s’effectuera dans le cadre d’une collaboration entre les informaticiens de l’équipe DALI/LIRMM à l’Université de Perpignan et les astrophysiciens du LUPM/CNRS (PEPS Astro-Informatique).

Sujet :
1. Contexte scientifique
Le projet CTA (Cherenkov Telescope Array) [1] a pour objectif la construction et l’exploitation d’un réseau d’une centaine de télescopes Cherenkov situés sur les sites de La Palma (Canaries, Espagne) et Paranal (ESO [2], Chili). CTA ouvre une nouvelle ère dans l’astronomie gamma de très haute énergie. Un premier grand télescope a été installé à La Palma en 2018 et l’acquisition des premières données est actuellement en cours. Le consortium de CTA regroupe environ 1200 membres, une centaine d’instituts de recherche de 32 pays.

Des simulations Monte Carlo détaillées des gerbes induites par les rayons cosmiques et la réponse des télescopes à la lumière Cherenkov, sont nécessaires tout au long du projet afin de calculer les fonctions de réponse des télescopes. C’est à travers ces fonctions de réponse que les astrophysiciens pourront découvrir les sources astronomiques et en déterminer les caractéristiques spatiales, spectrales et temporelles.

Pour la simulation des gerbes atmosphériques CTA utilise le logiciel Corsika [3], un logiciel de référence dans la communauté des ‘rayons cosmiques’. Le temps de calcul associé aux simulations est et restera très important, i.e. environ 200 millions d’heures CPU normalisées par an. Ces productions Monte Carlo utilisent typiquement 8000 cœurs en simultanés distribués sur une vingtaine de sites de la grille européenne EGI [4].

La réduction du temps de calcul nécessaire aux simulations est donc un enjeu majeur pour le projet.

Un projet de réécriture complète de Corsika (Next Generation Corsika) [5] a également démarré en 2018, avec l’implication des différentes expériences utilisatrices : CTA, Auger [6], IceCube [7], etc. La version actuelle du logiciel Corsika est en effet issue de développements entamés en 1990. La capacité d’utiliser efficacement les nouvelles générations de processeur est identifiée comme une nécessité à laquelle le nouveau logiciel NGC devra répondre.

2. Objectifs
L’objectif de la thèse consiste d’une part à obtenir les performances « optimales » du logiciel Corsika existant, qui restera en production encore 4-5 ans, et d’autre part à contribuer au développement du framework de Next Generation Corsika (NGC).

Concernant l’optimisation de Corsika, une étude préliminaire réalisée dans le cadre du PEPS Astro-Informatique [8], nous a permis de montrer que les outils d’optimisation automatique présentent des limites lorsqu’ils sont confrontés à des codes complexes comme Corsika. L’idée directrice est donc d’élargir l’espace des opportunités d’optimisation. Pour cela, nous souhaitons nous affranchir des contraintes liées aux limites des analyses statiques et aux heuristiques des compilateurs, à celles liées aux informations manquantes sur les jeux de données, ainsi qu’à celles liées aux informations manquantes sur la micro-architecture cible.

Le doctorant devra d’abord réaliser des transformations « manuelles » sur le programme existant afin de prendre en compte des informations sur les jeux de données et sur la micro-architecture cible. Dans ce processus de transformation, des techniques de vectorisation seront considérées, ainsi que l’utilisation ou le développement de fonctions mathématiques optimisées. Il s’agira ensuite de mesurer et de quantifier les améliorations de performance liées aux différentes contraintes et de mettre en évidence les voies les plus prometteuses pour lever les verrous de l’optimisation automatique.

Dans un deuxième temps, le doctorant contribuera au développement du NGC. L’objectif est de développer un framework général permettant de bénéficier au maximum des performances des architectures modernes et ce de manière transparente. L’idée principale consiste à explorer une nouvelle approche pour la simulation du ‘transport des particules’, en exploitant plusieurs niveaux de parallélisme, en regroupant des particules avec des propriétés similaires. Cette approche devrait permettre des gains de performance significatifs, qui seront quantifié dans des cas d’application réalistes.

Enfin, la nouvelle version de Corsika ainsi qu’une première version de NGC seront déployées sur la grille de calcul EGI pour leur validation complète sur la base d’une statistique élevée.
Ce travail s’effectuera dans un contexte international en étroite collaboration avec les astrophysiciens, membres du consortium CTA, ce qui permettra d’assurer la validité physique des résultats obtenus avec la version de Corsika optimisée et NGC.

Profil du candidat :
Le/la candidat/e aura des connaissances en architecture des machines et sur les processus de compilation. Il/elle aura une très bonne expérience en programmation en C/C++. Une connaissance du Fortran sera un plus.

Formation et compétences requises :
Formation souhaitée: Master en calcul haute performances ou équivalant
Le/la candidat/e aura des connaissances en architecture des machines et sur les processus de compilation. Il/elle aura une très bonne expérience en programmation en C/C++. Une connaissance du Fortran sera un plus.

Adresse d’emploi :
Université de Perpignan Via Domitia, équipe DALI/LIRMM.

Document attaché : PhD_OptSim_EN.pdf

Categories: theses

Sep

Sun

2019

3-year fully funded PhD position in the research area of Big Data and Artificial Intelligence (AI)

Tickets

Sep 15 – Sep 16 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ETIS
Durée : 36 mois
Contact : Dimitrios.Kotzinos@u-cergy.fr
Date limite de publication : 2019-09-15

Contexte :
3-year fully funded PhD position in the research area of Big Data and Artificial Intelligence (AI) in collaboration of the MIDI team of the ETIS Lab UMR 8051, Paris, France and the Department of Computer Science, University of Warwick under the supervision of Professor Dimitris Kotzinos and Professor Peter Triantifillou respectively.
(PhD funded under the Paris Seine Initiative of Excellence)

Sujet :
Due to the massive amounts of available data, various critical database tasks, e.g. query answering, become more of an approximate task than an exact one. On the other hand, the functioning of many critical Big Data system components depends on monitoring and predictions: e.g. in caching subsystems (which items to cache/prefetch), in query optimisation (the best access method to use), in indexing (when and for which attributes to build indexes). Additionally, big data analytics’ systems need to be able to decide on the fly the most suitable (e.g. matching or optimization) algorithms to use in different cases. Similarly, many different prediction models for analytical queries (e.g., regression models) may perform differently for different predictive analytics tasks, so the system must decide on the best model to use. These problems can be approached by the use of predictive modelling adaptation techniques, well established in Artificial Intelligence (AI) and Machine Learning (ML). So, we propose to focus on working towards extending current Big Data management and analysis systems with ML and AI-based:
* Approximate analytical query processing engines based on ML models – e.g., queries based on descriptive statistics (COUNT, AVG, SUM, etc.) or on dependence statistics (CORR, CoVar, regressions, etc.). Given the massiveness of the current datasets, approximate query answering is one of the solutions we can employ in order to get responses in reasonable time and provide at the same time error feedback and control. At the same time, we want to introduce into the system uncertainty models with guarantees of maximum error and an understanding of the trade-off error vs time/costs during query processing.
* Self-learning capabilities, big data management and analysis systems should be able to learn by monitoring operations and decisions made so far and use them to extract useful information in order to optimize various of the system’s operation, like selecting the best possible algorithms, models, etc.
So, during this PhD we want to investigate the above issues and develop solutions that can be integrated to real world big data management systems.

Profil du candidat :
We expect the successful applicant to be one of the driving forces behind the newly established collaboration between the two entities mentioned above. The successful applicant will work jointly with Professor Dimitris Kotzinos (ETIS / Paris Seine University) and Professor Peter Triantafillou (Department of Computer Science, University of Warwick) and their respective groups, will be based at ETIS lab at the University of Cergy Pontoise in the greater Paris area and the University of Warwick in a scheme of joint supervision that leads to a double doctorate..

Tentative Starting Date: October 2019

Application
If interested, please send your application email with [BigAI] in the title, which should include a detailed CV, university transcripts, a copy of the master thesis and/or scientific papers if available, as well as a list of personal references and a motivation letter in PDF format, to Professor Dimitris Kotzinos (Dimitrios.Kotzinos@u-cergy.fr) and Professor Peter Triantafillou (P.Triantafillou@warwick.ac.uk). Further enquires are also welcome.
Applications are welcome until 06/09/2019 or until the position is filled.

Formation et compétences requises :
M2 or equivalent

Adresse d’emploi :
ETIS (St.Martin), Cergy-Pontoise, Paris, France
&
University of Warwick, Warwick, UK

Document attaché : PhD-descr-INEX.pdf

Categories: theses

Deep learning for medical imaging-driven diagnosis models. Application to neuropathologies.

Tickets

Sep 15 – Sep 16 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire CREATIS – UMR CNRS 5220
Durée : 36 mois
Contact : carole.lartizien@creatis.insa-lyon.fr
Date limite de publication : 2019-09-15

Contexte :
In recent years, deep machine learning has received a lot of attention to explore and structure multidimensional and multimodality medical imaging data. The ’Images and Models’ team from CREATIS lab (www.creatis.insalyon.fr) in Lyon (France) has developed a strong expertise in the domain of machine learning for the design of diagnosis and prognosis models.

Sujet :
The objective of this PhD project is to perform upstream research in deep learning to push the performance limits of the prototype models we have designed so far.

The PhD candidate will benefit from ongoing collaborations with external experts in the machine learning domain, neurologists from Hospices Civils de Lyon (HCL), as well as the scientific emulating environment of the ’Images and
Models’ team which currently explores the potential of machine and deep learning for medical image processing.

A detailed description of the project is available here : https://www.creatis.insa-lyon.fr/site7/fr/node/46826

Profil du candidat :
We are looking for an enthusiastic and autonomous student with strong motivation and interest in multidisciplinary research.

Formation et compétences requises :
The candidate is expected to have strong knowledge either in machine learning or image processing and a good experience in both fields. Some prior experience with medical image processing would be appreciated but is not required. Good programming skills are also required.

Adresse d’emploi :
CREATIS laboratory (www.creatis.insa-lyon.fr)
INSA Lyon
Bâtiment Blaise Pascal
7 avenue Jean Capelle
69621 Villeurbanne
France

Document attaché : PhD_CREATIS_DeepLearning_April2019.pdf

Categories: theses

Sep

Mon

2019

Correction des biais dans le cadre de la modélisation de l’impact d’actions : application à la prédiction de l’Uplift

Tickets

Sep 30 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Orange Labs Lannion (Orange Labs est la division recherche et développement du groupe Orange)
Durée : 36 mois
Contact : nicolas.voisine@orange.com
Date limite de publication : 2019-09-30

Contexte :
*Contexte global de la thèse et état de l’art*

« L’Uplift (levier) désigne (définition wikipedia.fr) une génération de modèles statistiques employés en marketing quantitatif pour détecter les populations des consommateurs sensibles à une offre commerciale. Pour les opérations de marketing ciblées, l’uplift aide à identifier les groupes de personnes étant susceptibles de répondre positivement à une sollicitation marketing. Par-là, cette technique permet de réduire le nombre de messages commerciaux émis, et donc le coût de la publicité.
Elle est à la fois une amélioration des techniques marketing classiques et un complément aux techniques du data mining : scoring de propension et scoring anti-attrition, …

D’une manière générale, le modèle l’uplift est un moyen de prédire, avec un certain taux d’erreur, l’impact d’une action sur le comportement de quelqu’un. Par exemple la méthode permet de connaitre la probabilité de changement de comportement d’achat d’un groupe de personnes après une campagne marketing direct».

De par sa définition on comprend aisément l’intérêt pour un opérateur tel qu’Orange.

Cette définition fait apparaitre des éléments clefs :
· une population d’intérêt (un périmètre) et sa description (par exemple des variables descriptives des individus et/ou de leurs comportements passés)
· une mesure d’un delta entre le résultat obtenu entre la présence ou l’absence d’une sollicitation (par exemple si des produits sont souscrits naturellement)
· une modélisation : prédire le delta « avant » de faire la campagne;

L’une des difficultés inhérente à l’uplift réside dans le fait que les données ne sont « étiquetées » que partiellement. Il est impossible de savoir si le traitement choisi est optimal pour un sujet donné parce que les réponses aux traitements alternatifs ne sont pas observées. L’autre difficulté pratique liée à la prédiction est qu’en pratique les données sont biaisées :
· les données entre traitement de l’ensemble d’apprentissage sont biaisées
· les données qui servent à construire le modèle sont différentes de celles où on applique le modèle.

On souhaite dans la thèse améliorer l’état de l’art de la modélisation de l’uplift sur deux axes important peu étudiés à ce jour dans la littérature :
· Construire un modèle d’uplift en prenant en compte le biais de traitement
· Le domaine source qui sert à l’apprentissage peut différer sensiblement du domaine cible ou l’on veut appliquer le modèle. Construire un modèle qui s’adaptera à la modification de domaine sera un apport fort pour l’application réelle des modèles d’uplift.

Dans le domaine de l’apprentissage de l’uplift à Orange, l’outil Kuplift a été développé pour répondre à la modélisation de l’uplift sans biais. Nous souhaitons aboutir à une amélioration de l’outil qui prend en compte les biais tout en gardant des capacités automatiques d’apprentissage sur de grandes bases de données.

Sujet :
*Objectifs de la thèse*

L’objectif général de cette thèse est de spécifier, réaliser, étudier etévaluer un algorithme d’apprentissage d’Uplift prenant en compte le biais des données d’apprentissage et de déploiement. Ces algorithmes auront des capacités automatiques d’apprentissage sur de grandes bases de données tout en ayant de très bonnes performances sur petits échantillons. Plusieurs verrous techniques et méthodologiques devront être levés pour atteindre notre objectif.

Dans le domaine de l’optimisation des traitements (i.e. actions commerciales) on expérimente en respectant un plan d’expérience des traitements pour choisir au mieux celui qui maximise un critère de performance. On retrouve ces techniques d’optimisation dans de nombreux domaines pour faciliter la prise de décision : bancaire, marketing, médical, sociologie et e-business. Ces techniques permettent de choisir le traitement optimal pour la population testée avec une certaine garantie statistique. Ces techniques recherchent à comparer l’expérimentation à des résultats alternatifs, on parle alors d’étude
contrefactuelle ([7]).

Dans la littérature plusieurs études ont permis de répondre aux défis de la modélisation de l’uplift. Pour commencer on a d’abord modélisé l’Uplift dans le cas du bi-traitement ([1][2]) puis en multitraitement [4]. D’autres ont étudié l’évaluation des modèles d’uplift ([3]).

Cependant 2 aspects primordiaux pour répondre à des problèmes opérationnels n’ont pas été suffisamment étudiés. Le premier, vient que nous devrions modéliser l’Uplift sur des données expérimentales, c’est-à-dire que nous avons la maitrise de la génération des données et qu’il n’y a pas de biais entre les données issues de différents traitements. Or en pratique on constate que les données sont de nature observationnelles et qu’il y a un biais, ce qui rend inopérantes les méthodes de modélisation d’Uplift. Le second aspect vient du biais entre les données d’apprentissage et les données de déploiement. On fait l’hypothèse qu’il n’y a pas de biais. Or en pratique, il y a toujours un biais entre ces données.

Pour répondre à ces problèmes, différents travaux de recherche s’approchent de ces problématiques. L’une concernant plus le mode batch de la modélisation, est basée sur le champ de recherche de l’adaptation de domaine ([6]) et de l’approche causale ([7]). L’autre concerne le champ de recherche apprentissage par renforcement ([5]). Pour finir le nombre de variables pour modéliser l’Uplift est potentiellement très grand (plusieurs dizaines de milliers). Il conviendra d’étudier les algorithmes qui pourront prendre un nombre important de variables.

*Références:*

1. P. Rzepakowski and S. Jaroszewicz, *Decision Trees for Uplift Modeling*, /2010 IEEE International Conference on Data Mining/, Sydney, NSW, 2010, pp. 441-450.

2. Maciej Jaskowski and Szymon Jaroszewicz. *Uplift modeling for clinical trial data*. ICML, Workshop on Clinical Data Analysis, 2012

3. Nicholas J. Radcliffe Patrick D. Surry *Real-world uplift modelling with significance-based uplift trees* White Paper TR-2011-1 Stochastic Solutions 2011.

4. Zhao Yan Xiao Fang David Simchi-Levi *Uplift Modeling with Multiple Treatments and General Response Types* Proceedings of the 2017 SIAM International Conference on Data Mining 2017.

5. Sawant N, Namballa CB, Sadagopan N, and Nassif H. *Contextual Multi-Armed Bandits for Causal Marketing*. International Conference on Machine Learning (ICML’18) Workshops, Stockholm, Sweden, 2018

6. Jiang, J. (2008). *A literature survey on domain adaptation of statistical classifiers*. /URL: http://sifaka. cs. uiuc. edu/jiang4/domain adaptation/survey/, /3/, 1-12.

7. Pierre Gutierrez, Jean-Yves Gérardy ; *Causal Inference and Uplift Modelling: A Review of the Literature *Proceedings of The 3rd International Conference on Predictive Applications and APIs, PMLR 67:1-13, 2017.

Profil du candidat :
Le profil souhaité est BAC + 5, école d’ingénieur ou Master Recherche informatique et/ou statistiques et/ou mathématiques appliquées.

Formation et compétences requises :
– Le doctorant devra avoir une bonne connaissance des statistiques
et des mathématiques.
– Il devra réaliser un travail approfondi de bibliographie.
– Une expérience du développement est requise (python, c++ ou java).
– Des connaissances en apprentissage statistique sont un réel plus.

Adresse d’emploi :
Orange Labs Lannion (Orange Labs est la division recherche et développement du groupe Orange)

*Equipe d’accueil (industriel): *PROF (Profiling & Datamining) Vous serez dans l’équipe de traitement statistique de l’information d’Orange Labs Lannion. Cette équipe spécialisée en machine learning, data mining et profiling, comporte une vingtaine de permanents, sur des sujets allant de la recherche aux applications opérationnelles, ainsi que 5doctorants et post-doc.

*Directeur de Thèse (industriel) : *Nicolas Voisine*(**nicolas.voisine@orange.com
**)*

*Laboratoire Universitaire d’accueil et Directeur de Thèse universitaire: *en cours

*Début de la Thèse : *Novembre 2019.

Pour constituer le dossier d’audition nous demandons au (à la) candidat(e) d’envoyer TOUTES les pièces suivantes :

– un CV,
– une lettre de motivation,
– un relevé de notes avec classement (Licence, M1 et M2),
– un rapport de stage de Master (à défaut un rapport de stage rédigé par le candidat),
– 2 lettres de recommandation ou 2 contacts.

Les candidatures sont à faire en ligne sur Orange.jobs :
https://orange.jobs/jobs/offer.do?joid=82640&lang=fr

ou à adresser par courriel électronique à*nicolas.voisine@orange.com
*

Document attaché :

Categories: theses

Construction d’applications personnalisées pour les bases de connaissances du vivant

Tickets

Sep 30 – Oct 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIRMM/CIRAD
Durée : 3 ans
Contact : marianne.huchard@lirmm.fr
Date limite de publication : 2019-09-30

Contexte :
Dans le cadre d’un projet du méta-programme INRA-CIRAD Glofoods (projet Knomana pour « Knowledge management on pesticide plants in Africa for a safer food and a better environmental health »), le CIRAD a développé une base de connaissances sur les plantes à effets pesticide, antimicrobien, antiparasitaire et antibiotique pour une meilleure sûreté alimentaire et une meilleure santé de l’environnement. Lors de ce même projet, le CIRAD et le LIRMM ont débuté une collaboration pour la restitution et l’exploitation de ces connaissances par des utilisateurs finaux. Une entreprise partenaire les a rejoint sur le sujet. La diversité des utilisateurs selon leur rôle (fermier, scientifique, décisionnaire, etc.), leurs tâches et les différents contextes dans lesquels ils peuvent être amenés à travailler (au champ, en laboratoire, etc.) incite à concevoir des méthodes et des applications personnalisées et adaptables innovantes pour la restitution et l’exploitation des connaissances.

Sujet :
Le projet de thèse aura pour but de mettre au point une chaîne de construction de telles applications pour la restitution et l’exploitation des connaissances (exploration principalement) sur les plantes à effet pesticide, antimicrobien, antiparasitaire et antibiotique. Les innovations par rapport à l’existant porteront sur :
– la production d’application variables et adaptables par des utilisateurs finaux pour l’exploration de connaissances avec un cas concret,
– la conception d’un dispositif d’analyse des parcours utilisateurs destiné à émettre des recommandations propres à améliorer la stratégie digitale des organisations, l’usage des applications, l’organisation du travail ou à adapter les applications aux usages (variation dynamique de l’application).

Profil du candidat :
Niveau Master en informatique

Formation et compétences requises :
Analyse de données et intelligence artificielle

Interfaces homme-machine

Développement web et mobile

Anglais scientifique lu, écrit et parlé.

Adresse d’emploi :
LIRMM, CNRS et Université de Montpellier, Montpellier, France

Document attaché :

Categories: theses

June – September 2019 Jun – Sep 2019

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Présentation Générale

Manifestations à venir

Actions, Ateliers et Groupes de Travail :