
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : CEA de Grenoble – laboratoire EDyP
Durée : 3 ans
Contact : thomas.burger@cea.fr
Date limite de publication : 2017-09-30
Contexte :
Le candidat retenu travaillera au sein du laboratoire EDyP (Etude de la Dynamique des protéomes) de l’unité BGE (Biologie à Grande Echelle), au CEA de Grenoble. Le laboratoire EDyP est un des laboratoires leader de la protéomique par spectrométrie de masse en France, et possède par ailleurs une solide expérience dans les applications cliniques de la protéomiques, ce qui permettra au candidat de travailler en étroite collaboration avec les « producteurs de données », mais aussi avec les « utilisateurs directs » des méthodologies développées pour la recherche de biomarqueurs de suivi clinique. Par ailleurs, le pôle Data Science du laboratoire regroupe des développeurs logiciels, des bioinformaticiens, des statisticiens et des mathématiciens, fournissant par là-même un environnement stimulant pour un(e) doctorant(e) cherchant à développer ses compétences en science des données. De plus, le travail sera développé en étroite collaboration avec le Grenoble Alpes Data Institute, qui fédère les activités de nombreuses autres équipes de recherche grenobloise. Il s’agit donc finalement d’un environnement de qualité exceptionnel pour réaliser un travail doctoral.
Sujet :
La protéomique est une technologie récente, dont l’objectif est l’identification et la quantification de l’ensemble des protéines présentes dans un échantillon biologique. Par opposition aux autres disciplines « omiques » telles que la génomique ou la transcriptomique, cette technologie permet d’avoir directement accès aux « briques élémentaires du vivant », les protéines, et permet donc une caractérisation sans équivalent d’un état biologique. Dans un contexte clinique, cette caractérisation a de plus l’avantage de la spécificité : contrairement au génome, qui permet une description invariante dans toutes les cellules du corps et tout au long de la vie par le biais des gènes, le protéome (i.e. l’ensemble des protéines) est dépendant du contexte environnemental (pollution, perturbateurs endocriniens, alimentation, etc.) et physiologique (l’état d’un patient).
Malheureusement, les analyses protéomiques produisent des données dont l’exploitation statistique fiable dans un contexte clinique est une réelle difficulté, en raison des nombreuses imperfections de l’acquisition produite par une chaîne instrumentale extrêmement complexe. Les développements les plus récents permettent maintenant le traitement fiable de données issus d’analyses comparatives (binaires), mais un important travail reste nécessaire pour permettre une analyse temporelle (aussi appelée « analyse longitudinale »). Finalement, une telle méthodologie d’analyse est le dernier élément manquant pour permettre usage à grande échelle de la protéomique comme un outil fiable dans le contexte clinique du suivi au long cours de patients, pourtant absolument nécessaires pour la prise en charge des maladies chroniques (obésité, diabète, troubles cardiovasculaires…)
Le doctorant recruté participera à développer une méthode statistique permettant d’isoler, parmi les milliers de protéines qui sont identifiés et quantifiés par les analyses protéomiques, les quelques-unes les plus à même de constituer de bons « biomarqueurs de suivi » ; c’est-à-dire des protéines dont la présence et à la variation d’abondance au cours du temps est un signe clinique claire qui pourra orienter le médecin et l’aider à ajuster le traitement du patient. Pour ce faire, le doctorant assemblera différents outils préexistants ou élaborés par lui-même qui permettront de prendre en compte à la fois les contraintes des protéomiciens et cliniciens (utilisateurs potentiels de cette méthode statistique) mais aussi de la spécificité des données de protéomiques : présence de valeurs manquantes, quantification peu fiable et relative, homologies entre certaines séquences protéiques difficilement distinguable durant l’analyse, variabilité intra- et inter-patient(s), multi-factorialité de la maladie et stratification des patients, etc. Enfin, au-delà de l’aspect « statistique en grande dimension », sous-jacent au problème classique de la sélection de biomarqueurs, le candidat appréhendera aussi le problème sous l’angle du « big data », avec les aspects computationnels qui y sont classiquement associés : prétraitements, visualisation et manipulation interactives des données, efficacité du calcul en temps et en mémoire, introduction de connaissances a priori, etc.
Profil du candidat :
– Homme/femme, titulaire d’une formation complète sanctionnée par un niveau bac+5 (Master 2, école d’ingénieur, ou équivalent) dans l’une des spécialités suivantes : statistiques, traitement du signal, science des données, bioinformatique ou mathématiques appliquées.
– Compétences en programmation scientifique (R ou équivalent)
– Maîtrise courante, soit de l’anglais soit du français
– Capacité à travailler en équipe dans un contexte interdisciplinaire
– Fort intérêt pour les applications biologique ou médicales indispensables
– Aucune compétence en biologie ou en médecine n’est requise
NB : Les candidatures ne correspondant pas au cursus universitaire demandé ne seront pas considérées et ne recevront pas de réponse. Notamment, les cursus en biologie complétés par une année de spécialisation (M2) en biostatistique ou en bioinformatique ne seront pas considérés
Formation et compétences requises :
cf. profil du candidat
Adresse d’emploi :
CEA de Grenoble – Bâtiment 42b
17 avenue des Martyrs
38054 Grenoble Cedex 9
France
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : TOTAL – Pau
Durée : 3 ans
Contact : mark.asch@u-picardie.fr
Date limite de publication : 2017-10-30
Contexte :
Traditional tools used to make forecasts and optimize oil reservoirs production are based on complex geological modeling of the subsurface and on computationally expensive numerical solvers of the fluid flow equations in porous media. This approach enables the integration of all the available data (seismic, cores samples, wells logs, geological and physical understanding), however it is very time consuming, moreover, the model obtained is usually not predictive enough for the short-term production optimization particularly for large and mature fields.
More recently a different paradigm based on data-driven reservoir modeling has emerged that aims at providing faster results using data analytics. This approach has the advantage of being much faster and easy to implement, however validating and trusting the model forecasts is usually more controversial.
Sujet :
Voir document joint.
See attached document.
Profil du candidat :
Good programming skills, either in numerical solution of pde’s and/or deep learning methods. Knowledge of data science is a plus.
Formation et compétences requises :
Master in a computationally related domain or in data science.
Adresse d’emploi :
TOTAL SA
Avenue Larribau,
64000 Pau France
Document attaché : ThèseFastReservoirForecaster.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LIAS et SRD (convention CIFRE)
Durée : 3 ans
Contact : grolleau@ensma.fr
Date limite de publication : 2017-11-20
Contexte :
SRD, 5ème gestionnaire de réseau de distribution d’électricité en France, assure la gestion de près de 12 000 km de réseau d’électricité et dessert près de 150 000 clients dans le département de la Vienne (86), soit 1,3 TWh. Témoin et acteur de la multiplication du nombre de sites de production d’énergie d’origine renouvelable intermittente sur le territoire de la Vienne, SRD est confronté à de nouvelles problématiques de gestion des flux d’énergie.
Or, l’efficience et la rapidité de l’optimisation du réseau ainsi que la précision de l’estimation varient très fortement en fonction de la complexité et de l’exactitude des données d’entrée concernant la puissance consommée et produite dans le réseau. L’objet de la présente thèse est donc d’affiner les modèles permettant de fournir ces données, en particulier pour la génération de données prévisionnelles.
Sujet :
Les objectifs de ce projet de thèse sont donc de (i) définir, à partir des données archivées et de facteurs externes, un algorithme de prévision de la production et de la consommation d’énergie, (ii) concevoir, en fonction des cas d’usage, un processus de sélection des données pertinentes parmi les informations archivées, (iii) étudier l’influence du volume de données d’entrée sur l’efficience de l’optimisation,
et (iv) proposer une méthodologie de validation, notamment par la détermination de points de mesure complémentaires à équiper sur le réseau.
(voir document joint pour le sujet détaillé)
Profil du candidat :
Le candidat devra posséder des connaissances en statistiques, fouille de données et apprentissage automatique. Un bon niveau en français et en anglais est nécessaire.
Formation et compétences requises :
Le candidat devra être titulaire d’un Master 2 ou d’un diplôme d’ingénieur.
Adresse d’emploi :
SRD – 78 avenue Jacques Coeur – 86000 Poitiers
LIAS – 1 avenue Clément Ader – 86360 Chasseneuil-du-Poitou
Document attaché : cifre_lias_srd.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : irstea-clermont ferrand/irit
Durée : 3 ans
Contact : sandro.bimonte@irstea.fr
Date limite de publication : 2017-11-30
Contexte :
Avec l’explosion des technologies VGI (Volunteer Geographic Information) [3] de plus en plus de données sont produites par des utilisateurs volontaires. Ces données géospatiales sont exploitées par les systèmes de GeoBusiness Intelligence (GeoBI) pour aider les décideurs dans la prise de décision
Parmi les systèmes GeoBI, les outils Spatial OLAP (SOLAP) permettent l’analyse spatio-multidimensionnelle gros volumes de données via des affichages graphiques et cartographiques.
Sujet :
La conception des systèmes SOLAP est classiquement fait via des méthodologies hybrides [4], qui prennent en compte les données sources et les besoins utilisateurs. Si ces méthodologies ont bien été utilisées dans plusieurs domaines d’applications, elles semblent inefficaces dans le contexte du VGI vu le nombre important de producteurs et utilisateurs des données. En effet, les méthodologies de conception SOLAP existantes se basent sur un nombre très limités d’utilisateurs et donc besoins d’analyse [1].
L’objectif principale de ce travail de thèse est de concevoir une méthodologie de conception SOLAP qui prenne en compte un nombre important d’utilisateurs.
Pour ce faire, ce travail se basera sur les principes de Group Decision Support Systems (GDSS). Les GDSS via des outils de décision collaborative permettent de trouver la meilleur solution, vu comme un consensus parmi les différents décideurs [2].
Les contributions de ce travail de thèse seront validées avec les données de biodiversité et les volontaires fournies par la Ligue de Protection des Oiseux.
Profil du candidat :
OLAP et ou Group Decision Support Systems
Programmation Java
Base de données
Formation et compétences requises :
OLAP et ou Group Decision Support Systems
Programmation Java
Base de données
Adresse d’emploi :
La thèse se déroulera en cotutelle entre IRIT de Toulose et Irstea de Clermont-Ferrand (Equipe COPAIN)
L’étudiant sera donc 18 mois sur Toulouse et 18 mois sur Clermont-Ferrand
Contacts
Sandro Bimonte.sandro.bimonte@irstea.fr
Pascale Zaraté. Pascale.Zarate@ut-capitole.fr
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LIP6 – UPMC
Durée : 36 mois
Contact : bernd.amann@lip6.fr
Date limite de publication : 2017-12-15
Contexte :
This thesis is financed by the EPIQUE ANR project (http://www-bd.lip6.fr/wiki/site/recherche/projets/epique) and takes place in the Database research team (http://www-bd.lip6.fr) of the LIP6 laboratory (http://www.lip6.fr) in Paris. The goal is to develop new tools for exploring large scientific document collections (Web of Science, Medline, …) and building interactive topic evolution maps or “phylomemies” [1]) for representing the evolution of science. These tools are based on efficient algorithms and data structures implemented on top of recent big-data infrastructures like Apache Spark.
Sujet :
A topic evolution map represents the evolution of science by a set of topics over a sequence of time periods where topics from different periods can be aligned through specific evolution links. For example, data related research topics have rapidly evolved during the last 25 years period where new research topics have appeared (noSQL, Big Data, MapReduce Data Processing, Data Science, Deep Learning), often by replacing, splitting or combining previous research topics (semi-structured data, parallel DBMS, machine learning, neural networks). Building such maps is a complex task including a variety of data processing steps (see more details in the EPIQUE project description).
This thesis is mainly deals with two steps of the EPIQUE workflow:
Topic extraction step: The first step is to extract semantic topic structures from large complex real-world document collections in different application domains (science, social web, news). There already exists a large spectrum of topic extraction models and algorithms based on graph clustering, matrix factorization (LDA) and other techniques. Existing topic models and algorithms do not scale and a first challenge will be to define and adapt scalable data mining solutions based on new data structures and recent parallel data processing frameworks [2,3,4,5].
Topic alignment step: The second step consists in exploring the evolution of science by aligning semantic topic structures from different time periods. This alignment is based on a topic evolution model representing different semantic evolution steps (birth, split, join, death, …) for topics from different time periods [1].The goal is to propose a formal topic evolution model based on existing work on scientific evolution and to implement efficient algorithms for the temporal alignment of semantic topic structures generated by step 1.
EXPECTED RESULTS
The first outcome of this thesis will be new innovative tools for the reconstruction and exploration of multi-scale dynamics in complete real-world scientific corpora and for obtaining new insights in the evolution of complex human generated knowledge and information. The second outcome will be new large-scale data processing solutions for implementing advanced text and graph mining algorithms. Our goal is in particular to provide generic low-level solutions which can be customized independently of the higher-level mining algorithms with respect to specific cost models and hardware constraints (memory, CPU, network).
START DATE : February 1st 2018
Profil du candidat :
Applicants should have strong analytical programming skills (Java, Scala, Python), a high capacity to understand new concepts and to work independently, a good expertise in database related topics (distributed databases, query optimisation, big data platforms).
Applicants will have to send an email and attach:
* an application letter in English or French
* their CV
* their university/grade transcripts of the last two years
* a copy of their last diploma
* recommendation letters (optional)
to bernd.amann@lip6.fr and hubert.naacke@lip6.fr .
Formation et compétences requises :
Applicants must hold a Master’s degree in Computer Science (or have an equivalent academic background) and have excellent written and oral communications skills in English (French is a plus).
Adresse d’emploi :
The LIP6 Laboratory of Computer Sciences, Paris http://www.lip6.fr ) with a staff of 470 people including 170 permanent researchers, 250 PhD students, Postdocs, engineers and administrative employees is today one of the most important centers of Computer Science in France. LIP6 is part of the Université Pierre et Marie Curie and as a department of CNRS (UMR 7606), it is also linked to the INS2I (Institut des sciences de l’information et de leurs interactions). The LIP6 laboratory is composed of 20 research teams structured into 7 departments which cover a wide spectrum of computer science domains: scientific computing, decision making, optimization problems in artificial intelligence and operational research, databases and machine learning, networks and systems, systems on chips, complex systems.
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Institut Elie Cartan Lorraine
Durée : 3 ans
Contact : radu-stefan.stoica@univ-lorraine.fr
Date limite de publication : 2017-12-30
Contexte :
De nombreuses étapes de fabrication dans le groupe Saint Gobain impliquent de transformer de manière très précise des produits semi-finis, par exemple en chauffant ou en appliquant des forces sur des plaques de verres.
La plupart du temps, aucun modèle satisfaisant de la transformation n’est disponible. Les différents réglages (puissance de chauffe, position des outils, ..) sont effectués par des régulateurs très simples mais pas forcément très pertinents (typiquement : des régulateurs PID prenant une seule variable en entrée) ou par des intervenants humains sur la base de leur seule expertise. Durant ou après ces transformations, de grandes quantités de données (parfois plusieurs milliers de variables pour chaque pièce) sont collectées. Ces données peuvent aussi
bien être des mesures physiques en temps réel (comme des évolutions de température) que des contrôles qualités a posteriori (comme des mesures très précises de l’état de surface). Des séries temporelles sur plusieurs années sont disponibles sur certaines chaînes de production.
Le but de la thèse est de proposer une méthode automatique de génération de lois de commande efficaces (dans l’idéal : optimales) pour chacune de ces étapes de fabrication. Le terme “lois de commande” est à comprendre dans un sens très large qui inclut le calcul de la valeur d’un contrôle à un instant donné, mais aussi la détection de défaut ou d’usure des outils et la programmation d’opérations de maintenance préventive. Le mot automatique sous-entend qu’on espère limiter le recours à l’expertise humaine uniquement aux étapes initiales de compréhension du problème métier.
Sujet :
Difficultés et verrous scientifiques
Les difficultés sont multiples et pour un certain nombre originales.
– Difficultés de modélisation
La première difficulté est que l’on ne connaît pas de modèle pour la transformation étudiée. Cette non-connaissance est à comprendre dans un sens très fort :
– les variables physiquement pertinentes ne sont pas connues. Elles sont sans doute mesurées ou reconstructibles à partir des nombreuses mesures, mais vraisemblablement noyées dans une masse de données
redondantes d’intérêt moindre.
– les échelles temporelles ne sont pas connues, et la fréquence d’acquisition des séries temporelles n’a que peu de chance de correspondre aux constantes de temps du système (constantes de temps qui pourraient
d’ailleurs fortement varier d’une variable à une autre).
– des phénomènes physiques complexes (chocs, micro-fissuration, changement de phases, …) peuvent se produire pendant la transformation. La modélisation de ces phénomènes fait intervenir des dynamiques peu régulières (a minima : non linéarité, vraisemblablement : défaut de continuité, apparition d’hysteresis). L’identification d’un modèle linéaire par des techniques standard risque d’être insuffisante.
– les défaillances (y compris temporaires) de capteurs sont inévitables au vu de la durée des périodes étudiées et de l’environnement parfois hostile auquel ils sont confrontés. Évaluer la qualité des données,
et les sélectionner en conséquence, sera un préalable indispensable à la modélisation.
Problème de commande
La difficulté de la recherche de lois de commande augmente avec la complexité du modèle. On aura donc sans doute intérêt à privilégier les modèles pas forcément les plus réalistes, mais sur lesquels on pourra obtenir les meilleurs résultats. Si il devient nécessaire d’introduire des dynamiques très irrégulières, il faudra s’assurer
que l’on garde une certaine maîtrise de ces irrégularités (par exemple en les localisant).
Verrous scientifiques
Une littérature abondante est disponible pour résoudre l’essentiel des difficultés évoquées précédemment pour peu que les autres aient été résolues. Par exemple, un modèle de dynamique étant connue, on sait en général extraire les variables les plus pertinentes pour proposer une dynamique très proche mais beaucoup plus simple (réduction de modèle). De la même façon, la forme d’un modèle étant connue (liste des variables et formes analytique de la dynamique), des techniques très efficaces sont disponibles pour l’identification de dynamique à partir de données fiables ; la génération de stratégies de commande efficaces ou la détection de capteurs défaillants est envisageable de manière automatique dès que la dynamique est connue.
La grande difficulté viendra de la nécessité de résoudre simultanément tous ces problèmes.
Méthodes envisagées et programme de travail
Une méthode en plusieurs phases est envisagée, incluant une première phase d’élaboration du modèle (basée sur des outils statistiques), suivi d’une phase d’analyse de la contrôlabilité des modèles obtenus (basée sur des méthodes de contrôle géométrique). Il conviendra d’examiner la pertinence d’une méthode itérative où on alternerait les phases 1 et 2.
Complémentarité de méthodes
Il sera crucial que chacune des étapes soit exécutée en gardant en vue le but global du projet. Par exemple, il serait contre-productif de proposer des modèles à la dynamique tellement complexe ou irrégulière qu’elle en devient difficilement simulable numériquement, ou de proposer au final des lois de commande insuffisamment robustes aux erreurs de modèle, ou faisant intervenir des commandes physiquement irréalistes. Pour ces différents critères (forme possible des pathologies du modèle, lois de commande physiquement admissibles) il semble difficile de se passer de l’avis d’un expert humain.
Profil du candidat :
Le/la candidat(e) retenu(e) aurait idéalement une double compétence (probabilités/statistique et automatique). En pratique, seules des connaissances de base sur l’analyse en composantes principales et les méthodes de classiffication (hiérarchique, partition K-means , etc.) seront nécessaires dès le début, toutes les autres compétences (en probabilités, statistiques et automatique) pourront être acquises en cours de thèse.
Formation et compétences requises :
Le/la candidat(e) retenu(e) sera amené(e) à communiquer en anglais (communications scientifiques écrites et orales). Une compréhension basique du français est souhaitable. Des formations complémentaires en français et en anglais sont possibles pendant la thèse.
Seul un master 2 est formellement requis. Aucune condition d’âge, de genre ou de nationalité.
Adresse d’emploi :
Institut Élie Cartan de Lorraine
Université de Lorraine, Site de Nancy
B.P. 70239, F-54506 Vandoeuvre-lès-Nancy Cedex
Document attaché : CIFRE_Saint_Gobain_IECL.pdf
Annonce en lien avec l’Action/le Réseau : Doctorants
Laboratoire/Entreprise : IFP ENERGIES NOUVELLES
Durée : 3 ans
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2017-12-31
Contexte :
The 3D mesh objects for dynamic volume simulations have increasing sizes making them complex to store, manipulate and visualize. These digital objects reach the target sizes of billions of cells. They are increasingly used in the context of web applications, collaborative platforms; they therefore need to be efficiently transmitted over the network, and processed on devices with computing power and resolutions of various strength. Thus, compression of these contents becomes a critical scientific challenge with several objectives such as the efficient storage of such data, an interactive time transmission on the network, a progressive display of the content adapted to the devices (see Figure 1), or yet a random and quick access. Their compression in progressive mode allows access without decompressing the entire stored binary file, at some part of the mesh at different levels of resolution. In other words, this mode means to obtain a single binary file, encoding the entire mesh, either lossless compressed or with an allowable loss of information (reducing the initial numerical accuracy of the file) with a low compression rate (less than 10). This is the equivalent of lossless or lossy modes of the JPEG 2000 image compression standard.
Sujet :
The aim of this thesis is to propose a new compression method for volumetric meshes able to compress both the geometry and the associated properties, while allowing a progressive decompression adapted to the display devices. Geometry of the mesh can be structured (a set of hexahedral cell with an implied topology) or unstructured (mixture of different cell types: tetrahedron, hexahedron, prism, pyramid, etc.). Following IFPEN requirements, meshes may also be perceived as 4D, with the notion of evolution in time (3D + t). Today there is very few work on the progressive compression of sequences of volumetric meshes, including properties. Also, we propose to focus this thesis on the volumetric mesh compression composed of hexahedrons or tetrahedrons, corresponding to most cases in geosciences and in combustion, and predominantly treated in the literature. We will also look at the refined mesh, that is to say the number of meshes is only increasing or decreasing in a same time sequence. From the geometry point of view, we propose from this sequence to build a “synthetic” mesh, consisting of the maximum number of cells. A less refined mesh can be treated as an instance of that mesh to which a number of cells would be degenerate or “flat”, as it is done in geosciences. Each mesh in time will thus be compressed by the data of the “synthetic” compressed mesh (progressively), and auxiliary information encoding the difference of the positions of the nodes between the two meshes. The relative compression of the mesh properties from one mesh to the other remains an open issue. We could learn from so-called up-scaling approaches such as implemented in a previous patent to make predictions of properties at two successive resolution. The motivation of the proposed approach is based on the observation that the coding of the differences between nodes positions, or between properties is generally of lower amplitude than the initial values, and therefore less expensive in storage size, insofar the mesh evolves over time with some regularity. This would allow us to bring us close to the techniques used in video coding, where one is interested in coding the displacement between successive images, with full encoding of reference images at the beginning and the end of the sequence, called intra images. If this approach proved right, we could address in this thesis hybrid mesh composed of tetrahedral and hexahedral cells to go more easily from a given mesh to its refined version. The thesis will build on recent work on compression of volumetric mesh, surface mesh with attributes, as well as the skills of the MediaCoding I3S team in terms of compression. It will be the continuation of an internship (during the summer of 2014) and a post-doctoral work on the same theme, initiated at IFP Energies nouvelles in January 2015 in collaboration with I3S. Multiresolution decompositions are based on linear and non-linear wavelets.
More information:
http://www.laurent-duval.eu/position-geometric-3d-mesh-compression.html
Profil du candidat :
Engineering school, University Master degree in computer and information sciences
Formation et compétences requises :
Compression, mesh processing, wavelets, coding
Adresse d’emploi :
IFP Energies nouvelles, Lyon
Annonce en lien avec l’Action/le Réseau : Doctorants
Laboratoire/Entreprise : IRISA
Durée : 3ans
Contact : zoltan.miklos@irisa.fr
Date limite de publication : 2017-12-31
Contexte :
This PhD takes place in the context of the HEADWORK project (2016-2020), funded by the research agency ANR. The PhD student will work at IRISA, Rennes, France. The thesis is co-supervised PhD, by Loïc Hélouët (CR INRIA, SUMO team) and Zoltan Miklos (Mcf, DRUID team).
The position is funded for three years, and can start after September 2017.
Loïc Hélouët :
Mail: loic.helouet@inria.fr
Tel: 02 99 84 75 90
Web http://people.rennes.inria.fr/Loic.Helouet
Zoltan Miklos :
Mail : zoltan.miklos@irisa.fr,
Tel: 02 99 84 22 54
Web: http://people.irisa.fr/Zoltan.Miklos/
Sujet :
« Crowdsourcing » is a generic term for task-solving techniques that rely on a large group of online users. We can consider for example the success of FoldIt [1], an online game on protein folding, which allowed the crowd to solve a problem left open by specialists. Wikipedia can also be seen as an encyclopedia produced by crowdsourcing. Commercial versions of crowdsourcing also exist, such as Amazon Mecanical Turk [2]. In e-Science, crowdsourcing is used to gather huge data sets (participative sensing, for example the « Sauvage de ma rue » [4] project). Systems specifically designed for crowdsourcing are on their way (sCOOP at Stanford [5], crowDB at Berkeley [6]).
A difficulty addressed by crowdsourcing systems is to build complex applications orchestrating crowd competences. Such applications can be complex processes that need to distribute large sets of data to crowd participants, then aggregate the obtained results, and continue the process differently according to the nature or quality of collected answers. Complex crowd based services are frequently implemented through human management of tasks distribution, or using ad-hoc and low-level programming solutions. The next challenge for crowdsourcing systems is to allow for easy design of applications and services with complex workflows over crowd platforms. This calls for the design of intuitive formalisms to facilitate design, deployment, and runtime management of complex tasks on a crowd platform. The considered models have to handle at the same time data, control (i.e. handle complex tasks progress depending on collected answers), quality of collected answers, and provide mechanisms to distribute work to pools of crowd participants with various competences in order to maximize crowd efficiency [11].
The proposed PhD focuses on some of the above-mentioned aspects. The goal of this PhD is to provide tools and techniques for the development and deployment of complex crowd applications. In particular, it will focus on some the following issues:
− To contribute to the definition of models for complex workflow design over crowd platforms. The starting point for the study of such models can be data-centric declarative formalisms such as datalog, webdamlog [10], or grammars [8] but also more orchestration oriented models: Business artifacts [6,7], process algebras [12], games [13] or transaction oriented models such as [9]. While these models are well suited to describe workflows in general, they are less adapted to deal with imprecisions or inconsistencies that appear in human input.
− To model complex tasks that require interactions between participants, allow complex answering mechanisms or tasks collaboration. Such mechanisms should propose adaptive models allowing for instance a crowd user to easily define a workflow, and return it as an answer to a question.
− To propose deployment schemes for such models, i.e. propose methods to map a complex crowd workflow on a chosen crowd platform.
− To implement and evaluate proofs of concepts for complex workflow models deployment on ad-hoc or existing platforms (Amazon, Foule Factory, CrowdFlower, …
This PhD can be focused on its theoretical side (emphasis on models), and/or on its system side, with the implementation of a proof-of-concept. Candidates with theoretical or system skills are very welcome.
Profil du candidat :
Competences in some of the followings domains are not mandatory but are welcome
– Formal techniques (automata, models checking, algebras, …)
– Implementation skills
– Databases and data management
Foreign applications are welcome. Knowledge of French is not mandatory.
Formation et compétences requises :
The PhD candidate should hold a master or equivalent degree in computer science. He or she should also have the following competences:
– Fluent in English (written, spoken)
– Basic algorithmic skills
Adresse d’emploi :
IRISA – INRIA
263 Avenue Général Leclerc, 35000 Rennes
Document attaché : phdheadwork.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : IRISA
Durée : 3 ans
Contact : zoltan.miklos@irisa.fr
Date limite de publication : 2017-12-31
Contexte :
Understanding the evolution of various scientific fields is important for our society. Obtaining a general picture of important evolutions of entire scientific fields is rather challenging in the light of the proliferation of scientific publishing and in the presence of overspecialized scientific journals. Recent papers [1,2] propose text analysis techniques to reconstruct important aspects of evolution, based on large corpora of scientific publications (such as Web of Science, PubMed).
The Epique project proposes to develop automated tools that can assist (social) scientists to study empirically particular aspects of the social dynamics of science. The existing methods for phylomemetic structure reconstruction rely on the following schema. 1) Extraction of key terms from the articles. 2) Construction of a term co-occurrence graph (in the scientific publications), 3) identifying densely connected subgraphs in this term co-occurrence graph and 4) inter-temporal analysis of dense subgraphs. The result of the analysis is represented in the form of phylomemetic lattices (which are analogous to phylogenetic trees that are used in biology, for representing the evolution natural species). While automatic phylomemetic structure reconstruction gives promising results, the scientist studying the evolution of science would like to interact with the tools and influence the construction algorithms.
Sujet :
The thesis should develop techniques that can enable the interactive construction of phylomemetic structures. Through the interaction the scientists can add or precise pieces of information in order to reduce the uncertainties present at the various stages of the reconstruction procedure.
The thesis will focus on some of the following aspects.
• Developing a model of phylomemetic structure as a (structured) knowledge extraction
• Enriching the extraction model with quality metrics
• We would like to develop algorithms that can support scientists exploring the graph (lattice). This requires data exploration techniques [8,9], as the phylomemetic structure is rather large in practice.
• Provenance. As provenance questions can be important in the reconstruction process, our model should also deal with provenance information [10].
• Developing a workflow model of phylomemetic structure maintenance that can update parts of the network, in particular in the case of quality problems.
Profil du candidat :
The PhD candidate should have the following competences.
• Fluent in English (written, spoken)
• Good knowledge of data mining and knowledge extraction techniques
• Algorithmic and programming skills
• Ideally, experience with large-scale data management techniques
Foreign applications are welcome. French language skills are useful, but not mandatory.
Formation et compétences requises :
The PhD candidate should hold a master or equivalent degree in computer science.
Adresse d’emploi :
IRISA / INRIA
263 Avenue Général Leclerc, 35000 Rennes
France
Document attaché : sujetEpique_v2.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : IRIT
Durée : 3 ans
Contact : patricia.stolf@irit.fr
Date limite de publication : 2017-12-31
Contexte :
Two PhD student positions are proposed. Both PhD thesis will be done in the context of SEPIA team specialised in large scale distributed systems (HPC and Clouds), particularly in autonomic computing, scheduling and multi-objective optimization. SEPIA team is part of IRIT lab (750 staff members) in Toulouse.
These PhD thesis will be done in the context of the i-Nondations (e-flooding) project funded by ANR (French National Funding Agency). This project is a collaboration with Cerema, IRSTEA, Enedis and SDIS31.
Every year floods happen. Solutions exist for slow floods but fast ones are difficult to predict and to handle. This project aims to model fast floods in term of risk management and impact on the infrastructures using data collected by technological or human sensors.
The project will integrate different technical expertise to handle fast floods in crisis management and resilience.
The project aims to integrate different expertises in an autonomic approach for a fluid adaptation to the evolutions and to the events.
The project suggests managing three phases: before, during, and after a crisis in a feedback loop coming from the autonomic field called MAPE-K loop [1][2]. It is based on four steps : Monitoring, Analysis, Planning and Execution with a Knowledge database. The Knowledge database will be filled continuously in order to identify similarity between events, study answers (and optimize answers) and construct different solutions to handle crisis.
Two loops will be used : one for short term timescale and one for long term.
The short term one will aim to handle the crisis while the long term one will aim to prevent other crisis. Both loops will interact through a learning process.
In this context, two PhD subjects are proposed:
Sujet :
The first one is entitled “Autonomous and optimized flood management” and aims to study how to use the MAPE-K approach in crisis management and particularly floodings in order to optimize the management.
This PhD will follow the following three steps:
1) State of the art
-state of the state on formal descriptions for crisis management and for simular use cases
-state of the art on MAPE-K use in crisis management
-state of the art on optimization techniques
2) Expected research contributions:
-to model heterogeneous data coming from technological sensors (or human sensors), from the environment, from previous events, from decisions made during previous crisis …
-to propose different algorithms to deal with a flooding situation with different objectives
-to evaluate and compare the performances of different algorithms in a given context.
-to study the accuracy of the algorithms depending of the current context.
3) Implementation and validation:
Integration in a simulation framework to simulate different crisis situations and to evaluate the algorithms on different scenarios.
The second one is entitled “e-flooding machine learning” and aims to study machine learning to make the interaction between both autonomic loops. The aim of this process will be to detect similar circumstances between different events/situations.
This PhD will follow the following three steps:
1) State of the art
-state of the state on formal descriptions for crisis management /for simular use cases
-state of the art on machine learning techniques
-state of the art on large scale event based situations (for example Complex Event Processing)
2) Expected research contributions:
-to propose different machine learning algorithms to be able to learn from the context and the past evolution
-to evaluate and compare the performances of different algorithms in a given context.
-to study the accuracy of the algorithms depending of the current context.
3) Implementation and validation:
Integration in a simulation framework to simulate different crisis situations and to evaluate the learning algorithms on different scenarios.
Profil du candidat :
Requirements:
– A Master in Computer Science
– crisis management skills will be bonus
Formation et compétences requises :
– Programming skills (for example Python, Java)
– Fluent in English, French is bonus
Adresse d’emploi :
IRIT,
Université Toulouse 3 Paul Sabatier
Toulouse
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : EURECOM
Durée : 3 ans
Contact : benoit.huet@eurecom.fr
Date limite de publication : 2018-03-01
Contexte :
Cette thèse est financée par le projet européen MeMAD H2020: www.memad.eu. MeMAD est synonyme de méthodes de gestion des données audiovisuelles et vise à développer des méthodes automatiques de gestion, d’accès et de publication des contenus numériques préexistants et produits à l’origine, de manière efficace et précise dans les industries créatives, en particulier dans la télédiffusion et les services de médias a la demande. Le «contenu numérique» contient la partie audio-visuelle ainsi que divers textes «auxiliaires» tels que des légendes, des descriptions dans différentes langues et des hyperliens vers des contenus connexes. Plus spécifiquement, MeMAD vise à développer des méthodes et des modèles pour produire des informations audiovisuelles numériques enrichies dans plusieurs langues et pour différents contextes d’utilisation et publics, et à industrialiser ces résultats avec des scenarios démontrables. Ces objectifs seront mis en œuvre à travers un certain nombre de work-packages et de différents cas d’utilisation à l’échelle du projet qui serviront également de moyens supplémentaires pour mesurer notre succès dans la réalisation des objectifs et des impacts attendus.
Sujet :
L’objectif global de ce programme de recherche est de développer de nouvelles méthodes et outils pour la narration numérique de documents audio-visuels. À cette fin, une meilleure compréhension scientifique de l’analyse multimodale du contenu des médias, des liens et de leur consommation sera développée. Ce programme de thèse aborde plus spécifiquement les sujets suivants:
• Combiner les meilleures techniques disponibles pour l’analyse, l’apprentissage automatique et l’édition de descriptions textuelles, pour industrialiser le processus de narration numérique et réutiliser les médias existants comme ressources nouvelles par
les producteurs et les consommateurs de médias.
• Développer des techniques de pointe pour analyser le contenu audiovisuel (y compris le texte), afin que les données multimodales puissent être largement décrites. Les descriptions extraites serviront à structurer et à annoter sémantiquement des archives de données audiovisuelles importantes et à mieux comprendre leur contenu et leur évolution.
• Étudier et mettre en œuvre des approches de segmentation
temporelle qui prennent en compte le contexte et le contenu afin de définir de façon précise et localisée (temporellement et éventuellement spatialement) la fragmentation sémantique des documents audiovisuels
• Étudier et évaluer les méthodes automatiques de détection des moments clés et d’identification des hyperliens pertinents dans les contenus audiovisuels dans le contexte du projet et dans les campagnes d’évaluations comparatives internationales.
Profil du candidat :
Motive et travailleur, vous recherche un environment international de qualite pour effectuer une these de doctorat a l’intersection de thematiques suivantes: Intelligence Artificielle, Reseaux Profonds, Vision par Ordinateur et Multimedia.
Formation et compétences requises :
* Niveau académique/diplôme : Master avec mention
* Domaine/spécialité : Informatique
* Technologies : Apprentissage Automatique et Profond, Vision par Ordinateur, Intelligence Artificielle
* Langues: Français et Anglais
Adresse d’emploi :
EURECOM
Campus Sophia Tech
06904 Sophia Antipolis,
France
Document attaché : PhD_DS_BH_022018_US_V1.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : IRISA / Atermes
Durée : 36
Contact : elisa.fromont@irisa.fr;sebastien.lefevre@irisa.fr
Date limite de publication : 2018-03-10
Contexte :
ATERMES is an international mid-sized company, based in Montigny-le-Bretonneux (near Paris) with a strong expertise in high technology and system integration from the upstream design to the long-life maintenance cycle. It has recently developed a new product, called BARIERTM (“Beacon Autonomous Reconnaissance Identification and Evaluation Response”) which provides operational and tactical solutions for mastering borders and areas. Once in place, the system allows for a continuous night and day surveillance mission with a small crew in the most unexpected rugged terrain. BARIER™ is expected to find ready application for temporary strategic site protection or ill-defined border regions in mountainous or remote terrain where fixed surveillance modes are impracticable or overly expensive to deploy.
Sujet :
The project aims at providing a deep learning architecture and algorithms able to detect anomalies (mainly persons) from multimodal data. The data are considered “multimodal” because information about the same phenomenon can be acquired from different types of detectors, at different conditions, in multiple experiments, etc. Among possible sources of data available, ATERMES provides Doppler Radar, active-pixel sensor data (CMOS), different kind of infra-red data, the border context etc.
The PhD candidate will need to survey the recent literature about multi-source and multimodal learning with deep neural networks (e.g. [1],[2],[3],[4],[5],[6]) as well as the literature on domain adaptation with neural networks (e.g. [3],[7],[8]) since the data will be acquired from different outdoor contexts. He is expected to propose new solutions that could be integrated in the BARIER™ system developed by ATERMES.
Profil du candidat :
We look for highly motivated candidate with the following skills/diploma:
– A master’s degree in computer science;
– Some proven skills in machine learning in general and deep learning in particular;
– Some background in computer vision;
– Some proven skills in programming, preferably in Python and Tensorflow;
– A very good level (written and oral) in English and a good ability to communicate with others;
– A good autonomy
Formation et compétences requises :
See “profil du candidat”
Adresse d’emploi :
The PhD candidate will work part time at IRISA (Rennes and/or Vannes) and part time in the ATERMES company in Paris (the exact percentage of time spent in all the facilities will be discussed).
Document attaché : PhD-CIFRE-Atermes.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Laboratoire d’Informatique de Traitement de l’Information et des Systèmes (LITIS, NormaSTIC, FR CNRS), Rouen, France
Durée : 36 mois
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2018-03-16
Contexte :
La segmentation sémantique est de plus en plus utilisée dans les applications liées au véhicule autonome que ce soit pour la détection d’objets, la localisation et la navigation [1] [2] [3]. Ces systèmes donnent des résultats impressionnants pour des caméras perspectives classiques fixées rigidement au véhicule et minimisant ainsi les effets de roulis et de tangage. Dans le cadre des deux-roues, il n’existe quasiment aucun travail équivalent alors que cette modalité représente une large part de la mortalité routière.
Les caméras fish-eye sont très pertinentes dans le cas des deux-roues puisqu’elles permettent de toujours garder dans le champ de vue les éléments de la scène tels que la route, les obstacles proches, etc. Cependant, ceci est au détriment d’un usage direct des méthodes classiques qui ne sont pas adaptées aux distorsions et aux changements d’orientation. En effet, les réseaux de neurones convolutifs (CNN) en Deep Learning, très utilisés dans le cadre de la segmentation sémantique avec des excellents résultats sur des images classiques, reposent sur un maillage régulier qui n’est pas compatible avec les images omnidirectionnelles sphériques. Il devient donc nécessaire d’introduire une géométrie différente dans la définition du réseau de convolution, ce qui constitue le cœur même de notre sujet.
Ce thème conjoint de la géométrie et du Deep Learning devient tout particulièrement sensible dans la communauté puisqu’il concerne une vaste gamme d’applications allant des modèles 3D déformables aux graphes par exemple.
Sujet :
Cette thèse de doctorat s’intéresse à la segmentation sémantique précise et robuste d’images fish-eye (à large champ de vue) de scènes routières obtenues selon six degrés de liberté. Les distorsions de ces images ainsi que la variabilité du point vue selon les trois rotations possibles constituent les verrous scientifiques majeurs dans la réussite de cette tâche. Les approches basées sur les CNN ont démontré leur très grande efficacité pour la segmentation de scènes mais elles sont exclusivement dédiées à des caméras perspectives classiques avec une pose constante, i.e., orientées de telle façon que l’image soit verticale par exemple.
Les distorsions des images fish-eye, et plus généralement omnidirectionnelles, ne permettent pas un usage direct des CNN qui reposent sur un voisinage régulier. De même, les orientations selon les trois angles d’Euler perturbent profondément ces outils qui ne sont pas invariants aux rotations sans un apprentissage particulier. Le doctorant proposera des solutions à ces deux difficultés majeures durant cette thèse en développant des méthodes adaptées qui devront être validées sur un jeu de données significatif.
L’objectif principal est le développement d’un système de segmentation d’images stéréoscopiques fish-eye invariant à la rotation pour l’analyse de scènes routières dans l’optique du comportement et de l’analyse de situations à risque. Cette contribution technique majeure sera abordée en association avec le CEREMA (Centre d’Études et d’Expertise sur les Risques, l’Environnement, la Mobilité et l’Aménagement) qui dispose d’une moto instrumentée d’un banc de stéréovision fish-eye. Ce jeu de données pourra être mis à la disposition de la communauté pour constituer le premier benchmark de ce type.
Bibliographie :
[1] B. Zhou, A. Lapedriza, A. Khosla, A. Oliva and A. Torralba, “Places: A 10 million Image Database for Scene Recognition,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, (in press), 2018.
[2] J. Redmon, A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in IEEE International Conference on Computer Vision and Pattern Recognition, 2017.
[3] S. Wang et al. “TorontoCity: Seeing the world with a million eyes,” in IEEE International Conference on Computer Vision, 2017.
Mots-clés :
Deep Learning, Convolutional Neural Networks, Géométrie, Traitement d’image (images sphériques, fish-eye)
Profil du candidat :
Master 2 recherche et/ou un diplôme d’ingénieur en apprentissage automatique/statistique, en informatique, en traitement d’image ou en vision
Formation et compétences requises :
Compétences souhaitées en Deep Learning et/ou Computer Vision
Adresse d’emploi :
Laboratoire d’Informatique de Traitement de l’Information et des Systèmes (LITIS, NormaSTIC, FR CNRS)
Université de Rouen Normandie, Rouen, France
Contact :
Pascal Vasseur, Professeur à l’Université de Rouen Normandie (pascal.vasseur@univ-rouen.fr)
Paul Honeine, Professeur à l’Université de Rouen Normandie (paul.honeine@univ-rouen.fr)
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : ONERA / IRISA
Durée : 36 mois
Contact : sebastien.lefevre@irisa.fr
Date limite de publication : 2018-03-30
Contexte :
The evergrowing satellite imagery data in the last two decades have allowed new developments in the fileds of ecology, urban planning or natural disaster response. Those data are also more easily available, even openly as in the Copernicus program of the European Space Agency (Sentinel satellites). However, data exploitation requires human interprets, for example to identify tree species to study deforestation in a local ecosystem or find new buildings to measure growth of urban areas.
Thanks to the new deep learning methods developped for processing multimedia images in recent years, it now becomes possible to automate most of these processings for Earth-observation data. Indeed, many state-of-the-art algorithms for object detection and image segmentation or classification [Audebert 2016, Rey 2017] have been successfully transfered for aerial and satellite images. It allowes to produce quickly and without human intervention precise semantic mappings, in both urban and rural contexts.
Sujet :
This thesis project aims at large-scale, automated cartography, which raise several problems.
Problem 1: How to make semantic segmentation on a real large scale ?
Image data openly available are mostly from satellites (Sentinel, Pleïades) which implies extend the existing algorithms to new modes (for example multispectral) and new resolutions. Moreover, they should be multi-domain, which means obtain equal performances whatever the context or the location. In practice, imagine new neural network architectures fo semantic segmentation [Audebert 2016, Audebert 2017, Volpi 2017] will be the main axis of this thesis, by taking into account progresses in computer vision and artificial intelligence.
Problem 2: How to deal with sparse, heterogeneous data?
Learning algorithms still rely mostly on the availability of large annotated image repositories. If collaborative, open-source maps such as OpenStreetMap can be used as annotations [Audebert 2017b, Maggiori 2017, Mnih 2012], they are spatially sparse (not uniformly distributed and even absent from some areas) and sometimes not reliable (either because too old or badly made).
A goal will be to benefit from unlabeled of weakly-labeled data to improve network performances for semantic segmentation, including for areas with few training samples. So we propose to define unsupervised or semi-supervised learning strategies [Rasmus 2015, Durand 2017, Khoreva 2017]. Semi-supervised learning consists in using unlabeled data to build a representation space for the satellite images while using labeled data to learn a classifier based on this representation.
Moreover, we will study joint learning from multiple image modalities, at various resolutions, and complementary data such as georeferenced streetview images [Lefèvre 2017].
Problem 3: How to predict maps with varying semantic levels?
Collaborative annotations are also poor in semantic variety (only roads, buildings, etc.) and might not correspond to application needs. An objective will be to be able to transfer learned representation from precisely-annotated areas to areas with less rich annotations [Redmon 2017]. In practice, the final semantic prediction could be structured in multiple levels of details depending on available ressources. We will also study the relevance of one-shot-learning and zero-shot-learning strategies in this context [Sumbul 2017].
Problem 4: How to estimate which prediction is possible depending on the available data?
A recurring, practical problem is to foresee which kind of maps can be produced in a given location, which and how much data are required to produce these maps, and eventually how much training is needed. Moreover, an estimate of the relevance of the prediction is a crucial element for the one who has to take decisions based on such a map.
Profil du candidat :
Extensive knowledge of image processing and computer science with a specialization among: statistical learning, computer vision, remote sensing.
Formation et compétences requises :
Master of science or Enginering school diploma with outstanding résults
Adresse d’emploi :
ONERA Palaiseau
To apply for this position, please send an up-to-date CV, an covering letter and recommendation letters to the thesis director and supervisors.
Document attaché : tis-dtis-2018-02_b_le_saux_a_boulch.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LIS / LAM
Durée : 3 years
Contact : François-Xavier Dupé francois-xavier.dupe@univ-amu.fr LIS and Annie Zavagno annie.zavagno@lam.fr LAM
Date limite de publication : 2018-04-10
Contexte :
The PhD subject has been pre-selected for funding by Aix Marseille Université (Doc2AMU) and is supported by EURANOVA Marseille.
For the PhD to be funded the selected candidate will have to defend the project in front of the selection commitee.
Please find more information at on the Doc2Amu website: https://doc2amu.univ-amu.fr/en/bigsf
Sujet :
We are seeking for a PhD candidate interested to apply machine learning methods on large astrophysical datasets. The main challenge is to develop new tools to study star formation in the Galaxy. Such tools include classical ML methods, but also deep learning methods suited to the Big Data-Class databases used. Moreover, data come from different instruments, requiring to manage heterogeneous data in a multi dimensional space.
Before applying please contact the PhD supervisors: François-Xavier Dupé francois-xavier.dupe@univ-amu.fr LIS and Annie Zavagno annie.zavagno@lam.fr LAM
If successful the PhD will take place at Aix-Marseille Université in Marseille, France.
Application’s deadline: April 9th 2018
Profil du candidat :
We are seeking for a PhD candidate interested to apply machine learning methods on large astrophysical datasets. The main challenge is to develop new tools to study star formation in the Galaxy. Such tools include classical ML methods, but also deep learning methods suited to the Big Data-Class databases used. Moreover, data come from different instruments, requiring to manage heterogeneous data in a multi dimensional space.
Formation et compétences requises :
Marster in
– Machine Learning
– Physics
– Data scientists
Adresse d’emploi :
If successful the PhD will take place at Aix-Marseille Université in Marseille, France.
Annonce en lien avec l’Action/le Réseau : Doctorants
Laboratoire/Entreprise : LITIS (EA4108), Université de Rouen
Durée : 3 ans
Contact : Laurent.Heutte@univ-rouen.fr
Date limite de publication : 2018-04-30
Contexte :
Ce sujet de recherche s’inscrit dans le cadre d’une collaboration entre informaticiens, historiens et archivistes initiée en 2009 par le projet DocExplore 2009-2013 (http://www.docexplore.eu), projet du Programme de Coopération Transfrontalière Franco-Britannique Interreg IVa France (manche) – Angleterre. Cette collaboration avec historiens et archivistes a été poursuivie au niveau régional dans le cadre du projet PlaIR 2.0 soutenu par le GRR TL-TI de 2013 à 2016, puis étendue à d’autres acteurs dans le cadre du projet PlaIR2018 soutenu par le FEDER et la Région Normandie de 2017 à 2020. Cette collaboration vise à l’élaboration d’une plateforme logicielle pour l’étude et la valorisation de documents historiques anciens, en particulier médiévaux, dans le but de faciliter le travail des historiens qui étudient ces documents et des conservateurs qui cherchent à les valoriser. Cette plateforme doit leur offrir des fonctionnalités avancées d’analyse d’images et de l’écriture, et de recherche d’information par indexation automatique (http://spotting.univ-rouen.fr).
Du point de vue fondamental, les travaux proposés dans cette thèse s’inscrivent dans le thème “Apprentissage conjoint représentation/décision” de l’équipe Apprentissage du LITIS et concernent plus particulièrement un des points importants développés dans l’équipe à savoir l’apprentissage automatique de représentation pour des tâches de détection.
Sujet :
L’objectif de cette thèse est de développer des techniques robustes de détection de patterns (pattern spotting) et de découverte de motifs (pattern discovery) dans les images de documents, en s’appuyant sur les avancées récentes en Deep Learning. Le pattern spotting permet de rechercher et de localiser précisément, dans l’image d’un document, les occurrences d’un « objet » graphique, c’est à dire une forme plus ou moins complexe telle par exemple qu’un logo, une signature, une lettrine, un symbole, une croix, un blason, … la requête étant formulée en désignant dans l’image un exemple de l’objet à rechercher (requête image). L’intérêt du pattern spotting est de faciliter la recherche d’information dans des bases de documents historiques numérisés relativement complexes comme des documents médiévaux par exemple. Le pattern discovery permet quant à lui d’identifier automatiquement dans les grandes bases d’images de documents, des catégories de motifs graphiques, ou plus généralement des objets, de manière non supervisée, c’est à dire sans connaissance a priori sur les classes d’objets, ni même sur le nombre de classes possibles. L’objectif est de pouvoir découvrir dans les images de documents des structures graphiques qui se répètent ou qui sont similaires lorsqu’elles sont analysées à un certain niveau d’abstraction. Ces deux modes d’utilisation, en recherche et en découverte, d’un tel système d’indexation pourraient être d’une grande utilité pour les historiens, afin de trouver de manière efficace des motifs spécifiques dans des grandes bases d’images de documents hétérogènes, ou de découvrir des relations entre des motifs similaires présents dans des manuscrits différents et présentant des variations de style de représentation plus ou moins importantes.
Nous nous appuierons pour cela sur les travaux menés dans le cadre de la thèse de Sovann En (soutenue en 2016) où nous avons proposé un système complet de recherche d’images et de localisation des objets graphiques de petite taille dans des images de documents médiévaux [En et al., 2016]. Ce système est basé sur une première extraction/indexation des régions d’intérêt dans l’image (region proposal / BInarized Normed Gradients), d’une caractérisation de ces régions par des descripteurs ad-hoc (Vector of Locally Aggregated Descriptors et Fisher Vector), et d’une recherche par similarité à la requête intégrant des techniques de compression et d’approximation (Inverted File, Product Quantization et Asymmetric Distance Computation). Si ce système a montré de bonnes performances sur le corpus d’images de documents étudié [En et al., 2017], il souffre toutefois d’un certain nombre de faiblesses qui rendent ce système peu adaptable à d’autres types d’images de documents (l’information couleur n’est actuellement pas exploitée par exemple), très sensible aux variations de taille, de forme, de couleur et plus généralement de style, des motifs à détecter. D’autre part, ce système supporte difficilement le passage à l’échelle et nécessite des post-traitements pour une localisation fine des objets dans les régions d’intérêt, à l’aide par exemple de méthodes classiques de matching. Enfin, le mode d’interrogation supporté suppose que l’utilisateur puisse présenter au système un exemple graphique visuellement ressemblant de l’objet qu’il souhaite rechercher. Cette condition est très forte, et difficile en pratique à réaliser. Il serait plus pratique pour l’utilisateur de pouvoir fournir au système de recherche, une description sémantique des objets qu’il recherche, ou bien qu’il puisse en donner une description graphique plus sommaire (par exemple à partir d’un schéma ou d’un dessin à main levée). Il faut donc que le système d’indexation et de recherche soit plus tolérant aux variations de représentation (ou de style graphique) d’un même objet, et qu’il permette de lier une description sémantique de haut niveau à de multiples représentations graphiques d’un même objet, ce qui suppose d’être dans un contexte supervisé pour apprendre des modèles d’objets préalablement identifiés. Or il n’est pas possible de savoir a priori sur quel type d’objet va porter la recherche de l’utilisateur. Un moyen de contourner ce problème peut être alors d’apprendre de manière non supervisée lors de l’indexation quelles sont les structures similaires présentes dans les données (corpus indexé) à différents niveaux de représentation.
L’objectif de la thèse est donc d’explorer les techniques d’apprentissage de représentation (deep learning) récemment proposées dans la communauté « object detection » pour contourner ces difficultés. Dans un premier temps, il s’agira d’étendre les capacités du système de spotting pour le rendre moins sensible aux variations de représentation (en termes de taille, de forme ou encore de couleur). Nous pourrons nous appuyer pour cela sur les techniques de type Faster R-CNN [Ren et al.. 2017] qui devront être étudiées et adaptées pour remplacer avantageusement l’extraction de régions d’intérêt (region proposal) basée sur BING. De même, VLAD et Fisher Vector supportent mal la caractérisation des petites régions et des textures couleur ; on pourra s’inspirer des deep features, comme celles proposées par exemple par [Zhou et al., 2016] ou [Babenko et al., 2015], pour une meilleure caractérisation des régions. Enfin, les techniques de Deep Supervised Hashing, comme celles proposées récemment dans [Liu et al., 2016] ou [Jiang and Li, 2017], devraient permettre de faire face au passage à l’échelle pour une recherche par similarité plus efficiente.
Dans un deuxième temps, il s’agira d’étudier l’application de ces modélisations profondes à la découverte de motifs, dans un cadre non supervisé, dans de grands corpus d’images de documents pour permettre une indexation plus fine de ces corpus à différents niveaux de représentation, autorisant ainsi des exploitations de ces contenus indexés qui doivent mieux correspondre aux attentes de l’utilisateur (recherche sémantique de haut niveau, recherche de similarité graphiques, recherche de similarité sémantique). On pourra s’inspirer par exemple de techniques récentes telles que celles proposées dans [Doersch et al., 2015] ou [Seguin et al., 2016] pour apprendre des représentations adaptées au cadre non supervisé.
L’équipe Apprentissage mettra à disposition pour la réalisation de ce travail de nombreuses collections d’images de documents, données acquises et annotées dans le cadre du projet DocExplore [En et al., 2016] et qui ont fait l’objet d’une convention signée entre l’Université de Rouen et la Bibliothèque Municipale de Rouen. Ces données, annotées au niveau pattern, permettront de conduire une réelle évaluation expérimentale, car en grandeur nature, du travail de recherche qui, par l’importance du sujet et l’originalité des approches proposées, pourra être valorisé par des publications dans des revues internationales de haut niveau et par l’intégration de nouvelles fonctionnalités dans la plateforme PlaIR et la suite logicielle DocExplore.
Références:
[En et al., 2017] En, S., Nicolas, S., Petitjean, C., Jurie, F., Heutte, L. New public dataset for spotting patterns in medieval document images. Journal of Electronic Imaging, vol. 26, no. 1, 2017.
[En et al., 2016] En, S., Petitjean, C., Nicolas, S., Heutte, L. A scalable pattern spotting system for historical documents. Pattern Recognition, vol. 54, pp. 149-161, 2016.
[Ren et al.. 2017] S. Ren, K. He, R. Girshick, J. Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”, Pattern Analysis and Machine Intelligence IEEE Transactions on, vol. 39, pp. 1137-1149, 2017
[Zhou et al., 2016] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, A. Torralba. Learning Deep Features for Discriminative Localization. CVPR2016, pp. 2921-2929, 2016.
[Babenko et al., 2015] Babenko, V. Lempitsky. Aggregating Local Deep Features for Image Retrieval. ICCV 2015, pp. 1269-1277, 2015.
[Liu et al., 2016] H. Liu, R. Wang, S. Shan, X. Chen. Deep Supervised Hashing for Fast Image Retrieval; CVPR 2016, pp. 2064-2072, 2016.
[Jiang and Li, 2017] Q.Y Jiang, W.J. Li. Asymmetric Deep Supervised Hashing. arXiv preprint arXiv:1707.08325, 2017.
[Doersch et al., 2015] Doersch, A. Gupta, A. Efros. Unsupervised visual representation learning by context prediction. ICCV2015, pp. 1422–1430, 2015.
[Seguin et al., 2016] Seguin, C. Striolo, I. di Lenardo, F. Kaplan. Visual link retrieval in a database of paintings. ECCV2016, pp. 753–767, 2016.
Profil du candidat :
Master 2 en informatique, mathématiques appliquées, ou école d’ingénieur
Le candidat devra impérativement envoyer son CV et ses relevés de notes (L3, M1 et année en cours, avec les classements), ainsi qu’une lettre de motivation, à Laurent HEUTTE et Stéphane NICOLAS (cf coordonnées ci-après), au plus tard pour le 30 avril 2018.
Formation et compétences requises :
Le candidat recherché doit être titulaire d’un Master (ou équivalent) dans le domaine de l’Informatique avec une dominante Traitement du Signal et des Images ou Sciences des Données. Il doit avoir de solides connaissances en apprentissage et classification, notamment en Deep Learning, et des compétences en Image Retrieval.
Adresse d’emploi :
Equipe d’accueil:
Equipe Apprentissage, laboratoire LITIS (EA 4108), Université de Rouen
http ://www.litislab.fr/equipe/docapp/
Encadrement :
Laurent HEUTTE (directeur), laurent.heutte@univ-rouen.fr, (+33) 2 32 95 50 14
Stéphane NICOLAS (co-encadrant), stephane.nicolas@univ-rouen.fr, (+33) 2 32 95 52 14
Document attaché : sujet_alloc_URN_spotting.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : INRIA Grenoble – LIG
Durée : 3 years
Contact : vincent.leroy@univ-grenoble-alpes.fr
Date limite de publication : 2018-04-31
Contexte :
Recent computing trends promote the development of hardware and software applications that are intrinsically parallel, distributed, and concurrent. Designing and developing such systems has always been a tedious and error-prone task, and the ever increasing system complexity is making matters even worse. Although we are still far from proposing techniques and tools avoiding the existence of bugs in a system under development, we know how to automatically chase and find bugs that would be very difficult, if not impossible, to detect manually.
Model checking [1] is an established technique for automatically verifying that a model, e.g., a Labelled Transition System (LTS), obtained from higher-level program languages such as process algebra satisfies a given temporal property, e.g., the absence of deadlocks. When the model violates the property, the model checker returns a counterexample, which is a sequence of actions leading to a state where the property is not satisfied. Understanding this counterexample for debugging the specification is a complicated task for several reasons: (i) the counterexample can contain hundreds (even thousands) of actions, (ii) the debugging task is mostly achieved manually (satisfactory automatic debugging techniques do not yet exist), (iii) the counterexample does not explicitly highlight the source of the bug that is hidden in the model, and (iv) the counterexample describes only one occurrence of the bug and does not give a global view of the problem with all its occurrences.
Sujet :
https://jobs.inria.fr/public/classic/fr/offres/2018-00510
The objective of this PhD Thesis is to propose and develop new solutions for understanding and summarizing the origin of bugs detected by model checking techniques. To do so, we would like first to find adequate models for representing not only the semantics of the corresponding concurrent program (LTS) but also the structure of the program. This latter information is particularly useful once the source of the bug has been identified in the model and we want to show to the developer where it occurs in the corresponding program.
Second, we plan to provide analysis techniques combining model checking and data mining techniques in order to identify what parts of the model caused the bug. We will start from the notion of choices proposed in [2] where the model moves from a correct to an incorrect behaviour. These choices turned out to be very relevant from a debugging perspective because they identify portions of the code that may be the source of the bug. To favour usability of our approach, we will revisit graph mining and visualization to propose new visualization techniques by highlighting these choices in the models.
Finally, we will use the information computed in the aforementioned steps for building an abstracted and summarized explanation of the origin of the bug. To do so, we plan to reuse notions such as the concepts of sufficient and necessary behaviour, the distance to the bug or the probability of the bug occurrence from a specific position in the program.
Two complementary ideas will be study during this PhD Thesis. First, we will try to propose debugging techniques for counterexamples produced in the context of equivalence checking techniques where two programs are compared with respect to an equivalence notion, and counterexamples show all differences between these two programs. Second, we will see whether our techniques could go one step further by not only detecting the source of the bug but also by proposing a solution to automatically repair the bug and obtain a correct program.
Complementary information:
. Bibliography
[1] Principles of Model Checking. Christel Baier and Joost-Pieter
Katoen. MIT Press, 2008
[2] Gianluca Barbon, Vincent Leroy, Gwen Salaün:
Debugging of Concurrent Systems Using Counterexample Analysis. FSEN 2017: 20-34
. Supervisors
Gwen Salaun is full professor at Université Grenoble Alpes and member of the CONVECS team.
Gregor Goessler is Inria researcher and head of the SPADES team.
Vincent Leroy is associate professor at Université Grenoble Alpes.
. Keywords
Debugging, Model Checking, Temporal Logic, Counterexample, Bug Localization, Concurrent Programs, Behavioural Models, Data Visualization, Equivalence Checking, Code Repair.
Profil du candidat :
. Education: MSc/Master 2 research in Computer Science
Formation et compétences requises :
. Knowledge of formal methods (concurrency theory) and verification
. Knowledge of data mining and data visualization is a plus
. Candidates who enjoy programming would be appreciated, as the work will include software development
. Good command of English, French is a plus
Adresse d’emploi :
Ville : Montbonnot
Centre Inria : CRI Grenoble – Rhône-Alpes
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : Laboratoire Hubert Curien UMR 5516
Durée : 36 months
Contact : alain.tremeau@univ-st-etienne.fr
Date limite de publication : 2018-05-05
Contexte :
The Image Science and Computer Vision team of Hubert Curien laboratory (https://laboratoirehubertcurien.univ-st-etienne.fr/en/index.html) is looking for candidates for a Ph.D position on Transfer Learning for Material classification based on visual appearance correspondences.
Image classification has received a lot of interest in the last decade and huge improvements have been observed in terms of classification accuracy for the classical datasets such as PASCAL VOC or ImageNet. Nevertheless, it appears that material classification is still an open problem because of the high variability of their appearance in images and because of the lack of learning data. In order to cope with these problems, recent papers resort to convolutional networks (https://arxiv.org/ftp/arxiv/papers/1710/1710.06854.pdf) in order to learn the variability as well as transfer learning approaches in order to be able to learn on different datasets and so increasing the amount of learning data (https://arxiv.org/pdf/1609.06188.pdf).
The aim of this PhD project is to study the visual appearance of materials from a computer vision perspective by combining computer vision techniques with machine learning and data mining techniques. More and more the design of new materials having specific visual appearance properties passes through the use of computer based approaches (see ref 3, 4 and 5).
Sujet :
The objective will be:
1. To study different strategies to fuse/combine different datasets, to enrich existing datasets using data augmentation methods (e.g. light variations, scale, shadows, …), to transfer knowledge learnt from one dataset to another one (e.g. see https://arxiv.org/pdf/1609.06188.pdf), to mind/infer knowledge from data, etc.
2. To create a new dataset of images of materials which could be complementary to the existing synthetized and real-world ones: Flickr Material Database (Sharan et al., 2010), the ImageNet7 dataset (Hu et al., 2011), the MINC-2500 (Bell et al., 2015), the University of Bonn synthetic dataset (Weinmann et al., 2014), …
3. To classify images of materials according their visual appearance in order to infer/learn new knowledge on material properties (for example using auto-encoders, see https://arxiv.org/pdf/1711.03678.pdf). Several machine learning and data mining methods (e.g. CNN, deep learning, will be investigated.
4. To learn how to characterize the visual appearance of some materials from a limited set of features and of image acquisitions. The auto-encoder could be a nice tool to access semantic features and observe their impact on the reconstructed material images. This could also help for material design.
The thesis will be co-supervised by Alain Trémeau (Full Professor, https://perso.univ-st-etienne.fr/tremeaua/) and Damien Muselet (Assistant Professor, https://perso.univ-st-etienne.fr/muda8804/).
Bibliography
1. Sébastien Lagarde, “Open Problems in Real-Time Rendering-Physically-Based Materials: Where Are We?” in ACM SIGGRAPH 2017, http://openproblems.realtimerendering.com/s2017/02-PhysicallyBasedMaterialWhereAreWe.pdf
2. (2018) G. Kalliatakis, A. Sticlaru, G. Stamatiadis, S. Ehsan, A. Leonardis, J. Gall and K. D. McDonald-Maier, Material Classification in the Wild: Do Synthesized Training Data Generalise Better than Real-world Training Data? Proceedings of VISAPP’2018.
3. (2018) Reviewing the Novel Machine Learning Tools for Materials Design. https://link.springer.com/chapter/10.1007/978-3-319-67459-9_7;
4. (2017) Data mining-aided materials discovery and optimization, http://www.sciencedirect.com/science/article/pii/S2352847817300618;
5. (2017) Materials discovery and design using machine learning, http://www.sciencedirect.com/science/article/pii/S2352847817300515;
6. (2016) An intuitive control space for material appearance, https://dl.acm.org/citation.cfm?id=2980242
The deadline for applications is 06/05/2018.
Profil du candidat :
Application :
Interested candidates should send a resume, a cover letter, and transcripts of BSc and MSc (M1 and M2 years). Recommendation letters will be appreciated.
All applications must be sent electronically to Alain Trémeau (alain.tremeau@univ-st-etienne.fr) and Damien Muselet (damien.muselet@univ-st-etienne.fr)
Contract
3-years contract on the basis of a monthly gross income of 1 760 euros approximatively. Part-time teaching can be considered. Start in autumn 2018.
Formation et compétences requises :
Requested skills:
The desired profile is Master (MSc or equivalent) or Engineer degree in Machine Learning and Data Mining / Image Processing and Computer Vision / Computer Science and Applied Mathematics, with excellent academic record and research experience, in-depth knowledge of machine learning (Computational Neural Networks, Deep Learning), data mining (Transfer Knowledge), optimization methods, with a specialization in one of the following areas: machine learning, data mining or computer vision.
We are looking for a curious student with excellent programming skills (e.g., in Matlab, Python, or C/C++).
Adresse d’emploi :
Laboratoire Hubert Curien UMR 5516
18 rue Benoit Lauras
42000 Saint Etienne, France
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : IECL/LORIA
Durée : 3 ans
Contact : marianne.clausel@univ-lorraine.fr
Date limite de publication : 2018-05-15
Contexte :
Over the last twenty years, an increasing attention has been paid to recommender systems, widely popularized by the Netflix Challenge. The main goal of a recommender system is to provide some users, with personalized products, taking into account their profile and preferences.
Recent challenges are about the recommendation of products very complex to describe : jobs, partners… Their characteristics can mix heterogeneous features: quantitative (as ratings) and/or qualitative (as reviews).
Moreover, new questions are emerging about explainability of algorithms. Nowadays, Artificial Intelligence algorithms are democratized in our erveyday life, and consumers want to understand the decision resulting from these algorithms (why this decision and not another one ?) as well as quantify the importance of each factor (element) in the decision process (which element is the most important/sensitive). They require more explainability of AI algorithms.
In addition, the new European legislation on data protection foresees to impose more transparency to Artificial Intelligence algorithm. The law envisages to make compulsory the agreement of users for using personal data, which will reduce the amount of data that can be collected about users. The customer will also have to be informed about the way their personal data is used. From the algorithms point of view, the decrease of data will impact the quality of the recommmendations.
All these changes, will impact shortly and significantly the design of algorithms. In this thesis, we aim at designing and implementing new explainable and transparent recommender systems for complex products, in the frame of data sparsity.
Sujet :
Scientific challenges and program
The challenges are four fold :
– Definition, in a quantitative way, of the concept of transparency, and develop statistical methods to automatically quantify the transparency degree of an algorithm.
– Classification of recommender systems from the literature, from the transparency point of view and/or robustness degree with respect to missing data
– Conception of new hybrid and explainable recommender systems, robust to sparse data. The products being complex, the heterogeneous descriptions of the products, as well as the multi-sources of information, will be used to construct understandable explanation. Especially, natural language processing, and hybrid (content/social) approaches will be studied. The algorithms will also be able to quantify the weights and the sensitivity of each factor in the final decision.
– Constitution of data sets, allowing to evaluate transparency of recommender systems
Profil du candidat :
Master 2 in Computer Science or Applied Mathematics
Formation et compétences requises :
Application
The application should include a brief description of research interests and past experience, a CV, degrees and grades, a copy of Master thesis (or a draft thereof), motivation letter (short but pertinent to this call), relevant publications (if any), and other relevant documents. Candidates are encouraged to provide letter(s) of recommendation or contact information to reference persons. Please send your application before 12 May 2018 in one single pdf to :
armelle.brun@univ-lorraine.fr
marianne.clausel@univ-lorraine.fr
The application of the preselected candidates will be reviewed by the Doctoral School IAEM of University of Lorraine in June 2018 for completing the selection process.
Practical informations
Duration: 3 years (full time position)
Starting date: October, 2018
Supervisors
A. Brun, University of Lorraine/LORIA, France, https://members.loria.fr/ABrun/
M. Clausel, University of Lorraine/IECL, France, https://sites.google.com/site/marianneclausel/
Adresse d’emploi :
Working Environment
The PhD candidate will work between the Probability and Statistic team of the IECL lab and the KIWI Team of the LORIA lab which are two leading institutions, respectively in Mathematics and Computer Science in France. The two labs are both located at Nancy, France on the same campus. \
The Probability and Statistic team of IECL is working on interdisciplinary projects involving probabilistic modeling and inference methods, with a focus on many applications as textual datas, biology, spatial datas…\
The KIWI team of LORIA is a dynamic group working on recommender system and connected scientific domains over 20 researchers (including PhD students) and that covers several aspects of the subject from theory to applications, including statistical learning, data-mining, and cognitive science.
Location : Nancy, which is the capital of Lorraine in France, with excellent train connection to Luxembourg (1h30) and Paris (1h30).
Salary after taxes: around 1600 euros.
Document attaché : Thesis.pdf
Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : IRISA research center in Rennes
Durée : 3 years PHD POSITION (CIFRE) with AdvisorSLA
Contact : elisa.fromont@irisa.fr
Date limite de publication : 18-05-2018
Contexte :
AdvisorSLA is a French company headquartered in Cesson-Sévigné, a city located in the outskirts of Rennes in Brittany. The company is specialized in software solutions for network monitoring. For this purpose, the company relies on techniques of network metrology. AdvisorSLA’s customers are carriers and telecommunications/data service providers that require to monitor the performance of their communication infrastructure as well as their QoE (quality of service). Network monitoring is of tremendous value for service providers because it is their primary tool for proper network maintenance. By continuously measuring the state of the network, monitoring solutions detect events (e.g., overloaded router) that may degrade the network’s operation
and the quality of the services running on top of it (e.g., video transmission could become choppy).
Sujet :
When a monitoring solution detects a potentially problematic sequence of events, it triggers an alarm so that the network manager
can take actions. Those actions can be preventive or corrective. Some statistics show that only 40% of the triggered alarms are conclusive, that is, they manage to signal a well-understood problem that requires an action from the network manager. This means that the remaining 60% are presumably false alarms. While false alarms do not hinder network operation, they do incur an important cost in terms of human resources. Thus, in this thesis we propose to characterize conclusive and false alarms. This will be achieved by designing automatic methods to “learn” the conditions that most likely precede the fire of each type of alarm, and therefore predict whether the alarm will be conclusive or not. This can help adjust existing monitoring solutions in order to improve their accuracy. Besides, it can help network managers automatically trace the causes of a problem in the network.
The aforementioned problem has an inherent temporal nature: we need to learn which events occur before an alarm and in which order. Moreover, metrology models take into account the measurements of different components and variables of the network such as latency and packet loss. For these two reasons, we resort to the field of multivariated time sequences and time series. The fact that we know the “symptoms” of an alarm and whether it is conclusive or not, allows for the application of supervised machine learning and pattern mining methods. In the realm of machine learning, detecting the class of an alarm is a classification problem. Since machine learning methods have traditionally not been concerned with the interpretability of their verdicts, we envision to enhance our methods with discriminative pattern mining techniques. Such techniques, for example, can find comprehensible sequences of events that occur more frequently before false alarms, e.g., data transmission between two network components A and B. In a classical setting, discriminative pattern mining approaches deal with static data. Thus, they have no ways (other than statistical) to evaluate the real relevance of the discovered patterns. In our scenario, however, we can establish a feedback loop for our pattern mining algorithm: The events represented by the patterns can be reproduced in the network in order to either verify/reject the pattern’s validity or refine it with additional context information, e.g., figuring out that the faulty transmission between components A and B occurs for video packets. This will be the first effort to integrate a pattern discovery algorithm inside a feedback loop, and study the actual relevance of the extracted patterns.
The scientific challenge lies on the design of such feedback loop. There will be many patterns to test and each test will incur some cost in terms of time and network bandwidth. Hence, the core problem is how to identify the real cause of an issue with a limited test budget, or in other words, how to prioritize the patterns for testing.
Such feedback scheme can constitute the base for the development of online methods for alarm classification and root cause analysis of faults. In this spirit the monitoring system can automatically learn the relevant set of patterns that characterize network faults and adjust the behavior of the alarms as the network operation evolves. Finally, in a different line of thought, the system could also immerse the user in the process by providing detailed information about inconclusive patterns and asking for user’s feedback.
Profil du candidat :
We look for highly motivated candidate with the following skills/diploma:
* A master’s degree in computer science;
* Some background in data mining in general and pattern mining in particular;
* Some proven skills in programming;
* A very good level (written and oral) in English and a good ability to communicate with others;
* The ability to work autonomously.
Formation et compétences requises :
We look for highly motivated candidate with the following skills/diploma:
* A master’s degree in computer science;
* Some background in data mining in general and pattern mining in particular;
* Some proven skills in programming;
* A very good level (written and oral) in English and a good ability to communicate with others;
* The ability to work autonomously.
Adresse d’emploi :
Send your application to ALL the following email addresses: luis.galarraga@inria.fr, elisa.fromont@irisa.fr, alexandre.termier@irisa.fr
Your application must contain:
1) a CV,
2) your last grade certificate (if you are currently finishing your Master’s degree, we need an official list of the grades you obtained so far in this degree with your rank among your peers),
3) at least two recommendation letters,
4) a specific motivation letter (applications with generic motivation letters will not be considered).
The applications are opened until the 18th of May.
Some interviews will be offered between the 22nd and the 25th of May.
The final decision will be given at the end of May.
The PhD thesis is expected to start in September (or October) 2018.
Document attaché : advisorsla.pdf
