MaDICS

Temporal models of care sequences for the exploration of medico-administrative data

May 30 – May 31 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : IRISA/CHU Rennes
Durée : 36 mois
Contact : thomas.guyet@irisa.fr
Date limite de publication : 2018-05-30

Contexte :
Pharmacoepidemiology is the study of the use of drugs under real conditions. Ongoing opening of access of the medico-administrative databases is a scientific breakthrough in this medical research field. Medico-administrative databases contain data collected for administrative purposes. The French SNDS 1 (previously SNIIRAM) is the world largest medico-administrative database with a coverage close to 99% of the population. This makes this database a real treasure for both epidemiologists and data scientists. These data (drug deliveries, medical consultations, hospitalization, in fact all health care services reimbursed by Health Insurance) constitute a wealth of readily available information. Its use in pharmacoepidemiology responds to the need for rapid answers to public health questions. However, addressing both the quantity and complexity of health data remains an open challenge.

The difficulty of analyzing medico-administrative data is the semantic gap between the raw data (for example, database record about the delivery at date t of drug with ATC 2 code N 02BE01) and the nature of the events sought by clinicians (“was the patient exposed to a daily dose of paracetamol higher than 3g?”). The solution that is used by epidemiologists consists in enriching the data with new types of events that, on the one side, could be generated from raw data and on the other side, have a medical interpretation. Such new abstract events are defined by clinician using proxies. For example, drugs deliveries can be translated in periods of drug exposure (drug exposure is a time-dependent variable for non-random reasons) or identify patient stages of illness, etc. A proxy can be seen as an abstract description of a care sequence.

Sujet :
Currently, the clinicians are limited in the expression of these proxies bothby the coarse expressivity of their tool and by the need to process efficiently large amount of data. [6] From a semantic point of view, care sequences must fully integrate the temporal and taxonomic dimensions of the data to provide significant expression power. From a computational point of view, the methods employed must make it possible to efficiently handle large amounts of data (several millions care pathways).

The aim of this thesis is to study temporal models of sequences in order 1) to show their abilities to specify complex proxies representing care sequences needed in pharmaco-epidemiological studies and 2) to build an efficient querying tool able to exploit large amount of care pathways.

In previous works, we focused on the chronicle model [5, 7] which represents a care sequence as a set of events for which numerical constraints are added on the delay between their occurrences. One advantage of this simple model is that it could be easily visualized by
clinicians. In addition, it is effective for querying large masses of sequences but shows limits in its expressiveness (especially on taxonomies or the expression of disjunctions). Other models of behavior have been proposed with different time models coming from various
communities (e.g. logic [2, 8], discrete event systems [3, 9] or automatic verification [1]).

Each of these representations therefore offers higher semantic power but also computational limits (decidability, efficiency, etc).
This thesis will contribute to the PEPS plateform [4] developed in collaboration by IRISA and REPERES. Querying tools based on temporal models will be deployed and evaluated on real pharmacoepidemiological studies in close relationship with epidemiologists. Model expressivity will be evaluated according to the practical needs of clinicians both from theoretical and practical points of view.

The main stages of the PhD thesis will be: 1) state of the art, discovery of the SNDS and pharmaco-epidemiology, 2) identify potential models of care sequences and selection of 2 to 4 typical pharmacoepidemiology studies to reproduce, 3) implement, evaluate and compare temporal models and 4) valorize the work through studies and publications.

Profil du candidat :
• preferably student preparing or having MSc diploma (master 2) within one of this specialities:
– MSc Diploma in theoretical computer science (algorithmics, logic or formal models, data science, artificial intelligence) with strong interest in medical application and abilities to work in this application field
– MSc Diploma in (bio)medical informatics with good backgrounds in computer science
• good abilities to work in a multidisciplinary environment
• good communication skills in English (oral and written)
• autonomy and motivation for research

Formation et compétences requises :
• preferably student preparing or having MSc diploma (master 2) within one of this specialities:
– MSc Diploma in theoretical computer science (algorithmics, logic or formal models, data science, artificial intelligence) with strong interest in medical application and abilities to work in this application field
– MSc Diploma in (bio)medical informatics with good backgrounds in computer science

Adresse d’emploi :
IRISA
Campus de Beaulieu
35042 Rennes
FRANCE

Document attaché : phd_temporalmodels_IRISA_REPERES.pdf

Categories: theses

PhD thesis position – ARTEXT4LOD – n-ARy relaTions EXTraction for Linked Open Data

Jun 15 – Jun 16 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Link, IATE, TETIS
Durée : 36 months
Contact : dibie@agroparistech.fr, mathieu.roche@cirad.fr, patrice.buche@inra.fr
Date limite de publication : 2018/06/15

Contexte :
A 3-years PhD Student position is available in the ARTEXT4LOD project, a MUSE project (Univ. Montpellier) involving INRA IATE JRU, AgroParisTech & INRA MIA JRU and CIRAD TETIS JRU.

Benefits
Monthly Gross Salary: 1 800 euros / Duration: 36 months

Sujet :
The goal of this PhD Thesis is to enrich a knowledge base with n-ary relations extracted from textual scientific documents. The aim of the ARTEXT4LOD PhD project is to ease the extraction of experimental data from scientific documents available on-line, experimental data being represented as n-ary relations where a studied object is modeled as a symbolic argument and its features as quantitative arguments associated with their attributes, i.e. the numerical value and measurement unit.
The PhD fellow will have to explore two main research directions:
– To exploit meta-data extracted from textual scientific documents to drive the n-ary relations identification and extraction such as figures, captions, tables, captions or structural information (e.g. abstract, summary). This first task is very difficult as the textual features are non-necessarily normalized (e.g. the units of measurement). It will consist in extending and improving the first results of the PhD work of Soumia Lilia Berrahou (Berrahou et al. 2017).
– To take into account expert knowledge, that could be learnt all along the n-ary relations identification and extraction. This allows the iterative and incremental localization, identification, extraction and annotation of n-ary relations using expert knowledge. This could be done using original methods based on active learning approaches (Silva et Silva 2007 ; Martinez Alonso et al. 2015) and Relevant Feedback (Harashima et Kurohash, 2011 ; Valcarce et al. 2018) used for Information Retrieval tasks.

References
– L. Berrahou, P. Buche, J. Dibie-Barthelemy, M. Roche (2017) Xart: Discovery of correlated arguments of n-ary relations in text. Expert Syst. Appl. 80: 244-262.
– C. Silva, B. Silva. On text-based mining with active learning and background knowledge using SVM. Soft Computing, Volume 11 Issue 6, Pages 519 – 530, 2007
– H. Martinez Alonso, B. Plank, A. Johannsen, A. Søgaard. Active. Learning for sense annotation. Proceedings of the 20th Nordic Conference of Computational Linguistics, 245-249, 2015
– J. Harashima, S. Kurohash. Relevance Feedback using Latent Information. Proceedings of the 5th International Joint Conference on Natural Language Processing, pages 1037-1045, 2011
– D. Valcarce, J. Parapar, Á. Barreiro. 2018. LiMe: Linear Methods for Pseudo-Relevance Feedback. In SAC 2018: SAC Symposium on Applied Computing , April 9-13, 2018, Pau, France. ACM, 2018

Profil du candidat :
The successful candidate should hold a recent master degree in Computer Science or equivalent degree.

Formation et compétences requises :
Strong background knowledge in Ontology and Data mining; Programming skills are absolutely necessary, and software engineering experience is welcome.

Adresse d’emploi :
Contacts:
Patrice Buche patrice.buche@inra.fr
Juliette Dibie dibie@agroparistech.fr
Mathieu Roche mathieu.roche@cirad.fr

Please send a complete CV, a motivation letter with a statement of research interest, a copy of your Master degree and a list of at least 2 references (names and contact information).

Document attaché :

Categories: theses

Sélection des plantes pour la santé animale et végétale dans les pays du Sud au moyen de la navigation conceptuelle exploratoire

Jun 15 – Jun 16 all-day

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : CIRAD Montpellier
Durée : 3 ans – candidature avant le 15 juin 2018
Contact : pierre.martin@cirad.fr,marianne.huchard@lirmm.fr
Date limite de publication : 2018-06-15

Contexte :
Confrontés au défi de conserver et de valoriser la biodiversité et les ressources naturelles et dans l’objectif de proposer des alternatives écologiquement intensives, plurielles et adaptées aux conditions environnementales et sociales locales, les chercheurs doivent concevoir, avec les producteurs, des systèmes de production et de transformation durables respectant la santé humaine et environnementale. Regrouper des connaissances[1], savoirs et savoir-faire au sein de bases de connaissances (BdC) permet de disposer d’un capital cognitif pour répondre à ce défi.

Parmi les BdC développées au Cirad, PPAf (projet Knomana 2017-2018, métaprogramme Glofoods) recense les usages expérimentaux et appliqués des plantes pour la santé animale, végétale et humaine (28.000 usages collectés à présent) concernant des organismes nuisibles divers (insectes, virus, bactéries, etc.). Ces connaissances sur les usages permettent d’identifier des solutions alternatives aux pesticides chimiques et aux antibiotiques pour la protection des cultures et des élevages dont l’aquaculture (e.g. connaître les modalités d’usage d’une plante locale pour protéger des cultures maraîchères ou lutter contre les infections animales).

La diversité et le grand nombre de connaissances d’échelles d’analyse différentes (taxonomie, géographie, fiabilité des sources d’information, etc.) contenues dans PPAf rendent complexes leur visualisation et leur exploration par les utilisateurs finaux (agriculteurs, conseillers, entrepreneurs locaux ou chercheurs), pour la compréhension et la recherche de solutions sur des sujets variés ne pouvant être connus à l’avance. L’enjeu de la thèse est de disposer d’une méthode générale d’extraction des connaissances évitant d’implémenter des interfaces spécifiques à chaque type de question.

Sujet :
Actuellement, les connaissances de PPAf sont structurées et stockées dans des tables. Selon les questions posées, l’extraction est actuellement réalisée par filtrage, raisonnement en utilisant les graphes conceptuels, etc. L’objectif de la thèse est d’élaborer une méthode générale, les outils théoriques et un prototype qui réponde à trois questions :

– Quel serait le support formel le mieux adapté pour intégrer et représenter l’ensemble des connaissances de PPAf ?

– Quels formalismes complémentaires permettraient d’élaborer un sous-corpus de connaissances en utilisant différentes méthodes de classification, i.e. les Arbres de décision, les règles d’associations, l’Analyse Formelle de Concepts, et l’Analyse Relationnelle de Concepts ?

– Quelle méthode d’interaction Homme-Machine permettrait à différents profils d’utilisateur d’exprimer leurs requêtes produisant un sous-corpus de connaissances à la volée selon le contexte de navigation ?

Profil du candidat :
Curiosité pour l’usage des plantes et la protection de l’environnement

Formation et compétences requises :
– Master 2 en informatique
– Compétences en représentation des connaissances, algorithmique
– Anglais écrit et parlé

Adresse d’emploi :
La thèse se déroulera au Cirad à Montpellier, hébergée par l’UR AÏDA, et s’effectuera en collaboration avec le LIRMM, CNRS et Université de Montpellier

Document attaché :

Categories: theses

Wed

Mise en relation de données hétérogènes pour le renforcement des systèmes de sécurité alimentaire – Cas de la production agricole en Afrique de l’Ouest

Jun 20 – Jun 21 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : UMR TETIS
Durée : 3 ans
Contact : mathieu.roche@cirad.fr, roberto.interdonato@cirad.fr
Date limite de publication : 2018/06/20

Contexte :
Cette thèse vise au renforcement des systèmes de suivi de la sécurité alimentaire (SSA) par l’utilisation de données hétérogènes. Alors que les données agro-climatiques (imagerie satellitaire, données climatiques, etc.) sont largement utilisées dans les SSA, l’utilisation de données provenant de différents domaines (enquêtes ménages, médias sociaux, presse, analyse de marché) a souvent été négligée. La télédétection, utilisée en routine pour les suivis en temps réel de la croissance de la végétation, ne suffit pas à expliquer des situations d’insécurité alimentaire.

Sujet :
L’objectif de cette thèse est double : (i) définir des techniques originales de fouille de données conçues spécifiquement pour le traitement de données hétérogènes. Pour cela, trois phases ont été identifiées : l’identification automatique des descripteurs spatiaux à partir des données hétérogènes, la mise en relation des descripteurs (par la définition de nouvelles mesures de similarité) et la fouille de données (nouvelles techniques d’analyse de réseau, de clustering et d’apprentissage profond) ; (ii) montrer comment les données de télédétection peuvent être enrichies en les reliant à des données de domaines différents afin de les rendre plus adaptées à l’analyse de phénomènes complexes de sécurité alimentaire.
Pour ce travail, nous nous concentrerons sur des études menées au Burkina Faso, en mobilisant des données agroclimatiques, économiques et textuelles. Le cadre d’analyse s’appuiera sur une analyse rétrospective, mettant l’accent sur les mauvaises récoltes de 2007 et 2011 au Burkina Faso comme des cas d’étude majeurs. Par ailleurs, d’autres terrains pourront également être étudiés, en mobilisant des données disponibles au Sénégal. Compte tenu du parcours interdisciplinaire envisagé pour ce travail, les résultats de l’analyse et les techniques définies présenteront un intérêt significatif dans les domaines de la socio-économie, la télédétection et la fouille de données. Pendant la période de thèse, le doctorant participera également à des missions (deux à trois semaines) en Afrique de l’Ouest, en collaboration avec des experts dans le domaine de la télédétection et de la sécurité alimentaire. Cette thèse est co-financée par le Cirad (https://www.cirad.fr) et par l’Institut de Convergence “Agriculture Numérique” #DigitAg (http://www.hdigitag.fr).

Profil du candidat :
– Il ou elle devrait avoir terminé (ou sur le point de terminer) un master.
– Une solide formation en informatique (fouille de données, apprentissage automatique, analyse d’image).

Formation et compétences requises :
– Des connaissances de base dans le domaine de la télédétection seront un plus.
– De bonnes compétences en programmation dans un langage tel que Python, Java et C++ sont attendues.
– L’intérêt et/ou une expérience dans les sciences appliquées, notamment en agronomie / environnement / géographie, seront appréciés.
– Bon niveau d’anglais écrit et parlé.

Adresse d’emploi :
Le doctorant sera accueilli dans le laboratoire TETIS à Montpellier (France). Le laboratoire TETIS est une Unité Mixte de Recherche (UMR) entre l’IRSTEA, le CIRAD, AgroParisTech et le CNRS. L’UMR TETIS mène des recherches méthodologiques sur la gestion de l’information spatiale. Une approche intégrée de la chaîne de l’information spatiale est mise en oeuvre, en commençant par son acquisition (télédétection satellitaire) et en incluant son traitement, sa gestion et son usage.

Les candidats doivent envoyer les documents ci-dessous à phd-digitag2018@cirad.fr :
– Un CV de deux pages.
– Une lettre de motivation d’une page détaillant les compétences, connaissances et expériences appropriées pour la thèse.
– Les derniers relevés de notes.
– Les coordonnées d’une ou deux personnes référentes ; pas de lettres de référents.

La date limite pour candidater est fixée au 20 juin 2018.

Document attaché :

Categories: theses

Utilisation d’ontologies pour améliorer les performances des systèmes de recommandation

Jun 20 – Jun 21 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LGI2P à l’IMT Mines Alès
Durée : 36 mois
Contact : sylvie.ranwez@mines-ales.fr
Date limite de publication : 2018-06-20

Contexte :
La recommandation consiste à rechercher et filtrer les informations pertinentes pour un utilisateur dans un contexte précis. La plupart des systèmes de recommandation utilisent le filtrage collaboratif qui consiste à baser la recommandation sur les choix, les goûts, d’utilisateurs ressemblants. Pour cela il est nécessaire de caractériser d’une part les entités manipulées par le système de recommandation et d’autre part de caractériser les utilisateurs. Il devient alors possible d’identifier des similitudes entre eux et ainsi identifier les propositions les plus pertinentes.

Sujet :
Cette thèse propose d’aborder la recommandation en croisant les techniques d’apprentissage automatique et les approches sémantiques (basées sur des ontologies de domaine). Les ontologies sont envisagées comme support à ces traitements sémantiques car elles permettent non seulement de décrire la connaissance d’un domaine, mais surtout d’y appliquer des mesures indispensables pour l’indexation de ressources, la recherche d’information (appariement entre requêtes et ressources indexées, classification des utilisateurs…) et, in fine, la recommandation. Elles peuvent également servir lors de la restitution des résultats qui pourront être proposés au travers de cartes sémantiques.

Encadrement:
Directeur de thèse : Sylvie Ranwez, Professeur, LGI2P/IMT Mines Alès sylvie.ranwez AT mines-ales.fr, 04 34 24 62 62 Co-directeur de thèse : Vincent Ranwez, Professeur, Montpellier SupAgro vincent.ranwez AT supagro.fr, 04 99 61 28 75 Encadrant de proximité : Nicolas Sutton-Charani nicolas.sutton-charani AT mines-ales.fr, 04 34 24 62 67

Profil du candidat :
Master II en Informatique, ingénieur informaticien ou équivalent.

Formation et compétences requises :
Master II en Informatique, ingénieur informaticien ou équivalent.
Une bonne maîtrise des techniques classiquement utilisées dans les domaines de l’apprentissage automatique et de la fouille de données est souhaitée. Des connaissances en ingénierie des connaissances (ontologies), web sémantique, extraction d’information et algorithmique seraient fortement appréciées – un fort intérêt pour ces thématiques est attendu.

Adresse d’emploi :
Établissement : IMT Mines Alès (Ecole nationale supérieure des mines d’Alès) Centre et équipe de recherche : KID (Knowledge and Image analysis for Decision making) / LGI2P (Laboratoire de Génie Informatique et d’Ingénierie de Production) – https://kidknowledge.wp.imt.fr
Localisation : Alès (1h de Montpellier, 45min de Nîmes)

Document attaché : PHDProposalIMTMinesAles2018.pdf

Categories: theses

Numérisation et modélisation de la réflectance des surfaces manufacturées : vers un pilotage fonctionnel de l’apparence

Jun 22 – Jun 23 all-day

Annonce en lien avec l’Action/le Réseau : ImHypFormation

Laboratoire/Entreprise : Laboratoire Electronique Informatique et Image (ImViA = Image et Vision Artificielle)
Durée : 36 mois
Contact : G. Le Goïc – MCF Coordinateur scientifique du projet NAPS Gaetan.Le-Goic@ubfc.fr A. Mansouri – Professeur (UBFC – Le2i) Alamin.Mansouri@ubfc.fr
Date limite de publication : 2018-06-22

Contexte :
Établissement et laboratoire d’accueil
Université de Bourgogne Franche Comté (COMUE UBFC) – Laboratoire Le2i

Enjeu

Lieu de travail : Dijon – Bourgogne – France

Intitulé du sujet
Numérisation et modélisation de la réflectance des surfaces manufacturées : vers un pilotage fonctionnel de l’apparence

Champs scientifiques
• Informatique /Image
• Mécanique
• Instrumentation

Mots clés
Métrologie des surfaces, numérisation de l’apparence, méthodes de décomposition multi échelle, Systèmes d’imagerie multimodaux, qualité d’aspect des surfaces, traitement d’image

Nature du financement
Contrat doctoral – Des vacations d’enseignement pourront être envisagées en complément, en fonction du profil du candidat.

Précisions sur le financement
2 financements de thèse sont à pourvoir sur ce projet (ANR NAPS). Le salaire approximatif est de 1950 euros brut mensuel, des vacations d’enseignements seront envisagées en complément en fonction du profil du candidat.
http://www.agence-nationale-recherche.fr/projet-anr/?tx_lwmsuivibilan_pi2%5BCODE%5D=ANR-17-CE10-0005
Intitulé du doctorat : Sciences de l’ingénieur
École doctorale ED 37 – SPIM (Sciences Pour l’Ingénieur et Microtechniques)
http://ed-spim.univ-fcomte.fr/

Sujet :
Description
La maîtrise de la perception visuelle des surfaces des produits manufacturés est un enjeu central pour l’industrie de demain, et de nombreux défis scientifiques associés sont à relever, dont celui, multifactoriel, de la numérisation de l’apparence des états de surface :
(i) Comment mesurer les attributs d’apparence des surfaces, et qualifier l’aspect d’un état de surface à partir d’indicateurs objectifs et répétables.
(ii) Comment modéliser l’information d’apparence des surfaces, et particulièrement passer d’une mesure discrète à une estimation/modélisation continue de l’information
(iii) Comment établir la(les) corrélation(s) avec la fonctionnalité, c’est à dire dans ce cas la corrélation entre des indicateurs objectifs d’état de surface géométriques et la qualité d’aspect des surfaces inspectées.
Le projet de thèse est structuré autour de ces trois verrous. Il ambitionne d’apporter des réponses tant sur le plan instrumental, par la poursuite de développements d’un dispositif de mesure d’attributs de l’apparence innovant, que sur le plan méthodologique, par le développement et la mise en œuvre de méthodes permettant une modélisation fidèle et performante de la réflectance angulaire et spectrale, et permettant la formalisation du lien fonctionnel entre la micro-géométrie d’une surface et son comportement visuel. Ce projet se situe à la convergence des domaines du génie industriel (mécanique, métrologie, qualité) et du domaine de l’imagerie (acquisition et traitement), avec ainsi un fort caractère interdisciplinaire. Ce doctorat s’inscrit dans le cadre d’un programme de recherche intitulé NAPS (Numérisation, modélisation et pilotage de l’APparence des états de Surfaces manufacturés) financé par l’ANR sur une durée de 42 mois.

Nature du financement
Contrat doctoral – Des vacations d’enseignement pourront être envisagées en complément, en fonction du profil du candidat.

Champs scientifiques
• Informatique /Image
• Mécanique
• Instrumentation

Profil du candidat :
Un bon bagage mathématique et physique est nécessaire pour pouvoir comprendre et étendre l’approche. Il est également essentiel d’avoir des compétences en programmation informatique (par exemple : matlab, C++, Qt, Python), et un fort gout pour l’instrumentation et l’expérimentation. Enfin, des compétences en mécanique et/ou en méthodes de traitement d’images seront appréciées.
Niveau minimal : master ou équivalent (diplôme d’ingénieur par exemple)

Modalités de Candidature
Les candidatures sont à envoyer avant le 22/06/2018, par email, aux destinataires suivants :
G. Le Goïc – MCF Coordinateur scientifique du projet NAPS
Gaetan.Le-Goic@ubfc.fr
A. Mansouri – Professeur (UBFC – Le2i)
Alamin.Mansouri@ubfc.fr

Le dossier de candidature doit comporter les éléments suivants (un seul fichier pdf, intitulé NAPS_candidature_NOM.pdf) :
– CV détaillé
– Lettre de motivation sur le projet de recherche
– Relevés de notes (M1/M2 ou formation d’ingénieur)

Le dossier pourra aussi, de façon non exhaustive, comporter les éléments suivants :
– Lettres de recommandations éventuelles, ou coordonnées de personnes référentes
– Exemples de travaux de recherche et/ou rapports de stages
– Preuve de niveau d’anglais

Formation et compétences requises :
Niveau minimal : master ou équivalent (diplôme d’ingénieur par exemple)

Adresse d’emploi :
Laboratoire LE2I (ImViA)
Institut Marey
I3M
64 rue de Sully
21000 Dijon

Document attaché : Proposition-de-thèse_NAPS.pdf

Categories: theses

Sat

Apprentissage de représentations continues dans des corpus en langue spécialisée

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : ADOCDoctorants

Laboratoire/Entreprise : LIUM, équipe LST
Durée : 3 ans
Contact : nicolas.dugue@univ-lemans.fr
Date limite de publication : 2018-06-30

Contexte :
Laboratoire d’accueil : Laboratoire d’Informatique de l’Université du Mans (LIUM)
Site : Le Mans
Directeur de thèse : Yannick ESTEVE (yannick.esteve[at]univ-lemans.fr)
Co-encadrant : Nathalie Camelin (natalie.camelin[at]univ-lemans.fr), Nicolas Dugué (nicolas.dugue[at]univ-lemans.fr)

Sujet :
https://lium.univ-lemans.fr/these2-lst-032018/

Contexte. Le travail de gestion documentaire est depuis plusieurs années en pleine mutation. Les connaissances métier sont de plus en plus digitalisées, sous des formats unifiés, et mises à disposition des utilisateurs ou du grand public. Ainsi par exemple, dans les hôpitaux parisiens, les dossiers des patients deviennent numériques, avec des formats unifiés [3]. Par ailleurs, à travers notre projet en cours avec le partenaire SNCF, nous voyons également émerger ce besoin de proposer un accès aux ressources métiers numérisées. Enfin, avec le lancement récent de la base ISTEX, socle de la bibliothèque scientifique numérique nationale, l’état français a affirmé sa volonté de mettre à disposition des chercheurs des corpus numériques de bonne qualité, organisés et enrichis [2].

Comme dans le cas d’ISTEX, cette digitalisation est en général accompagnée d’une réflexion sur l’organisation de ces corpus, les moyens d’y donner accès, et les méthodes pour en tirer une valeur ajoutée. Ainsi, des outils d’exploration de corpus, de cartographie [1, 9], des moteurs de recherche sont associés aux solutions de gestion documentaire.

Néanmoins, l’indexation et l’organisation (clustering/classification) en base documentaire de telles références métiers soulèvent de nombreux verrous scientifiques. En effet, ce travail passe par une bonne représentation des documents [10]. Il est donc en particulier important d’être capable de représenter le vocabulaire métier employé dans ces documents. Or, les vocabulaires employés dans ces documents sont spécifiques aux métiers. De plus, les données pour apprendre des représentations de ces documents sont bien souvent limitées. Enfin, ces données ne sont pas toujours accompagnées de ressources (lexiques, ontologies, catégorisation) validées par des experts, permettant ainsi de superviser le travail. Nous souhaitons donc dans cette thèse explorer cette problématique de représentation continue des documents dans le cadre de corpus en langue spécialisée. Nous considérerons également dans un second temps l’utilisation des méta-données des documents (citations, auteurs) pour enrichir leur représentation et ainsi améliorer l’organisation des bases documentaires.

Travailler avec peu de resources. La difficulté principale pour cette tâche est d’apprendre des représentations d’un vocabulaire spécialisé, potentiellement peu fréquent dans le corpus, ou bien sur un corpus de petite taille qui fournit donc peu d’exemples d’occurences. La tâche d’évaluation qui lui est associée relève de la même difficulté [14]. En effet, si les représentations continues sont bien évaluables sur le vocabulaire courant, il n’existe pas à notre connaissance de banc d’essai standard en considérant le vocabulaire de langue spécialisée. En ce qui concerne les représentations continues, la littérature peut nous fournir des pistes pertinentes dans ce contexte. Tout d’abord, il existe des méthodes qui permettent la construction automatique de dépendances sémantiques, voire de taxonomies [6], qui peuvent permettre de généraliser le vocabulaire [13].
Certains travaux proposent également d’utiliser ces ressources pour superviser l’apprentissage [5]. Ensuite, d’autre approches se penchent sur la combinaison de représentations pour celles des expressions composées [8]. Par ailleurs, il existe également des méthodes basées sur l’apprentissage de représentation pour des n-grams de caractère, de façon à pouvoir représenter des mots inconnus ou peu fréquents, même si ces résultats sont peu évalués dans ce cadre [4].

Une autre piste sérieuse pour utiliser au maximum les ressources à disposition dans de tels corpus, est d’exploiter les meta-données. Par exemple dans le cadre des articles scientifiques les informations d’auteurs et les citations entre articles.

Utiliser les meta-données. Jusque-là, les travaux réalisés sur l’organisation des ressources documentaires (de type scientifiques en particulier) organisaient thématiquement ces bases en utilisant en général séparément le contenu des documents [9], le réseau des citations entre documents, le réseau des collaborations d’auteurs. Ces trois sources de données ont été prouvées pertinentes et des tentatives ont été faites pour les utiliser conjointement [11, 12]. Néanmoins, à notre connaissance, il n’existe aucune approche permettant d’avoir une représentation continue unifiée pour les documents tenant compte de toutes ces informations, bien qu’il existe également des approches pour représenter de façon continue un noeud dans un graphe [7].

Résumé. Dans cette thèse, nous proposons d’étudier différentes représentations continues (de mots, de documents, de graphe) afin d’organiser des corpus en langue spécialisée. Le premier verrou scientifique considéré est celui de la représentation du vocabulaire métier employé dans ces corpus, dans le cas où le corpus est petit, et les fréquences du vocabulaire faibles. Dans un second temps, nous envisageons l’enrichissement de la représentation des documents via l’utilisation des méta-données, notamment les citations entre documents et les informations de collaborations entre auteurs dans le cadre de documents scientifiques par exemple.

Profil du candidat :
Goût pour l’apprentissage
Solides compétences en programmation
Notions en proba/stats
Intérêt pour le TAL

Formation et compétences requises :
Master 2
Programmation Python
Machine Learning

Adresse d’emploi :
Laboratoire d’accueil : Laboratoire d’Informatique de l’Université du Mans (LIUM)

Document attaché :

Categories: theses

Machine Learning and Constraints

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIFO – Université d’Orléans
Durée : 3 ans
Contact : christel.vrain@univ-orleans.fr, thi-bich-hanh.dao@univ-orleans.fr
Date limite de publication : 2018-06-30

Contexte :
Machine learning and constraint programming are two important fields in artificial intelligence. Constraint programming offers a declarative and efficient paradigm to solve constraint satisfaction problems or constraint optimization problems. Machine learning and data mining problems are usually modeled as optimization problems or enumeration problems. Solving machine learning and data mining problems using constraint programming has recently interested both communities [4,6,1].

References
[1] M. Chabert and C. Solnon. Constraint Programming for Multi-Criteria Conceptual Clustering, CP 2017, pages 460-476, 2017.
[2] T.-B.-H. Dao, K-C. Duong and C. Vrain, Constrained Clustering by Constraint Programming, Artificial Intelligence Journal, vol 244, pages 70-94, 2017.
[3] T.-B.-H. Dao, C. Vrain, K.-C. Duong, I. Davidson. A Framework for Actionable Clustering Using Constraint Programming. ECAI 2016, pages 453-461, 2016.
[4] T. Guns, S. Nijssen and L. de Raedt. k-Pattern set mining under constraints. IEEE Transactions on Knowledge and Data Engineering, 2011.
[5] C.-T. Kuo, S. S. Ravi, T.-B.-H. Dao, C. Vrain, I. Davidson. A Framework for Minimal Clustering Modification via Constraint Programming. AAAI-17, 2017.
[6] J-P. Métivier, P. Boizumault, B. Crémilleux, M. Khiari and S. Loudni. Constrained Clustering Using SAT. In IDA 2012, LNCS 7619, pages 207-218, 2012

Sujet :

In this thesis, we are interested in developing declarative approaches using constraint programming for modeling and solving machine learning and data mining problems with structured data. More precisely, the data is not only defined by attributes or a distance measure, but also related by relations that define structures on data, as for instance graphs. One interest of a declarative approach is that the semantics can be integrated, as for instance labels on links, individual properties of instances or properties between instances etc. This work is based on our competences developed in LIFO on distance based constrained clustering using constraint programming [2,3,5].

Interested candidates are invited to send a CV, a motivation letter, the graduate level transcripts of marks as well as the name of reference persons.

The application must be done as soon as possible. The selected candidates will be invited to an interview.

Profil du candidat :
Machine Learning and Data Mining
Constraint Programming

Formation et compétences requises :
Master or engineering schools (including a reaserch training)

Adresse d’emploi :
LIFO – Université d’Orléans
Rue Léonard de Vinci
Orléans
France

Document attaché : Thesis-Orleans-2018.pdf

Categories: theses

Résumé en ligne d’un flux de données selon une approche de coclustering régularisé

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Orange Labs Lannion
Durée : 3 ans
Contact : marc.boulle@orange.com
Date limite de publication : 2018-06-30

Contexte :
Le contexte de la thèse est celui de l’analyse de données, aussi appelée fouille de données ou data mining. C’est un processus visant à découvrir, expliquer, décrire des connaissances à partir de données en utilisant des technologies basées sur des techniques statistiques, mathématiques et d’apprentissage automatique, de façon supervisée ou non supervisée.

L’analyse non supervisée, ou exploratoire, vise à étudier les corrélations entre les données, à construire des modèles de clustering ou à estimer des probabilités jointes entre les variables. La thèse se place dans ce contexte d’analyse exploratoire, dans le cas de donnée arrivant en flux, avec une volumétrie telle qu’il n’est pas envisageable de les stocker intégralement. L’objectif sera alors de produire des résumés en ligne de flux, permettant d’explorer et d’analyser le flux a posteriori, alors même que les données à l’origine du résumé auront été perdues (stream), ou sont extrêmement lourdes à manipuler (big data).

L’analyse exploratoire est actuellement le parent pauvre des recherches en analyse de données, d’une part parce que le problème est intrinsèquement difficile, d’autre part parce que les résultats ne se prêtent pas facilement au processus de publication scientifique. Jusqu’à présent, sur les volumes de données relativement limités qu’on analyse couramment, on dispose de techniques exploratoires qui sont à leurs limites (cf. état de l’art) et de techniques supervisées qui sont largement surdimensionnées en termes de capacité. Cette situation asymétrique ne saura perdurer avec l’afflux de données plus volumineuses (big data), voir de données arrivant en flux (stream mining [6]). Les techniques supervisées ont été construites pour supporter la grande volumétrie avec des extensions aux flux de données, mais les techniques exploratoires sont tout simplement dépassées, d’où l’intérêt de s’en préoccuper car l’afflux de grands volumes n’a rien changé au processus général du traitement des données, l’analyse supervisée succède à l’analyse exploratoire et en dépend.

Les masses de données collectées actuellement sont difficiles à exploiter avec les méthodes d’analyse de données classiques pour de nombreuses raisons. Les problèmes suivants reviennent de façon récurrente dans le cadre de l’analyse exploratoire [4]:
– les données réelles sont de type mixte, numérique ou catégoriel, alors que les modèles sont en général spécifiques à un type de données [1, 5]
– les résultats des méthodes classiques sont difficiles à interpréter et/ou à exploiter
– les méthodes classiques sont rarement capables de traiter les masses de données disponibles actuellement.
Outre ces problèmes classiques, dans le cas de données en flux, les approches de stream mining [6,7] doivent trouver un compromis entre la précision et le volume des modèles de résumé. Les méthodes existantes principales sont basées sur :
de l’échantillonnage aléatoire,
– des histogrammes pour avoir des évaluations de densité conditionnellement au temps,
– l’utilisation de fenêtres glissantes pour traiter les données par morceaux,
– des modèles à résolution multiple, principalement basés sur des arbres de décision ou à base de micro-clusters
– des sketches, pour approximer des comptages de valeurs sans avoir à les stocker exhaustivement.

Sujet :
L’objectif de cette thèse est de participer au développement de méthodes d’analyse exploratoire, en étendant l’approche MODL [2] développée depuis plusieurs années à Orange Labs. L’approche MODL s’apparente à une classification croisée entre les valeurs des variables décrivant les individus (K-classification, soit une biclassification dans le cas à deux variables), qui permet d’approximer la densité jointe entre les variables. Une extension récente la rend applicable à une co-classification entre d’une part les individus, d’autre part l’ensemble de toutes les variables, avec des applications à l’analyse exploratoire comme la détection de groupes de variables fortement corrélées ou la segmentation d’individus en groupes similaires.
La méthode a une complexité sous quadratique qui la rend applicable à des très grands volumes de données. Elle est associée à de nombreux outils d’exploitation des grilles basés sur la théorie de l’information [3].

La thèse présentée concerne l’analyse exploratoire sur flux de données, pour lequel une dimension temporelle apparait naturellement, et la collecte des données se fait indéfiniment. L’utilisation de modèle de coclustering intégrant une dimension temporelle permet dès lors d’estimer des densités jointes entre variables, évoluant au cours du temps. Il s’agit ici d’étendre les algorithmes de coclustering existant au cas de données en flux, en tenant compte des contraintes suivantes :
– à chaque instant, la quantité de mémoire disponible pour le traitement d’une fenêtre de données est limitée
– le temps de traitement d’une fenêtre de données est limité
– la mémoire disponible pour stocker le résumé de données est limitée
L’extension des modèles de coclustering est également possible, en envisagent potentiellement une hiérarchie de modèles par fenêtre temporelles.
L’extension de l’approche MODL à ce type de problème repose principalement sur l’élaboration d’algorithmes permettant le calcul de modèle de coclustering sur flux de données, respectant les contraintes de ressources mémoire et temps de calcul.

La première année sera consacrée à un état de l’art sur les méthodes d’analyse exploratoire les plus utilisées sur flux de données, notamment dans le cas de l’estimation de densité univariée (à base de histogrammes) ou multi-variée (à base de micro-clusters), à étudier l’approche MODL et ses extensions actuelles au cas non supervisé, puis à étudier l’extension de cette approche au cas des flux de données. Le passage au flux de données se fera en premier en traitant le cas le plus simple, le traitement d’une seule variable numérique ou catégorielle en flux, qui par bi-clustering avec la variable de temps permet de construire des histogrammes en ligne. La généralisation au cas multivarié sera considérée ensuite, en étendant les modèles de coclustering individus x variables avec l’incorporation d’une dimension temporelle supplémentaire.
Il s’agira ensuite de proposer une méthodologie d’usage de cette approche, d’en explorer les applications en analyse exploratoire et d’en explorer les limites.

La suite du planning sera réalisée en collaboration avec le doctorant. A la fin de la première année : on aura déterminé la suite des travaux à mener sur les deux années à venir.
Typiquement, la deuxième année sera consacrée à l’approfondissement de la voie de recherche identifiée en première année. La troisième année consistera à finaliser ces travaux, à les valoriser sous formes d’articles scientifiques, et à la rédaction du manuscrit de thèse.

Références
[1] S. Boriah, V. Chandola et V. Kumar : Similarity measures for categorical data : A comparative evaluation. In SDM, pages 243–254, 2008.
[2] M. Boullé. Data grid models for preparation and modeling in supervised learning. In Hands-On Pattern Recognition: Challenges in Machine Learning, volume 1, I. Guyon, G. Cawley, G. Dror, A. Saffari (eds.), pp. 99-130, Microtome Publishing, 2011.
[3] R. Guigourès. Utilisation des modèles de co-clustering pour l’analyse exploratoire. Phd thesis. 2013.
[4] A.K. Jain et R.C. Dubes : Algorithms for clustering data. Prentice-Hall, Inc.,1988.
[5] R.D. Wilson et T.R. Martinez : Improved Heterogeneous Distance Functions. Journal of Artificial Intelligence Research, 6:1–34, 1997.
[6] J. Gama (2010). Knowledge Discovery from Data Streams. Data Mining and Knowledge Discovery. Chapman and Hall
[7] B. Babcock, S. Babu, M. Datar, R. Motwani, and J.r Widom, Models and Issues in Data Stream Systems, in Proc. 21st ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems (PODS 2002), 2002.

Profil du candidat :
Le profil souhaité est BAC + 5, école d’ingénieur ou Master Recherche statistiques et/ou mathématiques appliquées et/ou informatique.

Formation et compétences requises :
Le doctorant devra avoir une bonne connaissance des statistiques et des mathématiques.
Des connaissances en apprentissage statistique sont un réel plus.
Des compétences en programmation sont nécessaires: maitrise d’un langage de script (à minima) dédié à l’analyse de données (R, matlab, python avec bibliothèque scikit-learn…). La connaissance d’un langage orienté objet serait appréciée.
Une forte motivation, des capacités de synthèse, à bien rédiger et présenter les travaux (anglais) et à s’intégrer dans une équipe sont également demandées.
Une expérience est souhaitée sous la forme d’un stage dans le domaine statistique

Adresse d’emploi :
Orange Labs Lannion
2 avenue Pierre Marzin
22307 Lannion Cedex
France

Pour postuler en ligne :
https://orange.jobs/jobs/offer.do?joid=69229&lang=FR

Document attaché :

Categories: theses

Scheduling Strategies for High Performance Deep Learning

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Inria Bordeaux Sud-Ouest — EPC RealOpt
Durée : 3 ans
Contact : olivier.beaumont@inria.fr,alexis.joly@inria.fr
Date limite de publication : 2018-06-30

Contexte :
Recently, several frameworks such as TensorFlow [1] and PyTorch [2] emerged and represent the DL network as a directed graph whose nodes represent convolution operations and edges represent data dependences between them. The goal of this PhD thesis is to work on how to allocate the convolution operations and how to schedule them to achieve a better efficiency, typically in the context of platforms consisting of heterogeneous resources such as GPUs and multicore nodes.

Sujet :
The goal of this PhD Thesis is to improve the scheduling and resource allocation strategies along several directions. First, the resource allocation algorithm does not take into account the specificities of the application. Indeed, it is for instance close to the default StarPU scheduling algorithm [3] used for general task graphs.
Second, it has been proved that for specific applications such as linear algebra kernels, injecting some static knowledge based on a more sophisticated scheduling algorithm can strongly improved the performance of greedy algorithm [4]. Third, in the context of DL, the same graph of convolution layers is used many times on different input data along the execution of the DL algorithm, what is close to the context of steady state scheduling [5], that has been proved to be more tractable than general scheduling. At last, another opportunity is to develop high level simulation techniques, that could be used in particular to detect bottlenecks with respect to a DL network and to a parallel architecture. This possibility could more speculatively be especially interesting in the context of DL, since it may help to redesign the network itself to cope with bottlenecks. We will first concentrate on classical layers (Fully Connected Layers, Convolutional Layers, Recurrent Layers) before considering Pl@ntNet [6] as a target network.

[1]. M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, et al. Tensorflow: Large-scale machine learning on heterogeneous distributed systems. arXiv preprint arXiv:1603.04467, 2016.

[2] Pytorch, http://pytorch.org

[3] C. Augonnet, S. Thibault, R. Namyst, and P.-A. Wacrenier. Starpu: a unified platform for task scheduling on heterogeneous multicore architectures. Concurrency and Computation: Practice and Experience, 23(2):187–198, 2011.

[4] E. Agullo, O. Beaumont, L. Eyraud-Dubois, and S. Kumar. Are static schedules so bad? a case study on cholesky factorization. In Parallel and Distributed Processing Symposium, 2016 IEEE International, pages 1021–1030. IEEE, 2016.

[5] O. Beaumont, A. Legrand, L. Marchal, and Y. Robert. Steady-state scheduling on hetero- geneous clusters. International Journal of Foundations of Computer Science, 16(02):163– 194, 2005.

[6] D. Barthélémy, N. Boujemaa, D. Mathieu, M. Jean-Franc ̧ois, A. Joly, and E. Mouysset. The pl@ntnet project: plant computational identification and collaborative information system. 2011.

Profil du candidat :
These research directions require the joint knowledge of experts in deep learning algorithms, dynamic runtime scheduling and scheduling theory and will benefit in particular to Pl@ntNet application.

Formation et compétences requises :
The PhD student will be localized in Bordeaux (Olivier Beaumont – RealOpt and Samuel Thibault – Storm) and will be co-supervised with the help of Guillaume Charpiat (Tau) and Alexis Joly (Zenith). Several stays (1 week) in Saclay and Montpellier will be scheduled during the PhD Thesis.

Skills

Technical skills and level required: The candidate will be required to have a solid background in Combinatorial Optimization (scheduling, resource allocation, online algorithms) and/or in Deep Learning (TensorFlow, PyTorch) and a taste for both domains.

Remuneration

1st et 2nd year : 1.982 euros brut /month
3rd year : 2.085 euros brut /month

Adresse d’emploi :
Inria Bordeaux Sud-Ouest
Talence
France

Document attaché :

Categories: theses

Shapelet-neural-networks for weakly supervised problems

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : IRISA, Rennes
Durée : 36 mois
Contact : simon.malinowski@irisa.fr
Date limite de publication : 2018-06-30

Contexte :
In the time series analysis domain, very efficient methods have been developed recently for supervised tasks (e.g. classification). Amongst them, shapelet-based models are known to be efficient both in terms of accuracy and complexity [1, 2, 3]. However, in a wide range of applications, very little amount of supervised information is available which prevents from using the above-cited methods directly. Recently, some efforts have been dedicated to design unsupervised methods for time series analysis [4, 5, 6, 7]. These works mainly focus on the particular task of time series clustering.

Sujet :
The aim of this thesis is to explore several weakly supervised tasks for time series analysis. For that purpose, we will be particularly interested in bridging the gap between shapelets and neural networks, in order to learn efficient representations for time series in a weakly supervised context. In [6], we designed LDPS, a model combining shapelet and siamese networks in order to embed time series in a space where Euclidean distance mimics a widely used similarity measure for time series analysis (DTW). We aim at extending this framework to the following tasks :
— time series indexing under DTW : this task is known to be very challenging [8]. We expect that an anytime extension of the LDPS frame-work would be of great help for this task.
— metric learning and semi-supervised learning : we will be interested in extending the LDPS framework for situations where only a few labels are available (semi-supervised task) or where supervised information is available as must-link/cannot-link constraints (as in the metric learning framework)
Other tasks (eg. domain adaptation) will also be considered

Profil du candidat :
Machine Learning and Data mining

Formation et compétences requises :
Master or engineering schools (including a reaserch training)

Adresse d’emploi :
IRISA
Campus de Beaulieu
Rennes

Document attaché : Phd_irisa.pdf

Categories: theses

Thu

Génération automatique d’explications adaptées aux utilisateurs : évaluer et améliorer la confiance dans les modèles prédictifs et la connaissance du phénomène prédit

Jul 5 – Jul 6 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIFAT Université de Tours
Durée : 3 ans
Contact : patrick.marcel@univ-tours.fr
Date limite de publication : 2018-07-05

Contexte :
Le BRGM étudie de nombreux phénomènes naturels liés au sous-sol : formation des gisements de ressources minérales, dynamique des nappes phréatiques, risques sismiques, alea des retraits gonflements des argiles, vulnérabilité des nappes aux pollutions de surface… Prédire certains de ces phénomènes présente des enjeux importants : de l’anticipation de crise à la gestion durable des ressources naturelles.

Sujet :
Nous nous intéressons dans cette thèse à l’apport des méthodes de machine learning, et notamment de deep learning, qui sont des modèles prédictifs généraux et a priori agnostiques d’un contexte d’utilisation, pour les problèmes de prédiction propres au BRGM.
Si ces modèles d’apprentissage prouvent chaque jour un peu plus leur supériorité en termes d’efficacité pour certaines tâches comme la reconnaissance d’images, la classification de texte ou la reconnaissance de la parole, ils se présentent, même lorsque l’utilisateur introduit de la connaissance, comme des « boites noires » : on ne sait pas pourquoi, in fine, une prédiction est faite.

Cette particularité constitue le verrou scientifique de cette thèse. Sa résolution s’inscrit dans un courant scientifique émergeant (“algorithm transparency”) et doit favoriser d’une part la confiance que l’on peut avoir dans ces modèles, i.e. s’assurer qu’une bonne prédiction est faite pour de bonnes raisons, et donc leur adoption, en particulier par les scientifiques du BRGM et, d’autre part l’émergence de nouvelles pistes d’explication des phénomènes modélisés, en exhibant les raisons sous-jacentes aux prédictions.

Le travail de thèse s’organisera en 3 étapes :
1. Obtenir des modèles prédictifs « boites noires » de certains phénomènes naturels sélectionnés,
2. Proposer une méthode de génération automatique d’explications des prédictions de ces modèles et enfin,
3. Mesurer l’apport de ces explications, en termes de confiance et de connaissance des utilisateurs des modèles.

Les deux dernières étapes sont largement liées aux utilisateurs du modèle et les approches proposées devront s’inspirer de méthodes « centrées utilisateur », comme celles déjà développées par le LIFAT. Par exemple, on pourra s’intéresser à l’impact de l’explication produite sur l’évolution de l’expertise de l’utilisateur. Une dernière perspective consiste à étudier la possibilité de créer une boucle vertueuse entre ces 2 étapes qui permettrait de revoir l’explication qui est faite d’un modèle tant que son appropriation par l’utilisateur n’est pas acquise.

Candidatures ouvertes jusqu’au 05 juillet 2018 en envoyant CV, lettre de motivation et derniers relevés de notes.

Contact : nicolas.labroche@univ-tours.fr, patrick.marcel@univ-tours.fr, V.Labbe@brgm.fr

Profil du candidat :
Master en informatique

Formation et compétences requises :
Master en informatique

Adresse d’emploi :
Université de Tours – Campus de Blois, Département Informatique, 3 place Jean Jaurès

Document attaché : Thèse-BRGM.pdf

Categories: theses

Machine learning for medical image analysis

Jul 6 – Jul 7 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : CREATIS, Lyon
Durée : 36 mois
Contact : carole.lartizien@creatis.insa-lyon.fr
Date limite de publication : 2018-07-06

Contexte :
CREATIS has developed strong skills in developing clinical decision systems (CAD) for cancer and brain imaging based on the most advanced machine learning techniques. Such systems are designed to assist clinicians in their diagnosis by highlighting abnormal regions in an image. One active project of the ‘Images and Models’ team concerns the prototyping of a computer-aided diagnosis system for prostate cancer screening based on multiparametric magnetic resonance imaging (MRI).
Despite an important improvement brought by such systems for the problem of cancer mapping, they still suffer from limitations that restrict them from being used at a larger scale.

Sujet :
The purpose of the PhD project is to go one step further and address two challenges :
-to predict not only a presence/absence of cancer but also the degree of its aggressiveness. The main challenge is that the different classes, corresponding here to the different levels of lesion aggressiveness, are highly correlated and interdependent which challenges standard multi-class classification algorithms.

-to develop a system whose performance generalize well with data potentially coming from different populations, as can be encountered with imaging data pooled over different clinical centers

From the methodological point of view, we plan to explore new machine learning algorithms that tackle the problem induced by the presence of highly correlated and interdependent outcomes in multi-class classification as well as heterogeneous data.

One research axis that will be investigated is to explore the potential of deep learning to address both questions. Our objective will be to investigate novel deep architectures that will efficiently fit our needs, particularly focusing on semi-supervised networks allowing to operate on partially labeled data, which is a major characteristic of medical data.

Profil du candidat :
We are looking for an enthusiastic and autonomous student with strong motivation and interest in multidisciplinary research (image processing and machine learning in a medical context).

Formation et compétences requises :
The candidate is expected to have strong knowledge either in machine learning or image processing and a good experience in both fields. Some prior experience with medical image processing would be appreciated but is not required. Good programming skills are also required. The available code is written in Matlab and Python but other languages can be used.

Adresse d’emploi :
CREATIS – Centre de Recherche en Acquisition et Traitement de l’Image pour la Santé
INSA de Lyon
69621 Villeurbanne

Document attaché : PhD-position-MachineLearning_CAD_CREATIS_2018.pdf

Categories: theses

Tue

Clustering prédictif pour l’analyse de trajectoires clients

Jul 10 – Jul 11 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIFAT Université de Tours
Durée : 3 ans
Contact : patrick.marcel@univ-tours.fr
Date limite de publication : 2018-07-10

Contexte :
Cette thèse se place dans le cadre de l’optimisation de campagnes marketing dans le contexte de la gestion de la relation client. La recommandation de programmes de stimulation et de fidélisation clients adéquats repose sur la construction de segments clients, ie. des groupes de clients au comportement similaire, et de leur analyse au cours du temps.

En marketing, il est crucial de comprendre pourquoi certains clients basculent d’un segment à l’autre, pourquoi un nouveau segment a émergé, ou un autre a disparu. La réponse à ce type de questions a été étudiée jusqu’à présent par le biais de méthodes de clustering temporel ou autorisant la caractérisation des transitions entre clusters [1]. Nous nous intéressons ici plus particulièrement à la prise en compte d’événements externes, et de leur impact dans les transitions de clients entre segments au cours du temps.

Sujet :
Nous nous proposons dans ce travail de thèse de formaliser l’analyse des transitions et des segments clients sous la forme d’un problème de clustering. Celui-ci combinera un modèle prédictif complexe avec un algorithme de clustering adapté (on parle alors de clustering prédictif) afin de produire des clusters homogènes avec les prédictions de transitions entre clusters ou d’évolutions des caractéristiques d’individus en fonction des états passés et des évènements externes.

Plusieurs verrous scientifiques majeurs seront abordés par ce travail de thèse :

Trouver et caractériser les transitions sur des données exprimées sur des attributs numériques ou catégoriels. Pour ce faire, il faudra déterminer les attributs pertinents pour décrire les catégories d’utilisateurs et selon lesquels étudier les transitions entre catégories.
Modéliser des événements externes qui sont soit prévisibles et voulus (politique commerciale) soit imprévisibles (conflits, problèmes macro-économiques) et modéliser le lien entre les transitions observées et ces événements externes (ou leur absence).
Construire une nouvelle catégorisation des clients sur la base de la prédiction de leur évolution. Il est important de noter que ce problème ne pourrait être résolu en combinant un algorithme de clustering et un algorithme de classification, car dans ce cas les clusters seraient construits en étant agnostiques des modèles de prédiction, comme rappelé dans [2]. L’approche devra pouvoir construire un nombre variables de catégories clients afin de s’adapter localement dans le temps à des phénomènes d’éclatement de la clientèle ou au contraire de contraction du marché.

D’une certaine manière, on peut considérer le clustering prédictif comme une méthode contrainte par l’homogénéité sur des classes prédites. Nous pensons intégrer cette nouvelle solution au démonstrateur déjà existant [3, 4] et qui intègre déjà un modèle de clustering avec préférences sur les attributs. Une perspective à plus long terme consisterait à définir un modèle qui intègre ces deux types de contraintes.

Candidatures ouvertes jusqu’au 10 juillet 2018 en envoyant CV, lettre de motivation et derniers relevés de notes.

Contact : nicolas.labroche@univ-tours.fr, patrick.marcel@univ-tours.fr

[1] M. Spiliopoulou, I. Ntoutsi, Y. Theodoridis, R. Schult (2006). MONIC: modeling and
monitoring cluster transitions. In Proc. KDD, pp.. 706-711
[2] V. Lemaire, N. Creff, F. Clérot (2012) K-moyennes contraintes par un classifieur. Application à la personnalisation de scores de campagnes. EGC 2012, pp. 155-166
[3] A. El Moussawi, A. Cheriat, A. Giacometti, N. Labroche, A. Soulet (2016) Clustering with Quantitative User Preferences on Attributes. ICTAI 2016, pp. 383-387
[4] A. El Moussawi, P. De Guis, A. Giacometti, N. Labroche, A. Soulet (2017) Prototype de clustering exploratoire pour l’aide à la segmentation des clients. EGC 2017, pp. 457-460

Profil du candidat :
Master en informatique

Formation et compétences requises :
Master en informatique

Adresse d’emploi :
Université de Tours – Campus de Blois, Département Informatique, 3 place Jean Jaurès

Document attaché : Sujet-these.pdf

Categories: theses

Sun

Model construction and selection for biological pathways

Jul 15 – Jul 16 all-day

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : LORIA et CRAN
Durée : 3 ans
Contact : malika.smail@loria.fr
Date limite de publication : 2018-07-15

Contexte :

Sujet :

Sujet détaillé à : http://www.loria.fr/fr/emplois/these-loria-cran-selection-et-analyse-de-modeles-pour-les-reseaux-biologiques/

Profil du candidat :
Etudiant(e) motivé(e) titulaire d’un Master à dominante science des données et des connaissances. Des connaissances en biologie sont un plus.

Formation et compétences requises :
Fouille de données, extraction de connaissances à partir de données, langages pour la formalisation des connaissances, technologies du web sémantique

Adresse d’emploi :
Nancy, Campus de la faculté des sciences et techniques.
Les deux laboratoire LORIA et CRAN sont localisés sur ce campus

Document attaché : OffreFCH-Fr.pdf

Categories: theses

Poste de These a EURECOM: Modèles multimodaux profonds pour faciliter la narration audio-visuelle

Jul 15 – Jul 16 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : EURECOM
Durée : 3 ans
Contact : benoit.huet@eurecom.fr
Date limite de publication : 2018-07-15

Contexte :

L’objectif global de ce programme de recherche doctoral est de développer de nouvelles méthodes et outils pour la narration numérique de documents audio-visuels. À cette fin, une meilleure compréhension scientifique de l’analyse multimodale du contenu des médias, des liens et de leur consommation sera développée.

English version available here: http://www.eurecom.fr/sites/www.eurecom.fr/files/jobs/PhD_DS_BH_042018_US_V2.pdf

Sujet :
Thème de recherche: Modèles multimodaux profonds pour faciliter la narration audio-visuelle
Département Data Science
Date de l’offre: 16/04/2018
Date d’embauche: Poste à pourvoir dès que possible
Durée: Durée de la thèse

Description

L’objectif global de ce programme de recherche est de développer de nouvelles méthodes et outils pour la narration numérique de documents audio-visuels. À cette fin, une meilleure compréhension scientifique de l’analyse multimodale du contenu des médias, des liens et de leur consommation sera développée. Ce programme de thèse aborde plus spécifiquement les sujets suivants:
• Combiner les meilleures techniques disponibles pour l’analyse, l’apprentissage automatique et l’édition de descriptions textuelles, pour industrialiser le processus de narration numérique et réutiliser les médias existants comme ressources nouvelles par les producteurs et les consommateurs de médias.
• Développer des techniques de pointe pour analyser le contenu audiovisuel (y compris le texte), afin que les données multimodales puissent être largement décrites. Les descriptions extraites serviront à structurer et à annoter sémantiquement des archives de données audiovisuelles importantes et à mieux comprendre leur contenu et leur
évolution.
• Étudier et mettre en oeuvre des approches de segmentation temporelle qui prennent en compte le contexte et le contenu afin de définir de façon précise et localisée (temporellement et éventuellement spatialement) la fragmentation sémantique des documents audiovisuels
• Étudier et évaluer les méthodes automatiques de détection des moments clés et d’identification des hyperliens pertinents dans les contenus audiovisuels dans le contexte du projet et dans les campagnes d’évaluations comparatives internationales.

Cette thèse est financée par le projet européen MeMAD H2020: www.memad.eu. MeMAD est synonyme de méthodes de gestion des données audiovisuelles et vise à développer des méthodes automatiques de gestion, d’accès et de publication des contenus numériques préexistants et produits à l’origine, de manière efficace et précise dans les industries créatives, en particulier dans la télédiffusion et les services de médias a la demande. Le «contenu numérique» contient la partie audio-visuelle ainsi que divers textes «auxiliaires» tels que des légendes, des descriptions dans différentes langues et des hyperliens vers des contenus connexes. Plus spécifiquement, MeMAD vise à développer des méthodes et des modèles pour produire des informations audiovisuelles numériques enrichies dans plusieurs langues et pour différents contextes d’utilisation et publics, et à industrialiser ces résultats avec des scenarios démontrables. Ces objectifs seront mis en oeuvre à travers un certain nombre de work-packages et de différents cas d’utilisation à l’échelle du projet qui serviront également de moyens supplémentaires pour mesurer notre succès dans la réalisation des objectifs et des impacts attendus.

Profil du candidat :
Requirements

Education Level / Degree: MSc (with distinction)
Field / specialty: Computer Science
Technologies: Machine Learning / Deep Learning / Computer Vision / A.I.

Languages : English (and possibly some French)

Formation et compétences requises :
Requirements

Education Level / Degree: MSc (with distinction)
Field / specialty: Computer Science
Technologies: Machine Learning / Deep Learning / Computer Vision / A.I.

Languages : English (and possibly some French)

Adresse d’emploi :
Application

The position is available immediately, The cutoff date for the application is June 30, 2018, but the application evaluation will start immediately, so you are encouraged to apply before this date. Interested individuals should submit (I, II and III):

I-Curriculum Vitae
II-Motivation letter including research and education perspectives
III-Two or more reference letters
Applications should be submitted by e-mail to secretariat [at] eurecom [dot] fr (secretariat[at] eurecom [dot] fr) with the reference: DS_BH_PhD_MeMad_042018

EURECOM est une grande école d’ingénieurs et un centre de recherche en Systèmes de Communications situé au coeur du campus Sophia Tech, dans la technopole internationale de Sophia Antipolis. Organisé en Groupement d’Intérêt économique, EURECOM regroupe dans son consortium des universités prestigieuses: Télécom Paris Tech, Aalto University (Helsinki), Politecnico di Torino, Technische Universität München (TUM), Norwegian University of Science and Technology (NTNU) et Chalmers University (Suède), ainsi que la Principauté de Monaco en tant que membre institutionnel. L’Institut Mines-Télécom est membre fondateur d’EURECOM.

EURECOM bénéficie d’une forte interaction avec le monde industriel notamment au travers de sa structure de GIE qui regroupe des entreprises internationales comme : Orange, BMW Group Research & Technology, Symantec, Monaco Telecom, SAP, IABG.

L’activité de recherche d’EURECOM est organisée autour de trois thèmes principaux : Sécurité Numérique, Data Science et Systèmes de Communication. Elle contribue pour une large part à son budget. EURECOM est particulièrement actif en recherche dans ses domaines d’excellence et forme un grand nombre de doctorants. Sa recherche contractuelle, à laquelle participe activement ses membres industriels, est largement reconnue en Europe et contribue pour une large part à son budget.

L’intensité des liens avec l’industrie et la structure de cette relation a permis à EURECOM, en association avec l’Institut Mines Télécom, d’obtenir dès 2006, le label Carnot, label accordé aux organismes de recherche qui mettent au coeur de leur stratégie la recherche partenariale

Document attaché : PhD_DS_BH_042018_FR_V2.pdf

Categories: theses

Visual quality and utility on large video surveillance databases using Deep-learning

Jul 15 – Jul 16 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : XLIM/GREYC
Durée : 36 mois
Contact : chaker.larabi@univ-poitiers.fr
Date limite de publication : 2018-07-15

Contexte :
Filter2, a French funded project in collaboration with the French homeland security ministry, is in the field of video protection (CCTV) and aims at developing an efficient video selection process in case of major events (attacks, crimes, . . . ). In this context, a PhD fellowship is proposed between the GREYC Laboratory (Caen, France) and the XLIM Laboratory (Poitiers, France) for a three-year co-localised position. The successful candidate will work under the supervision of Dr. Christophe Charrier (GREYC) and Dr. Chaker Larabi (XLIM).

Sujet :
The recent demand for video surveillance systems to reduce security threats and criminal activities has brought challenges due to both the overwhelmingly large amount of content to be monitored and the limited physical/human resources to perform such tasks. Automated artificial vision technology is becoming more widely adopted for monitoring and surveillance applications to reduce the need for physical resources and human intervention. One way to help police investigators during the monitoring task is to perform a preselection of the sequences having the best characteristics for detection, recognition and identification (DRI) tasks. This selection relies on several criteria such as the visual quality, the camera features, the embedded metadata, the usefulness of the content for DRI, and so on. Obviously, the visual quality is an important aspect of the study especially for this case where there is no access to pristine sequences. Moreover, the term quality has also to be adapted to the context of the study where it deals with the identification of faces, persons, license plates, vehicles, etc.
The aim of this PhD thesis is to develop Video Quality Assessment (VQA) algorithms adapted to the context of the Filter2 project. Yet, instead of scoring the quality of video by a single value, a continuous no- tation of the quality will be preferred. The problem of perceptual video quality assessment is a significantly more complex problem than the still image one for the following reason: while there exist highly reliable models of still natural scene statistics, the literature for regular natural video statistics models is almost absent. For instance, the interaction between motion and spatio-temporal changes is of particular interest, especially with regards to whether motion is involved in masking distortions. The type of motion which occurs in a video is a function of object and camera movements. One challenge is how the aforementioned phenomenon can be modelled.
Another challenge is to develop models that work directly in the compressed domain taking into account the variability of codecs and the specificity of video coding. The aim being to extract strong features that can be used to predict the quality of a video, a frame or an object from the scene. Finally, the extracted features will be used to build tools describing the utility and usefulness of a video or part of it for the context of video-surveillance: how is it possible to qualify the utility of a video sequence for DRI? How is it linked to visual quality?
The candidate will investigate the design of features in the wavelet domain, frequency domain and/or spatial domain to improve the process of quality prediction, and by the way the detection of objects of interest. The use of Deep Learning to design such a VQA scheme is an important direction of this work.

Profil du candidat :
Prospective candidates should have good skills in Matlab/C/C++. Good skills in several of the following fields are appreciated: Computer vision, pattern recognition, quality assessment, image and video compression, machine learning (deep learning). Applicants should demonstrate good oral and written communication skills in English, and be motivated to work as part of a multidisciplinary team. Besides, the candidate should show the motivation of working in the framework of a collaborative project with the constraint of being alternatively in two different geographical sites (Caen and Poitiers).

Formation et compétences requises :
Prospective candidates should have good skills in Matlab/C/C++. Good skills in several of the following fields are appreciated: Computer vision, pattern recognition, quality assessment, image and video compression, machine learning (deep learning). Applicants should demonstrate good oral and written communication skills in English, and be motivated to work as part of a multidisciplinary team. Besides, the candidate should show the motivation of working in the framework of a collaborative project with the constraint of being alternatively in two different geographical sites (Caen and Poitiers).

Adresse d’emploi :
XLIM – Université de Poitiers
GREyC – Université de Caen

Document attaché : phd-position.pdf

Categories: theses

Aug

Thèse CIFRE Réseaux Bayésiens, IA, industrie 4.0 @ Nantes, LS2N, Desoutter

Aug 31 – Sep 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LS2N / Desoutter
Durée : 36
Contact : philippe.leray@univ-nantes.fr
Date limite de publication : 2018-08-31

Contexte :
L’équipe DUKe (Data User Knowledge) du LS2N, UMR CNRS 6004, est l’une des principales équipes du laboratoire dans le thème « science des données et de la décision ».
L’équipe RoMaS (Robots and Machines Manufacturing and Services) effectue des travaux de recherche concernant la modélisation et l’identification de robot et de machine, ainsi que l’optimisation de procédés de fabrication mécanique.

L’entreprise CP – Desoutter est spécialisée dans le développement d’outillage pour l’industrie. Son Technocentre, situé à Nantes, est chargé de développer des systèmes de vissage et de perçage à forte valeur ajoutée.
Dans son challenge Desoutter 4.0, l’entreprise souhaite passer un nouveau cap et proposer à ses clients de nouvelles fonctions d’intelligences pour ses visseuses connectées.

Sujet :
Dans ce contexte, nous recrutons pour septembre prochain, un doctorant CIFRE travaillant sur le développement d’approches hybrides, couplant les techniques d’Intelligence Artificielle et de Machine Learning (modèles graphiques probabilistes) à des modèles mécaniques du procédé et des défaillances de la machine pour la maintenance des moyens de vissage.

Profil du candidat :
Informatique, science des données
ET/OU
Mécanique, technologie
Le candidat (Ingénieur ou Master2) devra avoir des compétences fortes dans l’un de ces deux domaines, et porter un intérêt certain pour le second.

Formation et compétences requises :
Informatique, science des données
ET/OU
Mécanique, technologie
Le candidat (Ingénieur ou Master2) devra avoir des compétences fortes dans l’un de ces deux domaines, et porter un intérêt certain pour le second.

Adresse d’emploi :
LS2N & Desoutter, Nantes

Document attaché : sujet-de-these-CIFRE-Desoutter.pdf

Categories: theses

Sep

Sat

PhD Position on Network visibility with Machine Learning

Sep 1 – Sep 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Mathematical and Algorithmic Sciences Lab France Research Center, Huawei Technologies Co. Ltd.
Durée : 3 ans
Contact : jeremie.leguay@huawei.com
Date limite de publication : 2018-09-01

Contexte :
The Network and Traffic Optimization research team of the Mathematical and Algorithmic Sciences Lab, Huawei France Research Center, located in the Paris area, is looking for highly motivated candidates for a PhD thesis on Network Traffic Analysis. The thesis will be jointly supervised with INRIA within the CIFRE framework.

Sujet :
According to NSS Labs, 55% of internet traffic is already encrypted. That number is expected to increase to around 75% by 2019. As a consequence, network service providers are “going dark” as every bit of encrypted data crossing their network looks the same. They cannot anymore protect, prioritize, and optimize traffic efficiently. Gaining visibility into encrypted traffic has become critical for network operators.

The analysis of encrypted traffic is facing two main challenges. Firstly, labeled examples are scarce and difficult to obtain. It requires either to analyze flows using heavy inspection methods or to have a priori knowledge on traffic. And supervised learning methods do not generalize well when being trained with few samples in the dataset. Secondly, new applications may appear over time or old applications may change their behavior. In this context, traditional supervised methods, which map unseen flow instances into one of the know classes, do not have the ability to detect new types of flows. Indeed, Models that are built through training on older version of applications often make poor and ambiguous decisions when faced with more recent or new applications – a phenomenon commonly known as concept drift.

To overcome these challenges, The PhD thesis will focus on semi-supervised learning techniques that make use of the available labeled data regarding known behaviors from the past, to detect drifts (or changes) in unlabeled data made available in the future. And more particularly on two key problems: the online change detection and the adaptation of classifiers under concept drifting.

Profil du candidat :
Ideal candidates should have a Master degree in Telecommunications, Computer Science, or Applied Mathematics from a University or a Grande Ecole.

Formation et compétences requises :
Solid background in Machine Learning. Knowledge of telecommunications will be appreciated.
English: Operational

Adresse d’emploi :
18 Quai du Point du Jour, 92100 Boulogne-Billancourt, France

Document attaché : PhD-on-Traffic-Analysis-Machine-Learning.pdf

Categories: theses

Robust Traffic Engineering for Software-Defined Networks