MaDICS

Analyse des systèmes territoriaux et des réseaux d’alimentation par des approches de fouille de données hétérogènes et de représentation cartographique

Aug 31 all-day

Annonce en lien avec l’Action /le Réseau : aucun

Laboratoire/Entreprise : LIRIS / LYON
Durée : 36 mois
Contact : celine.robardet@insa-lyon.fr
Date limite de publication : 31/08/2015

Contexte :
Projet du Labex IMU : REseaux et Système ALImentaire (RESALI) : Systèmes d’information innovants et exploratoires pour plus de justice alimentaire dans les métropoles
Mots-clés : Systèmes alimentaires urbains, Justice alimentaire, Fouille de données, analyse spatiale et temporelle, Big Data, VGI / Twitter

Mieux nourrir les villes en quantité et en qualité, et en particulier les grandes agglomérations, constitue un défi pour les mondes urbains futurs, pensés notamment en termes de durabilité et de justice alimentaire. A l’échelle des systèmes alimentaires urbains, on a besoin de diagnostics et on manque d’outils pour appréhender de façon systématique les relations entre les bassins de consommation, l’offre et les comportements alimentaires. Le projet RESALI propose donc de tester des outils et des méthodes quantitatives pour analyser finement l’organisation des systèmes alimentaires urbains et saisir de façon systématique les connexions / déconnexions entre l’offre alimentaire et la demande ou entre les ressources alimentaires et certains bassins de consommation, même les plus relégués et les moins informés. A partir d’un collectif composé de géographes et d’informaticiens, associé à des praticiens acteurs des systèmes alimentaires l yonnais, il s’agit d’élaborer une démarche innovante s’appuyant sur différents types de données (recensement, commerces, consommations…), dont des données encore peu exploitées : les VGI (Volunteered Geographic Information). Organisé en quatre tâches principales, le projet repose sur le couplage de trois approches méthodologiques originales :
construire un système d’information opératoire sur l’offre et la consommation alimentaire
développer des méthodes de fouille de données spatiales pour extraire de l’information sur les comportements à partir de données individuelles et issues du web (en particulier Twitter)
initier une réflexion systémique en produisant un modèle formel du fonctionnement du système observé pour une question précise ainsi qu’un prototype de modèle informatique.

Sujet :
Le sujet de cette thèse s’inscrit dans l’analyse des systèmes territoriaux d’accès aux ressources alimentaires. L’enjeu est de mieux comprendre les pratiques spécifiques aux différents espaces urbains et périurbains relativement à leur accès aux produits alimentaires, notamment face aux circuits courts liés aux ressources agricoles urbaines et périurbaines. La disponibilité de nombreuses données géospatialisées via les médias sociaux permet d’envisager d’enrichir les données démographiques des territoires, telles que celles proposées par l’INSEE, et d’accéder en temps-réel aux intérêts sociaux et culturels d’un large public à partir des flux générés par les médias sociaux. La collecte et l’analyse de leurs contenus peuvent alors offrir une vision incomparable des structures socio-culturelles et de leurs dynamiques.

Sujet :
L’objectif de la thèse est de proposer une méthode originale d’extraction de connaissances permettant de traiter des données temporelles, hétérogènes et multi-sources afin d’identifier et de caractériser des comportements propres à une zone géographique. L’approche développée devra faire avancer l’état de l’art sur la fouille interactive de données sous contraintes et les modes de représentations cartographiques interactives. Il conviendra de choisir une modélisation des données appropriée afin de pouvoir construire un modèle global des pratiques alimentaires qui pourra ensuite être utilisé pour supporter des requêtes inductives visant à découvrir et expliquer des comportements anormaux/exceptionnels dans les données. Les méthodes seront testées sur différents types de données individuelles (VGI, web…) pouvant faire avancer sur la question des comportements en termes de consommation alimentaire.

Ce sujet de thèse s’inscrit donc dans le domaine de l’extraction de connaissances dans des grandes bases de données, mais également dans un contexte science des données, où plusieurs disciplines se côtoient. Les aspects interactifs seront fortement considérés afin de :
– Prendre en compte les connaissances des experts pour diriger la fouille et retourner des résultats de meilleure qualité pour l’utilisateur (retourner des motifs qui contredisent ces connaissances, retourner des motifs inattendus, ne pas considérer les motifs déjà connus)
– Explorer comment les modèles d’analyse spatiale peuvent aider la fouille de données
– Permettre à l’utilisateur d’interagir pleinement avec les données et résultats en lui recommandant/proposant de nouveaux motifs promouvant la diversité/richesse des résultats/de l’exploration
– Élaborer des visualisations et géovisualisations appropriées permettant de représenter les relations entre les caractéristiques des territoires et les pratiques alimentaires de leurs populations.
Le terrain privilégié sera celui de l’aire métropolitaine de Lyon-St-Etienne, pour lequel des bases de données ont déjà été constituées, et de premières études préliminaires réalisées.

Profil du candidat :
Profil / Compétences et formations requises :
– Titulaire d’un diplôme de Master (ou titre équivalent) en sciences informatiques avec une apétence pour le data mining et une sensibilité pour le traitement de données géographique
– solides connaissances de programmation
– motivation pour la recherche et pour le travail en équipe, esprit d’initiative, curiosité intellectuelle, capacité rédactionnelle
– compétences écrites et orales en anglais fortement souhaitées
– tout intérêt pour les questions du numérique et de l’alimentation constituent un plus

Formation et compétences requises :
Candidature :
* Pour le détail scientifique du projet de thèse, contacter Céline Robardet ( celine.robardet@insa-lyon.fr ) ou Luc Merchez (Luc.Merchez@ens-lyon.fr )
* Pour faire acte de candidature, vous devez envoyer par mail à Céline Robardet et Luc Merchez un dossier composé d’un CV, d’une lettre de motivation, du relevé de notes du Master ou de la dernière année d’école d’ingénieur et d’une ou plusieurs lettre de recommandation

Adresse d’emploi :
Accueil et encadrement :
Laboratoires de rattachement :
UMR 5205 « Laboratoire d’InfoRmatique en Image et Systèmes d’information » (Laboratoire LIRIS)
UMR 5600 « Environnement, Ville, Société » (Laboratoire EVS)
Co-Direction de thèse : Céline Robardet (LIRIS, dir.) / Luc Merchez (EVS)

Document attaché : offre_de_these_imu_resali_v3.pdf

Categories: theses

Identification et caractérisation des trajectoires de l’information dans les médias sociaux

Sep 1 all-day

Annonce en lien avec l’Action /le Réseau : aucun

Laboratoire/Entreprise : Entreprise Bertin (AMI Software) / Laboratoire ERIC
Durée : 36 mois
Contact : julien.velcin@univ-lyon2.fr
Date limite de publication : 01/09/2015

Contexte :
Cette proposition se place dans le cadre d’une collaboration entre la société Bertin (anciennement AMI Software, Montpellier) et le laboratoire ERIC (Université de Lyon). Une première thèse CIFRE, entre les deux partenaires, portant sur l’analyse des opinions dans les médias sociaux vient d’être soutenue avec succès en juin 2015. Les deux partenaires collaborent par ailleurs dans le cadre du projet ANR ImagiWeb qui vise à analyser les opinions véhiculées sur Internet.

Sujet :
L’objectif de la thèse proposée est de travailler sur l’identification des trajectoires de l’information et de comprendre les mécanismes qui régissent ou influencent ces trajectoires. C’est également l’occasion de consolider les travaux déjà réalisés sur la problématique du « buzz » et de voir comment elle s’inscrit dans les trajectoires étudiées. La thèse est associée à un certain nombre de verrous scientifiques que nous souhaitons aborder ensemble, à savoir :
a) prendre en compte un nombre important de sites Web variés,
b) étudier la trajectoire d’un sujet (ex. : une thématique, un événement) à la fois dans le temps et dans l’espace, espace qu’il sera nécessaire de reconstruire,
c) étudier l’influence que le type de sujet, l’opinion qui est exprimée, la présence d’acteurs au rôle particulier (ex. : influenceurs) peuvent avoir sur les trajectoires.

Profil du candidat :
Fouille de données
Apprentissage automatique
Analyse de grands graphes

Formation et compétences requises :
Le candidat doit avoir validé (ou être en passe de valider) un Master en Informatique et/ou Mathématiques appliquées.
Le candidat doit posséder un solide profil en mathématiques et des compétences en programmation.

Adresse d’emploi :
Entreprise Bertin, département IT
Montpellier

Document attaché : thesecifreamieric2015.pdf

Categories: theses

Analyse et synthèse d’opinions sur le web et les réseaux sociaux : intégration de caractérisations fines des opinions, de leur contexte spatio-temporel et de l’importance sociale de l’émetteur pour la mise en évidence de tendances d’opinion

Sep 10 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoires : IRIT (Toulouse) et CEA Tech LIST/DIASI/LVIC
Durée : Durée : 36 mois; Début : 1 septembre 2015 ou 1 octobre 2015
Contact : bougha@irit.fr
Date limite de publication : 2015-09-10

Contexte :
Titre :

Description :

Le web et les réseaux sociaux offrent une incroyable plate-forme d’échange d’information, largement plébiscitée par de nombreux utilisateurs. Cette quantité d’information est également une grande opportunité pour les systèmes automatiques de fouille de données et d’analyse de flux d’information, avec des applications dans le cadre, par exemple, de la cyber-sécurité ou du marketing. Le sujet de cette thèse concerne plus précisément le domaine de l’analyse d’opinion sur ces plateformes, pour détecter de façon automatique des tendances d’opinion sur des sujets donnés : dans le domaine de la cyber-sécurité, on s’intéressera par exemple aux réactions concernant des personnes ou des événements, avec une localisation spatiotemporelle ciblée, dans le domaine commerciale, aux opinions sur certaines marques ou produits.

Sujet :
L’analyse d’opinion est un domaine de recherche en plein essor et a fait l’objet de nombreuses études, intégrant à la fois des technologies de traitement automatique des langues pour la normalisation des textes, des techniques à base de lexiques d’opinion ou d’apprentissage automatique pour attribuer automatiquement une opinion à un texte [1]. Au delà de la simple attribution d’une polarité d’opinion à un segment de texte, une analyse plus fine est souvent nécessaire pour avoir une meilleure caractérisation de l’opinion (trouver sur quel objet ou sur quel trait précis de l’objet porte l’opinion). Même si plusieurs approches ont été testées avec des modèles à base de règles [2] ou statistiques [3], le sujet reste ouvert, en particulier pour les documents courts comme des messages ou des tweets.

De façon complémentaire, une autre caractéristique des réseaux sociaux est l’organisation structurée des relations entre les utilisateurs au sein des communautés (les « amis » sur Facebook, les « followers » et les « re-tweets » sur Twitter, les systèmes de commentaires sur différentes plate-formes). Cette structuration peut être exploitée pour trouver des informations sur l’importance sociale des émetteurs d’information, comme sa popularité ou sa réputation [4,5].

L’idée de cette thèse est de combiner des technologies d’analyse d’opinion sur les textes, en apportant des éléments innovants sur une analyse plus fine permettant de mieux caractériser l’opinion et des technologies spécifiques d’analyse des réseaux sociaux pour déterminer l’importance sociale de l’émetteur, de façon à produire un résumé (une synthèse) consolidé de tendances d’opinion sur des sujets ou personnes en fonction de leur contexte spatiotemporel.

Profil du candidat :
– Bonnes connaissances en programmation, notions TAL, mathématiques (statistiques)
– Compétences écrites et orales en anglais fortement souhaitées

Les candidats transmettront par email un CV, une lettre de motivation et le relevé de notes du Master ou de la dernière année d’école d’ingénieur à Mohand Boughanem (boughanem@irit.fr)

Formation et compétences requises :
Titulaire d’un diplôme de Master (ou titre équivalent) en sciences informatiques

Adresse d’emploi :
Laboratoire IRIT
Université Paul Sabatier-IRIT, 118 Route de Narbonne 31

Document attaché : these_irit_cea_2014-2.pdf

Categories: theses

Recommandation automatique, temps réel et adaptative d’emojis

Sep 15 all-day

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : LSIS (Univ. Aix-Marseille-CNRS) / Calea Solutions
Durée : 3 ans
Contact : patrice.bellot@univ-amu.fr
Date limite de publication : 2015-09-15

Contexte :
sujet en partenariat entre
Caléa Solutions (www.caleasolutions.com et https://www.facebook.com/caleasolutions)
et le LSIS (Laboratoire des Sciences de l’Information et des Systèmes), équipe DIMAG , Université Aix-Marseille (http://www.lsis.org/spip.php?id_rubrique=290)

Mots clés :
————–
fouille de textes, affective computing, recherche d’information, analyse de sentiments, apprentissage automatique et traitement automatique des langues,

Sujet :
L’entreprise Caléa développe une plateforme de messagerie instantanée
pour smartphones. Pour enrichir la communication dans les messageries instantanées,
l’entreprise Caléa intègre dans sa plateforme l’utilisation d’icônes tel
que les Emojis. Dans ces messageries dites « sociales », les emojis (ou
émoticônes) constituent en effet une forme d’écriture à part entière,
plébiscitée par les utilisateurs pour sa capacité à exprimer certaines
émotions ou attitudes vis-à-vis du message texte. Aujourd’hui, les
utilisateurs naviguent dans des bibliothèques contenant parfois plus de
5000 emojis pour sélectionner l’icône correspondant au message
non-verbal qu’il souhaite transmettre.

Pour améliorer l’ergonomie des interfaces et ainsi faciliter cette
communication non-verbale, l’objectif de cette thèse est de proposer
des approches innovantes et efficaces en vue de réaliser un
système de recommandation automatique d’emojis. Cette recommandation
automatique sera générée suivant l’état affectif inféré de
l’utilisateur, le contexte conversationnel, le profil de l’utilisateur.
Il s’agira de mettre en place une
détection automatique et temp réel des émotions et des sentiments de
l’utilisateur. L’objectif est d’aller
au-delà d’un système à base de mots clés (« key word spotting »)
largement utilisé en analyse de sentiments. La méthodologie reposera sur
l’apprentissage automatique d’un modèle utilisateur pour déterminer à la
fois son profil (e.g. préférences, centres d’intérêt) et son usage habituel des
« émojis » (e.g. comment et dans quels contextes les emoji sont utilisées). Les
données utilisées seront à la fois les données générées par
l’utilisateur lui-même (e.g. dans les conversations instantanées), les
données fournies par le terminal (e.g. la géolocalisation), et d’autres
informations puisées sur le web et permettant de qualifier le contenu textuel.
Le corpus sera fourni par l’entreprise Caléa. La recommandation d’emojis sera réalisée
automatiquement et sera interactive,
i.e. l’utilisateur pourra corriger les emojis proposés, pour permettre
un apprentissage actif et ainsi une
adaptation des recommandations à chaque utilisateur et chaque contexte.

Profil du candidat :
Le profil souhaité est Bac+5, école d’ingénieur ou Master Recherche en informatique.

Formation et compétences requises :
Des compétences en apprentissage automatique seront un réel plus.
Des compétences en programmation en java sont nécessaires.
Une forte motivation, des capacités de synthèse, de rédaction et de présentation des travaux (anglais) et à s’intégrer dans une équipe sont
également demandées.

Adresse d’emploi :
magalie.ochs@lsis.org
patrice.bellot@univ-amu.fr

Categories: theses

Fri

Huawei Technolgies Maths and Algo Lab PhD studentships

Sep 25 all-day

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : Huawei Technolgies Maths and Algo Lab, Paris
Durée : 3 years
Contact : moez.draief@huawei.com
Date limite de publication : 2015-09-25

Contexte :
Huawei Technologies’ Mathematical and Algorithmic Sciences Lab in Paris offers a number of PhD scholarships (at least 10). The ideal candidates will have an advanced degree (MEng, MSc or equivalent) in Applied Mathematics, Statistics, Electrical Engineering, Computer Science or Physics from a top university with a genuine interest in applying their expertise to develop disruptive technologies in areas such as cloud computing and data centers, wireless, cable and fiber communications and internet of things, with applications to 5G wireless communications and beyond, SDN and big data.

Sujet :
Our research covers a number of disciplines such as machine learning and compressed sensing, online algorithms, Bayesian inference, operations research and combinatorial optimization, network science, random matrix theory, signal processing.

Profil du candidat :
Huawei is a leading global information and communications technology (ICT) solutions provider whose business spans telecommunication infrastructure, consumer electronics and business IT solutions. We are seeking highly motivated and talented individuals to work on the theoretical underpinnings of the most challenging engineering problems in information and communication technologies. By joining, the Mathematical and Algorithmic Sciences Lab, you will have the opportunity to work with our outstanding research scientists, all of whom hold PhD degrees from prestigious institutions, and you will be supervised by one of our senior research scientists.

The successful candidates will receive a competitive salary and will be affiliated with one of our prestigious academic partners.

To apply for this scheme please send a complete CV together with a cover letter briefly explaining your expertise and research interests. You will also need to provide the name of two persons (at least one of them from academia) who will be later contacted to provide a reference.

Applications should be submitted by email to both hegaoning@huawei.com and sonia.rodriguez@huawei.com by 25 September 2015. Without notification from Huawei within 1 month, please consider that your application has not been selected.

Formation et compétences requises :
– an advanced degree (MEng, MSc or equivalent) in Applied Mathematics, Statistics, Electrical Engineering, Computer Science or Physics from a top university
– a genuine interest in applying their expertise to develop disruptive technologies in areas such as cloud computing and data centers, wireless, cable and fiber communications and internet of things, with applications to 5G wireless communications and beyond, SDN and big data.

Adresse d’emploi :
20, Quai du point du jour, Boulogne Billancourt.

Document attaché :

Categories: theses

Oct

Recherche d’Information Agrégative sur les Workflows, Lamsade-Université Paris-Dauphine

Oct 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Lamsade
Durée : 3 ans
Contact : daniela.grigori@dauphine.fr
Date limite de publication : 2015-10-01

Contexte :
Projet ANR CAIR 2015-2017 (http://www.agence-nationale-recherche.fr/?Projet=ANR-14-CE23-0006)

Sujet :
Titre : Recherche d’Information Agrégative sur les Workflows

Contexte: Projet ANR CAIR 2014-2018

La recherche d’information agrégée [1] vise à évaluer des requêtes utilisateurs en assemblant des fragments d’information provenant de plusieurs sources. Ce nouveau type de requêtes agrégatives permet de créer des objets qui n’existent pas en tant que tels dans les sources interrogées, mais sont construits à partir de fragments issus de ces sources. La recherche d’information agrégée a le potentiel de révolutionner l’accès à l’information distribuée en permettant de produire, de façon dynamique, des associations entre fragments d’information publiés séparément et qui se rapportent à la même entité/événement/sujet. Les résultats ainsi produits sont des objets à forte valeur ajoutée qui pourront être utilisés dans l’aide à la décision, le data journalisme ou l’acquisition de connaissances sur des phénomènes ou processus particuliers. Dans le cadre de cette thèse, nous nous intéressons en particulier aux requêtes visant à récupérer (et à agréger) des informations sur des processus (métier [2] ou scientifique [3]).

Date de début : octobre 2015

Laboratoire d’accueil : Lamsade, Université Paris-Dauphine

Encadrants : Daniela Grigori (daniela.grigori@dauphine.fr), Khalid Belhajjame (khalid.belhajjame@dauphine.fr)

Références

[1] Lalmas, M. (2011). Aggregated search. In Advanced Topics in Information Retrieval (pp. 109-123). Springer Berlin Heidelberg.

[2] Van Der Aalst, W. M., Ter Hofstede, A. H., & Weske, M. (2003). Business process management: A survey. In Business process management (pp. 1-12). Springer Berlin Heidelberg.

[3] Ewa Deelman, Dennis Gannon, Matthew S. Shields, Ian Taylor: Workflows and e-Science: An overview of workflow system features and capabilities. Future Generation Comp. Syst. 25(5): 528-540 (2009)
Contact : Daniela Grigori (daniela.grigori@dauphine.fr), Khalid Belhajjame (khalid.belhajjame@dauphine.fr) (pour candidater, envoyer : cv, relevé de notes, recommandations)

Profil du candidat :
titulaire d’un Master 2 (recherche)

Formation et compétences requises :
Bases de données, Big data

Adresse d’emploi :
Laboratoire Lamsade (

Document attaché :

Categories: theses

Apr

Fri

Méthodes computationnelles pour le traitement de données de protéomiques haut-débit : application au démultiplexage de signaux de spectrométrie de masse

Apr 1 – Apr 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : CEA de Grenoble – Laboratoire EDyP
Durée : 3 ans
Contact : thomas.burger@cea.fr
Date limite de publication : 2016-04-01

Contexte :
Avec l’avènement des outils à haut débit d’analyse, de nombreux laboratoire de biologie se retrouvent confrontés à un déluge de données, dont le débit surpasse les capacités de traitement (problème du big data). Cela nécessite la mise en place d’algorithmes capable de passer à l’échelle (en termes de complexité, de parcimonie, et de stabilité numérique). Concrètement, de nombreux algorithmes classiques de débruitage, de projection (à des fins de visualisation), de partitionnement ou d’analyse statistique ne sont plus utilisables, et doivent être « réinventés » pour correspondre à ces nouveaux besoins.

Sujet :
L’étudiant(e) recruté(e) devra participer à la mise en place d’un algorithme de factorisation de matrice sous contrainte de parcimonie, de complexité linéaire, tout en garantissant une stabilité numérique suffisante. Ensuite, l’étudiant inclura cet algorithme dans un pipe-line de séquençage de protéines (avec l’aide d’ingénieurs protéomiciens), au sein duquel il permettra de résoudre de manière optimale un problème de séparation de sources aveugle. En effet, dans ce pipe-line expérimental, plusieurs protéines peuvent être co-analysées simultanément via un spectromètre de masse, le spectrogramme résultant devenant inexploitable. Grâce au travail de l’étudiant(e), il sera possible de reconstruire à la volée les différents spectrogrammes des différentes protéines à partir du seul spectre «multiplexé» (jusqu’à 20 000 spectres sont produits par heures), améliorant considérablement la qualité et la couverture du séquençage. Au-delà de ce cas d’étude, notre objectif et d’amener l’étudiant(e) à devenir un(e) chercheur(se) autonome dans le développement de méthodes d’analyse « biological big data », un domaine de recherche clefs (pour le monde industriel comme académique) de la décennie à venir.

Profil du candidat :
Le sujet étant interdisciplinaire, nous considérons les candidatures d’origines variées. L’étudiant(e) devra être en dernière année de master ou d’école d’ingénieur dans l’un des domaines suivants:
– Statistique (apprentissage automatique ou analyse de données)
– Mathématiques appliquées (analyse numérique)
– Physique (avec de bonnes compétences en algèbre linéaire)
– Traitement du signal
Une part importante du travail étant formelle, les candidats ayant suivi un cursus de biologie complété par une spécialisation en bioinformatique ou biostatistique ne seront pas considérées (aucune connaissance en protéomique ou en biologie n’est nécessaire pour candidater).

Formation et compétences requises :
Des compétences en programmation orientée objet, et un intérêt pour les applications biologiques ainsi que pour le travail interdisciplinaire sont nécessaires.

Adresse d’emploi :
Prendre contact avec les encadrants (ci-dessous) avant le 20 mars 2016
• Thomas Burger (thomas.burger@cea.fr; https://sites.google.com/site/thomasburgerswebpage/home), encadrant
• Thomas Fortin (thomas.fortin@cea.fr), co-encadrant
• Myriam Ferro (myriam.ferro@cea.fr; http://www.edyp.fr/), directrice du laboratoire et HDR
• http://www-instn.cea.fr/formations/formation-par-la-recherche/doctorat/liste-des-sujets-de-these.html

Document attaché : phd-cea-biologicalbigdata.pdf

Categories: theses

May

Système d\’exploration et de recommandation pour les données de santé

May 31 – Jun 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : CReSTIC, Université de Reims
Durée : 3 ans
Contact : frederic.blanchard@univ-reims.fr
Date limite de publication : 2016-05-31

Contexte :
Cette thèse se déroulera au laboratoire CReSTIC de l’Université de Reims Champagne-Ardenne sous la direction de Michel Herbin (PR, CReSTIC, URCA) et sera co-encadrée par Frédéric Blanchard (MCF, CReSTIC, URCA). Le travail de thèse débutera en septembre 2016.

Dans le cadre de collaborations avec des réseaux et professionnels de santé, notre équipe a été amenée à travailler sur l’exploitation des données de santé ou de bien être. Ces données requièrent des développements méthodologiques spécifiques. Cette thèse s’inscrit dans ce contexte scientifique.

Sujet :
L’évolution des technologies du numérique engendre une explosion de masses de données disponibles, souvent hétérogènes et incomplètes, mais riches en informations. Dans certains domaines, les méthodes classiques de data mining et de machine learning ne sont pas en mesure de les exploiter efficacement.
Cette thèse propose de construire les briques méthodologiques et algorithmiques d’un système d’exploration et de recommandation, orienté-cas, destiné à l’exploration de données de santé.
L’approche proposée devra prendre en compte le caractère atypique ou inhabituel des données et favorisera l’émergence de nouvelles hypothèses, afin, par exemple, de faciliter la mise en œuvre de stratégies thérapeutiques personnalisées.
Les différentes contributions attendues prendront place dans un système de recommandation et permettront de :
– mettre en place des calculs spécifiques de similarités entre cas,
– caractériser la singularité et l’atypicité de différents cas,
– et visualiser les regroupements et les structurations qui guideront l’utilisateur dans l’exploration des données.

Le travail de développement se fera de préférence en R (et C/C++) sous forme de packages ouverts, afin de faciliter la reproductibilité des résultats et leur diffusion.

Profil du candidat :
Le candidat recherché doit être intéressé par la recherche en “data science” et disposer des compétences informatiques et mathématiques nécessaires.

Formation et compétences requises :
Le candidat sera issu d’une école d’ingénieur ou d’un master 2 (en mathématiques appliquées, statistiques ou informatique). De solides compétences en analyse de données et en machine learning sont nécessaires. La connaissance d’un langage pour le prototypage (R ou python) est requise, celle de C/C++ est un plus.

Adresse d’emploi :
CReSTIC/URCA
UFR Sciences Exactes et Naturelles
Moulin de la Housse – BP 1039
51687 REIMS Cedex 2

Document attaché :

Categories: theses

Thèse de doctorat au LITIS (Rouen) : Reconstruction de graphes par apprentissage automatique

May 31 – Jun 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LITIS (Rouen)
Durée : 36 mois
Contact : paul.honeine@univ-rouen.fr et benoit.gauzere@insa-rouen.fr
Date limite de publication : 2016-05-31

Contexte :
Mots-clés : Théorie des graphes, machine learning, méthodes d’apprentissage à noyaux, pré-image, noyaux sur graphes, reconnaissance de formes.

Sujet :
Les méthodes d’apprentissage automatique sont généralement définies dans des espaces euclidiens. Cependant, certains domaines, telles que la chémoinformatique ou la reconnaissance de formes, privilégient une représentation des données sous forme de graphes. L’utilisation des méthodes classiques d’apprentissage sur des graphes reposent sur des plongements de ces derniers dans des espaces euclidiens. Afin d’améliorer l’interprétabilité des résultats obtenus, il est intéressant de chercher à inverser ses fonctions de plongement et donc de reconstruire un graphe à partir de sa représentation vectorielle. Ce problème consiste alors à calculer la pré-image des vecteurs selon le plongement défini.

Depuis une dizaine d’années, le lien entre méthodes d’apprentissage automatique et graphes a bénéficié de l’astuce du noyau. La définition et l’utilisation de noyaux sur graphes a permis de se libérer des contraintes liées à une représentation explicite du plongement des graphes dans un espace euclidien. Cependant, le manque de représentation vectorielle explicite d’un graphe complique le calcul de la pré-image, c’est à dire la reconstruction d’un graphe à partir d’un point dans l’espace de Hilbert associé au noyau. De plus, la dimension de l’espace associé au noyau pouvant être infinie, la plupart des points de cet espace n’ont pas de pré-image exacte dans l’espace des graphes.

Le présent sujet de thèse concerne donc la résolution du problème du calcul de pré-image de noyaux sur graphes. Un premier aspect de ce projet consiste à étudier le calcul de pré-image à partir de noyaux sur graphes, dans la continuité des travaux effectués sur des noyaux conventionnels à représentation vectorielle [Honeine and Richard, 2011]. La principale difficulté de cette première problématique est liée au fait que les noyaux ne permettent généralement pas d’obtenir une représentation vectorielle explicite des données que l’on manipule. Toutefois, lorsque le plongement est basé sur une énumération d’un ensemble de sous-structures comme les noyaux basés sur des chemins [Ralaivola et al., 2005] ou sur des sous-arbres [Gaüzère et al., 2012], il peut être possible de reconstruire un graphe à partir d’une représentation vectorielle encodant le nombre d’occurrences de chaque sous-structure utilisée. Afin de reconstruire un graphe, il faut donc calculer une pré-image à partir d’un point dans l’espace du noyau [Honeine and Richard, 2011], cette pré-image encodant le nombre d’occurrences de chaque sous-structure. À partir de cette représentation, il faut ensuite s’intéresser à la reconstruction d’un graphe à partir d’un vecteur décrivant le nombre d’occurrences d’un ensemble de structures. La résolution de ces verrous scientifiques devrait améliorer la compréhension des résultats fournis par les algorithmes d’apprentissage automatique en permettant de sélectionner ou de générer des graphes représentatifs [Raveaux et al., 2011] à partir d’un grand ensemble de graphes initiaux.

Une des applications directes de ces travaux concerne la bio-informatique et la chémoinformatique. Les molécules sont naturellement représentées par des graphes, et cette représentation est souvent privilégiée dans le cadre de problèmes de prédiction de propriétés moléculaires. L’application des méthodes issues de cette thèse devrait permettre d’améliorer le retour donné à l’expert chimiste en reconstruisant des graphes moléculaires à partir de certains points clés utilisés par la méthode d’apprentissage. Cette représentation serait alors plus facilement interprétable par l’expert chimiste et contribuera à la compréhension du phénomène chimique sous-jacent.

Bibliographie :
[Gaüzère et al., 2012] Gaüzère, B., Brun, L., and Villemin, D. (2012). Two new graphs kernels in chemoinformatics. Pattern Recognition Letters, 33(15) :2038–2047.
[Honeine and Richard, 2011] Honeine, P. and Richard, C. (2011). Preimage problem in kernel- based machine learning. Signal Processing Magazine, IEEE, 28(2) :77–88.
[Ralaivola et al., 2005] Ralaivola, L., Swamidass, S. J., Saigo, H., and Baldi, P. (2005). Graph kernels for chemical informatics. Neural networks : the official journal of the International Neural Network Society, 18(8) :1093–110.
[Raveaux et al., 2011] Raveaux, R., Adam, S., Héroux, P., and Trupin, E. (2011). Learning graph prototypes for shape recognition. Computer Vision and Image Understanding, 115(7) :905 – 918. Special issue on Graph-Based Representations in Computer Vision.

Profil du candidat :
Master 2 en informatique, mathématiques appliquées, ou école d’ingénieur

Formation et compétences requises :
Formation : Master 2 en informatique, mathématiques appliquées, ou école d’ingénieur
Compétences recommandées : Théorie des graphes, Machine learning (méthodes à noyaux), Reconnaissance de formes.

Adresse d’emploi :
Equipe d’accueil : Equipe Apprentissage au laboratoire LITIS (Laboratoire d’Informatique, du Traitement de l’Information et des Systèmes), à Rouen.
http://www.litislab.fr/

Document attaché : litis_rouen.pdf

Categories: theses

Jun

Wed

3-year fully funded PhD position in the research area of Big Data in The MIDI team of the ETIS Lab (ENSEA / UCP / CNRS) UMR 8051, Paris, France

Jun 1 – Jun 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ETIS Lab (ENSEA / UCP / CNRS) UMR 8051, Paris, France
Durée : 3 years
Contact : Dimitrios.Kotzinos@u-cergy.fr
Date limite de publication : 2016-06-01

Contexte :
The MIDI team of the ETIS Lab (ENSEA / UCP / CNRS) UMR 8051 (www-etis.ensea.fr) has available a 3-year fully funded PhD position in the research area of Big Data. The lab is located in the Cergy-Pontoise area in the greater area of Paris, France.

Sujet :
During this PhD we want to investigate crowd sourced Big Data, generated by users who do not follow a well-documented method that could ensure data quality. The quality of these data and their descriptions might vary depending on the source, the type of the metadata included (or the lack thereof) and the person who is referencing them. This problem becomes more evident when we talk about georeferenced crowd sourced data where we are facing problems of completeness of the information (since usually people provide online information that refers to their interests) and the coherence of the information (and thus its semantic quality), including ambiguity or conversion issues. Moreover, we can identify quality issues that can be attributed to the timeliness of the information (since several types information do not disappear over time e.g. social media posts) and of logical consistency (since we can find online conflicting descriptions on e.g. Points of Interest). There is also a heterogeneity in the level of detail of the crowd sourced information because the level of abstraction of the user capturing information is closely related to her interests. Another important question in this area is how the techniques of big data quality enhancement affect the privacy of the users.
Based on the above during this PhD we would like to work on how to:
1. Deal with incompleteness of information by combining information on entities from diverse sources through applying entity resolution (ER) techniques to a large scale, e.g. combining information from social networks, trajectory information on various platforms, crowd-sourced geographical information like Open Street Maps
2. Increase the quality of the data presented to the end user by understanding the repairs that can be introduced at the crowd-sourced platforms
3. Understand the level of information exposed by increasing the quality of information for the user.

Profil du candidat :
We expect the successful applicant to be one of the driving forces behind the group’s research efforts in the areas mentioned above. He/She will join our international research group and work with other groups in the lab as well as with a strong network of national and international collaborators. The successful applicant will work with Professor Dimitris Kotzinos and Assistant Professor Claudia Marinica and will join a group with 3 professors and 5 assistant professors. Knowledge of French is not a requirement.

Starting Date: October 2016

Application: If interested, please send your application (including a detailed CV, university transcripts, a copy of the master thesis or scientific papers if available, as well as a list of personal references and and a motivation letter) in PDF format to Professor Dimitris Kotzinos (Dimitrios.Kotzinos@u-cergy.fr). Further enquiries are also welcome.
Applications are welcome until 25/05/2016 or until the position is filled.

Formation et compétences requises :
The successful candidate should already have a Master or equivalent in Computer Science or related area and should be able to demonstrate the ability to conduct research.

Adresse d’emploi :
Lab. ETIS (ENSEA/UCP/CNRS UMR 8051)
& Dept. Sciences Informatiques, Université de Cergy-Pontoise
2 av. Adolphe Chauvin
Site Saint Martin
95000 Pontoise
France
phone: +33 13425 2855
e-mail: Dimitrios.Kotzinos@u-cergy.fr

Document attaché :

Categories: theses

Jun

PhD: Federations of data consumers for querying linked data.

Jun 26 – Jun 27 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LINA – Nantes University
Durée : 3 ans
Contact : hala.skaf@univ-nantes.fr
Date limite de publication : 2016-06-26

Contexte :
The Distributed Data Management Group (GDD) at the University of Nantes (France) is inviting for 1 PhD student application:
– Federations of data consumers for querying linked data, more details at https://goo.gl/TUlRIv

Sujet :

– Federations of data consumers for querying linked data, more details at https://goo.gl/TUlRIv

Profil du candidat :
Expertise in distributed database systems, Semantic Web/Linked Data, distributed systems.

Formation et compétences requises :
Master degree in informatics, computer science, information systems with good ranking.

Adresse d’emploi :
GDD Team LINA, Nantes University

Document attaché : phdpositioninlinkeddatauniversityofnantes.pdf

Categories: theses

Jun

PhD position at INRIA Lille: Privacy-friendly distributed machine learning

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : MAGNET Project-Team, INRIA Lille
Durée : 3 years
Contact : aurelien.bellet@telecom-paristech.fr
Date limite de publication : 2016-06-30

Contexte :
The Inria Magnet team has an opening for a PhD position on privacy-friendly distributed machine learning. The topic of this Ph.D. project is the development of algorithms to perform tasks which are currently done with complete knowledge of the data in a much more distributed and privacy-friendly way. In particular, the problem of learning a model from the distributed data of many users who do not want to share their data will be considered.

Sujet :
The overall goal of this project is to get a better understanding of the potential of private distributed learning, to construct theory supporting this understanding and algorithms exploiting it. Several scenarios will be investigated, depending for instance on whether synchronization between users through a global server is possible. To guarantee privacy, we will study how to adapt methods from secure multi-party computation to statistical machine learning in order to develop efficient algorithms for which one can control the amount of disclosed sensitive information. Where possible, the potential of the obtained results will be demonstrated in real-world applications, such as ride sharing (predicting rides and matching between users without centralization of mobility logs) and crowdsourcing (task recommendation to users without compromising their personal data).

Profil du candidat :
– strong background in machine learning, statistics and algorithms
– additional knowledge on distributed distributed systems and cryptography would be appreciated
– some experience in implementation and experimentation is expected
– good writing and speaking English skills

Side information:
Salary: 1958€ the first two years and 2059€ the third year
Salary after taxes: around 1600€ the 1st two years and 1679,76 € the 3rd year (benefits included).
Possibility of French courses.

If interested, send to Jan Ramon (jan [dot] ramon [at] inria [dot] fr) and Aurélien Bellet (aurelien [dot] bellet [at] inria [dot] fr) as soon as possible: your CV, a statement of interest, and any supporting documents (e.g., recommendation letters) you may consider helpful.

Formation et compétences requises :
The candidate will work under the supervision of Jan Ramon and Aurélien Bellet. The PhD will begin in October 2016. In France, a PhD should be completed at the end of the 3rd year.

Adresse d’emploi :
The working environment is located at the Inria research center in Lille, France. Combining computer sciences with mathematics, Inria’s 3,400 researchers strive to invent the digital technologies of the future. Educated at leading international universities, they creatively integrate basic research with applied research and dedicate themselves to solving real problems, collaborating with the main players in public and private research in France and abroad and transferring the fruits of their work to innovative companies. The researchers at Inria published over 4000 articles a year. They are behind over 270 active patents and 105 start-ups. The 171 project teams are distributed in eight research centers located throughout France. Lille is the capital of the north of France, a metropolis with 1 million inhabitants, with excellent train connection to Brussels (34 min), Paris (1h) and London (1h30), and tons of opportunities for social life.

Document attaché :

Categories: theses

Jul

Refactorisation dynamique des mégadonnées pour l’optimisation des données de capteurs

Jul 17 – Jul 18 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : IRIT-UMR5505, Equipe SIG, Toulouse
Durée : 2016-2020
Contact : Olivier.Teste@irit.fr
Date limite de publication : 2016-07-17

Contexte :
Période : Septembre 2017 – Août 2020
Financement : sur projet, environ 1300€

Description :
Cette thèse a pour objectif d’apporter des solutions pour la modélisation et l’exploration du Big Data généré par des capteurs disséminés sur un campus, une ville… Dans le sillage des Big Data, le domaine des bases de données a connu ces dernières années l’émergence de nouveaux systèmes de stockage, de gestion de données et d’exploitation, appelés systèmes « not only SQL » (NoSQL). Leur grande flexibilité et extensibilité rendent ces systèmes pertinents pour la gestion des mégadonnées. Néanmoins, ces approches impliquent une forte dépendance entre le modèle de stockage et les traitements sur les données [CACM12]. Cette limite exige le développement de mécanismes permettant un accès optimal et indépendant quelque soit le type de requêtes effectuées.

Sujet :
La conjecture portée par cette thèse est de résoudre la dépendance des systèmes NoSQL aux traitements par une approche de refactorisation dynamique des données [ER15].

Ces systèmes ne reposent pas sur le principe de la séparation des données et des traitements, rendant la modélisation des données très dépendante des traitements associés. La structure de données conçue à la création de la base de données est très efficace pour certains traitements mais, en même temps, inefficace et parfois incompatible avec d’autres traitements néanmoins nécessaires. Ces systèmes ne permettent donc pas de supporter tout type de traitement avec la même efficacité.

La refactorisation des données consiste à restructurer les données pour les adapter à des traitements (par exemple, structures aplaties versus structures imbriquées).

Dans le contexte de cette thèse, un premier enjeu réside dans la variété des besoins d’accès et d’analyses des multiples intervenants utilisateurs des données. Ces différentes exigences nécessitent une adaptation des structures de données sous jacentes afin de maintenir un même niveau de performance. Un second enjeu concerne l’évolution de ces besoins d’accès et d’analyses. En effet, l’arrivée constante de nouvelles données issues des capteurs, l’ajout ou la suppression de capteurs modifient les possibilités d’analyses, et par conséquent les besoins des utilisateurs. Un enjeu concerne alors la capacité à faire évoluer efficacement le système en fonction de ces nouveaux besoins d’accès.

L’objectif de la thèse est de développer de nouveaux modèles, méthodes et outils permettant la refactorisation des Big Data. Nous prévoyons de développer des mécanismes inter-système NoSQL, consistant à migrer (ou dupliquer) physiquement de manière efficace système NoSQL distribué en clusters vers un autre système réputé mieux adapté aux traitements ciblés. Une autre solution à développer intra-système NoSQL consiste à réorganiser automatiquement les données au sein du même système, avec ou sens duplication, de manière matérialisée ou virtualisée, tout en garantissant la cohérence des données. Ces mécanismes devront en particulier explorer la problématique de structuration de données minimisant les coûts de traitements induits par les processus de traitements distribués « Map » / « Reduce ».

Ces résultats scientifiques devront faire l’objet d’une validation au travers de la réalisation d’un prototype logiciel servant de preuve de concept. Il devra fonctionner sur des jeux de données synthétiques et des jeux de données réels produits dans le contexte du projet NeoCampus.

Références :
[CACM12] M. Stonebraker, New opportunities for New SQL. Communications of the ACM, Vol. 55 (11), p.10-11, 2012.
[ER15] D. Sevilla Ruiz, S. Feliciano Morales, J. García Molina, Inferring Versioned Schemas from NoSQL Databases and Its Applications, 34th International Conference, ER’15, Stockholm, Sweden, October 19–22, 2015

Profil du candidat :
Etudiant diplômé de master ou ingénieur dans le domaine de l’informatique ayant des compétences en gestion de données, systèmes d’informations, et big data.

Formation et compétences requises :
Le candidat doit faire preuve de compétences dans la mise en œuvre logicielle tout en étant capable de maîtriser un cadre théorique formalisé. Les technologies Hadoop, Map/Reduce, NoSQL sont particulièrement visées. De bonnes compétences en anglais sont également un atout.

Adresse d’emploi :
IRIT
118 route de narbonne
31062 Toulouse cedex 9

Document attaché :

Categories: theses

Jul

Refactorisation dynamique des mégadonnées pour l’optimisation des données de capteurs

Jul 24 – Jul 25 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : IRIT-UMR5505, Equipe SIG, Toulouse
Durée : 2016 – 2019
Contact : Olivier.Teste@irit.fr
Date limite de publication : 2016-07-24

Contexte :
Cette thèse a pour objectif d’apporter des solutions pour la modélisation et l’exploration du Big Data généré par des capteurs disséminés sur un campus, une ville… Dans le sillage des Big Data, le domaine des bases de données a connu ces dernières années l’émergence de nouveaux systèmes de stockage, de gestion de données et d’exploitation, appelés systèmes « not only SQL » (NoSQL). Leur grande flexibilité et extensibilité rendent ces systèmes pertinents pour la gestion des mégadonnées. Néanmoins, ces approches impliquent une forte dépendance entre le modèle de stockage et les traitements sur les données [CACM12]. Cette limite exige le développement de mécanismes permettant un accès optimal et indépendant quelque soit le type de requêtes effectuées.

[CACM12] M. Stonebraker, New opportunities for New SQL. Communications of the ACM, Vol. 55 (11), p.10-11, 2012.

Sujet :
La conjecture portée par cette thèse est de résoudre la dépendance des systèmes NoSQL aux traitements par une approche de refactorisation dynamique des données [ER15].
Ces systèmes ne reposent pas sur le principe de la séparation des données et des traitements, rendant la modélisation des données très dépendante des traitements associés. La structure de données conçue à la création de la base de données est très efficace pour certains traitements mais, en même temps, inefficace et parfois incompatible avec d’autres traitements néanmoins nécessaires. Ces systèmes ne permettent donc pas de supporter tout type de traitement avec la même efficacité.
La refactorisation des données consiste à restructurer les données pour les adapter à des traitements (par exemple, structures aplaties versus structures imbriquées).
L’objectif de la thèse est de développer de nouveaux modèles, méthodes et outils permettant la refactorisation des Big Data. Nous prévoyons de développer des mécanismes inter-système NoSQL, consistant à migrer (ou dupliquer) physiquement de manière efficace système NoSQL distribué en clusters vers un autre système réputé mieux adapté aux traitements ciblés. Une autre solution à développer intra-système NoSQL consiste à réorganiser automatiquement les données au sein du même système, avec ou sens duplication, de manière matérialisée ou virtualisée, tout en garantissant la cohérence des données.

Profil du candidat :
Etudiant diplômé de master ou ingénieur dans le domaine de l’informatique ayant des compétences en gestion de données, systèmes d’informations, et big data.

Adresse d’emploi :
IRIT
118 route de narbonne
31062 Toulouse cedex 9

Document attaché :

Categories: theses

Aug

Wed

PhD – Machine learning / structured prediction for speaker diarization

Aug 31 – Aug 30 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIMSI, CNRS
Durée : 3 ans
Contact : bredin@limsi.fr
Date limite de publication : 2016-08-31

Contexte :
LIMSI (http://www.limsi.fr) seeks qualified candidates for one fully funded PhD position in the field of automatic speaker recognition.
The research will be conducted in the framework of the ANR-funded project ODESSA (Online Diarization Enhanced by recent Speaker identification and Structured prediction Approaches) in partnership with EURECOM (France) and IDIAP (Switzerland).

LIMSI is a French CNRS laboratory with 250 people and 120 permanent members. The Spoken Language Processing group involved in the project is composed of 41 people including 17 permanent members. The group is internationally recognized for its work on spoken language processing, and in particular for its development on automatic speech recognition. The research carried out in the Spoken Language Processing Group aims at understanding the speech communication processes and developing models for use in automatic speech processing. This research area is inherently multidisciplinary, Different topics are addressed among them speech recognition, speaker recognition, corpus linguistics, error analysis, spoken language dialogue, question-answering in spoken data, multimodal indexation of audio and video documents, and machine translation of both spoken and written language.

Sujet :
Broadly, the goal of an automatic speaker recognition system is to authenticate or to identify a person through speech signal.
Speaker diarization is an unsupervised process that aims at identifying each speaker within an audio stream and determining the intervals during which each speaker is active.

The overall goal of the position is to advance the state-of-the-art in speaker recognition and diarization.
Specifically, the research will explore the use of structured prediction techniques for speaker diarization.

Conversations between several speakers are usually highly structured and speech turns of a given person are not uniformly distributed over time. Hence, knowing that someone is speaking at a particular time t tells us a lot about the probability that (s)he is also going to speak a few seconds later. However, state-of-the-art approaches seldom takes this intrinsic structure into account.
The goal of this task is to demonstrate that structured prediction techniques (such as graphical models or SVMstruct) can be applied to speaker diarization.

The proposed research is a collaboration between EURECOM, IDIAP and LIMSI.
The research will rely on previous knowledge and softwares developed at LIMSI. Reproducible research is a cornerstone of the project. Hence a strong involvement in data collection and open source libraries are expected.

Starting date is as early as possible and no later than October 2016.

Profil du candidat :
The ideal candidate should hold a Master degree in computer science, electrical engineering or related fields. She or he should have a background in statistics or applied mathematics, optimization, linear algebra and signal processing. The applicant should also have strong programming skills and be familiar with Python, various scripting languages and with the Linux environment. Knowledge in speech processing and machine learning is an asset.

Formation et compétences requises :
The ideal candidate should hold a Master degree in computer science, electrical engineering or related fields. She or he should have a background in statistics or applied mathematics, optimization, linear algebra and signal processing. The applicant should also have strong programming skills and be familiar with Python, various scripting languages and with the Linux environment. Knowledge in speech processing and machine learning is an asset.

Adresse d’emploi :
LIMSI, CNRS, Orsay, France

Document attaché :

Categories: theses

Thèse en apprentissage: Forêts aléatoires et apprentissage dans les espaces de dissimilarités: application à la prédiction en cancérologie par association de la radiomique et de la génomique

Sep 15 – Sep 16 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LITIS- EA 4108, Université de Rouen
Durée : 3 ans
Contact : Laurent.Heutte@univ-rouen.fr
Date limite de publication : 2016-09-15

Contexte :
La ”radiomique”, concept énoncé récemment par Lambin et al. [LRVL+12], est définie comme l’extraction et l’analyse d’un grand nombre de caractéristiques quantitatives image provenant d’examens comme la TomoDensitoMétrie (TDM), la Tomographie par Emission de Positons (TEP) ou l’Imagerie par Résonance Magnétique (IRM), mais également des données cliniques et omiques (génomiques, protéomiques, etc..). Ces données peuvent être utilisées pour construire des modèles descriptifs et prédictifs reliant les caractéristiques ”images” au phénotype ou aux signatures génétiques-protéiques du cancer. L’hypothèse centrale de la radiomique est que ces modèles peuvent fournir des informations de diagnostic, de pronostic ou prédictives précieuses pour la prise en charge efficace du cancer (prédiction de survie d’un patient et/ou de sa réponse à un traitement).
Cette thèse s’intéresse à la problématique ”machine learning” de l’apprentissage de modèles prédictifs dans des espaces de grande dimension et particulièrement hétérogènes. La piste de recherche qui sera abordée en particulier est l’apprentissage dans des espaces de dissimilarités, qui permettent de projeter les données décrites initialement dans ces espaces mélangeant des variables de différents types (numériques, nominales, séquences…) dans des espaces plus homogènes, offrant ainsi la possibilité de construire des fonctions de prédiction plus robustes.

La construction de ces modèles doit faire face à un verrou majeur, celui de la prise en compte d’une masse importante de données par nature très hétérogènes. En effet, les données cliniques concernent aussi bien des données démographiques que des données médicales collectées lors des différentes consultations ou à partir de comptes-rendus médicaux. De même, les données génomiques peuvent être factuelles ou textuelles et de natures variées. Enfin les données ”images” proviennent de l’analyse d’images issues de différentes modalités d’imagerie. L’objectif dans cette thèse est d’appréhender la construction de ces modèles sous l’angle de l’apprentissage automatique (machine learning) qui doit permettre de lever les deux verrous identifiés dans ce contexte de prédiction à partir de données hétérogènes : (i) celui lié à l’apprentissage et à la sélection des représentations pertinentes selon les trois types de données à disposition (image, clinique et génomique) ; (ii) celui lié à l’apprentissage automatique d’une méthode prédictive permettant l’émergence d’informations personnalisées pour la thérapie (interprétabilité du modèle).
Ces questions liées à l’hétérogénéité des données seront abordées sous l’angle de l’apprentissage dans des espaces de dissimilarités, qui permettent de s’affranchir de la recherche d’une représentation ”optimale” des données lorsque les données sont décrites dans des espaces de grande dimension
mélangeant des variables de différents types (numériques, nominales, séquences,…). Disposant de n données brutes, originellement décrites par p variables, un espace de dissimilarité est un espace à n dimensions, pour lequel la dimension k caractérise la dissemblance avec la dissemblance avec la k-ième donnée. Ce concept, appelé dissimilarity-based pattern recognition [PD05], offre une alternative intéressante pour l’apprentissage notamment dans des espaces de très grande dimension (p >> n) puisque les données d’apprentissage sont projetées dans un espace de plus faible dimension (n), ce qui autorise alors l’utilisation d’un large éventail d’algorithmes d’apprentissage. Toutefois, le problème central réside dans la recherche et le développement de métriques adaptées capables de mettre en évidence les dissimilarités entre les données. Notamment lorsque les données brutes proviennent de différentes vues (ce qui est le cas par exemple dans le contexte de la radiomique où des informations cliniques, génomiques et diagnostiques par analyse d’images sont collectées pour chaque patient), il est impossible de définir une métrique unique, sur un ensemble hétérogène de variables, permettant de rendre compte de ces dissimilarités. Tout au plus pouvons nous en définir une par vue.

Sujet :
Nous envisageons de répondre à ces questions de choix des mesures de dissimilarités sous l’angle de l’apprentissage de métriques au moyen des forêts aléatoires, des techniques de classification basées sur des ensembles d’arbres de décision pour lesquelles nous avons des compétences établies et reconnues [BHA12, DBHP13]. Nous étudierons notamment comment elles peuvent être utilisées pour générer ces espaces de dissimilarités. Elles semblent en effet bien adaptées à cette problématique puisqu’elles intègrent naturellement dans leur construction un processus de sélection des variables pertinentes, ainsi que des capacités à gérer des variables de différents types et qui peuvent contenir des valeurs manquantes. Elles intègrent également naturellement des mécanismes de calcul de proximité entre objets pouvant être mis à profit dans le cadre applicatif de la radiomique pour générer des espaces de dissimilarités dédiés. Ces mécanismes de calcul de proximité ont déjà montré leur efficacité et leur flexibilité dans différents problèmes d’apprentissage [TPC06, SH06]. Ils sont par ailleurs très utilisés dans le domaine médical car les forêts exploitent naturellement les co-dépendances entre les variables, permettent efficacement de traiter des problèmes à très grandes dimensions, et fournissent une excellente interprétabilité. Cette interprétabilité permet bien souvent de fournir au corps médical des informations précieuses sur l’apport de chaque variable de l’espace d’origine (caractéristique ”image”, génomique, clinique) à la problématique d’apprentissage, et sur la nature de cette contribution [SH06].

Par essence pluri-disciplinaire, la thèse sera l’objet d’une collaboration étroite avec deux autres équipes du LITIS : l’équipe TIBS pour la partie données génomiques et données cliniques et l’équipe QuantIF pour la partie portant sur les données images. Les trois équipes du LITIS collaboreront également avec l’U918 (INSERM, Université de Rouen, Centre Henri Becquerel). Enfin, ces recherches feront l’objet d’une collaboration avec l’ETS de Montréal au Canada (Prof. Robert Sabourin), et pourraient également s’inscrire dans le cadre d’une collaboration avec la Federal University of Parana au Brésil (Prof. Luiz E.S. Oliveira).

Références:
[BHA12] S. Bernard, L. Heutte, and S. Adam. Dynamic Random Forests. Pattern Recognition Letters, 33 :1580–1586, 2012.
[DBHP13] C. Désir, S. Bernard, L. Heutte, and C. Petitjean. One-Class Random Forest. Pattern Recognition, 46(12) :3490–3506, 2013.
[LRVL+12] Philippe Lambin, Emmanuel Rios-Velazquez, Ralph Leijenaar, Sara Carvalho, Ruud G.P.M. van Stiphout, Patrick Granton, Catharina M.L. Zegers, Robert Gillies, Ronald Boellard, André Dekker, and Hugo J.W.L. Aerts. Radiomics : Extracting more information from medical images using advanced feature analysis. European Journal of Cancer, 48(4) :441 – 446, 2012.
[PD05] Elzbieta Pekalska and Robert P. W. Duin. The Dissimilarity Representation for Pattern Recognition : Foundations And Applications (Machine Perception and Artificial Intelligence). World Scientific Publishing Co., Inc., River Edge, NJ, USA, 2005.
[SH06] T. Shi and S. Horvath. Unsupervised Learning with Random Forest Predictors. Journal of Computational and Graphical Statistics, 15 :118–138, 2006.
[TPC06] Alexey Tsymbal, Mykola Pechenizkiy, and Padraig Cunningham. Machine Learning : ECML 2006 : 17th European Conference on Machine Learning Berlin, Germany, September 18-22, 2006 Proceedings, chapter Dynamic Integration with Random Forests, pages 801–808. Springer Berlin Heidelberg, Berlin, Heidelberg, 2006.

Profil du candidat :
Master 2 en informatique, mathématiques appliquées, ou école d’ingénieur

Formation et compétences requises :
Le candidat recherché doit être titulaire d’un Master (ou équivalent) dans le domaine des Statistiques, de l’Informatique ou du Génie Informatique avec une dominante Sciences des Données ou Traitement du Signal et des Images. Il doit avoir de solides connaissances en apprentissage et classification.

Adresse d’emploi :
Equipe d’accueil:
Equipe Apprentissage, laboratoire LITIS (EA 4108), Université de Rouen
http ://www.litislab.fr/equipe/docapp/

Encadrement :
Laurent HEUTTE (directeur), laurent.heutte@univ-rouen.fr, (+33) 2 32 95 50 14
Simon BERNARD (co-encadrant), simon.bernard@univ-rouen.fr, (+33) 2 32 95 52 05

Financement :
Allocation de recherche de la région Normandie (financement obtenu pour la période du 01/10/2016 au 30/09/2019)

Document attaché : subject.pdf

Categories: theses

3-year fully funded PhD thesis on Mining and Analysis of enriched trajectories

Sep 20 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ETIS Lab (ENSEA / UCP / CNRS) UMR 8051, Paris, France
Durée : 3 years
Contact : Dimitrios.Kotzinos@u-cergy.fr
Date limite de publication : 2016-09-20

Contexte :
Context
The thesis takes place within the “Trajectories” project, funded by the Heritage Science Foundation (LabEx Patrima) carried by the ETIS laboratory at the University of Cergy-Pontoise (UCP), in collaboration with the DAVID laboratory at the University of the Versailles Saint-Quentin-en-Yvelines (UVSQ), the AGORA laboratory (UCP) and the Louvre Museum. The thesis will start in October 2016 will be co-directed by Dimitris Kotzinos (ETIS) and Karine Zeitouni (DAVID), in collaboration with all project partners.

Sujet :
Thesis’s subject
Mining and Analysis of enriched trajectories – Application to the trajectories of the visitors of a museum
Fouille et Analyse de trajectoires enrichies – application aux trajectoires des visiteurs d’un musée
(French version follows)

Summary
Movement of users in indoor settings introduces new challenges, which are not addressed by the existing research in the area. The challenges stem from the fact that we have the ability to capture and analyze massive users’ trajectories that take place indoors, but also to provide and link them with enriched information due to the advanced technological devices that can provide additional data on user’s activities. We have also the ability to process now massive datasets of user paths (trajectories) of their visits. One application domain is museums, as visitors are offered aid through devices (e.g. audio guides, mobile applications) and the data collected can be used to allow museums to learn more about their visitors and their visiting trajectories and behavior patterns.
So the main challenges of the thesis are related to the:
•modeling of users’ trajectories in indoor environments (geometric level), enriched with information about the visitors and their activities (e.g. use of related multimedia, consultation of texts or other descriptive works, etc.) (symbolic and semantic level),
•development of analytical methods to analyze these enriched trajectories that would also scale to handle the increased size of the data. These methods might extend the search techniques of spatiotemporal data for the detection of recurrent movement patterns to indoor environments,
•interpretation of test results in a museum setting, in order to better understand visitor’s behavior,
•suggest in real time paths or points to visit based on the analysis of user’s behavior.
The work builds on a collaboration with the Louvre, which will provide the data, support and validation of the use cases’ analysis and interpretation.

Profil du candidat :
Application
Applicants should send a CV, a cover letter and transcripts of their academic qualifications (including a master thesis and/or any published scientific papers, if available) in PDF format to Dimitrios.Kotzinos@u-cergy.fr in an e-mail titled “PhD Museum Trajectories”. They can provide, if they wish, letters of recommendation. Further enquiries are also welcome. Knowledge of French is not a requirement.
A first selection will be made for applications arrived before 20 July 2016 if necessary a second selection will take place in September.

Additional information can be found here:
https://dl.dropboxusercontent.com/u/15684959/Museum%20Trajectories%20Thesis%20subject.pdf

Formation et compétences requises :
The successful applicant should have a Master or equivalent in Computer Science. Experience in Data Science or Big Data is highly appreciated.

Adresse d’emploi :
Lab. ETIS (ENSEA/UCP/CNRS UMR 8051)
& Dept. Sciences Informatiques, Université de Cergy-Pontoise
2 av. Adolphe Chauvin
Site Saint Martin, bureau A561
95000 Pontoise
France

Document attaché : museum-trajectories-thesis-subject.pdf

Categories: theses

Fri

Détection d’anomalies dans les flux temps réels sol-bord de la SNCF

Sep 30 – Oct 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire LIRIS (UMR 5205) / SNCF, DSI Voyageurs
Durée : 3 ans
Contact : serge.fenet@liris.cnrs.fr
Date limite de publication : 2016-09-30

Contexte :
· Apprentissage automatique
· Détection d’anomalies
· Supervision de flux temps réel
· Fouille de données
· Modélisation de séries temporelles
· Trains communicants

Sujet :
La Société Nationale des Chemins de fer Français (SNCF) produit et exploite dans son système d’informations une grande quantité de données hétérogènes récoltées en temps réel. Certaines d’entre elles, généralement liées à l’information voyageurs, sont en provenance du SI au sol et de ses applications opérationnelles, telles que les prochains départs ou passages de trains, les dessertes prévues, l’estimation des retards, les perturbations, la localisation au sol, etc. Mais elle dispose également d’informations en provenance du bord, à partir de trains dits « communicants », telles que les données de géo-localisation par GPS, les données de télé-maintenance, de suivi de mission, de comptage voyageurs, etc. La volumétrie de ces flux est variable et pourra aller, par exemple pour la géo-localisation, jusqu’à 200 messages par seconde.
Tous ces flux sont collectés en temps réel, agrégés, uniformisés et diffusés par des plate-formes dites « de médiation » en haute disponibilité. Ces dernières nécessitent une supervision de bout-en-bout, c’est-à-dire depuis les nombreux équipements émetteurs, variés et hétérogènes, jusqu’aux applications d’exploitation métier consommatrices de ces données, en passant par de multiples équipements intermédiaires. Ce type de supervision permet d’observer de nombreuses variations dans le trafic de données. Elles peuvent d’une part être causées par la dynamique
des données récoltées (une perturbation du trafic, par exemple), et sont dans ce cas tout à fait normales. Cependant, elles peuvent aussi être non pas liées aux données observées, mais à l’infrastructure de collecte et de communication utilisée pour produire et faire transiter ces données. On parle alors de dysfonctionnements ou anomalies techniques de l’infrastructure, par opposition aux perturbations métier.

Ces anomalies concernent alors non pas les données métier circulant, mais les méta-données ou indicateurs relatifs aux flux observés (nombre de messages reçus par unité de temps, latence entre l’émission et la réception, etc.). Lorsqu’une telle anomalie se produit, il est parfois difficile de s’en rendre compte, et le délai entre le début de l’anomalie et son constat peut être d’une journée entière, selon les cas. Quand à la détermination de la cause de l’anomalie, nécessaire à sa résolution, elle pourra s’étendre sur plusieurs journées.
Ce sont la détection automatique et l’analyse de ces anomalies liées à l’infrastructure informatique et de communication qui sont au cœur de cette thèse. Le travail consistera notamment au développement et à l’évaluation de techniques de détection d’anomalies appliquées aux flux temps réels sol-bord, et s’inscrit dans la continuité d’un stage de Master M2 dans lequel une première modélisation des flux et un algorithme de détection d’anomalies ont été mis en place. L’objectif de la thèse est d’obtenir un modèle dynamique complet capable de s’adapter aux changements de régimes dans les flux temps-réels d’une part, en limitant le nombre de faux positifs, et permettant d’autre part de prendre en compte un ensemble de connaissances métier comme le plan de transport théorique des trains et ses adaptations, le parc des trains communicants, ainsi que les relations de corrélations et de causalité éventuelles entre différents indicateurs.
La thèse s’effectuera dans le domaine et avec l’équipe « Trains Communicants » de la Direction Déléguée SI « Production Ferroviaire », au sein de la « DSI
Voyageurs », dans l’EPIC « SNCF Mobilité » du groupe SNCF.

Profil du candidat :
Connaissances en apprentissage artificiel et en fouille de données.
La connaissances des méthodes liées aux séries temporelles est un plus.
Ce travail sur une période de 3 ans à mi-temps dans une très grande entreprise nécessite un goût pour les environnements industriels, le service aux utilisateurs, et une implication dans l’activité R&D de la SNCF.

Formation et compétences requises :
Titulaire d’un diplôme de Master (ou titre équivalent) en sciences informatiques
– solides connaissances de programmation
– motivation pour la recherche et pour le travail en équipe, esprit d’initiative,
curiosité intellectuelle, capacité rédactionnelle
– compétences écrites et orales en anglais fortement souhaitées

La date de démarrage prévue se situe entre Septembre et Novembre 2016. Les candidats intéressés doivent envoyer les documents suivants aux contacts listés ci-dessous :
– une courte déclaration d’intérêt ;
– un CV détaillé ;
– une liste des cours et des évaluations scolaires des deux dernières années ;
– des lettres de recommandations potentielles.

Contacts :
– Denis Jouvin, Architecte SOA du domaine Trains Communicants, Expert scientifique et technique du réseau SNCF SYNAPSES (denis.jouvin@sncf.fr), tél. 04 27 44 48 64, bureau 15-86
– Serge Fenet, Maître de conférences, Laboratoire LIRIS (serge.fenet@liris.cnrs.fr)
– Christophe Rigotti, Maître de conférences, HDR, Laboratoire LIRIS (christophe.rigotti@liris.cnrs.fr)

La SNCF étant une entreprise dans laquelle le Français est l’unique langue utilisée, les candidats devront la maîtriser. Une connaissance de l’Anglais est bien-sûr aussi nécessaire.
Toutes les candidatures seront examinées au fur et à mesure de leur arrivée, , et le poste restera ouvert jusqu’à ce qu’il soit pourvu.

Adresse d’emploi :
– Laboratoire LIRIS (UMR 5205), Domaine Scientifique La Doua, 43 bd 11
Novembre 1918, 69100 Villeurbanne
– SNCF, DSI Voyageurs – DD SI PF – Div. Architecture et Socles Communs,
Tour Oxygène, 10-12 Bd Marius Vivier Merle 69393, Lyon Cedex 03.

Document attaché : sujet_thèse_cifre_sncf_liris-dm2l_2016-2019.pdf

Categories: theses

Oct

Thèse CIFRE: Traitement et visualisation de données textuelles au service de l’analyse qualitative des échanges sur les médias sociaux