Dans les yeux du bouquetin : typologie de végétation, données satellites et machine learning (Parc National Vanoise / CNRS)

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CNRS / Parc National de la Vanoise
Durée : 5 à 6 mois
Contact : vincent.miele@univ-lyon1.fr
Date limite de publication : 2024-02-01

Contexte :
Le bouquetin des Alpes (capra ibex,[1]) est une espèce emblématique du Parc National de la Vanoise, premier parc national français créé il y a 60 ans cette année. Dans un contexte de changements globaux, il devient primordial de comprendre les stratégies de déplacement du bouquetin en fonction du paysage (c.a.d les caractéristiques du terrain et de la végétation; on parle d’habitat éco-paysager) pour mieux anticiper les difficultés que cette espèce pourrait rencontrer dans un futur proche.
Dans le même temps, la disponibilité de données aériennes/satellites à forte résolution offre la possibilité d’étudier finement ces caractéristiques du paysage, notamment graĉe aux techniques de machine learning les plus récentes (deep learning en particulier, [2]).

Sujet :
Le/la stagiaire aura comme objectif de se positionner « dans les yeux du bouquetin » pour décrire la variabilité du paysage sur un site de référence du Parc de la Vanoise, le vallon d’Orgère. Ce que voit cette espèce sera inféré par l’étude de données aériennes/satellites à forte résolution, ce qu’il décide sera compris par la mise en correspondance avec les données des balises/colliers GPS (12 bouquetins suivis sur l’Orgère).

Le/la stagiaire fera dans un premier temps une étude des différentes sources de données disponibles (par exemple BD ORTHO IGN, Sentinel-2, Google Earth, LiDAR HD IGN) afin d’établir le champ des possibles de chaque source et de leur combinaison possible. Dans un deuxième temps, il/elle assemblera ces données sur le secteur du vallon de l’Orgère. A partir de ces données, le/la stagiaire mobilisera par la suite différentes techniques de machine learning pour optimiser la description de la végétation/du paysage. Il/elle utilisera les modèles pré-entrainés de l’état de l’art (CNNs ou vision transformers ; [3,4] par exemple) pour tester une approche de machine learning non supervisé sur la base des features obtenues à partir de ces modèles. En fonction des résultats, le/la stagiaire pourra être amené.e à entrainer un modèle de manière auto(self)-supervisée pour améliorer la description obtenue. Les résultats obtenus seront comparés aux cartographies existantes (CarHab par exemple). Le/la stagiaire analysera par la suite les déplacements des bouquetins relativement à la description du paysage obtenue. Les données des colliers GPS permettront de reconstituer les trajectoires et de les confronter à la variabilité prédite de la végétation/du paysage.

En fonction des avancées du stage, l’approche pourra être étendue à d’autres secteurs/espèces d’intérêt.

Le stage donne droit à une gratification de stage réglementaire. Par ailleurs, des déplacements au sein du Parc de la Vanoise sont à envisager pour confronter les prédictions in-silico à des observations de terrain.

[1] Espèce emblématique du patrimoine alpin, le bouquetin des Alpes (Capra ibex) vivait il y a plusieurs dizaines de milliers d’années dans la plupart des reliefs d’Europe centrale et occidentale, y compris les massifs montagneux de basse altitude. Chassée comme gibier, l’espèce était au bord de l’extinction à la fin du XIXe siècle : il ne restait en effet qu’une centaine d’individus à l’emplacement du futur Parc national du Grand Paradis, et quelques dizaines d’individus en Maurienne à l’emplacement du futur Parc national de la Vanoise. C’est par la volonté du roi Victor Emmanuel II et la mise en place d’une réserve de chasse en 1856 en Italie, par un programme de restauration décidé par la première loi fédérale de protection de la nature en Suisse (1875), puis plus tard par la création des parcs nationaux du Grand Paradis (1922) en Italie et du Parc national de la Vanoise (1963) en France, que cette espèce fut sauvée de l’extinction.
[2] Miele et al, Images, écologie et deep learning, Regards SFE2 2021
[3] Stewart et al, TorchGeo: Deep Learning With Geospatial Data, arXiv 2022
[4] Tseng et al, Lightweight, Pre-trained Transformers for Remote Sensing Timeseries, arXiv 2023

Profil du candidat :
Formation en data science / machine learning / informatique.
Intérêt pour les questions de biodiversité, de conservation, et plus généralement d’écologie scientifique.

Formation et compétences requises :
Maitrise de Python. Connaissance minimale de Linux.
Connaissances en machine learning et en deep learning.
Optionnellement, des connaissances en système d’information géographique et/ou analyse de données spatiales.

Adresse d’emploi :
Le/la stagiaire signera sa convention avec la Parc National de la Vanoise dont le siège est à Chambéry. Il/elle réalisera son stage au laboratoire CNRS/Université Savoie Mont Blanc « Laboratoire Ecologie Alpine » sur le campus Technolac de Chambéry. Le stage pourra toutefois être réalisé à Villeurbanne dans le laboratoire CNRS/Université Lyon 1 « Laboratoire Biométrie Biologie Evolutive » si la présence à Chambéry est problématique.

Document attaché : 202310131210_stagePNVCNRS.pdf

Postdoc position at University of Strasbourg

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube Laboratory – University of Strasbourg
Durée : 32 months
Contact : wemmert@unistra.fr
Date limite de publication : 2023-12-01

Contexte :
Primary liver cancers define a wide spectrum of tumors including hepatocellular carcinomas (HCC), cholangiocarcinomas (CCA) and combined hepatocellular-cholangiocarcinomas (cHCC-CCA) sharing both components. Due to high intratumor heterogeneity, accurate diagnosis of cHCC-CCA is still challenging. In addition, studies aiming to evaluate its prognosis provided discordant outcomes, with tumor behavior closer either to HCC or CCA. Considering the different management and prognosis of the types of primary liver cancers, improving their morphological characterization and recognition is needed and helpful to accurately identify cHCC-CCA.
In order to provide a comprehensive morphological signature of cHCC-CCA, we aim to develop a multiscale morphological approach (from molecular to microscopic) integrating molecular pathology using MALDI imaging (a global in situ proteomic approach), histology and immunohistochemistry (IHC). Firstly, phenotypical features of cHCC-CCA will be derived from direct comparison with HCC and CCA. Secondly, we will search for specific phenotypical features of cHCC-CCA in order to develop a diagnostic application and a prognostic correlation on the clinical outcomes. For this purpose, specific artificial intelligence algorithms based on deep learning will be developed to extract useful information and features from each image modality. The project will benefit from the collaboration and the expertise of computer scientists specialized in data and image analysis, pathologists, analytical chemists specialized in molecular imaging by mass spectrometry and clinicians. We aim to build a comprehensive exhaustive classification of cHCC-CCA based on their multilevel morphological features and identify prognostic subgroups allowing to propose a tailored management of patients

Sujet :
The candidate recruited will be in charge of developing and testing new models of deep neural architecture for multi-modal analysis of mass spectrometry and histopathology data.
We propose a sparing and original approach, relying on the use of a common backbone unsupervisely trained in an autoencoder. For that, we will rely on a pre-trained model that has proved its capacity to accurately identify and classify liver tumors between HCC and CCA. This model will be fine-tuned on our own dataset of pure HCC, pure CCA, and mixed tumors. To have enough data and a more robust model, patches from TMA and WSI will be used for that task. Once the autoencoder is trained, the first layers to the latent space will be kept and used to train simultaneously 3 fully connected classifiers: one to distinguish between HCC and CCA, one to evaluate the mVI and one to quantify the fibrosis of the tumor (the 3 features associated to clinical outcomes). This architecture will be trained on the annotated TMA: each TMA image will be divided into small tiles associated with the pathologist annotation. Finally, the trained models will be applied in a patch-based manner and evaluated on WSI. The evaluation will rely on the annotations provided by the pathologists. For each patch on the WSI our networks will provide a probability on the three aspects of the disease (tumor composition, mVI and fibrosis). Thus, for each WSI, we will obtain spatial information on the different features: which part of the tumor is considered as CCA or HCC, parts of the tissue that indicate that there is or not a vascular invasion and localization of the fibrosis.

Profil du candidat :
– Qualifications/knowledge:
PhD in Computer Science, specialized in machine learning.
Solid knowledge of Data Science and more particularly of supervised and unsupervised deep learning methods.
Experience in (medical) image analysis would also be valuable.

– Operational skills/expertise:
Good experience in Python programming and deep learning libraries (Keras, PyTorch…).
Good verbal (English or French) and written (English) communication skills.

– Personal qualities:
Interpersonal skills and the ability to work individually or as part of a project team.

Formation et compétences requises :
PhD in computer science, with knowledge and experience in data mining and image analysis.

Adresse d’emploi :
ICube – UMR 7357
300 boulevard Brant
67400 ILLKIRCH

Document attaché : 202310111158_Fiche_poste_anglais.pdf

printemps 2024 : MCF dans l’équipe CODAG, informatique pour la science des données (GREYC, Caen)

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Groupe de recherche en informatique, image, automa
Durée : permanent
Contact : bertrand.cuissart@unicaen.fr
Date limite de publication : 2023-11-30

Contexte :
L’équipe CODAG (Contraintes, Ontologies, Données, Annotations, Graphes) est fortement susceptible de recruter un maître de conférences au printemps 2024.
CODAG est l’une des six équipes de recherche du GREYC (UMR CNRS 6072) ; elle est composée d’une petite trentaine de membres dont douze enseignants-chercheurs de l’université de Caen Normandie.
Le périmètre de recherche de l’équipe correspond à l’informatique pour la science des données, il est développé à la fin de l’annonce.

Si vous êtes intéressé par ce poste, vous pouvez initier un premier contact avec nous, via un membre de l’équipe ou via son responsable (bertrand.cuissart@unicaen.fr)
Nous pourrons ensuite échanger afin d’identifier des domaines d’intérêt communs.

N’hésitez pas à prendre contact avec nous,
Cordialement,


Bertrand Cuissart, pour CODAG

Sujet :

Contour de l’équipe :

L’équipe CODAG (Contraintes, Ontologies, Données, Annotations, Graphes) participe activement aux évolutions de la science des données en associant des chercheurs issus de cultures scientifiques complémentaires. Le périmètre des recherches englobe l’ensemble de la chaîne de traitement des données, depuis leur préparation jusqu’à la conception de modèles pour exprimer les résultats. Les travaux de recherche de l’équipe portent principalement sur les thèmes suivants : les approches déclaratives en optimisation sous contraintes, l’exploration de données, le traitement automatique des langues, l’ingénierie des connaissances, l’apprentissage et l’aide à la décision.

L’équipe s’investit fortement dans des projets interdisciplinaires en collaborant avec des experts d’autres domaines: des spécialistes du traitement des données sportives, de l’information chimique ou les données textuelles, parmi d’autres.

Particulièrement reconnue pour des résultats s’appuyant sur la diversité de ses compétences scientifiques, CODAG a pour objectif de poursuivre dans cette direction.

Profil du candidat :
A travers ses ses recrutements, l’équipe souhaite développer sa capacité à intégrer les techniques actuelles de l’informatique pour la science des données comme par exemple celles rencontrées en apprentissage machine, que ce soit comme objets d’étude, comme paradigme ou simplement par la pratique. Dans cette optique, nous sommes aussi intéressés par l’exploitation des petits jeux de données, la fouille interactive, l’analyse formelle de concepts, la programmation par contraintes ou la gestion ontologique des connaissances.

Formation et compétences requises :
Doctorat en informatique, qualification aux emplois de maître de conférences

Adresse d’emploi :
Campus 2, Bâtiment F, 6 Boulevard Maréchal Juin, 14000 Caen

CDD de Post Doc pour du traitement du langage naturel appliqué à la robotique sociale

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoires ICAR et LIRIS (Lyon)
Durée : 12 mois
Contact : frederic.armetta@univ-lyon1.fr
Date limite de publication : 2024-01-01

Contexte :
Bonjour à tous,

Nous recrutons en post-doctorat sur la thématique des agents conversationnels orientés but (apprentissage automatique, NLP (Natural Language Processing), HRI (Human-Robot Interactions), multi-modalité) à Lyon.

N’hésitez pas à rejoindre l’équipe du projet si vous êtes intéressés !

Sujet :
offre détaillée : https://partage.liris.cnrs.fr/index.php/s/5ycX9kHW4qLd7rb) pour une durée d’un an à discuter. N’hésitez pas à transmettre à toute personne qui pourrait être intéressée.

Site du projet : https://aslan.universite-lyon.fr/projet-peppermint-231695.kjsp?RH=1525438355903

Profil du candidat :
Si vous avez une expérience concernant les agents conversationnels, ou souhaitez approfondir ce thème, n’hésitez pas à candidater ici :
https://emploi.cnrs.fr/Offres/CDD/UMR5191-MAXPEN-022/Default.aspx !
(le début est prévu dès que possible, avant fin 2023 si possible, les dates de contrat peuvent être discutées et aménagées)

Formation et compétences requises :
– Expérience de l’IA et de l’apprentissage automatique (idéalement une expérience dans le domaine du NLP)
– Une Ouverture d’esprit, travail en équipe, autonomie et capacité à interagir avec d’autres disciplines comme les sciences sociales. Intérêt pour la recherche interdisciplinaire

Adresse d’emploi :
https://emploi.cnrs.fr/Offres/CDD/UMR5191-MAXPEN-022/Default.aspx

Document attaché : 202310091538_offre-postdoc-PepperMint.pdf

MCF 36-27

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : Université Lyon 2, Institut de la communication, L
Durée : –
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2024-04-01

Contexte :
Profil du poste
Mots-clefs : apprentissage statistique, machine learning, application aux humanités numériques
Section CNU : 26, 27
Prise de poste : 01/09/2024
Localisation : Lyon, Campus de Bron

Sujet :
Profil enseignement : La personne recrutée interviendra à la fois en licence et en master Informatique, ainsi qu’en master Humanités numériques, en cours magistraux et en travaux dirigés. Les matières principales à prendre en charge seront à choisir parmi de nombreux cours : mathématiques, probabilités, statistique, apprentissage supervisé, apprentissage non
supervisé, analyse des données…

Profil recherche : Les recherches au sein du laboratoire ERIC se situent dans les domaines de la science des données et de l’informatique décisionnelle. Elles visent à valoriser les mégadonnées (big data),
notamment dans les domaines des sciences humaines et sociales (SHS).
La personne recrutée devra s’intégrer dans l’équipe DMD, dont les thématiques de recherche peuvent être classées en trois axes majeurs. Le premier axe concerne le développement de modèles et d’algorithmes d’apprentissage pour les données complexes (big data). Le second
axe, prévision et décision, est dédié à la mise au point de techniques de prévision et d’agrégation multicritère pour l’aide à la décision. Le troisième, relatif aux humanités numériques, est un axe transversal au laboratoire ERIC.

Profil du candidat :
Nous attendons de la personne recrutée qu’elle s’intègre à l’équipe, en développant des collaborations avec les membres actuels de l’équipe.
La thématique de recherche attendue est le machine learning au sens large (apprentissage statistique, apprentissage automatique), avec une vision moderne de ces approches. Des thématiques comme l’apprentissage par renforcement, l’apprentissage par transfert, le geometric learning… seraient particulièrement les bienvenues, avec un intérêt pour les
modèles frugaux et explicables. Un attrait pour les applications dans le domaine des humanités serait également un atout.

Formation et compétences requises :
Mathématiques, probabilités, statistique, apprentissage supervisé, apprentissage non supervisé, analyse des données

Adresse d’emploi :
Enseignement : Jérôme DARMONT, directeur adjoint de l’ICOM
https://icom.univ-lyon2.fr
jerome.darmont@univ-lyon2.fr

Recherche : Julien JACQUES, directeur du laboratoire ERIC
https://eric.msh-lse.fr
julien.jacques@univ-lyon2.fr

Document attaché : 202310061207_2024-univlyon2-posteMCF2627.pdf

Poste PR 27

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : Université Lyon 2, Institut de la Communication, L
Durée : –
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2024-04-01

Contexte :
Profil du poste
Mots-clefs : Business intelligence, Databases, Big data,
Information systems, Digital humanities
Section CNU : 27
Prise de poste : 01/09/2024
Localisation : Lyon, Campus de Bron

Sujet :
Profil enseignement : La personne recrutée interviendra à la fois en licence et en master Informatique (notamment dans le M2 Business Intelligence & Analytics), ainsi qu’en master Humanités numériques, en cours magistraux et en travaux dirigés. Les matières principales à prendre en charge seront liées à la gestion de données : bases de données, entrepôts de données et OLAP, gestion et analyse de mégadonnées, technologies big data, cloud computing, NoSQL, etc.

Profil recherche : Les recherches au sein du laboratoire ERIC se situent dans les domaines de la science des données et de l’informatique décisionnelle. Elles visent à valoriser les mégadonnées (big data), notamment dans les domaines des sciences humaines et sociales (SHS).

Profil du candidat :
La personne recrutée devra s’intégrer dans l’équipe recherche Systèmes d’Information Décisionnels (SID) pour développer des recherches autour de la gestion « intelligente » et des architectures décisionnelles, afin de relever les nouveaux défis liés aux données massives. La personne recrutée aura pour vocation d’apporter son expertise en bases de données, systèmes d’information décisionnels, technologies big data, pour assurer l’extraction, le nettoyage, la transformation, la modélisation, le stockage, l’alimentation, le déploiement, l’analyse et la visualisation des données massives.
La personne recrutée devra également s’investir dans les projets et les enjeux liés aux Humanités numériques, qui est un axe transversal stratégique du laboratoire ERIC et qui pose de nouvelles questions de recherche interdisciplinaires, ainsi que des défis technologiques. Une
expérience dans les Humanités numériques sera appréciée.

Formation et compétences requises :
Bases de données, entrepôts de données et OLAP, gestion et analyse de mégadonnées, technologies big data, cloud computing, NoSQL, etc.

Adresse d’emploi :
Enseignement : Jérôme DARMONT, directeur adjoint de l’ICOM
https://icom.univ-lyon2.fr
jerome.darmont@univ-lyon2.fr

Recherche : Julien JACQUES, directeur du laboratoire ERIC
https://eric.msh-lse.fr
julien.jacques@univ-lyon2.fr

Document attaché : 202310061202_2024-univlyon2-postePR27.pdf

Élaboration d’un protocole d’annotation et extraction d’information à partir de données textuelles : application au suivi de la sécurité alimentaire

Offre en lien avec l’Action/le Réseau : SimpleText/– — –

Laboratoire/Entreprise : TETIS
Durée : 6 mois
Contact : maguelonne.teisseire@inrae.fr
Date limite de publication : 2024-04-01

Contexte :
Le stage s’inscrit dans le cadre d’activités interdisciplinaires de l’UMR TETIS concernant l’anticipation et le suivi des risques liés à la sécurité alimentaire. Les activités de recherche de l’UMR sur cette
thématique sont centrées sur le cas de l’Afrique de l’Ouest, où les risques agricoles sont d’autant plus aigus que les services nationaux de surveillance et de suivi peuvent être défaillants faute de moyens
techniques et financiers.

Sujet :
Une offre de stage pour contribuer à une approche novatrice visant à anticiper et suivre les crises alimentaires en Afrique de l’Ouest en utilisant des techniques avancées d’apprentissage automatique. Vous serez chargé de créer un corpus annoté spécialisé et de proposer des méthodes visant à identifier les éléments déclencheurs de crises alimentaires et leurs aspects spatio-temporels à partir de données textuelles journalistiques. En collaborant sur ce projet interdisciplinaire, vous contribuerez de manière significative à l’apport de l’intelligence artificielle au suivi de la sécurité alimentaire.
Le stage se déroulera sur une période de 6 mois, à compter de février 2024 au sein de l’UMR TETIS, à la Maison de la Télédétection (Montpellier).

Profil du candidat :
Le/la stagiaire aura un profil en informatique avec des connaissances en traitement automatique de la langue et/ou apprentissage automatique, avec un intérêt pour le travail interdisciplinaire. Une expérience dans le langage de programmation Python est un plus.

Formation et compétences requises :
M2 Sciences des données, TALN, Info

Adresse d’emploi :
https://nubes.teledetection.fr/index.php/s/HtXiDfBWzEEFsfp

Document attaché : 202310050829_stage_digitag_2024.pdf

Deep Learning architectures for generating rehabilitation human motion

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIMAS, équipe MSD. Université de Haute Alsace
Durée : 6 months
Contact : maxime.devanne@uha.fr
Date limite de publication : 2024-04-01

Contexte :
Human motion analysis is crucial for studying people and understanding how they behave, communicate and interact with real world environments. Due to the complex nature of body movements as well as the high cost of motion capture systems, acquisition of human motion is not straightforward and thus constraints data production. Hopefully, recent approaches estimating human poses from videos offer new opportunities to analyze skeleton-based human motion. While skeleton-based human motion analysis has been extensively studied for behavior understanding like action recognition, some efforts are yet to be done for the task of human motion generation. Particularly, the automatic generation of motion sequences is beneficial for rapidly increasing the amount of data and improving Deep Learning-based analysis algorithms. In particular, this is crucial in a medical context like in physical rehabilitation where acquiring data is challenging. Rehabilitation human motions are corresponding to rehabilitation exercises proposed by physiotherapists.
Unlike classification tasks, the targeted task in human rehabilitation assessment is often a regression problem, where given a motion sequence, the goal is to predict the associated performance score given by physiotherapists.
Since several years, human motion generation paradigms have been possible thanks to the appearance of Generative Adversarial Networks (GAN), Variational AutoEncoder (VAE) or Diffusion models. While most of these works have considered motion capture (mocap) data, we consider noisy skeleton data estimated from videos as it is easily applicable in real-world scenarios for the general public.

Sujet :
The goal of this internship is to investigate deep generative models for skeleton-based human motion sequences with a particular focus on rehabilitation data. Inspiring from recent effective Deep Learning-based approaches, the aim is to generate full skeleton-based rehabilitation motion sequences. It is therefore crucial to investigate how deep generative models can handle such noisy and possibly incomplete data in order to generate novel rehabilitation motion sequences as natural and variable as possible.

In particular, the candidate will work on the following tasks:
-Deep generative models adapted to rehabilitation data: based on studies from existing works, the goal is to build generative models for rehabilitation sequences. Therefore, the candidate will investigate different generative models, like GAN, VAE and Diffusion models, in order to propose and develop a complete Deep Learning model for generating skeleton-based human motions. These models will be trained using publicly available datasets such as the Kimore dataset.
-Evaluation of deep generative models: in order to validate the proposed model, experimental evaluation is crucial. In comparison to motion recognition where classification accuracy is a natural way to assess an approach, evaluating the task of motion generation is not as straightforward. Dedicated metrics evaluating both naturalness and diversity of generated sequences as well as the impact of new generated sequences in a classification task will be considered.
-Text to rehabilitation motion: The generated models will be then adapted to take as input text sequences corresponding to rehabilitation exercises’ descriptions. This will be particularly useful to create new rehabilitation exercises.

Profil du candidat :
The candidate must fit the following requirements:
– Registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science
– Advanced skills in Python programming are mandatory
– Good skills in Machine Learning & Deep Learning using related libraries (scikit-learn, Tensorflow, Pytorch, etc.) are required
– Knowledge and/or a first experience in human motion analysis will be appreciated

Formation et compétences requises :
The candidate must fit the following requirements:
– Registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science
– Advanced skills in Python programming are mandatory
– Good skills in Machine Learning & Deep Learning using related libraries (scikit-learn, Tensorflow, Pytorch, etc.) are required
– Knowledge and/or a first experience in human motion analysis will be appreciated

Adresse d’emploi :
ENSISA, Université de Haute Alsace
12 rue des frères Lumière
68093 Mulhouse, France

Document attaché : 202310050750_internship_position_delegation_2024.pdf

Détection de Fraudes dans les Transactions Financières

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6 (CNRS et Sorbonne Université)
Durée : 12 mois
Contact : Matthieu.Latapy@lip6.fr
Date limite de publication : 2024-04-01

Contexte :
Détecter les fraudes dans les transactions financières est un sujet applicatif crucial : les pertes dûes aux fraudes sont colossales, et l’argent souvent utilisé pour financer des activités nocives. C’est aussi un sujet qui nécessite des travaux de recherche fontamentale importants, par exemple concernant l’analyse de dynamiques de graphes, l’algorithmique en streaming ou la définition de métriques capturant la nature à la fois structurelle et temporelle des données.

Sujet :
Le plus souvent, l’information disponible consiste en un enregistrement de transferts d’argent, comme des virements ou des paiements par carte. On connaît l’origine de l’argent, sa destination, le moment de la transaction et son montant, mais relativement peu d’autres informations (parfois le type de compte ou de carte, le pays de la transaction, etc). Les données sont alors très bien modélisées par des flots de liens (link streams).

Avec cette vision, les fraudes sont des sous-séquences de liens dans un flot de liens, dont on s’attend à ce qu’elles aient des caractéristiques particulières. Tout l’enjeu consiste à identifier ces caractéristiques, à les modéliser par des métriques calculables en temps et espace raisonnables, et enfin à s’en servir pour détecter les fraudes. L’évaluation des méthodes pose également question, face au manque de vérités de terrain, c’est-à-dire de données dans lesquelles les fraudes réelles sont connues.

Ce postdoc propose une approche orientée graphes et données pour répondre à ces problématiques et améliorer drastiquement l’état-de-l’art sur ces sujets. Voir le pdf pour plus de détails.

Profil du candidat :
À titre indicatif, nous sommes particulièrement intéressés par des compétences en analyse de grands graphes et de réseaux, utilisation de machine learning (en particulier scikit-learn), programmation python, graphes aléatoires, manipulation de grandes données en streaming, expérimentations à grande échelle, cybersécurité et traitement du signal.

Une expérience de rédaction d’articles pour des conférences internationales sélectives est également souhaitée. Enfin, un équilibre entre les aspects théoriques et pratiques de la recherche, très présent dans le sujet, serait un plus.

Formation et compétences requises :
Doctorat en informatique, compétences en programmation et algorithmique, utilisation de machine learning (scikit-learn). Ou volonté de s’y former.

Adresse d’emploi :
Paris centre

Document attaché : 202310050726_postdoc_fraudes.pdf

L’Université PSL recrute 2 ingénieurs en science des données pour les sciences sociales

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Université de Paris-Dauphine – PSL
Durée : 1 an renouvelable
Contact : bruno.chavesferreira@dauphine.fr
Date limite de publication : 2024-04-01

Contexte :
Dans le cadre du développement de l’Institut ACSS, l’Université PSL recrute un ingénieur d’études (IE) et un ingénieur de recherche (IR) en science des données. Ils seront chargés de mettre en œuvre des méthodes et outils de collecte et traitement de données issues de sources variées (Web, bases de données institutionnelles, archives, etc.). Ils auront également la responsabilité de veiller au respect des bonnes pratiques en matière de développement et de gestion du code et des données. Enfin, ils contribueront au développement de modèles statistiques ou d’apprentissage automatique (notamment dans le domaine du traitement automatisé de la langue naturelle).

Créé au sein de l’Université Paris Sciences et Lettres (PSL) et hébergé à Paris Dauphine, l’Institut « Applied Computational Social Sciences » a pour vocation de renforcer la recherche sur les grandes problématiques sociétales (cohésion politique et sociale, transition écologique, transformation numérique, efficacité et compétitivité économique) en articulant sciences des données et sciences sociales.

Sujet :
L’Institut collecte et traite à larges échelle des données hétérogènes tant pour permettre des avancées scientifiques que pour contribuer à éclairer le débat public et la décision. Il réunit sur une équipe pluridisciplinaire de chercheurs et s’appuie sur une équipe d’ingénieurs qui apportent leurs expertises pour constituer des bases de données originales et opérer des traitements complexes. Ces projets sont initiés et portés par des laboratoires du CNRS, de Dauphine, de l’ENS, de l’INSP, et des MinesParis-Tech. Les résultats des travaux ont vocation à être largement diffusés auprès de partenaires institutionnels et du monde économique.

Profil du candidat :
Ingénieur de recherches : Diplôme d’ingénieur en informatique (ou mathématiques/statistiques) avec au moins 3 ans d’expérience ou titulaire d’un doctorat avec une thèse dans le domaine.

Ingénieur d’études : Titulaire d’un master informatique, maths-info ou d’un diplôme d’école d’ingénieur.

Formation et compétences requises :
Expérience dans le développement de réseaux de neurones profonds et autres modèles statiques avancés appliqués au traitement automatisé du langage sur de larges corpus.
Maîtrise des écosystèmes Python et R dédiés à la science des données.
Plus spécifiquement en Python, maîtrise de numpy, pandas, spacy, ntlk et connaissance pratique de tensorflow, keras et pytoch.
En R, maîtrise du tidyverse, de tidymodels et des bibliothèques associées, ainsi que de torch
Maîtrise des bases de données relationnelles et NoSQL.
Compréhension des méthodes scientifiques des sciences humaines et sociales.

Adresse d’emploi :
Pl. du Maréchal de Lattre de Tassigny, 75016 Paris

Document attaché : 202310041017_IngenieursACCS_2023_fr.pdf