[H/F] Ingénieur.e logiciel – Développement Web / Python – Intégration de données – COVID-19

When:
16/07/2020 – 17/07/2020 all-day
2020-07-16T02:00:00+02:00
2020-07-17T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LRI ou LIRIS ou LIMOS
Durée : 12 mois
Contact : cohen@lri.fr
Date limite de publication : 2020-07-16

Contexte :
Suite à l’appel lancé par le CNRS au début du mois d’Avril 2020, une équipe issue d’UMR du CNRS s’est mobilisée pour aider les médecins dans leur tâche d’analyse des données des études cliniques relatives au COVID-19.

Depuis le début de la crise du COVID-19, l’OMS publie une fois par semaine un fichier contenant la juxtaposition des lignes issues des 17 registres nationaux (sources de données). Plusieurs centaines de nouvelles lignes étaient publiées chaque semaine. Chaque ligne devait être homogénéisée et corrigée (appellation des noms de pays, des genres, des âges, …) puis longuement complétée par une série de copier-coller d’informations issues des registres d’origine. L’objectif était d’extraire automatiquement les données issues des registres et de les représenter de façon uniforme et pour générer un fichier Excel avec le format attendu par les médecins partenaires.

En deux mois, une première application a été réalisée (par des membres du LIRIS, LIMOS et LRI) sous Django et permet d’importer les données de quatre registres différents, un système de vues SQL et de manipulation de CSV en Pandas permet de générer les fichiers nécessaires pour le CRESS. Un prototype d’historisation des données et de manipulation des données est en cours d’élaboration.

Ce CDD a pour objectif de renforcer les fonctionnalités existantes et d’étendre l’outil.

Sujet :
(i) Mise en place d’un schéma global d’intégration (entrepôt de données) permettant d’intégrer les données de multiples sources (registres cliniques). Intégration des sources existantes ainsi que de nouvelles sources dans ce schéma (schéma relationnel, extraction d’informations, vue vers le schéma global).

(ii) Conception et implémentation d’interfaces de modification des données par les annotateurs, gestion des droits d’accès attenants.

(iii) Mise en place de mécanismes d’historisation des données: gestion des changements provenant des registres et changements apportés par les annotateurs.

De façon transverse, (iv) la reprise des codes des parseurs effectués pour les rendre plus robustes est une tâche importante à effectuer ainsi que (v) l’optimisation de la base (indexation, partitionnement…).

La personne recrutée devra travailler en étroite collaboration avec l’équipe de personnes ayant implémenté la version actuelle de l’outil et savoir échanger avec les utilisateurs de l’outil (les médecins et annotateurs).

Profil du candidat :
Ingénieur ou Master M2 (BAC+5)

Formation et compétences requises :
– Bonnes connaissances en base de données relationnelles (PostgreSQL)

– Coutumier du développement Python (environnements virtuels, packaging). La connaissance des librairies utilisées pour le scrapping (BeautifulSoup, requests) et l’analyse de données (Pandas) ainsi que du framework Django sont des plus.

– Connaissance de git

– Des compétences en développement JavaScript seraient un plus

– Capacité à travailler en équipe (avec des informaticiens et non informaticiens issus du domaine médical) et capacité à communiquer en français et en anglais.

Adresse d’emploi :
L’offre est publiée sur le portail emploi du CNRS :

– LRI (Saclay) : https://emploi.cnrs.fr/Offres/CDD/UMR8623-SARCOH-010/Default.aspx
– LIRIS (Villeurbanne) : https://emploi.cnrs.fr/Offres/CDD/UMR5205-MOHHAC-003/Default.aspx
– LIMOS (Clermont-Ferrand) : à venir, candidatez sur une des offres publiées et indiquez que vous souhaitez travailler au LIMOS à Clermont-Ferrand

Les candidatures seront examinées au fil de l’eau.