Deep Learning expert developer position

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : LESIA, Observatoire de Paris-PSL
Durée : 18 to 24 months
Contact : baptiste.cecconi@obspm.fr
Date limite de publication : 2024-01-31

Contexte :
The EXTRACT project (EU, https://extract-project.eu) is currently conducting the design of an edge-to-cloud solution for heavy data processing based on Deep learning methodologies. One of the use case is the project Transient Astrophysics using SKA pathfinders (TASKA) that covers the processing of dynamical astronomical imaging data in radio using deep learning.

Radio astronomy imaging involves the inversion of set of Fourier domain samples acquired by an interferometer, observing a certain direction of the sky at a specific temporal and spectral rate.

The transformation from the recorded data (set of sparse and incomplete Fourier samples) to a multidimensional image cube containing scientific information, is a strong and ill-posed inverse problem.

For decades, « classical » radio interferometric imaging usually involved the production of single 2D image from the averaging (in time and frequency) of Fourier samples and solving the deconvolution problem to remove the instrumental impulse response. The target was to obtain a static image of the sky in radio. The classical CLEAN algorithm (1974) and CLEAN derivatives methods were historically the most widespread methods used to solve for the problem, mainly in the image space.

Sujet :
When the observed sky is steady, the accumulation of Fourier samples helps getting better images with improved signal-to-noise ratio (SNR) and image fidelity. However, if an astrophysical event (a.k.a. a radio « transient ») occurs during the observation, a long time integration can average out and prevent the detection of such short-lived event. Fast snapshot imaging using the same methods trying to follow fast variations of the sky provide a very limited SNR that would limit the detection level to only powerful astrophysical transients. In addition, extended time-variable emission (e.g., Solar flares, planetary emissions, etc.) are only poorly imaged using classical 2D imaging at a higher rate.

With the development of machine learning and deep learning (ML/DL) methodologies, solving for the imaging and deconvolution can be revisited to produce images cubes with the lowest possible bias while maintaining the integrity of the physical information measured from the sky. The imaging problem is analog to a video restoration problem where identified features are restored and tracked in time and spectral domains.

Hopefully, the astrophysical transients usually have a smooth behavior in time and spectral domains and can be located in a region of the sky. Therefore, the approach of this project is to model the varying source as a 4D structured signal that could be detected and restored with the appropriate approach of the data.

The developed networks will use trainings sets composed of simulated data as well as real data.

Profil du candidat :
(M/F) Post-Doc OR Research Engineer degree (>= 2 years experience in image processing)

Application domain: Applicant profile can come from various image processing and image restoration fields, such as medical imaging, astronomy, video restoration, industry, etc. Applications with a general scientific or signal processing background will be favoured.

Academic background: PhD or MsC degree in Computer Science or similar.

Formation et compétences requises :
We require candidates to have an moderate or advanced level of expertise in the following fields:
– Python/C++
– General knowledge in DL networks (e.g. CNN, GAN, Unet, mainly focused on image processing, image restoration or time series analysis etc.
– Knowledge of DL Frameworks (e.g. TensorFlow, keras, PyTorch
– (Optional) Inverse problem formulation and resolution
– (Optional) Fourier analysis and Fourier sampling
– (Optional) Data workflow management systems
– (Optional) Knowledge on edge/cloud technologies

Adresse d’emploi :
LESIA, Observatoire de Paris,
5 Place Jules Janssen,
92190 Meudon

Document attaché : 202312061248_Profil TASKA D-E-2.pdf

Postdoc position on graph mining/learning at LIRIS/University Lyon 1, France

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : 13 mois
Contact : hamida.seba@univ-lyon1.fr
Date limite de publication : 2024-01-31

Contexte :
A full-time 1 year postdoctoral position in Computer Science is available at the Laboratoire d’Informatique en Image et Systèmes d’information (LIRIS), Université Lyon 1 on Graph mining and learning

Sujet :
Research in graph mining and learning.
The position does not come with teaching duties, thus French is NOT mandatory.
Duration: 13 months
Staring: ASAP
Salary: according to experience (~2000-2500EUR of monthly net salary)
Location: Villeurbanne
There might be opportunities for the recruited candidate to supervise or co-supervise master students.

Applications include a detailed CV with a complete list of publications and should be sent to hamida.seba@univ-lyon1.fr

Profil du candidat :
* Completed PhD in Computer Science
* Strong academic background on graph algorithms and mining/learning methods.
* An interest on implementation aspects with Python/C++

Formation et compétences requises :
Phd in computer science

Adresse d’emploi :
Laboratoire d’Informatique en Image et Systèmes d’information (LIRIS), Université Lyon 1, Villeurbanne France

Post-doc : Hybrid Artificial Intelligence applied to Byzantine Sigillography

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Sorbonne Université
Durée : 12 moths
Contact : maria-victoria.eyharabide@sorbonne-universite.fr
Date limite de publication : 2024-01-31

Contexte :
1 Context

This research will be developed within the framework of the ANR BHAI project. The general aim of the project is to combine computer vision, NLP, knowledge engineering, and mathematical modeling of spatial relationships to help with the interpretation of Byzantine seals. This research aims to (i) fully recover the text on seals, (ii) work on the recognition of objects to analyze iconographic scenes, (iii) estimate the inception date of Byzantine seals, and (iv) propose solutions based on hybrid AI techniques to interpret damaged areas based on existing insights.

Sujet :
2 Information about the internship

• Project: ANR BHAI https://anr.fr/Project-ANR-21-CE38-0001
• Project’s members:
– Victoria Eyharabide, STIH Laboratory, Sorbonne Université (Project coordinator)
– Laurence Likforman-Sulem, Departement IDS, Telecom Paris
– Isabelle Bloch, LIP6 Laboratory, Sorbonne Université
– Beatrice Caseau, UMR 8167 Orient et Méditerranée, Sorbonne Université
• Location: Maison de la recherche, Sorbonne Université – 28 rue Serpente, 75006 Paris.
• Duration: 12 months
• Keywords: Deep Nets, Character recognition, NLP, Instance segmentation, Fuzzy Logic, Knowledge representation and reasoning, Byzantine sigillography.

Profil du candidat :
3 Profile of applicant

Applicants are required to have:
• A PhD in Computer Science.
• Advanced skills in Python programming are mandatory.
• A strong background in Machine Learning & Deep Learning on images and/or text using related libraries (scikitlearn, Tensorflow, Pytorch, etc.).

Formation et compétences requises :
• Fluency in written and spoken English is essential.
• Communication skills in French are a plus but not required.
• A good publication record will be a plus.

The position is open immediately. Review of applications will begin as soon as applications are received and continue until the position is filled.

Adresse d’emploi :
Maison de la recherche, Sorbonne Université
28 rue Serpente, 75006 Paris.

Document attaché : 202312051608_Postdoc_BHAI_2024.pdf

EGC 2024 du 22 au 26 janvier 2024, Dijon – 1er appel à participation

Date : 2024-01-22 => 2024-01-26
Lieu : Dijon







Toutes nos excuses en cas de réceptions
multiples.
************************************************************************
APPEL À PARTICIPATION EGC 2024
24ème édition



du 22 au 26 janvier 2024, Dijon



https://iutdijon.u-bourgogne.fr/egc2024/

 


École é-EGC (les 22 et 23 janvier 2024) sur le thème : « Analyse
des données et apprentissage face à l’urgence climatique et la crise
écologique, humanitaire et économique »

 

– Ateliers (le 23 janvier) : 9 ateliers

 

– Conférence (du 24 au 26 janvier) : 5
conférenciers invités
************************************************************************

Depuis 2000, la conférence Extraction et Gestion des Connaissances (EGC) est un
événement annuel réunissant des chercheurs et praticiens de disciplines
relevan

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

L’institut ACSS de l’Université PSL recrute un ingénieur d’études en science des données pour les sciences sociales

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Université de Paris-Dauphine – PSL
Durée : 1 an renouvelable
Contact : bruno.chavesferreira@dauphine.fr
Date limite de publication : 2024-01-31

Contexte :
Créé au sein de l’Université Paris Sciences et Lettres (PSL) et hébergé à Paris Dauphine, l’Institut « Applied Computational Social Sciences » a pour vocation de renforcer la recherche sur les grandes problématiques sociétales (cohésion politique et sociale, transition écologique, transformation numérique, efficacité et compétitivité économique) en articulant sciences des données et sciences sociales.

L’Institut collecte et traite à larges échelle des données hétérogènes tant pour permettre des avancées scientifiques que pour contribuer à éclairer le débat public et la décision. Il réunit sur une équipe pluridisciplinaire de chercheurs et s’appuie sur une équipe d’ingénieurs qui apportent leurs expertises pour constituer des bases de données originales et opérer des traitements complexes. Ces projets sont initiés et portés par des laboratoires du CNRS, de Dauphine, de l’ENS, de l’INSP, et des MinesParis-Tech. Les résultats des travaux ont vocation à être largement diffusés auprès de partenaires institutionnels et du monde économique.

Sujet :
Dans le cadre du développement de l’Institut ACSS, l’Université PSL recrute une/un ingénieur(e) d’études (IE) en science des données. Elle/il sera chargé(e) de mettre en œuvre des méthodes et outils de collecte et traitement de données issues de sources variées (Web, bases de données institutionnelles, archives, etc.). Elle/il aura également la responsabilité de veiller au respect des bonnes pratiques en matière de développement et de gestion du code et des données. Enfin, ielle/il contribuera au développement de modèles statistiques ou d’apprentissage automatique (notamment dans le domaine du traitement automatisé de la langue naturelle).

Profil du candidat :
Formation :
Titulaire d’un master informatique, maths-info ou d’un diplôme d’école d’ingénieur.

Divers :
Peut convenir à un premier poste.
Il s’agit d’une création de poste sur CDD pour une durée de 1 an renouvelable
Rémunération suivant profil et expérience en fonction des grilles CNRS.
Le poste est basé à l’université de Paris Dauphine.

Formation et compétences requises :
Compétences nécessaires :
Connaissance approfondie de l’écosystème Python (et/ou R) en traitement, analyse et visualisation de données.
Maîtrise des bases de données relationnelles et NoSQL.
Méthodologies de développement : tests unitaires, gestion de versions (GIT).
Compréhension des méthodes scientifiques des sciences humaines et sociales.
Compétences additionnelles souhaitées :
Connaissance des paradigmes principaux d’apprentissage automatique (régression, classification supervisée, clustering, visualisation, etc.).
Pratique des services web modernes (architecture REST, formats JSON, XML, etc.) et des expressions régulières.
Une expérience en traitement de la langue naturelle (NLP) sera vivement appréciée.

Adresse d’emploi :
Université de Paris Dauphine
Pl. du Maréchal de Lattre de Tassigny, 75016 Paris

Document attaché : 202312051021_Ingenieur_IE_ACCS_2023_fr.pdf

Postdoctoral Position on Meta-learning for medical image analysis

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : XLIM, university of Poitiers
Durée : 12 months
Contact : olfa.ben.ahmed@univ-poitiers.fr
Date limite de publication : 2024-01-31

Contexte :
We are looking for an outstanding and highly motivated Postdoctoral researcher in artificial intelligence, data science, or related fields to work on Meta-learning for low-prevalence disease detection. This postdoctoral position is part of the ANR JCJC MIMIC research project.

Sujet :
Context:

Deep learning-based approaches have seen an impressively good performance in the computer vision domain. However, huge, labeled datasets are needed to train on. Collecting such extensive annotated data is time and resource-consuming and it is not feasible for real-world applications, especially in the medical domain [1]. Developing deep learning approaches in the medical domain presents several challenges namely the scarcity and heterogeneity of data. In this position, the selected candidate will work on proposing data-efficient medical image analysis methods by addressing the current limitations of deep learning models in the medical domain.

Objectives:

This position aims to develop efficient deep-learning models using a small available medical imaging dataset for low-prevalence disease detection. We will investigate the recent development of meta-learning approaches [2] to facilitate quick adaptation of deep neural networks trained on data samples of common diseases for the identification of diseases with much less annotated data. Specifically, the selected candidate will focus on developing supervised meta-learning approaches taking into account the specificity of medical images. The work includes also leveraging the limited number of labeled images, along with potentially available unlabeled images to enhance the performance of the trained meta-learner.
The proposed methods will be tested and evaluated on medical diagnosis tasks representing real-world scenarios of low-prevalence disease detection, assessing the models’ ability to detect disease from small amounts of data.

Data used to implement different methods will be issued from our archives of imaging data collected in previous and current projects that involve Poitiers University Hospital. In addition, we will use several SOTA publicly available medical imaging datasets.
References :

[1] Chen, Xuxin, et al. “Recent advances and clinical applications of deep learning in medical image analysis.” Medical Image Analysis 79 (2022): 102444.
[2] Ouahab, Achraf, Olfa Ben-Ahmed, and Christine Fernandez-Maloigne. “A Self-attentive Meta-learning Approach for Image-Based Few-Shot Disease Detection.” MICCAI Workshop on Resource-Efficient Medical Image Analysis. Cham: Springer Nature Switzerland, 2022.

Profil du candidat :

• Ph.D. in Computer science and signal processing / Applied mathematics/ Artificial Intelligence, data sciences
• Strong skills in deep learning, mathematics, science, and data analysis…
• Programming experience in Python
• Experience in the medical imaging field would be a plus
• Experience in meta-learning will be a plus
• Excellent oral and written communication skills

Formation et compétences requises :
Salary :
Remuneration and social benefits are based on the collective wage agreement for public-sector employees at the national French level, considering previous years of experience. Salary between €2905 and €4081 gross monthly, depending on experience.

Start date and duration: The exact starting date is flexible and will be arranged with the candidate, and it should take place between February and April 2024. The position is funded for 12 months with a possible extension.

How to apply: Send your CV with a publications list, 2 names of references, and a motivation letter to olfa.ben.ahmed@univ-poitiers.fr

Adresse d’emploi :
Xlim site de Futuroscope, university of Poitiers

Utilisation des méthodes d’IA sur les données hospitalières de la pharmacie clinique pour l’identification automatique des erreurs de prescriptions médicamenteuses

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : SESSTIM, Aix-Marseille Université
Durée : 5-6 mois
Contact : jean-charles.dufour@univ-amu.fr
Date limite de publication : 2024-01-31

Contexte :
Le Service transversal de Pharmacie Clinique et Soins Pharmaceutiques de l’APHM en collaboration avec le service BioSTIC de l’APHM et le SESSTIM (Unité Mixte de Recherche UMR1252 labélisée par l’Inserm, l’IRD et Aix-Marseille Université) cherche à améliorer la sécurité et la pertinence des ordonnances médicamenteuses via une analyse pharmaceutique détaillée, automatisée et systématisée.
Ce stage s’inscrit dans la continuité de résultats préliminaires obtenus l’an passé avec des approches de Machine Learning (particulièrement forêts aléatoires, Random Forest Classifer, RFC) qui se sont montrés particulièrement intéressants pour des erreurs impliquant les lignes de prescriptions considérées individuellement et isolément. Il s’agira dans ce stage d’investiguer plus avant des méthodes avancées de Deep Learning pour détecter des erreurs impliquant plusieurs lignes de prescriptions concomitantes. Les travaux seront réalisés sur des jeux massifs de données réelles.
Pour réaliser l’analyse des données, implémenter et évaluer les méthodes pertinentes un stage de 5 à 6 mois est proposé avec une gratification financière pour un(e) étudiant(e) niveau ingénieur ou master 2 en science des données ou intelligence artificielle. Le stage est à pourvoir dès février-mars 2024. Il pourrait se poursuivre par une expérience professionnelle de 1 an en CDD en fonction des financements obtenus par l’équipe projet et des résultats du stage.

Sujet :
Le stage porte spécifiquement sur l’implémentation et l’évaluation de modèles d’analyse de séquences, type réseaux de neurones récurrents (GRU/LSTM), afin de détecter des erreurs de prescriptions complexes, comme les interactions médicamenteuses ou le surdosage par prescriptions redondantes, afin d’accroitre les performances de détection, et in fine la sécurité du patient.
La mission du ou de la stagiaire sera dans un premier temps de finaliser la mise en qualité des données et l’analyse descriptive des données. Le ou la stagiaire devra s’appuyer sur les revues de la littérature récentes (que nous avons déjà identifiées) pour sélectionner les méthodes d’IA applicables aux données à notre disposition. La plus grande partie du stage sera consacrée à l’implémentation des méthodes, l’entrainement des modèles, et la sélection des modèles les plus performants. Le ou la stagiaire devra documenter les développements réalisés et présenter régulièrement l’état de ces travaux lors des réunions d’équipe.

Profil du candidat :
Datascience

Formation et compétences requises :
– Bonnes connaissances en Deep Learning et notamment des réseaux de neurones récurrents (GRU/LSTM).
– Maitrise d’environnement Python et des bibliothèques Tensorflow ou PyTorch
– Capacité d’analyse et de synthèse
– Forte autonomie et esprit d’initiative
– Capacité à travailler en mode projet
– Rendre compte des avancements des travaux et communication des résultats
– Bonne communication à l’oral et à l’écrit (Français et/ou Anglais).
– Connaissances du métier de la santé appréciée

Adresse d’emploi :
Facultés des Sciences Médicales et Paramédicale, Marseille

Document attaché : 202312041313_Offre-Stage-fevrier-mars-2024.pdf

Reconnaissance d’actions dans des vidéos de sport amateur

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CEDRIC-Cnam et Sport Amat
Durée : 6 mois
Contact : michel.crucianu@cnam.fr
Date limite de publication : 2024-01-31

Contexte :
Sport Amat 1 naît du constat de la mise en invisibilité du sport amateur dans les médias et sur les réseaux sociaux. Pour palier à ce déséquilibre, nous proposons la mise en place de solutions de captation vidéo sur des infrastructures sportives. Les vidéos sont ensuite accessibles en direct en et VOD à travers un site et une application. Les objectifs de Sport
Amat sont :

— Promouvoir, démocratiser, rendre accessible et inclusif le sport amateur en apportant des outils et des moyens aux acteurs et actrices de cet écosystème (petits clubs, collectifs, clubs ruraux, handisport. . .).

— Accompagner via le numérique un retour au physique. Un moyen de créer du lien, de fidéliser et de favoriser les dynamiques en faisant venir les sportifs et le public dans les gymnases.

Sujet :
Sujet détaillé : http://cedric.cnam.fr/~ferecatu/Stage_CNAM_SportAMAT.pdf

L’analyse automatique des données vidéo trouve de nombreuses applications dans le sport : identification des temps forts, extraction de statistiques de jeu, assistance à l’arbitrage, assistance à l’entraînement par l’analyse des gestes techniques ou des tactiques de jeu, etc. De nombreux travaux ont abordé ces aspects (voir par ex. [5, 10], allant du suivi de joueurs dans les vidéos à la caractérisation de gestes techniques, en passant par la reconnaissance d’actions de différents niveaux (simples ou complexes, individuelles ou de groupe). Ces travaux se sont appuyés sur la mise à disposition de diverses bases de vidéos annotées, concernant principalement une pratique professionnelle des sports les plus populaires. Par ailleurs, des implémentations de différentes méthodes de l’état de l’art sont librement disponibles, comme PaddlePaddle (qui s’intéresse entre autres au football et au basket), MTV [11] ou MVD [9].

Le développement récent de caméras rapides haute résolution et abordables a provoqué une explosion de la quantité de vidéos sportives disponibles, surtout concernant les sportifs amateurs. Cela reflète le grand intérêt du public pour ces nouveaux contenus. Ces vidéos, très peu annotées, diffèrent de façon souvent significative de leurs équivalents professionnels et cela rend difficile non seulement l’application directe mais aussi l’adaptation des méthodes existantes à ces contenus.

Dans ce stage nous cherchons à améliorer les performances des méthodes de reconnaissance d’actions dans des vidéos de sports, mises au point en général sur des contenus annotés professionnels, lorsqu’on les applique à des vidéos de sports amateurs. Les sports privilégiés sont le basket et le football en salle (ou futsal). Le basket et le football (soccer) sont deux des sports les plus suivis au monde, et il existe déjà un nombre important de travaux dédiés à la détection et au suivi des joueurs ou à la reconnaissance d’actions, s’appuyant sur des bases annotées de matches professionnels comme FineBasketball [4], NPUBasketball [8], ComprehensiveSoccer [12], SoccerNet [3], SSET [2], SoccerDB [7], SoccerNet-v2 [1]. Or, les vidéos de matches amateurs présentent des caractéristiques différentes : fonds variés, mouvements différents des joueurs non professionnels, conditions de prise de vue, etc. Par ailleurs, pour le futsal on observe des différences supplémentaires : le jeu se déroule à l’intérieur (contrairement au football), le terrain est autre, les mouvements sont différents sur sol dur, la caméra est fixe et grand angle, etc.

Le défi est d’identifier les aspects qui posent le plus de difficultés et de proposer des améliorations adaptées sans exploiter un nombre significatif d’annotations pour le sport amateur car celles-ci ne sont pas disponibles. Nous explorerons dans ce but des méthodes de transfert d’apprentissage [13, 6], s’appuyant éventuellement en partie sur des modèles génératifs.

Profil du candidat :
Étudiant(e) en 2ème année de Master, dernière année d’école d’ingénieur ou équivalent :

— Avec une expérience de stage(s) passé(s).

— Bonne maîtrise du domaine de l’apprentissage profond.

— Bonne connaissances de Python et de la librairie PyTorch.

— Une bonne maîtrise de l’anglais technique est indispensable.

Formation et compétences requises :
Étudiant(e) en 2ème année de Master, dernière année d’école d’ingénieur ou équivalent :

— Avec une expérience de stage(s) passé(s).

— Bonne maîtrise du domaine de l’apprentissage profond.

— Bonne connaissances de Python et de la librairie PyTorch.

— Une bonne maîtrise de l’anglais technique est indispensable.

Adresse d’emploi :
CEDRIC-Cnam, 2 rue Conté, 75003 Paris

Document attaché : 202312041222_Stage_CNAM_SportAMAT.pdf

Modelling partially observed dynamical systems with continuous-depth models

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISN/INRIA
Durée : 6 mois
Contact : thibault.monsel@universite-paris-saclay.fr
Date limite de publication : 2024-01-31

Contexte :
This internship is part of a larger project dedicated to building a bridge between Machine Learning and Dynamical Systems : inferring models more robust and less data hungry thanks to physics-based constraints, inspecting the behavior of the models, providing some online guarantees, and relating Physics and computational regularities to improve the model understanding and assessment. The connection between Physics and Machine Learning is nowadays considered in both directions and the scientific construction of this domain is underway. The internship will focus on developing new approachs of modelling dynamical systems as a whole. For the first part of the internship, the intern will get up to speed with continuous-depth models like href{https://arxiv.org/abs/1806.07366}{neural ODE} and href{https://arxiv.org/abs/1904.01681}{augmented Neural ODE}. For the second part of the internship, new research ideas will be explored like href{https://arxiv.org/pdf/2306.14545.pdf}{delayed differential equations}. The candidate is expected to be proactive and have a keen sense of critical thinking. The aim of the internship will be to publish the work in a conference/journal.

Sujet :
Modelling partially observed dynamical systems with continuous-depth models

Profil du candidat :
The candidate should have a solid background in statistics, machine learning and/or applied maths;
knowledge in Python language is required with frameworks like Pytorch/ Tensorflow/JAX. Some background in physics is appreciated too since the intern will train models on datasets from numerical simulations of physical systems. Any knowledge and experience in functional programming is a bonus.

Formation et compétences requises :
The candidate should have a solid background in statistics, machine learning and/or applied maths;

knowledge in Python language is required with frameworks like Pytorch/ Tensorflow/JAX. Some background in physics is appreciated too since the intern will train models on datasets from numerical simulations of physical systems. Any knowledge and experience in functional programming is a bonus.

Adresse d’emploi :
Campus Universitaire bâtiment 650, 1 rue Raimond Castaing, 91190 Gif-sur-Yvette

Document attaché : 202312041200_Offre_Stage_LISN_INRIA_M2.pdf

Data Integration and Querying through Scalable Neural Data Representations for Data Lakes

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6, Sorbonne Université
Durée : 6 mois
Contact : rafael.angarita@lip6.fr
Date limite de publication : 2024-03-31

Contexte :
Data lakes are collections of massive heterogeneous datasets hosted in a variety of storage systems. In contrast to data warehouses where the data has been transformed to answer specific queries, data lakes store raw unformatted data ranging from structured data such as relational tables, semi-structured data such as JSON documents, and unstructured data such as textual documents with no predefined schema or data model. Integrating such heterogeneous data is a crucial steps towards providing a unified and coherent view of the information within a data lake; however, traditional integration approaches still have difficulties when dealing with disparate data and fail at uncovering hidden relations within.

Neural data representations for databases are a novel approach for revealing hidden, latent information within the data using deep learning approaches. Some applications for queries over neural representations of data include fact-checking, table metadata generation, and content prediction in relational tabular data, as well as the discovery of missing links in knowledge graphs. However, neural data representations approaches cannot yet be applied to data lakes since they lack expressiveness to perform complex query and they do not handle large volumes of data efficiently

Sujet :
In this project, we aim to investigate and develop new methods for integrating and querying heterogeneous data within data lakes using deep learning models. This raises the following technical challenges: how to encode the semantics of heterogeneous datasets into the embedding learning process, reconciling datasets with different schemas and with incomplete and noisy data.

Internship goals and tasks:
• Literature review: Conduct a comprehensive literature review to understand existing methods and frameworks starting by the three categories presented above: Neural Tabular Data Representations, Knowledge Graph Embeddings, and Scaling Up Neural Representations of Databases.
• Data collection: Collection of a diverse range of heterogeneous data sources, including structured (e.g., tables) and unstructured data. For structured data, there exists several datasets such as WikiTables-TURL, WDC Web Table Corpus and VizNet. These datasets are used for different tasks such as question answering, semantic parsing, table retrieval, table metadata prediction and table content population.
• Scalable Querying of Neural Data Lakes: executing queries that necessitate the combination of results from these diverse neural data representations. This approach aims to deliver more complete answers, surpassing what can be achieved by querying each model in isolation.
• Comparative evaluation: Design experiments and benchmarks to evaluate the effectiveness of the proposed approach in generating embeddings for querying data lakes. Note that existing benchmarks are specific to certain downstream tasks such as question answering and fact checking for tabular data, and link prediction for knowledge graph; so the challenge of this tasks on designing a benchmark to test the intrinsic capabilities of neural representations of data lakes.

Profil du candidat :
Computer Science

Formation et compétences requises :
The candidate should have excellent experience in algorithmic and programming in Python and advanced knowledge in machine learning and relational and non-relational databases.

Adresse d’emploi :
LIP6, Sorbonne Université. 4 Place Jussieu75005 Paris.

Document attaché : 202312041116_Stage_LIP6_2024.pdf