Performance of tensor-based machine learning methods for large-scale data

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut de Recherche en Informatique de Toulouse
Durée : 5 to 6 months
Contact : henrique.goulart@irit.fr
Date limite de publication : 2022-04-30

Contexte :
Several machine learning problems can be addressed by leveraging
tensor methods, especially in unsupervised settings. This approach typically relies on estimating a low-rank tensor model from a noisy dataset, which is usually a challenging task. In general, it is difficult to anticipate the best (or the actual) estimation performance that can be attained. Nevertheless, recent years saw substantial progress in this direction, with many authors studying the attainable performance of estimators of such models under the assumption that the dimensions of the observed data tensor are large. This setting is particularly relevant for large-scale (also known as “big data”) scenarios, where a large number of observations is available.

Sujet :
The primary goal of this internship is to explore the implications of these recent results for some selected practical machine learning problems such as community detection in hyper-graphs, latent variable model estimation and high-order co-clustering. The intern will thus perform computer simulations aimed at understanding the behavior of estimation algorithms in these target problems, whose performance will be confronted to the existing theoretical predictions. New algorithms and strategies for dealing with these problems may be developed based on the the experimental findings. Scientific dissemination of these developments will be encouraged, via publication of papers and/or participation in scientific events.

Please see the attached file for more information.

Profil du candidat :
We look for strongly motivated candidates with a solid background on mathematics and statistics, having good programming skills in scientific computing languages (Python, Matlab, Julia).

Formation et compétences requises :
Optimization theory, linear algebra, probability and statistics. Knowledge/interest in tensors is a strong plus.

Adresse d’emploi :
2 rue Charles Camichel, 31071 Toulouse

Document attaché : 202112231624_sujet-stage.pdf

Ingénieur.e Data Scientist Projet INSPIRE

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : RESTORE – INSERM
Durée : 8 mois
Contact : isabelle.ader-perarnau@inserm.fr
Date limite de publication : 2022-04-30

Contexte :
Le nouveau centre de recherches RESTORE aborde de façon pluridisciplinaire l’étude de l’homéostasie tissulaire chez l’adulte, son vieillissement (normal et/ou pathologique) et les stratégies de réjuvénation possibles. L’originalité du laboratoire est la façon de penser une science transdisciplinaire au-delà de la seule biologie. La participation d’équipes partenaires provenant de champs
disciplinaires autres que la biologie (mathématiques, physique, chimie, informatique) permet une véritable recherche transversale.

Sujet :
La personne recrutée participera au sein de l’unité au projet structurant INSPIRE qui a pour objectif de mieux comprendre les processus biologiques du vieillissement et ainsi définir un âge
physiologique au-delà du simple âge civil ou chronologique et l’identification de biomarqueurs du vieillissement. Sa mission sera de concevoir et d’organiser la collecte et le traitement de données sous la responsabilité d’un référent scientifique.

Activités

Profil du candidat :
Docteur en Science des données et/ou Bio-Informatiques

Formation et compétences requises :
Compétences souhaitées
• Machine Learning : Connaissance des principales méthodes d’apprentissage automatique (SVM, Random forest, Réseaux convolutionnels…)
• Statistique : Description et visualisation des données, tests, clustering, modèles linéaires…
• Bioinformatique : Analyse de séquences, annotations taxonomiques et fonctionnelles, interprétation de données de masse…
• Cadre légal et déontologique
• Langue anglaise : B2 à C1 (cadre européen commun de référence pour les langues)

Adresse d’emploi :
RESTORE 4 bis avenue Hubert Curien, 31100 Toulouse

Document attaché : 202112211415_CDD Restore.pdf

La fouille de données et l’analyse informatique de réactions chimiques

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : GREYC (Groupe de recherche en informatique, image
Durée : six mois
Contact : bertrand.cuissart@unicaen.fr
Date limite de publication : 2022-04-30

Contexte :
Le projet AMPERE (stAtistically Motivated oPtimizations for ElectRosynthEsis) est porté par les laboratoires GREYC (UMR6072, INS2I) et LIMA (UMR7042, INC). Il rassemble une communauté d’informaticiens et de chimistes afin de développer des processus d’aide à la décision facilitant la découverte et l’optimisation de transformations chimiques innovantes s’inscrivant dans le contexte du développement durable. Le consortium du projet AMPERE souhaite mettre au point un outil d’optimisation adapté aux transformations électrochimiques, réactions répondant par définition aux critères de soutenabilité des processus réactionnels. Dans le domaine de l’électrochimie, il est difficile de développer ce type d’outil informatique en raison de la multiplicité des paramètres expérimentaux, de la diversité de leurs natures (continus et discontinus) et de la complexité de leurs interactions. Des efforts isolés pour lever ce verrou apparaissent depuis 2018 mais le développement d’un outil d’aide à la décision, puissant et versatile, permettra de démocratiser l’utilisation de l’électrochimie dans les laboratoires académiques et industriels, et d’accélérer la mise au point de processus chimiques sobres en ressources et énergie. Cet enjeu majeur fait l’objet de recherches actives dans les meilleurs laboratoires aux États-Unis et en Allemagne.

Sujet :
Le stage s’inscrit dans le projet mentionné au-dessus. Il a pour objectif de produire une première analyse des réactions produites par les chimistes du projet. Dans un premier temps, en collaboration avec l’encadrement, le stagiaire s’appropriera les méthodes actuelles de représentation et d’analyses des réactions chimiques. Ensuite, il donnera les éléments qui permettront aux scientifiques impliqués de faire les choix concernant la représentation des réactions, les techniques d’analyse adoptées.
Enfin, il implémentera ces choix et les évaluera pratiquement sur les données produites par le projet.

Profil du candidat :
Le stage s’adresse à un étudiant en Informatique dans le cadre du M2 ou de la cinquième année d’école d’ingénieur.

Le stage sera encadré par par deux chercheurs en informatique qui portent le projet, Jean-Luc Lamotte et Bertrand Cuissart.
Pour candidater, envoyez votre CV, vos relevés de notes et une lettre de motivation aux deux encadrants (prenom.nom@unicaen.fr).

Formation et compétences requises :
Le travail s’intégrant dans un projet de recherche informatique et orienté vers le traitement de données chimiques, le stagiaire devra assimiler des travaux récents de ce domaine, en étudiant les textes associés.
Il participera aux discussions sur les choix techniques, il aura la responsabilité de mettre en oeuvre un flot de traitement des réaction chimiques et d’en évaluer expérimentalement l’intérêt pratique.
La mission nécessite des connaissances informatiques concernant l’algorithmie des graphes, la fouille de données, un intérêt pour l’étude de la littérature scientifique ainsi que les compétences techniques pour réaliser un nouveau processus d’analyse de données.

Adresse d’emploi :
6 Boulevard du Maréchal Juin
Bâtiment Sciences 3
CS 14032, 14032 CAEN cedex 5

Research Engineer – Intent-Based Networking

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CEDRIC, CNAM
Durée : 4 months
Contact : elena.kornyshova@cnam.fr
Date limite de publication : 2022-04-30

Contexte :
Location : Conservatoire National des arts et Métiers, CEDRIC Lab, 2, rue Conté 75003 Paris France
Salary: gross income 1800€-1900€ per month
Duration: 4 months
Starting date: Around April 2021

Intent-Based Networking (IBN) is a growing trend allowing to take into account users’ intents by hiding details of the network objects and services [1]. It consists in specifying an additional intermediate layer between business and network layers within a networking architecture [2]. IBN is developed to support business goals and to translate them into policies implementing “What to achieve”. Thus, IBN is mainly considered as policy-based network management [3] [4] and is often related to Software Defined Network (SDN) [1] [2] [5] or Software Defined Exchange (SDX) [6] [7]. The intent consideration is done at the control level by adding an API [1] [6].

Sujet :
The number of works around IBN increases constantly. An effort to summarize research in this field was done in [2]. The authors analyze the emergence of IBN in networking standards, distinguish two levels of intents consideration: high-level descriptions and lower-level configurations, classify the existing work with regards to three layers of IBN architecture: business, intent, and network layers, and define open issues mainly related to the intent representation and introduction of Machine Learning algorithms in IBN.
Since then, several tens of papers were published on this topic (around 40 only for 2021). The goal of this project is to provide an updated state-of-the-art on the existing literature and research agenda in the field of IBN with particular attention to the intent definition, intent formalization, underlying technologies, and algorithms.

References:
1. D. Comer and A. Rastegatnia, “OSDF: An Intent-based Software Defined Network Programming Framework,” 2018 IEEE 43rd Conference on Local Computer Networks (LCN), Chicago, IL, USA, 2018, pp. 527-535. doi: 10.1109/LCN.2018.8638149
2. Engin Zeydan and Yekta Turk, “Recent Advances in Intent-Based Networking: A Survey,” 2020 IEEE 91st Vehicular Technology Conference (VTC2020-Spring), 2020, pp. 1-5, doi: 10.1109/VTC2020-Spring48590.2020.9128422.
3. Benjamin E. Ujcich; Adam Bates; William H. Sanders, “Provenance for Intent-Based Networking,” 2020 6th IEEE Conference on Network Softwarization (NetSoft), 2020, pp. 195-199, doi: 10.1109/NetSoft48620.2020.9165519.
4. Kashif Mehmood, H. V. Kalpanie Mendis, Katina Kralevska, Poul E. Heegaard. 2021. Intent-based Network Management and Orchestration for Smart Distribution Grids. In: 28th International Conference on Telecommunications (ICT 2021) pp. 1-6. Doi: 10.1109/ICT52184.2021.9511519
5. Mykola Beshley; Andrii Pryslupskyi; Oleksiy Panchenko; Halyna Beshley, “SDN/Cloud Solutions for Intent-Based Networking,” 2019 3rd International Conference on Advanced Information and Communications Technologies (AICT), 2019, pp. 22-25, doi: 10.1109/AIACT.2019.8847731.
6. Singh, Amritpal, Gagangeet Singh Aujla, and Rasmeet Singh Bali. 2020. “Intent-Based Network for Data Dissemination in Software-Defined Vehicular Edge Computing.” IEEE Transactions on Intelligent Transportation Systems, 1–9. https://doi.org/10.1109/TITS.2020.3002349.
7. J. Pan, McElhannon, “Future Edge Cloud and Edge Computing for Internet of Things Applications”. IEEE Internet of Things Journal 5 (1): 439–49, 2017.

Profil du candidat :
Requirements:
Master’s degree in computer science, computer engineering, or telecommunications engineering. Strong knowledge in computer networks, knowledge in information systems.

Formation et compétences requises :
To apply:
Send a detailed CV (resume) (in English), a motivation letter (in English), copy of official transcript of student record (B.Sc and M.Sc) (and translation if not in French or English), letters of reference and a copy of the master thesis and/or internship report(s) to elena.kornyshova@lecnam.net before the January 31st, 2022.

Adresse d’emploi :
2, rue Conté, Paris 75003, France

MCF in Computer Science – Green AI

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ENSEA / ETIS lab
Durée : Permanent
Contact : dan.vodislav@u-cergy.fr
Date limite de publication : 2022-04-30

Contexte :
An MCF position in Computer Science at ENSEA, sections 61-27, will be published in the synchronized session 2022. The position will be attached in research to the ETIS laboratory (https://www.etis-lab.fr/), to one of the MIDI or Neuro teams, and in teaching to ENSEA (https://www.ensea.fr/fr).

Sujet :
See the profile description in attachment.

Contacts
Research – Olivier Romain, head of ETIS (olivier.romain@cyu.fr), Dan Vodislav, head of the MIDI team (dan.vodislav@cyu.fr), Alexandre Pitti, head of the Neuro team (alexandre.pitti@cyu.fr).
Teaching – Aymeric Histace (aymeric.histace@ensea.fr).

Profil du candidat :
See the profile description in attachment.

Formation et compétences requises :
See the profile description in attachment.

Adresse d’emploi :
6, avenue du Ponceau
95 014 Cergy-Pontoise Cedex

Document attaché : 202112182251_MCF-ENSEA-ETIS.pdf

Learning and analyzing spatio-temporal objects from high resolution satellite image time series

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRISA
Durée : 3 ans
Contact : charlotte.pelletier@univ-ubs.fr
Date limite de publication : 2022-03-25

Contexte :
On March 7, 2017, the European Space Agency (ESA) successfully put its latest high-resolution satellite Sentinel-2B into orbit. The two Sentinel-2 satellites are now capturing images of all emerged surfaces every 2 to 5 days at high spatial and spectral resolutions, which makes it possible to monitor the evolution of land surfaces on a global scale. Satellite image
time series (SITS) extracted from Sentinel-2 constellations are useful for many applications such as land cover mapping [1], crop type mapping, soil moisture estimation, burnt area detection, and many more. Similarly, high resolution satellite image time series, such as the one provided by Pl ́eiades, are relevant for urban area analysis, disaster risk management,
and rapid mapping.

Due to their volume and complexity, the analysis of these spatio-spectro-temporal datacubes requires automatic tools. Recent advances have been marked by the use of deep learning techniques to make the most of the temporal structure of SITS. It includes temporal 1D convolutions [2], recurrent networks [3], or attention-based architectures [4]. There were also several attempts to jointly exploit the spatial and temporal dimensions of SITS data by the means of deep learning [5, 6, 7]. Although these approaches have proven their efficiency, they suffer from two main issues: (i) they require a vast amount of high-quality labelled data, and (ii) they ignore previous trends in remote sensing, especially contributions from
the object-based image analysis (OBIA) [8]. Ensuring a convergence between these two distinct paradigms would allow embedding more structural and semantic information in the process. Preliminary attempts to couple the two paradigms need to be pursued [9].

Sujet :
Since only a few attempts exist to jointly use temporal relationships between satellite images and their intrinsic spatial structure in deep learning, the Ph.D. aims at developing novel deep learning architectures for the generation of spatio-temporal objects with no or limited supervision. It will be composed of two main objectives: (i) developing new techniques to
structure raw SITS data into spatio-temporal objects, and (ii) analysing spatio-temporal objects.

First, we will consider the task of extracting objects from SITS as either a temporal sequence of 2D objects or directly 3D (i.e., spatio-temporal) objects with no or a few supervision. For this task, we will propose new unsupervised deep learning strategies that take inspiration from self-supervised strategies [10] and go much further than the segmentation networks introduced recently in the literature, e.g. based on auto-encoders such as W-Net [11], or having new loss formulation [12]. We will also consider the case where a weak reference is available as we know that prior knowledge can be used to guide the extraction of objects. In our setting, this prior knowledge can come from sparse, single-date, and low-resolution
reference data (e.g., Corine Land Cover) or from the application of a ruleset, applied to each image of the SITS, which enriches the objects with some semantics. Compared to computer vision algorithms used for instance segmentation such as Mask-RCNN, the novelty will be to take into account both spatial and temporal structures of SITS data, to deal with the lack of quality labelled reference data at the object level, and to provide a full partition of the input data.

Second, we will develop new methods to analyze the produced spatio-temporal objects. We will still consider the deep learning framework as a methodology to perform object-based time series analysis. To do so, we will represent objects as nodes in a spatio-temporal graph, such as Graph CNNs [13] and their formulation in the spatio-temporal domain [14]. This representation will be then used for classical applications such as land cover mapping. We will also propose and evaluate similarity measures between nodes in the graph representation to cluster the data.

Profil du candidat :
We are looking for a candidate with strong data analysis, machine learning, and image processing skills, who is familiar with deep learning techniques.

Formation et compétences requises :
The candidate should have excellent programming skills in at least one language (Python, C/C++, etc.). Knowledge of time series analysis and remote sensing techniques will be appreciated. Good communication skills (at least in English) are required.

Adresse d’emploi :
Université Bretagne Sud
Laboratoire IRISA
Campus de Tohannic
56 000 Vannes

Document attaché : 202112171454__CNES__Ph_D__offer.pdf

Apprentissage de représentation de formes 3D appliqué à la physique du spray

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS lab., University of Rouen Normandy, Rouen, F
Durée : 6 mois
Contact : simon.bernard@univ-rouen.fr
Date limite de publication : 2022-03-31

Contexte :
Ce stage se déroule dans le cadre d’une collaboration entre le laboratoire LITIS, le laboratoire d’informatique et des sciences de l’information de Rouen, et le CORIA, le laboratoire de thermochimie de Rouen, spécialisé dans l’étude de flux réactifs et non-réactifs.
Cette collaboration vise à concevoir des outils de simulation numérique basés sur l’apprentissage automatique plutôt que sur le calcul numérique comme cela est traditionnellement le cas dans ces domaines de la physique. La simulation par calcul numérique est généralement très couteuse en ressources de calcul car elle repose sur des modèles mathématiques complexes. L’idée générale des travaux en cours menés conjointement par le LITIS et le CORIA est de substituer l’apprentissage automatique au calcul numérique pour produire ces simulations précises, à moindre coût.
Ce stage poursuit cet objectif pour des applications de simulation d’atomisation. L’atomisation, ou pulvérisation, est la transformation d’un liquide en spray de fines particules, ou gouttelettes. On rencontre ce processus dans de nombreuses applications comme l’injection de carburant, l’irrigation par aspersion, le séchage par pulvérisation ou l’extinction des incendies. Une des enjeux importants de ces applications est de pouvoir prédire la taille des gouttes qui se forment en fin de processus. Par exemple, c’est l’un des principaux facteurs des émissions finales des moteurs automobiles.

Sujet :
Le but de ce stage est d’utiliser des méthodes d’apprentissage machine (Machine Learning) et en particulier des méthodes d’apprentissage profond, pour prédire la probabilité de rupture d’une goutte au cours du processus d’atomisation. Cette probabilité tient une place important dans la simulation des processus d’atomisation car elle permet in fine de déterminer la distribution des tailles des goutellettes finales.

Le candidat retenu mettra en œuvre les méthodes d’apprentissage automatique à partir de données obtenues grâce à une méthodologie de simulation numérique. Ces données représentent des volumes 3D de gouttes, qui se déforment tout au long de la pulvérisation. Ces données présentent deux défis principaux du point de vue de l’apprentissage automatique:
– il s’agit de séquences de volumes de 64x64x64 voxels, eux-même décrits par 6 descripteurs numériques. Il s’agit donc de données complexes, avec des contraintes spatiales et temporelles, et décrites en très grande dimension au regard du nombres de données disponibles.
– cette base de données est constituées d’une large majorité de gouttes qui ne se rompt pas à l’issue de la séquences. C’est donc un problèmes de classification à deux classes, avec des classes très déséquilibrées.

Ce stage vise à affronter ces défis à l’aide de méthodes d’apprentissage modernes, pour : i) proposer des méthodes de ré-équilibrage des classes et/ou d’augmentation de données, ii) proposer une méthode d’apprentissage de représentation sur le volume initial (i.e. en début de séquence) et iii) prendre en compte la séquence pour fiabiliser la prédiction.

Profil du candidat :
Étudiant en informatique ou mathématiques appliqués avec une spécialisation dans la science des données et l’apprentissage automatique.

Formation et compétences requises :
– Étudiant en Master 2 ou dernière année d’école d’ingénieurs, dans une spécialité de l’informatique ou des mathématiques appliquées
– Compétences requises en apprentissage automatique et en programmation (Python de préférence)
– Intérêt personnel pour la physique

Adresse d’emploi :
Laboratoire LITIS
Université de Rouen Normandie
Campus du Madrillet
Saint Étienne du Rouvray, France

Document attaché : 202112171448_Stage_LITIS_2021-2022.pdf

Détection de la variation graphique dans une langue non standardisée (dialectes alsaciens)

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LiLPa (Linguistique, Langues et Parole), Universit
Durée : 4 à 6 mois
Contact : ruizfabo@unistra.fr
Date limite de publication : 2022-01-07

Contexte :
Les langues peu dotées présentent des défis spécifiques pour le Traitement Automatique des Langues (TAL) ; le manque de ressources textuelles volumineuses complique l’utilisation d’approches empiriques et, dans certains cas, comme celui de l’alsacien, l’absence d’une orthographe standardisée nécessite de gérer la variation graphique. Dans ce contexte, le projet MeThAL (Laboratoire LiLPa, Université de Strasbourg) est en train de créer un corpus large de théâtre en alsacien qui aidera à la création de ressources linguistiques pour les dialectes alsaciens ainsi qu’à une étude quantitative de la tradition dramatique alsacienne. Dans le cadre du projet, environ 4 000 pages de texte océrisé corrigé ont été produites, sur la base de numérisations en mode image créées par la Bibliothèque nationale et universitaire de Strasbourg. Une interface permet d’explorer les textes et métadonnées disponibles, et un sous-corpus de 300 000 tokens encodé selon les recommandations de la Text Encoding Initiative (TEI) a été publié. Pour pouvoir comparer le contenu des textes du corpus et effectuer des analyses thématiques ou textométriques, une représentation orthographique homogène du vocabulaire est nécessaire, et une neutralisation des variantes graphiques est incontournable. Elle serait aussi utile pour offrir une recherche en texte intégral sur le corpus.

Plusieurs approches ont été proposées pour la détection de la variation graphique. La plupart d’entre elles procèdent par normalisation, c’est-à-dire la transformation des variantes vers une forme standard. Une telle approche n’est pas applicable aux dialectes alsaciens, en raison de l’absence de standard orthographique stable. Millour & Fort (2019) ont utilisé le crowdsourcing pour collecter auprès des locuteurs de l’alsacien différentes graphies d’un mot donné. Les variantes alignées sont utilisées pour extraire automatiquement des règles de variation puis apparier automatiquement des graphies alternatives potentielles. Des méthodes non supervisées de clustering ont également été adoptées (Dasigi & Diab, 2011; Rafae et al., 2015). L’utilisation de ressources externes comme des lexiques bilingues ou des réseaux sémantiques multilingues a été proposée par Bernhard (2014). Il est également possible d’utiliser des méthodes supervisées, qui nécessitent toutefois des corpus annotés permettant d’identifier les variantes. Par exemple, Barteld et al. (2019) génèrent des variantes candidates qui sont ensuite filtrées à partir des n-grammes de caractères qu’elles contiennent et la similarité de leurs plongements de mots, ainsi que leurs contextes d’occurrence.

Sujet :
Dans le cadre du stage, il s’agira dans un premier temps d’explorer les habitudes de scripturalisation (utilisation de certains caractères et n-grammes de caractères) en fonction des métadonnées disponibles (auteur, lieu de naissance, lieu de publication, maison d’édition, date, genre). La discriminativité des tendances dégagées pourra être éprouvée sur des tâches de classification en fonction des métadonnées. Le corpus pourra éventuellement être enrichi à l’aide d’un étiquetage morphosyntaxique automatique, dont la qualité sera à évaluer, compte tenu des spécificités du corpus (genre, période) : un intérêt particulier du corpus est son caractère non-contemporain (1870-1940) ; il présente des divergences orthographiques par rapport aux pratiques actuelles qui demandent une adaptation des ressources existantes. Les activités suivantes sont prévues :

– Description approfondie du corpus (globale et par sous-corpus) : fréquence de caractères, de n-grammes, etc. (et, éventuellement, comparaison avec d’autres corpus de périodes plus récentes)
– Identification des propriétés discriminantes (p. ex. en proposant une représentation vectorielle des textes basée sur les différentes propriétés choisies)
– Induction de règles de variation et extraction automatique de paires de variantes au sein du corpus. Comparaison du résultat avec celui issu de l’application des règles obtenues par Millour & Fort, (2019) ; des différences sont attendues en raison des périodes des corpus respectifs
– Évaluation et proposition d’amélioration de la méthode

Références

Barteld, F., Biemann, C., & Zinsmeister, H. (2019). Token-based spelling variant detection in Middle Low German texts. Language Resources and Evaluation, 53(4), 677–706. https://doi.org/10.1007/s10579-018-09441-5

Bernhard, D. (2014). Adding Dialectal Lexicalisations to Linked Open Data Resources: The Example of Alsatian. Proceedings of the Workshop on Collaboration and Computing for Under Resourced Languages in the Linked Open Data Era (CCURL 2014), 23–29. https://hal.archives-ouvertes.fr/hal-00966820

Dasigi, P., & Diab, M. (2011). CODACT: Towards Identifying Orthographic Variants in Dialectal Arabic. Proceedings of 5th International Joint Conference on Natural Language Processing, 318–326. https://aclanthology.org/I11-1036

Millour, A. & Fort, K. (2019). Unsupervised Data Augmentation for Less-Resourced Languages with no Standardized Spelling, RANLP, 776–784. https://aclanthology.org/R19-1090.pdf

Rafae, A., Qayyum, A., Moeenuddin, M., Karim, A., Sajjad, H., & Kamiran, F. (2015). An Unsupervised Method for Discovering Lexical Variations in Roman Urdu Informal Text. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 823–828. https://doi.org/10.18653/v1/D15-1097

Profil du candidat :
Master en Informatique ou Traitement automatique des langues. Intérêt pour les problématiques du stage.

Formation et compétences requises :
Master en Informatique ou Traitement automatique des langues. Intérêt pour les problématiques du stage.

Adresse d’emploi :
Télétravail ou hybride au Laboratoire LiLPa (Linguistique, Langues et Parole, Université de Strasbourg). 61, av. des Vosges, 67000 Strasbourg.

Document attaché : 202112171335_stage_variation_alsacien.pdf

Méthodes d’apprentissage profond pour la segmentation du cerveau de la souris

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CRMBM et insitut Fresnel
Durée : 6 mois
Contact : andre@fresnel.fr
Date limite de publication : 2022-04-01

Contexte :
L’IRM, une modalité d’imagerie biomédicale permettant de collecter des informations anatomiques, physiologiques, fonctionnelles et métaboliques, est employée dans l’étude de modèles souris de maladies cérébrales afin de mieux comprendre le développement des pathologies, d’identifier de possibles biomarqueurs d’intérêt diagnostique ou pronostique et d’évaluer l’efficacité de nouvelles thérapies. L’IRM du cerveau de souris nécessite le développement d’outils d’analyse automatisés permettant la segmentation d’un très grand nombre d’images de façon précise et reproductible, la tâche de segmentation manuelle étant longue et fastidieuse.

Sujet :
Les derniers développements en intelligence artificielle, comme le réseau de neurones convolutifs U-net spécifiquement conçu pour la segmentation automatique d’images, sont particulièrement performants. Bien que l’étape d’apprentissage des réseaux de neurones puisse être longue et complexe, l’étape de prédiction est quant à elle simple et rapide. Ce dernier point constitue le principal intérêt de l’apprentissage profond à base de réseau de neurones pour notre application. Les objectifs de ce stage sont multiples : réaliser un état de l’art des différentes méthodes d’apprentissage profond pour la segmentation du cerveau de la souris, implémenter et entrainer des réseaux les plus pertinents sur notre base de données. Selon l’avancement du stage, deux choix seront possibles, orientés vers l’ingénierie ou la recherche. Le premier consistera à intégrer au système en place une solution existante répondant au problème. Le second concernera la recherche de solutions méthodologiques novatrices. Dans les deux cas, la constitution d’une base d’apprentissage et l’entraînement de réseaux (éventuellement sur un centre de calcul régional) seront réalisés.

Profil du candidat :
La/le stagiaire recruté(e) devra faire preuve d’autonomie et d’initiative, avec des compétences avérées en programmation en langage Python et un fort intérêt pour le domaine de l’intelligence artificielle par réseaux de neurones

Formation et compétences requises :

Ce stage s’adresse aux étudiants de M2 ou d’école d’ingénieurs en traitement du signal/image ou sciences des données

Adresse d’emploi :
Centre de Résonance Magnétique Biologique et Médicale – UMR 7339

Faculté de Médecine, 27 Bd Jean Moulin, 13385 Marseille

Document attaché : 202112170939_sujet-master-segmentation21-22_ER-RA-ER-AV-ER.pdf

Fully Funded PhD – ICube, Strasbourg, France: Domain invariant interpretable representation learning

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube, University of Strasbourg
Durée : 3 years
Contact : lampert@unistra.fr
Date limite de publication : 2022-04-01

Contexte :
A fully funded PhD position is open at the University of Strasbourg (ICube). The position will be jointly funded by the French National Centre for Space Studies (CNES) and the Chair SDIA. The candidate will join the SDC research team under the supervision of Dr Thomas Lampert, the Chair of Data Science and Artificial Intelligence, and join his international team to develop novel deep learning approaches to domain invariant representation learning for satellite image time-series (SITS).

Sujet :
It is difficult and expensive to annotate the huge amount of data generated by satellites, but this is needed for the success of deep learning algorithms. To overcome this, transfer learning and domain adaptation techniques will be developed to exploit unlabelled data. These techniques allow an algorithm’s performance to be improved with minimal (or potentially no) additional annotation, lowering the cost of deployment.

The goal of the project is to develop models for learning domain invariant representations using deep learning for the analysis of satellite image time-series.

Detailed Description: https://drive.google.com/file/d/1W92enhzhKLJ0_IjD4pSSMYHw-y6SxQdj/view?usp=sharing

Profil du candidat :
The successful candidate will have (or will soon obtain) an MSc in Computer Science or related subject. Experience with deep learning is required and experience with time series and/or remote sensing is a bonus.

Formation et compétences requises :
MSc in Computer Science or related subject
deep learning

Adresse d’emploi :
ICube UMR 7357 – Laboratoire des sciences de l’ingénieur, de l’informatique et de l’imagerie
300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex