Integrating and exploring linked educational resources

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Laboratoire des Sciences du Numérique de Nantes (L
Durée : 3 ans
Contact : Patricia.Serrano-Alvarado@univ-nantes.fr
Date limite de publication : 2022-01-10

Contexte :
Context and motivation
Teachers have been digitizing their courses for a while and the ongoing digital transformation was accelerated by the Covid-19 lock-downs. Teachers usually search for open educational resources (OER) on the Web to reuse and combine in a course. There are many available, useful, and pertinent resources (slides, videos, figures, text, code, etc.), but finding them and organizing them in a course plan is challenging. Ideally, the necessary analysis of available resources to match a course plan and the licenses verification should not be time-consuming.

Thanks to semantic web technologies, this work aims to allow teachers to define a sketch of a new course from which a set of relevant and license compatible educational resources will be suggested for her course. The course sketch may contain metadata such as the intended license of the course, learning outcomes, the knowledge required, knowledge attempted, skills expected, an initial course syllabus, expected duration, targeted competencies, etc. Machine-readable semantic annotations will help link and enrich educational resources thanks to well-known ontologies.

Sujet :
Problem statement
A compatibility graph of licenses [1] can allow producers of educational resources to know which license(s) can protect a combination of resources. When licenses of combined resources are incompatible, it is not possible to license the course. In that case, it is necessary to discard resources that are protected by conflicting licenses. However, this may lead to a query with empty results, i.e., the combination of educational resources is not possible without infringing licenses. Thus, given a course sketch and a set of licensed educational resources, how to guarantee to produce a course whose license is compliant with the licenses of the reused resources? The issue is to relax the course sketch goal to propose relevant, alternative, and license compatible educational resources to be combined in a course.

Ontology-based relaxation allows seeking alternative solutions to expand the scope of a query [2,3]. In [4], we propose a license-aware query processing strategy for distributed queries in the Web of Data. Our contribution allows us to detect and prevent license conflicts during distributed query processing. But, in the context of educational resources, several issues arise, for instance, (1) how semantically define a query from a course sketch, (2) how to define a ranking strategy of matching educational resources, and (3) how to guarantee a result set with a minimal number of pertinent educational resources.

Objectives
The objective of this PhD thesis is to propose a query processing strategy to explore a knowledge graph of educational resources. In particular, the following challenges will be leveraged.
– Defining a complex SPARQL query from a course sketch containing join, union, filter, optional operators, etc.
– Defining a ranking strategy that, based on the enrichment of the educational resources, will provide an ordered set of relevant resources for a course sketch.
– Defining a query relaxation strategy that guarantees a minimal number of relevant and license compatible educational resources. Ontology-based relaxation will be used to expand the scope of the query goals.
Contributions will be validated experimentally and published on high-quality international conferences and workshops.

MORE INFORMATION AT https://bit.ly/2ZZq2w0

Profil du candidat :
Master in computer science or equivalent; good programming skills in Java, JavaScript, Web applications, Python; good basis on semantic web technologies (RDF, OWL, SPARQL); good oral and written communication skills in English (French is not required).

Formation et compétences requises :
To apply: send your application to serrano-p@univ-nantes.fr with a detailed curriculum vitae, grade transcripts (with your classement), two references, and your BSc/MSc theses as PDF. Applications will be received until the position is filled.

Adresse d’emploi :
2 Rue de la Houssinière, 44322 Nantes
Faculté des Sciences et des Techniques
Université de Nantes

éveloppement d’une approche d’intégration de données multi-omiques pour expériences multi-groupes

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : INRAE & Pierre Fabre Cosmétique
Durée : 3 ans
Contact : nathalie.vialaneix@inra.fr
Date limite de publication : 2021-12-31

Contexte :
Le développement des approches haut débit en biologie permet maintenant la production massive de données omiques pour des contextes applicatifs variés. Ces données sont fréquemment obtenues sur les mêmes individus à divers niveaux de l’échelle du vivant (transcriptomique, métabolomique, protéomique, lipidomique, métagénomique, …), sous des formats très variées (données de comptage, spectres, images, …) qui ne sont pas toujours directement interprétables d’un point de vue biologique, sont de très grande dimension (de nombreuses caractéristiques sont mesurées simultanément) et ont été obtenues pour un nombre d’échantillons qui reste modeste en comparaison du nombre de mesures effectuées. Il s’agit alors de les mettre en relation entre elles et avec les informations cliniques et le plan d’expérience complexe dans lesquelles elles ont été produites.
Si certaines analyses statistiques, comme l’analyse différentielle des diverses mesures relative à une donnée omique en relation avec des groupes d’individus (contrôles / traités par exemple) est maintenant bien balisée pour la plupart des types d’omiques, les besoins en méthodes d’intégration de données, c’est à dire en méthode capable d’extraire de l’information en combinant les vues provenant de plusieurs omiques, sont en pleine expansion et sont un sujet de recherche actif.
Pierre Fabre Cosmétique est engagé dans de multiples projets dans lesquels ce type de problèmes se pose et où des données omiques multiples ont été acquises. Les questions relatives à la combinaison de données omiques y sont posées soit sous la forme d’une problématique d’association (quels sont les éléments moléculaires – métabolites, bactéries, … – que l’on retrouve en association dans les échantillons entre deux types d’omiques), soit sous la forme de la recherche de biomarqueurs (quels sont les éléments descripteurs d’un état phénotypique mesuré au travers de données cliniques multiples). Elles sont également systématiquement associées à un plan d’expérience dans lequel les échantillons sont structurés en groupes qu’il faut prendre en compte pour répondre à la question biologique ou clinique sous-jacente.

Sujet :
L’objectif de la thèse sera positionné sur le développement méthodologique pour l’intégration de données avec une implémentation et application aux données du projet. De manière plus précise, il s’agira de développee une approche à noyau (et d’un outil associé interactif et intuitif) pour l’intégration d’une paire de données omiques dans un cadre exploratoire et de problématiques d’association. L’approche développée durant cette thèse se veut flexible (adaptable à des types de données très variées), interprétable (capable d’identifier les variables importantes) et capable de prendre en compte le protocole expérimental et les groupes d’échantillons définis a priori pour proposer des interprétations communes et spécifiques de la question initiale au regard de ces groupes. L’approche développée sera déclinée pour l’interprétation biologique dans les divers projets de Pierre Fabre Cosmétique inclus dans la thèse.

Profil du candidat :
Nous recherchons un candidat⋅e avec une solide formation en mathématiques appliquées et des aptitudes à la programmation (R et python). Une expérience préalable ou un goût pour les données issues de la biologie moléculaire serait un plus.

Formation et compétences requises :
Master 2 ou école d’ingénieur en mathématiques appliquées ou sciences des données.

Adresse d’emploi :
Toulouse

RESUMES : peRsonal knowlEdge baSe constrUction froM hEterogeneous Sources

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Télécom SudParis, Laboratoire SAMOVAR, Carian Soft
Durée : 3 ans
Contact : amel.bouzeghoub@telecom-sudparis.eu
Date limite de publication : 2022-01-10

Contexte :
This thesis is a CIFRE and a collaboration between Telecom SudParis and Carian Software Development. The position will start before October 2022.

Sujet :
RESUMES : peRsonal knowlEdge baSe constrUction froM hEterogeneous Sources

The Web is composed of many documents of different nature, such as texts, images, or videos. These documents contain information about a wide range of topics that are noisy, unstructured, and ambiguous. Therefore, exploiting this variety is a huge challenge. When it comes to information about humans, one could use specialized websites such as social media, forums, blogs, or personal websites. However, it raises many problems. For example: How can we, from a single source, extract knowledge about a person? How can we know that two accounts on two different websites represent a single person? How does a person communicate with others?

This kind of information can be valuable in many applications, and in particular for CV enrichment. Given a candidate’s resume, we would like to complement it with external sources such as Linkedin, Reddit, or GitHub. These additional clues can help a recruiter to make the appropriate decisions.

This thesis aims to construct a Personal Knowledge Base (PKB) from information gathered online to complement a resume. A personal knowledge base is a collection of structured statements about a person that can be queried and on which one can reason.

For example, let’s say we have a candidate called John. He has a GitHub page that we managed to link to his resume. We extracted statements such as “John, knows, Java” and “John, contributes to, Open Source projects” from his profile. These statements are now part of his PKB. Now, we find a StackOverflow account for the same username. This account answered many questions about Java. We might suppose that the two accounts belong to the same person, and therefore we can complete John’s PKB. Suppose we know that this John is a potential candidate for a company working on open source projects written in Java. In that case, we can boost his resume and present additional information to help the recruiter.

Profil du candidat :
See below.

Formation et compétences requises :
For this thesis, we will consider candidates with a master or engineer diploma with knowledge about several of the following skills:
* Fluent written and spoken English. Some knowledge of French can be useful.
* Machine/Deep Learning
* Natural Language Processing
* Very good level in a programming language like Python and experience in software development
* Information extraction
* Knowledge bases/Ontologies
* Logic and automated reasoning
* Semantic Web and Web crawling
* Experience in a research laboratory

Adresse d’emploi :
Telecom SudParis, 9 Rue Charles Fourier, 91000 Evry-Courcouronnes FRANCE
and
Telecom SudParis, 19 place Marguerite Perey, 91120 Palaiseau, France

Document attaché : 202111041617_SujetTheseCIFRE.pdf

Analyse de données multimodales pour la détection précoce de la maladie d’Alzheimer

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : Institut Fresnel
Durée : 4-6 mois
Contact : remi.ANDRE@univ-amu.fr
Date limite de publication : 2022-01-01

Contexte :
La maladie d’Alzheimer est la maladie neurodégénérative la plus fréquente chez les personnes âgées. On estime qu’au moins 30 millions de personnes sont touchées par cette pathologie. Bien qu’il n’existe aucun traitement efficace à ce jour, on peut espérer retarder le début de la maladie et/ou atténuer les risques de la contracter en détectant suffisamment tôt des Déficiences Cognitives Légères (DCL). Plusieurs modalités d’imagerie médicale telles que l’Imagerie par Résonnance Magnétique (IRM), l’IRM fonctionnelle ou encore la Tomographie par Emission de Positron (TEP) permettent d’identifier de manière précoce des changements se produisant dans le cerveau. Les techniques d’aide au diagnostic clinique basées sur des approches d’apprentissage automatique sont aujourd’hui en plein essor. Un grand nombre de méthodes ont été développées particulièrement pour la détection de la maladie d’Alzheimer.

Sujet :
L’objectif de ce stage est de tirer simultanément avantage de plusieurs modalités d’imagerie médicale pour la détection précoce de la maladie d’Alzheimer. Le candidat retenu aura pour première tâche d’explorer différentes manières de fusionner l’information des différentes modalités dans un tableau multidimensionnel appelé tenseur. Les tenseurs peuvent être vu comme une généralisation des matrices. Les méthodes issues de l’algèbre multilinéaire sont alors des outils intéressants pour l’extraction de caractéristiques pertinentes. Le stagiaire devra comparer différentes méthodes tensorielles d’extraction de caractéristiques et déterminer lesquelles sont les plus pertinentes pour la détection de la maladie d’Alzheimer.

Profil du candidat :
Ce stage s’adresse aux étudiants en dernière école d’ingénieurs ou de Master en sciences de l’information ou de traitement du signal.

Formation et compétences requises :
Le candidat sélectionné devra avoir un goût prononcé pour l’apprentissage automatique et le traitement du signal et des images ainsi que pour les aspects mathématiques sous-jacents. De solides compétences en programmation et la maitrise des langages python et/ou matlab sont nécessaires à la réalisation du stage. Une sensibilité aux applications biomédicales sera appréciée.

Adresse d’emploi :
Institut Fresnel, Domaine Universitaire de Saint Jérôme, 13397 Marseille

Document attaché : 202111031051_Sujet_stage_Fresnel.pdf

Analyse de données textuelles sur la sécurité alimentaire en Afrique de l’Ouest

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2022-01-01

Contexte :

Le stage s’inscrit dans le cadre d’un projet pluridisciplinaire concernant la gestion des risques liés à la sécurité alimentaire en Afrique de l’Ouest, considérée comme l’un des enjeux majeurs de développement de la région. Parmi les raisons à l’origine de ce phénomène, nous pouvons citer une forte croissance démographique, une agriculture pluviale très dépendante des conditions pluviométriques, auxquels s’ajoutent des risques sécuritaires et sanitaires. Depuis les grandes sécheresses du début des années 70, plusieurs systèmes d’alerte précoce (SAP) de la sécurité alimentaire ont été développés sur la région pour permettre aux décideurs d’anticiper les crises, et d’aider à la planification des mesures d’urgence en ciblant les populations et/ou les zones à risques. Dans ces systèmes, l’information satellitaire est utilisée majoritairement pour dériver des anomalies d’indices de végétation à partir de séries temporelles d’images à basse résolution spatiale. Les organisations internationales en charge des différents systèmes de suivi et d’alerte, se réunissent mensuellement pour atteindre un consensus sur les conditions de la campagne agricole. Si les classifications sur l’état des cultures sont souvent cohérentes, il arrive que ces informations divergent ou soient en contradiction avec les observations de terrain (Becker-Reshef et al., 2020)1. Ces désaccords peuvent venir des différences en termes de couverture géographique, d’unités spatiales cartographiées, de mandat des organisations en charge des SAPs, et des méthodes mises en œuvre. Dans ce contexte, les données textuelles (par exemple, articles de journaux) représentent une source d’information inexploitée, qui peut être utilisée pour renforcer les SAPs et résoudre les situations de désaccord.

Sujet :
L’objectif de ce stage est d’utiliser et combiner des techniques avancées de fouille de texte et de traitement automatique du langage naturel (TALN) à un corpus de données textuelles sur le thème de la sécurité alimentaire en Afrique de l’Ouest, afin d’apporter des informations complémentaires permettant de lever des incohérences observées et d’établir un diagnostic sur l’état de la végétation. Plus précisément, étant donné un cas d’étude spécifique (par exemple, pays et/ou épisode de désaccord), dans une première étape, des méthodes de l’état de l’art de Topic Modeling seront utilisées pour obtenir des sous-ensembles de données thématiquement homogènes. Le stage sera focalisé sur des documents textuels en Français, ce qui représente un autre défi scientifique vu la mineur quantité de ressources dans l’état de l’art par rapport à l’Anglais.
Une fois ces clusters obtenus pour chaque cas d’étude, différentes approches pourront être testées pour la phase de recherche de consensus :
• Approches fondées sur des techniques de Sentiment Analysis et Opinion Mining afin de comparer les polarités d’opinion (positif, négatif, neutre) ;
• Approches supervisées fondées sur des techniques de Machine Learning. Dans ce cas, l’idée est d’exploiter des données labélisés pour entraîner un classificateur de textes, afin de reconnaître une situation favorable ou défavorable à l’état des cultures. Le classifieur sera ensuite utilisé pour classifier les sous-ensembles de documents textuels associé aux épisodes de désaccord.

Des modelés de langages pour la langue Française basés sur la technologie des Transformers (p.ex., CamemBERT, FlauBERT) pourront aussi être utilisés pour supporter les deux taches. Ces méthodes devront être combinées pour apporter des connaissances nouvelles. Dans ce travail, les différentes propositions devront intégrées les dimensions spatio-temporelles associées aux données textuelles qui devront être prises en compte dans les analyses réalisées. Ces dernières seront effectuées à partir de cas d’étude déterminés permettant d’évaluer les différentes propositions. Ainsi, le ou la stagiaire contribuera à la constitution d’un corpus de données textuelles sur la sécurité alimentaire en Afrique de l’Ouest liés aux cas d’étude. Enfin, le travail sera valorisé à travers l’écriture d’un article scientifique qui présentera les contributions méthodologiques et les résultats obtenus.

Divers :

Durée : 6 mois
Gratification : taux légal en vigueur
Localisations : TETIS (Maison de la Télédétection) à Montpellier

Candidature :

Envoyer un CV + relevés de notes des deux dernières années à roberto.interdonato@cirad.fr et
mathieu.roche@cirad.fr

Profil du candidat :
Etudiant M2

Formation et compétences requises :
Langage Python, outils NLP
Capacité de travail en équipe pluridisciplinaire.

Adresse d’emploi :
TETIS (Maison de la Télédétection), 500 Rue Jean François Breton, Montpellier

Document attaché : 202111030914_Sujet de stage_FRESA_2022_final.pdf

Analyse de séries temporelles d’images satellitaires pour prédiction indices de sécurité alimentaire

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2021-12-31

Contexte :
Ce projet s’inscrit dans la thématique générale de la sécurité alimentaire en Afrique de l’Ouest considérée comme l’un des enjeux majeurs de développement de la région.
Aujourd’hui, de plus en plus de données issues de missions satellitaires sont disponibles. La possibilité d’acquérir plusieurs images satellitaires sur la même zone pendant le temps nous permet de générer des séries temporelles d’image satellitaires grâce auxquelles un suivi de la dynamique du développement des cultures sur une ou plusieurs années est aujourd’hui possible. Par exemple, la mission spatiale Sentinel, à travers les satellites Sentinel-1(a/b) et Sentinel-2(a/b), permet de produire des séries d’image satellitaire radar et optique à très haute résolution temporelle (chaque 5 jours) avec une résolution spatiale à 10 mètres. D’autres séries temporelles comme la température de brillance, les précipitations et les prix des céréales sont disponibles.
Des indicateurs dérivés d’enquêtes ménagères permettent aujourd’hui de mesurer la sécurité alimentaire, mais ils sont particulièrement difficiles à mettre en place dans les zones de conflit où les enquêtes ne peuvent se dérouler normalement.
Le développement de méthodes permettant de tirer parti de ces différentes sources d’information hétérogènes et d‘ordre temporelles reste encore un défi ouvert.

Sujet :
L’objectif de ce stage est de mettre en place et de réaliser un benchmark des méthodes permettant de traiter les informations temporelles multi sources afin d’estimer les indicateurs de sécurité alimentaire. Un focus sera mis sur des méthodes de machine/deep learning permettant d’estimer ces indicateurs de sécurité alimentaire dans les zones à risques et donc uniquement avec les données accessibles dans ces zones. Des méthodes de réseaux de neurones comme RNN, LSTM seront premièrement étudiées dans ce travail.

Profil du candidat :
Durée de 6 mois, à partir de février 2022

• Rigueur scientifique
• Curiosité et ouverture d’esprit
• Capacité d’analyse rédactionnelle et de synthèse

Formation et compétences requises :
• Connaissance/goût pour la programmation (une expérience en Python est requise)
• Intérêt pour l’agronomie/ science environnementale

Adresse d’emploi :
Le stage se déroulera au CIRAD, dans l’UMR TETIS (Territoire, Environnement, Télédétection et Information Spatiale), située dans les locaux de la Maison de la Télédétection à Montpellier, 500 Rue Jean François Breton.

Document attaché : 202111020841_Stage-M2.pdf

Stage Master 2 : Analyse de performance d’un réseau de neurones profond compressé

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire I3S (Sophia Antipolis, France)
Durée : 4 à 5 mois
Contact : cabral@i3s.unice.fr
Date limite de publication : 2022-01-15

Contexte :
Les réseaux de neurones profonds sont devenus un élément incontournable de l’état de l’art pour diverses problématiques d’inférence complexe en traitement de données telles que la détection, la classification et la segmentation d’objets dans les images et vidéos. La complexité croissante de ces réseaux rend difficile leur implantation sur un système embarqué dans un contexte temps-réel. Par conséquent, la réduction de leur complexité en termes d’empreinte mémoire et de complexité de calcul est actuellement un sujet d’intense investigation de plusieurs équipes de recherche.

Pour réduire leur empreinte mémoire, les paramètres d’un réseau profond doivent être compressés. Différentes techniques, telles que l’élagage des poids du réseau [1], la quantification [2] ou une combinaison des deux [3], ont été appliquées. Avec la méthode proposée en [3], il a été montré de manière expérimentale qu’une forte réduction de l’empreinte mémoire peut être obtenue avec une très faible perte des performances d’inférence.

Des membres de l’équipe Signal, Images et Systèmes (SIS) du Laboratoire I3S s’intéressent à la compréhension théorique des effets de la compression sur les performances d’inférence d’un réseau profond, notamment, à donner une prédiction de la perte de performance en fonction du taux de compression des paramètres. Dans un cadre de classification binaire et en se focalisant sur la compression par la quantification des paramètres de la dernière couche du réseau, un travail récent de l’équipe [4] donne une approximation de la perte de justesse de classification introduite par la compression. Cette approximation est donnée en fonction des paramètres de la couche, des caractéristiques du problème de classification sous-jacent et du nombre de bits de quantification utilisé pour la compression.

Sujet :
L’approximation obtenue en [4] n’est valable que sous certaines hypothèses de travail, notamment sur les distributions des entrées de la dernière couche du réseau et sur la distribution des erreurs de quantification des paramètres. Le but premier de ce stage est de réaliser un certain nombre d’expériences pour vérifier ces hypothèses dans un cadre pratique, i.e. lorsque le réseau étudié est un réseau profond utilisé en pratique (ex. : ResNet [5]) et lorsque les données du problème de classification sont réelles (ex. : données CIFAR [6] ou ImageNet [7]). Ces expériences seront réalisées en langage python et nécessiteront l’utilisation de librairies dédiées à l’apprentissage profond (pytorch [8] ou tensorflow [9]).

Selon l’avancement du stagiaire, différentes pistes théoriques pourraient être explorées : adaptation des hypothèses de travail dans le cas où elles ne sont pas exactement vérifiées en pratique, extension de l’étude [4] à la compression de plusieurs couches du réseau, ou encore, extension de [4] à la classification multi-classes.

Références :
[1] S. Anwar, K. Hwang et W. Sung, “Structured pruning of deep convolutional neural networks,” JETC, vol. 13,no. 3, pp. 32:1-32:18, 2017.
[2] B. Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. G.Howard, H. Adam et D. Kalenichenko, “Quantization and training of neural networks for efficient integer-arithmetic-only inference,” IEEE CVPR, pp. 2704-2713, 2018.
[3] S. Han, H. Mao et W. J. Dally, “Deep compression: Compressing deep neural network with pruning, trained quantization and Huffman coding,” 4th ICLR, Y. Bengio and Y. LeCun, Eds., 2016.
[4] D. Resmerita, R. Cabral Farias, B. D. de Dinechin et L. Fillatre, “Distortion Approximation of a Compressed Softmax Layer,” IEEE SSP, pp. 491-495, 2021.
[5] K. He, X. Zhang, S. Ren et J. Sun, “Deep residual learning for image recognition,” IEEE CVPR, pp. 770-778, 2016.
[6] A. Krizhevsky et G. Hinton, “Learning multiple layers of features from tiny images,” 2009. https://www.cs.toronto.edu/~kriz/cifar.html
[7] J. Deng, W. Dong, R. Socher, L. J. Li, K. Li et L. Fei-Fei, “Imagenet: A large-scale hierarchical image database,” IEEE CVPR, pp. 248-255, 2009.
[8] https://pytorch.org/
[9] https://www.tensorflow.org

Profil du candidat :
Étudiant de Master 2 ou fin de cycle ingénieur avec une des spécialisations suivantes :
– Traitement statistique du signal
– Statistiques
– Science des données

Formation et compétences requises :
– Formation en traitement statistique du signal ou en statistiques.
– Maîtrise du langage python.
– Connaissance des réseaux de neurones profonds et des librairies python dédiées (pytorch et/ou tensorflow).
– Écriture de rapports scientifiques avec LaTex.

Adresse d’emploi :
Laboratoire d’Informatique, Signaux et Systèmes de Sophia-Antipolis (I3S) – UMR7271 – UNS CNRS
2000, route des Lucioles – Les Algorithmes – bât. Euclide B 06900 Sophia Antipolis – France

Document attaché : 202111011758_compression_reseaux_neurones_vf.pdf

Les réseaux profonds pour les données temporelles multivariées.Application « Jumeau Numériques » sur

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : LIPN, UMR CNRS 7030
Durée : 6 mois
Contact : mustapha.lebbah@univ-paris13.fr
Date limite de publication : 2021-11-01

Contexte :
Possibilité de poursuivre en thèse CIFRE avec SAFRAN.
Ce sujet de stage de recherche a pour objectif de mener à un projet CIFRE avec SAFRAN en informatique scientifique et algorithmique qui aura pour but d’intégrer de nouveaux algorithmes sous la méthodologie développée précédemment [4,5].

Sujet :
A travers ce sujet de stage de recherche niveau M2, nous souhaitons tester la viabilité d’une méthodologie neuronale moderne basée sur les architectures profondes (Deep learning), les réseaux récurrents et appliquée aujourd’hui avec succès sur le traitement de textes (traduction, chat-bots, etc.) et l’analyse de signaux audio (sous-titrage automatique). Deux approches sont possibles, une approche anticipative qui identifie un état latent se superposant à l’observation et qui permettrait d’estimer la transition d’une observation à l’autre (de type LSTM ou GRU) [1,2,3]. Une autre proposition est de construire un auto-encodeur récurrent capable de reproduire à l’inverse une série d’observations de manière analogue aux outils utilisés pour l’interprétation des séquences de mots (réseaux transformers utilisant des couches d’attention). Ces deux approches nécessitent d’explorer simultanément plusieurs ensembles de séquences multivariées. Il va falloir apprendre à traiter efficacement les signaux temporels multivariés issus des données de vol.

Le stage de recherche se déroulera en 3 phases :
-Étudier l’état actuel de l’art sur l’apprentissage profonds et données temporelles multi-variés,
-Examiner l’état actuel de l’art des outils logiciels et des architectures pour traiter de grande masses de données temporelles multi-variées. Cela comprend les progiciels et les bibliothèques utiles pour construire, former et déployer des modèles sur des données réelles. Cette phase sera réalisée en étroite collaboration avec la Start-up HephIA.
-Sur la base des études précédentes, implémenter un ou plusieurs algorithmes/architecture. Les résultats obtenus pendant le stage peuvent conduire à des contributions à des logiciels libres, voire à une publication scientifique, en fonction des compétences et de la motivation du/de la stagiaire.

Profil du candidat :
Fin de cycle d’Ingénieur d’une grande école, M2 de data science, statistique et/ou intelligence artificielle.

Formation et compétences requises :
Bonne expérience en programmation, et en particulier du framework PyTorch/deeplearning4j.
Comment déposer sa candidature : le dossier de candidature en PDF comportera les éléments suivants :
-CV ; Relevés de notes ; Lettre de motivation
Le dossier de candidature est à envoyer par mail à Hanene.Azzag@lipn.univ-paris13.fr, Mustapha.lebbah@univ-Paris13.fr, (objet du mail [Stage-LIPN-SAFRAN-22])

Adresse d’emploi :
Laboratoire d’Informatique de Paris-Nord (LIPN),
CNRS(UMR 7030),
99, av. J-B Clément
F-93430, Villetaneuse

Document attaché : 202111010827_Sujet-stage-recherche-LIPN-SAFRAN.pdf

TAL pour la détection du discours de haine

Date : 2021-11-16
Lieu : Institut de Recherche en informatique de Toulouse (IRIT)-Salle des thèses, mais également sur zoom sur le lien suivant : https://univ-tlse3-fr.zoom.us/j/99806869715?pwd=S29mbklLR0hRS1dyMnB1Rm5zRWpMdz09

L’action Lemon (https://www.madics.fr/actions/lemon/) organise un séminaire sur les approches de traitement automatique du langage pour la détection de dicsours de haine. Le sémniare aura lieu en mode hybride de 9h30-12h le mardi 16 novembre 2021.

Le programme est comme suit :

9h25. Farah Benamara et Véronique Moriceau (Assistant Professor at Toulouse University). Introduction.

9h30-10h15. Roy Ka-Wei. Assistant Professor at the Information Systems Technology and Design Pillar (ISTD), Singapore University of Technology and Design. Title: Perils and Promises of Automated Hate Speech Detection.

10h15-11h00. Leon Derczynski. Assistant Professor at the IT University of Copenhagen. Title: Corpus Construction for Absuive Language Detection

11h00-11h45. Viviana Patti. Assistant Professor at the University of Turin. Title: Abusive Language Detection on Social Media: Are We Far from the Shallow Now?

En espérant vous y voir nombreux!

Cordialement,
Farah Benamara

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Extraction et catégorisation automatique de contenu de manuels scolaires

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire interdisciplinaire des sciences du num
Durée : 6 mois
Contact : guinaudeau@limsi.fr
Date limite de publication : 2021-12-31

Contexte :
Le projet ANR MALIN a pour objectif de rendre utilisables les manuels scolaires numériques par les enfants en situation de handicap dont l’inclusion dans les établissements scolaires ordinaires a été posée par la loi du 11 février 2005. En France, le manuel scolaire est un support pédagogique emblématique quasi systématiquement utilisé en classe afin d’accompagner de manière progressive et structurée l’acquisition des connaissances et compétences définies dans les programmes scolaires officiels de l’Éducation Nationale. Les manuels numériques actuellement disponibles nécessitent d’être adaptés pour être utilisés par les enfants en situation de handicap. Ces adaptations concernent aussi bien les aspects techniques que pédagogiques. Dans la plupart des cas, des parties seulement des manuels sont adaptées et les délais de livraison peuvent être de plusieurs mois. Ces contraintes ne permettent pas de rendre efficiente l’inclusion scolaire des enfants en situation de handicap. L’objectif du projet ANR MALIN est donc de développer des solutions techniques afin d’aboutir à l’automatisation de l’adaptation des manuels scolaires numériques pour les rendre accessibles (accès, traitement et interaction avec les contenus) aux élèves en situation de handicap.

Sujet :
Dans ce contexte, le/la stagiaire travaillera sur l’extraction des consignes des exercices ainsi que sur leur identification / catégorisation. L’objectif du stage consiste notamment à identifier les consignes de type “choix proposés” dans les différents exercices. Ces choix proposés pouvant prendre plusieurs formes, le/la stagiaire développera, à partir d’une chaîne d’extraction déjà existante et de données annotées manuellement, des techniques génériques, fondées sur des approches de traitement automatique des langues et tirant partie de l’efficacité des technologies d’apprentissage profond.

Ce stage s’inscrit dans le cadre d’un projet ANR et pourra se poursuivre par un doctorat de 3 ans. Le projet ANR repose sur une collaboration entre quatre laboratoires : LISN (Université Paris Saclay), MISC (Ecole CentraleSupelec), CEDRIC (CNAM), Inserm 1284 (CRI, Université de Paris). Le stagiaire travaillera en interaction avec deux autres stagiaires associés au projet.

Profil du candidat :
master et/ou ingénieur en informatique avec une spécialisation dans au moins un des domaines suivant:
traitement automatique des langues
apprentissage automatique

Formation et compétences requises :
maîtrise de Python (langage de prédilection du projet)
maîtrise de l’anglais (écrit et oral)
La connaissance de librairies d’apprentissage sera appréciée.

Adresse d’emploi :
Laboratoire interdisciplinaire des sciences du numérique – LISN
Campus Universitaire bâtiment 507
Rue du Belvédère
91400 Orsay

Document attaché : 202110291051_Sujet de stage ANR MALIN – LISN.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Archives

Integrating and exploring linked educational resources

éveloppement d’une approche d’intégration de données multi-omiques pour expériences multi-groupes

RESUMES : peRsonal knowlEdge baSe constrUction froM hEterogeneous Sources

Analyse de données multimodales pour la détection précoce de la maladie d’Alzheimer

Analyse de données textuelles sur la sécurité alimentaire en Afrique de l’Ouest

Analyse de séries temporelles d’images satellitaires pour prédiction indices de sécurité alimentaire

Stage Master 2 : Analyse de performance d’un réseau de neurones profond compressé

Les réseaux profonds pour les données temporelles multivariées.Application « Jumeau Numériques » sur

TAL pour la détection du discours de haine

Extraction et catégorisation automatique de contenu de manuels scolaires