
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire interdisciplinaire des sciences du num
Durée : 6 mois
Contact : guinaudeau@limsi.fr
Date limite de publication : 2021-12-31
Contexte :
Le projet ANR MALIN a pour objectif de rendre utilisables les manuels scolaires numériques par les enfants en situation de handicap dont l’inclusion dans les établissements scolaires ordinaires a été posée par la loi du 11 février 2005. En France, le manuel scolaire est un support pédagogique emblématique quasi systématiquement utilisé en classe afin d’accompagner de manière progressive et structurée l’acquisition des connaissances et compétences définies dans les programmes scolaires officiels de l’Éducation Nationale. Les manuels numériques actuellement disponibles nécessitent d’être adaptés pour être utilisés par les enfants en situation de handicap. Ces adaptations concernent aussi bien les aspects techniques que pédagogiques. Dans la plupart des cas, des parties seulement des manuels sont adaptées et les délais de livraison peuvent être de plusieurs mois. Ces contraintes ne permettent pas de rendre efficiente l’inclusion scolaire des enfants en situation de handicap. L’objectif du projet ANR MALIN est donc de développer des solutions techniques afin d’aboutir à l’automatisation de l’adaptation des manuels scolaires numériques pour les rendre accessibles (accès, traitement et interaction avec les contenus) aux élèves en situation de handicap.
Sujet :
Dans ce contexte, le/la stagiaire travaillera sur l’extraction des consignes des exercices ainsi que sur leur identification / catégorisation. L’objectif du stage consiste notamment à identifier les consignes de type “choix proposés” dans les différents exercices. Ces choix proposés pouvant prendre plusieurs formes, le/la stagiaire développera, à partir d’une chaîne d’extraction déjà existante et de données annotées manuellement, des techniques génériques, fondées sur des approches de traitement automatique des langues et tirant partie de l’efficacité des technologies d’apprentissage profond.
Ce stage s’inscrit dans le cadre d’un projet ANR et pourra se poursuivre par un doctorat de 3 ans. Le projet ANR repose sur une collaboration entre quatre laboratoires : LISN (Université Paris Saclay), MISC (Ecole CentraleSupelec), CEDRIC (CNAM), Inserm 1284 (CRI, Université de Paris). Le stagiaire travaillera en interaction avec deux autres stagiaires associés au projet.
Profil du candidat :
master et/ou ingénieur en informatique avec une spécialisation dans au moins un des domaines suivant:
traitement automatique des langues
apprentissage automatique
Formation et compétences requises :
maîtrise de Python (langage de prédilection du projet)
maîtrise de l’anglais (écrit et oral)
La connaissance de librairies d’apprentissage sera appréciée.
Adresse d’emploi :
Laboratoire interdisciplinaire des sciences du numérique – LISN
Campus Universitaire bâtiment 507
Rue du Belvédère
91400 Orsay
Document attaché : 202110291051_Sujet de stage ANR MALIN – LISN.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LITIS lab., University of Rouen Normandy, Rouen, F
Durée : 6 mois
Contact : simon.bernard@univ-rouen.fr
Date limite de publication : 2021-12-31
Contexte :
L’équipe Apprentissage du laboratoire LITIS, le laboratoire d’informatique et d’intelligence artificielle de l’Université de Rouen Normandie, propose un stage de 6 mois de fin de Master ou de fin de cursus Ingénieur, à débuter en février/mars 2022. Ce stage est financé par le projet ANR CATCH (Compréhension Automatique de Témoignage de Capteurs Humains) qui implique le centre Recherche et Développement de l’entreprise Saagie, une entreprise spécialisée dans les solutions DataOp B2B, Atmo Normandie, l’association de surveillance de la qualité de l’air en Normandie, et le LITIS.
L’ambition du projet CATCH est de proposer des outils d’intelligence artificielle et de deep learning pour identifier et analyser automatiquement la multitude de témoignages humains liés à un accident industriel et à ses conséquences sur l’environnement et la santé. En impliquant la population dans la collecte et l’analyse des données, notamment via les réseaux sociaux, et en fournissant des moyens efficaces d’interprétation de ces données, la solution proposée devrait contribuer à apporter des réponses à la problématique préoccupante des accidents industriels et de leurs conséquences. Pour cela, l’objectif du projet est double :
1. Dresser une cartographie des nuisances dues à l’incident, afin de suivre la propagation et l’évolution des phénomènes dans le temps.
2. Analyser et caractériser le ressenti de la population et son évolution tout au long de la crise.
Pour ce faire, nous pouvons exploiter les témoignages recueillis sur la plateforme ODO d’Atmo Normandie, qui combine ces témoignages avec des informations géographiques, ainsi que des données extraites de la plateforme de micro-blogging Twitter.
Sujet :
Ce stage vise à contribuer à ces deux objectifs via l’analyse des sentiments exprimés dans les témoignages de ces données, déjà disponibles et annotées en ce qui concerne les données ODO, ou à annoter automatiquement pour les données Twitter. Les méthodes à l’état de l’art pour ce type de tâches en traitement automatique de la langue (TAL ou NLP pour Natural Language Processing) sont des méthodes d’apprentissage profond de type Transformers, notamment basées sur des principes d’apprentissage auto-supervisés (self-supervised learning) et des mécanismes d’attention. Donc, la première tâche de ce stage consistera à sélectionner, implémenter et appliquer une ou plusieurs de ces approches pour l’analyse de sentiment dans les données ODO. Il s’agira ensuite d’exploiter le ou les modèles les plus performants pour la génération de la cartographie, par exemple pour déterminer les zones géographiques les plus impactées par les retombées de l’indicent, et pour la caractérisation du ressenti de la population, par exemple pour détecter des sentiments pré-identifiés dans tous les témoignages à disposition.
Profil du candidat :
—
Formation et compétences requises :
– Étudiant en Master 2 ou en dernière année d’école d’ingénieurs, dans une spécialité de l’informatique ou des mathématiques appliquées
– Compétences requises en apprentissage automatique et en programmation (Python de préférence)
Adresse d’emploi :
LITIS,
UFR Sciences et Techniques,
Technopôle du Madrillet
Avenue de l’université
76801 Saint-Étienne-du-Rouvray
Les documents à joindre à la candidature sont :
• curriculum vitae
• lettre de motivation
• résultats académiques récents
• noms et coordonnées d’un ou de plusieurs enseignants référents
Document attaché : 202110261524_StageM2_ ANRCATCH_LITIS.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire ICube, Equipe MLMS, Strasbourg
Durée : 6 mois
Contact : cedric.bobenrieth@ecam-strasbourg.eu
Date limite de publication : 2022-01-01
Contexte :
À l’apogée de l’industrie 4.0, la conception de nouvelles méthodes et applications permettant un suivi et un contrôle de la production est un réel enjeu. Le projet 3D-PRIAD se concentre spécifiquement sur les problématiques liées à la production par impression 3D.
En effet, il est nécessaire qu’une imprimante 3D puisse fonctionner de manière autonome en permanence tout en assurant une production de pièces de bonnes qualités, c’est-à-dire dépourvue de quelconques défauts d’impressions.
L’équipe MLMS (Machine Learning, Modeling & Simulation) propose donc un projet combinant le deep learning à l’analyse d’images, de modèles 3D, et de données issues de multiples capteurs sensorielles (thermique, poussière, pression de l’air, etc) afin de permettre un suivi en temps réel de la qualité de l’impression et la détection automatique d’anomalies.
La mission aura lieu sur 6 mois, entre février et août 2021, et se déroulera au sein de l’équipe MLMS du laboratoire ICube.
Sujet :
Ce stage s’inscrit dans le projet 3D-PRIAD et fait suite à des travaux déjà réalisés.
Vous aurez donc à votre disposition :
1) Un début de jeux de données, constituées de vidéos d’impressions 3D provenant de 5 caméras disposée autour de l’imprimante 3D de manière à couvrir tous les angles de vues (Front, Back, Left, Right et Top) accompagnées du GCode (modèle 3D) de l’impression en question, couvrant un ensemble de défauts d’impression. Ce jeu de données est déjà labellisé.
2) Une implémentation d’un réseau de neurones type YoloV4 entraîné sur ces données pour détecter par angle de vue des défauts d’impressions.
3) Le matériel nécessaire pour l’acquisition de plus de données d’impressions (caméras, imprimante 3D, matériel d’impression)
4) Le matériel nécessaire pour l’acquisition de données ambiantes (capteurs d’humidité, de température, de pression, de présence de poussière)
L’objectif global du stage est de mettre au point un réseau de neurones capable de faire de l’analyse préventive sur les impressions 3D, c’est-à-dire être capable de déterminer à l’aide des images issues des caméras et des données issues des capteurs extérieurs (donc multimodales) qu’un défaut d’impression va se produire avant que celui-ci ne se réalise.
Pour atteindre cet objectif, ce stage peut être décomposé selon les missions suivantes :
1) Finaliser la détection automatique des défauts d’impressions à l’aide des modèles YoloV4 : La détection étant faite actuellement individuellement sur une caméra, et uniquement en prenant en compte l’image 2D ; il est nécessaire d’améliorer cette détection en utilisant en combinant les 5 vues ainsi que le modèle 3D attendu.
2) Mettre en place un modèle d’apprentissage capable de prédire si une erreur d’impression va arriver à un instant T+1 en ayant comme données d’entrée les données des capteurs + images à l’instant T. Ce modèle utilisera le modèle finaliser en (1) pour permettre un apprentissage non-supervisé. (Cœur du stage)
3) Complétez le jeu de données d’impressions 3D et créer le jeu de données de capteurs ambiants.
Notez que puisque ce stage s’inscrit dans le cadre d’un projet de recherche actuel, le point (1) pourrait être finalisé avant l’arrivée du stagiaire.
Les livrables attendus en fin de stage sont :
1) Le réseau de prédiction de défaut d’impression
2) Un document de conception (en anglais)
3) Une documentation sur l’installation et l’utilisation de la solution mise en place par le stagiaire
4) Rapport de Master
5) Soutenance de stage
Profil du candidat :
L’offre s’adresse à un étudiant en M2, ou dernière année d’école d’ingénieur avec de fortes compétences en informatiques, et notamment en Python.
Des connaissances sur les réseaux de neurones, le traitement et l’analyse d’images et/ou la modélisation 3D sont un plus.
Formation et compétences requises :
Il est nécessaire d’avoir de fortes compétences en programmation, surtout en Python.
Des connaissances sur les réseaux de neurones, le traitement et l’analyse d’images et/ou la modélisation 3D sont un plus.
Adresse d’emploi :
Strasbourg, Place de l’hôpital
Document attaché : 202111241537_Sujet stage 3DPRIAD_Master2 Recherche.pdf
Offre en lien avec l’Action/le Réseau : – — –/Innovation
Laboratoire/Entreprise : Institut Fresnel
Durée : 4-6 mois
Contact : remi.ANDRE@univ-amu.fr
Date limite de publication : 2022-01-01
Contexte :
La maladie d’Alzheimer est la maladie neurodégénérative la plus fréquente chez les personnes âgées. On estime qu’au moins 30 millions de personnes sont touchées par cette pathologie. Bien qu’il n’existe aucun traitement efficace à ce jour, on peut espérer retarder le début de la maladie et/ou atténuer les risques de la contracter en détectant suffisamment tôt des Déficiences Cognitives Légères (DCL). Plusieurs modalités d’imagerie médicale telles que l’Imagerie par Résonnance Magnétique (IRM), l’IRM fonctionnelle ou encore la Tomographie par Emission de Positron (TEP) permettent d’identifier de manière précoce des changements se produisant dans le cerveau. Les techniques d’aide au diagnostic clinique basées sur des approches d’apprentissage automatique sont aujourd’hui en plein essor. Un grand nombre de méthodes ont été développées particulièrement pour la détection de la maladie d’Alzheimer.
Sujet :
L’objectif de ce stage est de tirer simultanément avantage de plusieurs modalités d’imagerie médicale pour la détection précoce de la maladie d’Alzheimer. Le candidat retenu aura pour première tâche d’explorer différentes manières de fusionner l’information des différentes modalités dans un tableau multidimensionnel appelé tenseur. Les tenseurs peuvent être vu comme une généralisation des matrices. Les méthodes issues de l’algèbre multilinéaire sont alors des outils intéressants pour l’extraction de caractéristiques pertinentes. Le stagiaire devra comparer différentes méthodes tensorielles d’extraction de caractéristiques et déterminer lesquelles sont les plus pertinentes pour la détection de la maladie d’Alzheimer.
Profil du candidat :
Ce stage s’adresse aux étudiants en dernière école d’ingénieurs ou de Master en sciences de l’information ou de traitement du signal.
Formation et compétences requises :
Le candidat sélectionné devra avoir un goût prononcé pour l’apprentissage automatique et le traitement du signal et des images ainsi que pour les aspects mathématiques sous-jacents. De solides compétences en programmation et la maitrise des langages python et/ou matlab sont nécessaires à la réalisation du stage. Une sensibilité aux applications biomédicales sera appréciée.
Adresse d’emploi :
Institut Fresnel, Domaine Universitaire de Saint Jérôme, 13397 Marseille
Document attaché : 202111031051_Sujet_stage_Fresnel.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2022-01-01
Contexte :
Le stage s’inscrit dans le cadre d’un projet pluridisciplinaire concernant la gestion des risques liés à la sécurité alimentaire en Afrique de l’Ouest, considérée comme l’un des enjeux majeurs de développement de la région. Parmi les raisons à l’origine de ce phénomène, nous pouvons citer une forte croissance démographique, une agriculture pluviale très dépendante des conditions pluviométriques, auxquels s’ajoutent des risques sécuritaires et sanitaires. Depuis les grandes sécheresses du début des années 70, plusieurs systèmes d’alerte précoce (SAP) de la sécurité alimentaire ont été développés sur la région pour permettre aux décideurs d’anticiper les crises, et d’aider à la planification des mesures d’urgence en ciblant les populations et/ou les zones à risques. Dans ces systèmes, l’information satellitaire est utilisée majoritairement pour dériver des anomalies d’indices de végétation à partir de séries temporelles d’images à basse résolution spatiale. Les organisations internationales en charge des différents systèmes de suivi et d’alerte, se réunissent mensuellement pour atteindre un consensus sur les conditions de la campagne agricole. Si les classifications sur l’état des cultures sont souvent cohérentes, il arrive que ces informations divergent ou soient en contradiction avec les observations de terrain (Becker-Reshef et al., 2020)1. Ces désaccords peuvent venir des différences en termes de couverture géographique, d’unités spatiales cartographiées, de mandat des organisations en charge des SAPs, et des méthodes mises en œuvre. Dans ce contexte, les données textuelles (par exemple, articles de journaux) représentent une source d’information inexploitée, qui peut être utilisée pour renforcer les SAPs et résoudre les situations de désaccord.
Sujet :
L’objectif de ce stage est d’utiliser et combiner des techniques avancées de fouille de texte et de traitement automatique du langage naturel (TALN) à un corpus de données textuelles sur le thème de la sécurité alimentaire en Afrique de l’Ouest, afin d’apporter des informations complémentaires permettant de lever des incohérences observées et d’établir un diagnostic sur l’état de la végétation. Plus précisément, étant donné un cas d’étude spécifique (par exemple, pays et/ou épisode de désaccord), dans une première étape, des méthodes de l’état de l’art de Topic Modeling seront utilisées pour obtenir des sous-ensembles de données thématiquement homogènes. Le stage sera focalisé sur des documents textuels en Français, ce qui représente un autre défi scientifique vu la mineur quantité de ressources dans l’état de l’art par rapport à l’Anglais.
Une fois ces clusters obtenus pour chaque cas d’étude, différentes approches pourront être testées pour la phase de recherche de consensus :
• Approches fondées sur des techniques de Sentiment Analysis et Opinion Mining afin de comparer les polarités d’opinion (positif, négatif, neutre) ;
• Approches supervisées fondées sur des techniques de Machine Learning. Dans ce cas, l’idée est d’exploiter des données labélisés pour entraîner un classificateur de textes, afin de reconnaître une situation favorable ou défavorable à l’état des cultures. Le classifieur sera ensuite utilisé pour classifier les sous-ensembles de documents textuels associé aux épisodes de désaccord.
Des modelés de langages pour la langue Française basés sur la technologie des Transformers (p.ex., CamemBERT, FlauBERT) pourront aussi être utilisés pour supporter les deux taches. Ces méthodes devront être combinées pour apporter des connaissances nouvelles. Dans ce travail, les différentes propositions devront intégrées les dimensions spatio-temporelles associées aux données textuelles qui devront être prises en compte dans les analyses réalisées. Ces dernières seront effectuées à partir de cas d’étude déterminés permettant d’évaluer les différentes propositions. Ainsi, le ou la stagiaire contribuera à la constitution d’un corpus de données textuelles sur la sécurité alimentaire en Afrique de l’Ouest liés aux cas d’étude. Enfin, le travail sera valorisé à travers l’écriture d’un article scientifique qui présentera les contributions méthodologiques et les résultats obtenus.
Divers :
Durée : 6 mois
Gratification : taux légal en vigueur
Localisations : TETIS (Maison de la Télédétection) à Montpellier
Candidature :
Envoyer un CV + relevés de notes des deux dernières années à roberto.interdonato@cirad.fr et
mathieu.roche@cirad.fr
Profil du candidat :
Etudiant M2
Formation et compétences requises :
Langage Python, outils NLP
Capacité de travail en équipe pluridisciplinaire.
Adresse d’emploi :
TETIS (Maison de la Télédétection), 500 Rue Jean François Breton, Montpellier
Document attaché : 202111030914_Sujet de stage_FRESA_2022_final.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Linagora
Durée : 5-6 mois
Contact : jhunter@linagora.com
Date limite de publication : 2022-01-01
Contexte :
L’équipe R&D (https://labs.linagora.com/) de la société LINAGORA (http://linagora.com) développe en open-source des outils d’assistance intelligente pour entreprises, y compris l’assistant vocal LinTO (https://linto.ai/), et LinSTT (https://github.com/linto-ai/linstt-engine), un outil de reconnaissance de la parole qui est capable de transcrire sous forme textuelle un signal vocal, ce qui nous permet de produire, de manière automatique, des transcriptions de réunion. Actuellement, nous travaillons sur un gestionnaire de conversation, Conversation Manager, une plateforme qui permettra à partir d’un enregistrement complet d’une réunion d’en déduire un résumé aussi pertinent que possible. L’idée est qu’un utilisateur du Conversation Manager va pouvoir d’abord visualiser, corriger et annoter une transcription proposée par notre système et ensuite exploiter le contenu de la transcription et ses annotations pour créer un résumé de manière semi-automatique.
Pour ce faire, il est impératif que la transcription proposée à l’utilisateur, avant l’étape de correction, soit aussi correcte et facile à visualiser que possible, ce qui peut être difficile pour les transcriptions de réunion où il y a plusieurs locuteurs et où les participants ont tendance à faire des interventions longues et mal structurées d’un point de vue grammatical. Pouvoir bien associer un tour de parole à son locuteur (segmentation et regroupement en locuteurs, ou diarisation en anglais) et ajouter les marques de ponctuation qui rendent le texte plus facile à lire sont très importants pour faire des transcriptions de haute qualité.
La diarisation et la ponctuation peuvent ensuite servir à améliorer les algorithmes de résumé automatique en aidant un système à découper le contenu d’une réunion en clauses individuelles — appelés segments discursifs. Ces segments fournissent des unités sémantiques qui seront passées ensuite aux algorithmes de résumé qui jugeront quels segments sont plus centraux à la conversation et du coup, au résumé final.
Références
Bredin, H., Laurent, A. (2021) End-To-End Speaker Segmentation for Overlap-Aware Resegmentation. Proc. Interspeech 2021, 3111-3115.
Muller, P., Braud, C., Morey, M. (2019) ToNy: Contextual embeddings for accurate multilingual discourse segmentation of full documents. Proceedings of the Workshop on Discourse Relation Parsing and Treebanking 2019, 115-124.
Sujet :
Pour ce stage, le stagiaire étudiera les trois tâches – la diarisation, la ponctuation, et la segmentation discursive – en parallèle avec une approche d’apprentissage multi-tâche. L’entraînement du modèle sera fait sur des données de conversation transcrites soit en français, soit en anglais. Nous commencerons avec des modèles existants de ponctuation et segmentation qui se basent sur une architecture de transformer + bi-LSTM ainsi qu’un modèle de diarisation. La nouveauté de ce stage consistera dans (a) l’approche multi-tâche pour étudier ces trois sujets en parallèle et (b) l’usage des informations acoustiques des enregistrements de conversation et de réunion (alors que les modèles de base pour la ponctuation et la segmentation discursive sont entraînés exclusivement sur du texte).
L’encadrement du stage : Le stagiaire sera encadré par Samir Tanfous de LINAGORA, mais travaillera en collaboration avec Julie Hunter de LINAGORA et plusieurs membres du laboratoire IRIT, notamment Philippe Muller de l’équipe Melodi (NLP) et Thomas Pellegrini et Hervé Bredin de l’équipe Samova (Traitement de la parole).
Profil du candidat :
Étudiants de M2 ou d’école d’ingénieur en dernière année, en informatique et IA avec des compétences en machine learning
De l’expérience en deep learning et PyTorch serait un plus
De l’expérience en speech processing et/ou NLP serait un plus
Formation et compétences requises :
Étudiants de M2 ou d’école d’ingénieur en dernière année, en informatique et IA avec des compétences en machine learning
De l’expérience en deep learning et PyTorch serait un plus
De l’expérience en speech processing et/ou NLP serait un plus
Adresse d’emploi :
LINAGORA, soit à Paris, soit à Toulouse
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ISI / Institut Fayol / Mines Saint-Étienne
Durée : 5 mois / 5 months
Contact : guillaume.muller@univ-st-etienne.fr
Date limite de publication : 2022-01-01
Contexte :
1 Administrative Context
Mines Saint-Etienne (MSE), one of the graduate schools of Institut Mines-Télécom, the first group of graduate schools of engineering and management in France under the supervision of the Ministry of the
Economy, Industry and Digital Technology, is assigned missions of education, research and innovation, transfer to industry and scientific, technological and industrial culture.
MSE consists of 2,400 graduate and postgraduate students, 400 staff, a consolidated budget of €46M, three sites on the Saint-Etienne campus (Auvergne Rhone-Alpes region, Lyon Saint-Etienne metropolitan area), a campus in Gardanne (SUD region, Aix Marseille metropolitan area), a site in
Lyon within the digital campus of Auvergne Rhone-Alpes Region, six esearch units, five teaching and research centres and one of the leading French science community centres (La Rotonde €1M budget and +40,000 visitors per year). The Times Higher Education World University Ranking ranked us for 2022 in the 251-300 range for Engineering and Technology. Our work environment is characterised by high Faculty-to-Student, Staff-to-Faculty and PhD-to-Faculty ratios, as well as comprehensive state-of-the-art experimental and computational facilities for research, teaching and transfer to industry.
The Henri Fayol Institute, one of the school’s 5 training and research centers, brings together professors in industrial engineering, applied mathematics, computer science, environment and management
around the theme of overall business performance. The Henri Fayol Institute is strongly involved in flagship projects of the Industry of the Future and the City of the Future.
2 Scientific Context
In recent years, Artificial Intelligence, in particular Neural Networks (NN), has shown impressive results in many applications, often beating humans in many domains, from Games (AlphaGo. . . ) to Health Care (skin & eye cancer detection. . . ). However, training such models requires large amounts of computing power, thus of energy; sometimes more than a small city over a year (e.g. GPT-3). As energy is the main source of release of CO2 in the atmosphere, such technological progress unfortunately
goes along with the destruction of our planet. This goes in the opposite direction of UN’s Sustainable Development Goals, that we need to achieve quickly to ensure our survival as a whole society.
Sujet :
3 Topic: TinyML
The field of TinyML seeks to find ways of implementing Machine Learning (ML) models (particularly NN) on small devices, with limited CPU power, RAM capacity, Network bandwidth and Battery life. Techniques developed in this domain could provide elements for a global solution, thus allowing to continue producing positive social impacts with AI/ML/NN (better health care, optimized transportation. . . ), without destroying our planet.
This internship proposes to explore state of the art techniques for reducing both the size and the training time of a NN, using small devices to impose strict energy consumption constraints.
Keywords: Artificial Intelligence, Neural Network, Deep Learning, IoT, TinyML, Quantization, Pruning, Distillation, Training, Gradient Descent, Back-Propagation.
4 Organization
The internship will take place at Espace Fauriel in Saint-Etienne, in the ISI department of Institut Fayol.
The internship will follow a 3 steps plan:
1. The student will start with trying to reproduce the toy (but realistic) application which consists in designing a glove/bracelet that can recognize the characters drawn in the air by a person [Fre21].
Through this example the student will learn about techniques like Quantization, Pruning and Distillation. These techniques allow reducing the size of a Big NN that was previously learned on a standard computer. This solves the problem of the energy consumption at inference time,
but not at training time.
2. Then, the student will explore state of the art techniques for training a NN directly on a small device, based on researches like [Lin+22].
3. Based on these experiments, the student will be able to explore more realistic scenarios adapted to Industry 4.0 (e.g. the “Augmented Technician”) or Health Care (e.g. “Smart Orthosis”),
where we need both inference and training to be executed on-device, in order to detect custom gestures that can change over time.
References
[Fre21]Zack Freedman. AI Data Glove: Somatic. 2021. url: https://www.youtube.com/watch?
v=6raRftH9yxM.
[Lin+22]Ji Lin et al. “On-Device Training Under 256KB Memory”. In: arXiv preprint arXiv:2206.15472 (2022). url: https://tinyml.mit.edu/.
Profil du candidat :
Master 2 or last year engineering school student
Formation et compétences requises :
5 Job requirements
The student should have prior following skills:
• Solid background in Machine Learning, in particular Deep Learning
• Strong coding in Python skills
• Minimal background in IoT/Arduino
• Curiosity of anything technological/scientific & Motivation for Sustainable Development
6 Application
To apply, please send your CV, cover letter, and any other useful information before January, 15 2023 to guillaume.muller@emse.fr
Adresse d’emploi :
29 rue Ponchardier, 42100 Saint-Étienne, France
Document attaché : 202211211820_2022_11_02_TinyMLInternship.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LiLPa (Linguistique, Langues et Parole), Universit
Durée : 4 à 6 mois
Contact : ruizfabo@unistra.fr
Date limite de publication : 2022-01-07
Contexte :
Les langues peu dotées présentent des défis spécifiques pour le Traitement Automatique des Langues (TAL) ; le manque de ressources textuelles volumineuses complique l’utilisation d’approches empiriques et, dans certains cas, comme celui de l’alsacien, l’absence d’une orthographe standardisée nécessite de gérer la variation graphique. Dans ce contexte, le projet MeThAL (Laboratoire LiLPa, Université de Strasbourg) est en train de créer un corpus large de théâtre en alsacien qui aidera à la création de ressources linguistiques pour les dialectes alsaciens ainsi qu’à une étude quantitative de la tradition dramatique alsacienne. Dans le cadre du projet, environ 4 000 pages de texte océrisé corrigé ont été produites, sur la base de numérisations en mode image créées par la Bibliothèque nationale et universitaire de Strasbourg. Une interface permet d’explorer les textes et métadonnées disponibles, et un sous-corpus de 300 000 tokens encodé selon les recommandations de la Text Encoding Initiative (TEI) a été publié. Pour pouvoir comparer le contenu des textes du corpus et effectuer des analyses thématiques ou textométriques, une représentation orthographique homogène du vocabulaire est nécessaire, et une neutralisation des variantes graphiques est incontournable. Elle serait aussi utile pour offrir une recherche en texte intégral sur le corpus.
Plusieurs approches ont été proposées pour la détection de la variation graphique. La plupart d’entre elles procèdent par normalisation, c’est-à-dire la transformation des variantes vers une forme standard. Une telle approche n’est pas applicable aux dialectes alsaciens, en raison de l’absence de standard orthographique stable. Millour & Fort (2019) ont utilisé le crowdsourcing pour collecter auprès des locuteurs de l’alsacien différentes graphies d’un mot donné. Les variantes alignées sont utilisées pour extraire automatiquement des règles de variation puis apparier automatiquement des graphies alternatives potentielles. Des méthodes non supervisées de clustering ont également été adoptées (Dasigi & Diab, 2011; Rafae et al., 2015). L’utilisation de ressources externes comme des lexiques bilingues ou des réseaux sémantiques multilingues a été proposée par Bernhard (2014). Il est également possible d’utiliser des méthodes supervisées, qui nécessitent toutefois des corpus annotés permettant d’identifier les variantes. Par exemple, Barteld et al. (2019) génèrent des variantes candidates qui sont ensuite filtrées à partir des n-grammes de caractères qu’elles contiennent et la similarité de leurs plongements de mots, ainsi que leurs contextes d’occurrence.
Sujet :
Dans le cadre du stage, il s’agira dans un premier temps d’explorer les habitudes de scripturalisation (utilisation de certains caractères et n-grammes de caractères) en fonction des métadonnées disponibles (auteur, lieu de naissance, lieu de publication, maison d’édition, date, genre). La discriminativité des tendances dégagées pourra être éprouvée sur des tâches de classification en fonction des métadonnées. Le corpus pourra éventuellement être enrichi à l’aide d’un étiquetage morphosyntaxique automatique, dont la qualité sera à évaluer, compte tenu des spécificités du corpus (genre, période) : un intérêt particulier du corpus est son caractère non-contemporain (1870-1940) ; il présente des divergences orthographiques par rapport aux pratiques actuelles qui demandent une adaptation des ressources existantes. Les activités suivantes sont prévues :
– Description approfondie du corpus (globale et par sous-corpus) : fréquence de caractères, de n-grammes, etc. (et, éventuellement, comparaison avec d’autres corpus de périodes plus récentes)
– Identification des propriétés discriminantes (p. ex. en proposant une représentation vectorielle des textes basée sur les différentes propriétés choisies)
– Induction de règles de variation et extraction automatique de paires de variantes au sein du corpus. Comparaison du résultat avec celui issu de l’application des règles obtenues par Millour & Fort, (2019) ; des différences sont attendues en raison des périodes des corpus respectifs
– Évaluation et proposition d’amélioration de la méthode
Références
Barteld, F., Biemann, C., & Zinsmeister, H. (2019). Token-based spelling variant detection in Middle Low German texts. Language Resources and Evaluation, 53(4), 677–706. https://doi.org/10.1007/s10579-018-09441-5
Bernhard, D. (2014). Adding Dialectal Lexicalisations to Linked Open Data Resources: The Example of Alsatian. Proceedings of the Workshop on Collaboration and Computing for Under Resourced Languages in the Linked Open Data Era (CCURL 2014), 23–29. https://hal.archives-ouvertes.fr/hal-00966820
Dasigi, P., & Diab, M. (2011). CODACT: Towards Identifying Orthographic Variants in Dialectal Arabic. Proceedings of 5th International Joint Conference on Natural Language Processing, 318–326. https://aclanthology.org/I11-1036
Millour, A. & Fort, K. (2019). Unsupervised Data Augmentation for Less-Resourced Languages with no Standardized Spelling, RANLP, 776–784. https://aclanthology.org/R19-1090.pdf
Rafae, A., Qayyum, A., Moeenuddin, M., Karim, A., Sajjad, H., & Kamiran, F. (2015). An Unsupervised Method for Discovering Lexical Variations in Roman Urdu Informal Text. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 823–828. https://doi.org/10.18653/v1/D15-1097
Profil du candidat :
Master en Informatique ou Traitement automatique des langues. Intérêt pour les problématiques du stage.
Formation et compétences requises :
Master en Informatique ou Traitement automatique des langues. Intérêt pour les problématiques du stage.
Adresse d’emploi :
Télétravail ou hybride au Laboratoire LiLPa (Linguistique, Langues et Parole, Université de Strasbourg). 61, av. des Vosges, 67000 Strasbourg.
Document attaché : 202112171335_stage_variation_alsacien.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : SAP / LIP6 Sorbonne Université
Durée : 6 Mois
Contact : hubert.naacke@lip6.fr
Date limite de publication : 2022-01-07
Contexte :
Aujourd’hui des entreprises gèrent leurs données avec une grande variété d’applications développées indépendamment. Or ces applications n’ont pas été conçues pour communiquer entre elles et il n’est pas envisagé de les migrer vers un système commun. Néanmoins, le besoin est fort de Concevoir des nouveaux services de gestion et d’analyse de données qui valoriseront la donnée présente. Cela pose le problème de faire coopérer efficacement des applications, en particulier celles qui gèrent des grands volumes de données. Ainsi, pour faciliter la circulation de données entre les applications et définir des nouveaux services intégrant des données massives, des pipelines de données sont conçus.
Un pipeline de données [JHM04] est une séquence ou un graphe d’opérations sur des données. Une opération peut simplement déplacer des données ou effectuer des traitements complexes incluant la collecte de données de plusieurs sources, leur transformation, la génération de modèles par apprentissage et le stockage dans plusieurs destinations. En pratique, un pipeline peut contenir des centaines d’opérations et il peut évoluer à plusieurs reprises en étant complété avec des nouvelles opérations ou de nouvelles données. Ainsi, face au nombre croissant de pipelines à concevoir et déployer, il est crucial de disposer :
1. d’un langage de haut niveau pour définir des pipelines,
2. d’outils automatiques pour déployer et contrôler l’exécution d’un pipeline.
Les avancées technologiques récentes en matière de virtualisation et de conteneurisation telles que Kubernetes [Pou21] permettent de configurer, en langage Yaml, le déploiement d’un ensemble de tâches afin d’automatiser leur déploiement. Toutefois, Yaml décrit les objets déployés (services, pod, conteneur) mais manque d’abstraction pour décrire des pipelines de données de manière suffisamment déclarative et extensible. C’est pourquoi, la société SAP a conçu un nouveau langage de définition de pipeline qui décrit l’enchainement des opérations (tâches) en spécifiant les échanges de données et la configuration de l’environnement d’exécution (techniques de virtualisation et conteneurisation).
[Ber14] David Bernstein. Containers and cloud: From lxc to docker to kubernetes. IEEE Cloud Computing, 1(3):81–84, 2014.
[JHM04] Wesley M Johnston, JR Paul Hanna, and Richard J Millar. Advances in dataflow programming languages. ACM computing surveys (CSUR), 36(1):1–34, 2004.
[Pou21] Nigel Poulton. The Kubernetes Book. Amazon, 2021.
Sujet :
L’objectif de ce stage est de proposer une méthode pour instancier et déployer automatiquement et efficacement des pipelines de données. Cela soulève plusieurs défis scientifiques et techniques :
– Déploiement automatique : chaque opération du pipeline correspond à un programme (Python, node.JS, …) ou à un appel vers une API externe (par exemple, job Spark) qui est déployé en utilisant une image/containeur Docker [Ber14] adaptée. A partir de la description d’un pipeline, il s’agit de le déployer sur une plateforme Kubernetes dans le cloud (par exemple Google Kubernetes Engine ou Elastic Kubernetes Service d’Amazon).
– La parallélisation des opérations dans plusieurs pods permet d’augmenter la scalabilité horizontale du pipeline, mais nécessite également la définition d’opérateurs de partitionnement de données (par clé ou fenêtrage) pour répartir les traitements sur des partitions indépendantes.
– Le regroupement de plusieurs opérations dans le même pod: ceci permet réduire les échanges de données entre pods qui sont remplacées par des communications moins couteuses entre les threads dans le même pod.
Travail à réaliser: Le ou la stagiaire abordera en priorité le défi de la parallélisation et traitera les points suivants :
1. Prise en main de l’environnement d’exécution. Etat de l’art sur les services Kubernetes, le déploiement automatique de pods et la génération d’images docker.
2. Parallélisation d’une opération : Implanter différents opérateurs de partitionnement adaptés à la distribution de données ordonnées (séquences, flux) et non-ordonnées (ensembles).
3. Traduire la spécification d’un pipeline, contenant des opérations parallélisées, en un déploiement yaml qui doit répliquer les pods s’exécutant en parallèle et contenir des nouveaux pods dédiés au
partitionnement des données.
4. Définir des use-cases et conduire des expérimentations pour mesurer les performances obtenues.
5. Selon le temps disponible le ou la stagiaire pourra étudier l’optimisation du pipeline en combinant les stratégies de regroupement d’opérations dans un même pod et de parallélisation d’un pod. En particulier, ces stratégies sont limitées par un certain nombre de contraintes liées aux types d’images dockers disponibles et au protocole de communication entre pods. Il s’agit de proposer une méthode pour déterminer quelles sont les opérations à regrouper et quelles sont celles à paralléliser afin de maximiser les performances d’un pipeline.
Une perspective intéressante est de répondre aux besoins d’élasticité dans des scénarios sur des flux de données dynamiques (avec des changements de fréquence et des “bursts”). Il s’agit d’étudier l’implantation de stratégies dynamiques qui prennent un compte ces changements pour adapter le nombre de pods déployés aux besoins. Ceci est particulièrement important dans les déploiements sur des services cloud qui impliquent des coûts financiers.
Profil du candidat :
On cherche un étudiant ou une étudiante motivé(e) avec une bonne expérience en programmation (Python, Java) et en bases de données (optimisation, big data). Des connaissances techniques sur Docker/Kubernetes et sur les pipelines de données sont un atout.
Formation et compétences requises :
M2 Informatique ou équivalent
Adresse d’emploi :
SAP-France, Levallois-Perret
LIP/Sorbonne Université, Paris
Document attaché : 202112141329_Stage_LIP6_SAP_2021(1).pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Sorbonne Universite – Equipe Machine Learning and
Durée : 6 mois
Contact : patrick.gallinari@sorbonne-universite.fr
Date limite de publication : 2022-01-10
Contexte :
AI for science is concerned with the exploration of machine learning for scientific computing in domains traditionally dominated by physics models (first principles). We consider here the modeling of complex dynamical systems characterizing natural phenomena, a recent and fast growing research direction with a focus on climate modeling applications and with the objective of combining model based physics and machine learning approaches.
Sujet :
Objective
The global objective is the development of new models integrating physics prior knowledge and deep learning (DL) for the modeling of spatio-temporal dynamics characterizing physical phenomena such as those underlying earth-science and climate observations. The classical modeling tools for such dynamics in physics and applied mathematics rely on partial differential equations (PDE). We then consider situations where the physical prior background is provided by PDEs. Two main directions will be explored:
– Hybrid systems – Interfacing Deep neural Networks (DNNs) and PDE
– Domain generalization for deep learning as dynamical models
Depending on the progress on the first topic, one will consider the issue of domain generalization of hybrid models.
– Application to climate data: the application will target the modeling of the dynamics of ocean circulation, which is a component of climate models.
Profil du candidat :
Master or engineering degree in computer science or applied mathematics.
Formation et compétences requises :
The candidate should have a strong scientific background with good technical skills in programming.
Adresse d’emploi :
Machine Learning and Information Access team – MLIA – https://mlia.lip6.fr, Sorbonne University, 75005 Paris, Fr
Document attaché : 202112031804_2021-12-MLIA-Internship-Deep-Learning-Physics.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire ERIC
Durée : 5 à 6 mois à partir
Contact : sabine.loudcher@univ-lyon2.fr
Date limite de publication : 2022-01-10
Contexte :
L’analyse collaborative dans le contexte de la Business Intelligence (BI) a été étudiée selon différents points de vue, mais reste rare et se concentre principalement sur des aspects techniques. Il n’existe pas de solution globale à ce jour.
Sujet :
Le stage comportera 2 volets :
– Définition d’une typologie des moyens collaboratifs pertinents pour l’analyse BI
Cette tâche est importante pour obtenir à la fois une vue d’ensemble globale des méthodes de collabo-ration pertinentes pouvant être utilisées dans la BI et une idée précise de la manière dont les utilisa-teur/trices pourraient bénéficier de la collaboration. L’analyse collaborative comprend le partage d’ana-lyse, le mashup, l’annotation, la comparaison, la publication…
– Conception / spécifications / implémentation d’une architecture pour l’analyse collaborative qui s’inscrira dans le développement global du projet ANR
L’architecture développée inclura la gamme de propositions déterminées dans la typologie précédente. Un schéma sera dessiné pour représenter le processus collaboratif envisagé. Des spécifications devront être proposées avant la mise en œuvre. L’ensemble du processus devra également être évalué sur un cas d’usage déjà constitué.
Profil du candidat :
Business Intelligence, programmation/programmation web, gestion de données, rigueur.
Formation et compétences requises :
Master d’informatique ou équivalent
Adresse d’emploi :
laboratoire ERIC, Université Lyon 2, campus Porte des Alpes, Bron, Rhône, France
Document attaché : 202110200745_Stage_BI4People_2022.pdf
Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –
Laboratoire/Entreprise : Institut de Planétologie et d’Astrophysique de Gr
Durée : 3 à 5 mois
Contact : mickael.bonnefoy@univ-grenoble-alpes.fr
Date limite de publication : 2022-01-10
Contexte :
More than 4500 exoplanets have been discovered as of now, most of them being formed billions of years ago. The recent direct imaging detection of planets still in the process of formation [1] opens an unprecedented observing window on the initial stages of planetary system assembly (tens of millions of years).
The discovery of forming exoplanets was made possible thanks to the advances of efficient adaptive optics systems coupled to medium-resolution integral field spectrographs (IFS), producing hyperspectral data at high spatial and spectral resolutions. The rich diversity of these data can be used for efficiently removing the bright stellar halo and isolating the sparse signal (line-emission) produced by the planets. The data processing methods implemented thus far remain simple and do not allow for a robust evaluation and rejection of false positives.
Sujet :
Several powerful and versatile methods (anomaly detection, match filters, etc) have been proposed for isolating scarce signals in hyperspectral data with various applications (remote sensing, ground-based astronomy, medical imaging, etc). The student will work on adapting these methods to detect forming exoplanets in hyper-spectral data collected on the MUSE instrument operating at the Very-Large Telescope (VLT, Chile). The work will rely on existing codes available in Python and developed by collaborators. The student will also evaluate the methods using standard approaches (ROC curves, etc).
This internship is introductive to a PhD thesis funded by the French National Research Agency (ANR). A separate call for candidates for the PhD position will be issued in the spring of 2022.
Profil du candidat :
We are looking for a Master Student (Second year master student or equivalent) with a background in Data Science and strong interest in astrophysics. The student should show a proficiency for solving complex problems rigorously and for dealing with data and algorithms. She/He should have excellent writing skills in English (French is a plus) and be able to present her/his work. Teamwork skill is essential.
Formation et compétences requises :
Master signal/image processing or equivalent. Willing to continue in academia (PhD).
Adresse d’emploi :
IPAG
414 Rue de la Piscine
38400 SAINT MARTIN D’HERES
FRANCE
Document attaché : 202110200832_ANR internship – Detecting Forming Exoplanets in Hyperspectral Data.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Institut de Planétologie et d’Astrophysique de Gr
Durée : >4 mois
Contact : philippe.delorme@univ-grenoble-alpes.fr
Date limite de publication : 2022-01-10
Contexte :
Exoplanets are planets orbiting other stars than the Sun. Since their luminosity is orders of magnitude smaller than their host star, finding them and characterizing their properties is extremely challenging and necessitate very careful data analysis and data calibration. For years astronomers used empirical calibrations to improve data quality, but recent publications by data scientists have shown that an inverse problem approach with minimal empirical information can improve data reduction, especially for integrated field spectrographs, that produce both an image and a spectra for each pixel in the image. Notably it does remove very efficiently systematic errors from the early data reductions steps, thus improving the full reduction chain. These improvements are key to allows the most advanced data algorithms to reveal their full potential, enabling reliable analysis of the molecular content of exoplanet atmospheres. With the higher spectral resolution of instruments such as MUSE, SINFONI and soon ERIS, we can detect spectral lines associated with individual molecules and perform molecular mapping to improve the detection and characterization of exoplanets. In fine, each of these developments will help in the coming years with the ultimate goal to search for life in the atmospheres of Earth-like planets with the next generation of extremely large telescopes.
Sujet :
The work will take place within the ANR project FRAME, that aims at finding accreting young exoplanets. The intern will be based at IPAG in Grenoble, home of the FRAME team and will also have the opportunity to collaborate with researchers from CRAL in Lyon. The intern is expected to read and take the time to understand the inverse problem approach of reducing direct imaging data targeted at finding exoplanets. The existing algorithm (PIC 1) is applied to low resolution integrated field spectrographs, and the aim of the internship is to adapt the algorithm to higher resolution instruments that can characterize the molecular content of exoplanet atmospheres. The intern will have access to raw and reduced data of such higher resolution instruments (notably SINFONI and ERIS), and with the help of his/her supervisor he/she is expected to develop a data reduction tool adapted to higher spectral resolution instruments and if possible, to improve it using information coming from astrophysical and detector physics knowledge of the problem. The supervisor will also provide benchmark datasets, some including real planets, reduced with the “traditional” empirical approach, against which to estimate advantages and drawbacks of each approach. Since this work is an open research question, unexpected issues will probably arise, and the longer the internship, the most likely significant results can be achieved. However we do not expect the intern to fully resolve the problem during the course of the internship, and we have funding for a PhD in continuation of this project, also involving observations, improvement of advanced data analysis tools and direct application to look for massive exoplanets and characterize their atmospheres.
Profil du candidat :
Niveau M2 ou équivalent
Formation et compétences requises :
Prerequisites:
– curiosity
– correct linear algebra basis
– enthusiasm to deal with open questions
– Interest for astrophysics
Adresse d’emploi :
Institut de Planétologie et d’Astrophysique de Grenoble
OSUG-A
414, Rue de la Piscine
Domaine Universitaire
38400 St-Martin d’Hères
(France)
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIS UMR 7020
Durée : 4 à 6 mois
Contact : marc-emmanuel.bellemare@univ-amu.fr
Date limite de publication : 2022-01-10
Contexte :
Dans le cadre d’un projet collaboratif de recherche biomédicale sur l’endocardite infectieuse (EI) nous souhaitons développer une approche par réseaux profonds (deep-learning) pour la segmentation d’images de microscopie électronique à balayage dans le but d’analyser l’ultrastructure de valves cardiaques. Ce projet s’appuie sur une collaboration entre le laboratoire Informatique et Systèmes (LIS), expert dans l’analyse d’image, et le laboratoire Mephi (IHU Méditerranée Infection), expert en microbiologie et en microscopie électronique. L’EI est une pathologie grave, associée à un diagnostic difficile et une grande mortalité (Habib 2019). L’EI est caractérisée par une infection bactérienne ou fongique de l’endocarde avec une destruction des valves cardiaques et la formation d’un dépôt fibrino-plaquetaire inflammatoire et infecté, ou végétation. Malgré l’amélioration des stratégies diagnostiques et thérapeutiques, l’incidence et la gravité de la maladie semblent rester inchangées au fil des ans. La microscopie électronique à balayage (MEB) est une technique de microscopie électronique capable de produire des images en haute résolution de la surface d’un échantillon. Par une approche innovante par MEB, nous avons démontré une hétérogénéité de l’ultrastructure des vegetations d’EI qui dépend du microorganisme infectieux (Hannachi 2020). Cette approche innovante a ainsi montré sa force mais elle s’appuie sur une analyse experte des images qui reste manuelle et fastidieuse.
Sujet :
L’objectif du stage est de développer une méthode de réseaux profonds pour accélérer l’analyse des images des végétations, c’est-à-dire pour identifier et quantifier automatiquement les éléments biologiques présents (plaquettes, fibrine, globules, bactéries). Pour cela, il s’agira dans un 1er temps de définir la meilleure stratégie en terme de résolution/grossissement des acquisitions en MEB pour appliquer une segmentation. Dans un 2nd temps nous appliquerons des algorithmes par apprentissage profond (Khadangi 2021) avec un « pipeline » de traitements adaptés. Nous disposons déjà d’une base importante d’images d’échantillons de valves cardiaques pathologiques qui permettra grâce à nos expertises de définir le meilleur protocole d’étude à implémenter en routine avec une attention particulière portée sur la précision des réseaux profonds (Hostin 2021).
Profil du candidat :
Le candidat ou la candidate de niveau Bac+5, formé(e) au traitement des images, sera intéressé(e) par un projet pluridisciplinaire et l’imagerie médicale.
Formation et compétences requises :
La programmation des algorithmes se fera avec le langage python et les réseaux profonds seront développés avec l’API PyTorch. Des compétences en classification ou en mathématiques appliquées seront particulièrement appréciées.
Adresse d’emploi :
Le stage se déroulera à Marseille dans les locaux de l’équipe MEPHI de l’IHU Méditerranée Infection ou dans ceux de l’équipe Image & Modèles du LIS à St Jérôme (site de Polytech’), selon les besoins.
Document attaché : 202112031634_Sujet_Master2_SegmentationSEM_final.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : laboratoire CREATIS
Durée : 5-6 months
Contact : carole.lartizien@creatis.insa-lyon.fr
Date limite de publication : 2022-01-10
Contexte :
The vast majority of deep architectures for medical image analysis are based on supervised methods requiring the collection of large datasets of annotated examples. Building such annotated datasets is hardly achievable, especially for some specific tasks, including the detection of small and subtle lesions, which are sometimes impossible to visually detect and thus manually outline. This is the case for various brain pathologies including Parkinson’s disease.
An alternative methodological framework is that of anomaly detection in an unsupervised context (also called self-supervised). It consists in learning a model of representation of normality from the healthy data only, and then to consider as anomalies the test samples that deviate too much from normality. This last step is usually performed by calculating the error between the original and the reconstructed data from their projection in the latent representation space.
We have developed an expertise in the field of anomaly detection methods for the analysis of multi-modality brain images.
Sujet :
We have developed an expertise in the field of anomaly detection methods for the analysis of multi-modality brain images, and recently applied it to the detection of early forms of Parkinson’s disease in Parkinson’s disease in multiparametric MRI, in collaboration with the Centre de Neurosciences (GIN) and INRIA Grenoble.
The purpose of this project is to improve the performance achieved with the current model architecture by exploring methodological research axes in the domains of deep latent representation learning and visualisation (see attached pdf file for details).
The successful candidate will have access to the PPMI database (https://www.ppmi-info.org/accessdata-specimens/download-data) containing multiple images of controls and parkinsonian patients in different modalities and as well as to computing resources (CREATIS and/or CNRS supercomputer).
Profil du candidat :
Candidate should have background either in machine learning and/or deep learning or image processing and some experience in both fields as well as good programming skills.
We are looking for an enthusiastic and autonomous student with strong motivation and interest in multidisciplinary research (image processing and machine learning in a medical context). The candidate will also have the opportunity to interact with a PhD student working on this project.
See a complete description on https://www.creatis.insa-lyon.fr/site7/fr/node/47143
Formation et compétences requises :
Candidate should have a background either in machine learning and/or deep learning or image processing as well as good programming skills. Experience with deep learning libraries such (TensorFlow, Pytorch, scikit-learn) would be apreciated.
Adresse d’emploi :
Laboratoire CREATIS
INSA Lyon
21 rue Jean Capelle
69621 Villeurbanne cedex
Document attaché : 202112031401_Master_Neuro_SelfSupervised_Park_2021_22_eng.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIFO – Orléans
Durée : 5 mois
Contact : guillaume.cleuziou@univ-orleans.fr
Date limite de publication : 2022-01-10
Contexte :
Améliorer l’efficacité pédagogique des plateformes d’entraînement à la programmation est une problématique en pleine effervescence qui nécessite de construire des représentations fines et exploitables des programmes d’apprenants. Nous nous intéresserons dans ce stage à l’apprentissage de représentations (ou embeddings) de programmes à des fins pédagogiques.
Sujet :
L’apprentissage d’embeddings de programmes consiste à apprendre une représentation riche et condensée d’un programmes informatique sous forme d’un vecteur numérique de faible dimension. Il existe différentes stratégies d’apprentissage d’embeddings de programmes selon que l’on considère d’une part des méthodes supervisées ou non-supervisées et d’autre part selon la nature de la (ou des) représentation(s) primaire(s) exploitée(s) (séquence textuelle du code, arbre syntaxique abstrait, traces de variables, traces d’exécution, etc.).
L’objet de ce stage sera de réaliser une étude comparative des approches supervisées et non-supervisées parmi ces méthodes. En particulier nous nous intéresserons d’une part à l’approche code2vec (Alon et al., 2019) qui exploite de manière supervisée les arbres syntaxiques abstraits (AST) des programmes et d’autre part à l’approche code2aes2vec (Cleuziou&Flouvat, 2021) qui génère de façon non-supervisée des embeddings de programmes à partir de l’analyse conjointe des AST et des traces d’exécution des programmes.
Références.
Alon, U., M. Zilberstein, O. Levy & E. Yahav (2019). code2vec : Learning distributed repre-sentations of code. Proceedings of the ACM on Programming Languages 3(POPL), 1–29.
Cleuziou, G. & F. Flouvat (2021). Learning student program embeddings using abstract execution traces, in 14th International Conference on Educational Data Mining. Paris, France, Pp. 252-262. 06. 2021.
Wang, K., R. Singh, and Z. Su (2018). Dynamic neural program embeddings for program repair. In International Conference on Learning Representations (ICLR’2018).
Profil du candidat :
Étudiant en master et/ou en école d’ingénieur en Mathématiques/Informatique. Une expérience en Machine Learning et un intérêt pour l’analyse de données d’éducation seraient un plus.
Formation et compétences requises :
Étudiant en master et/ou en école d’ingénieur en Mathématiques/Informatique. Une expérience en Machine Learning et un intérêt pour l’analyse de données d’éducation seraient un plus.
Adresse d’emploi :
LIFO – Université d’Orléans
Document attaché : 202112060829_Annonce_StageM2_EDM_LIFO-LIFAT.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire I3S (Sophia Antipolis, France)
Durée : 4 à 5 mois
Contact : cabral@i3s.unice.fr
Date limite de publication : 2022-01-15
Contexte :
Les réseaux de neurones profonds sont devenus un élément incontournable de l’état de l’art pour diverses problématiques d’inférence complexe en traitement de données telles que la détection, la classification et la segmentation d’objets dans les images et vidéos. La complexité croissante de ces réseaux rend difficile leur implantation sur un système embarqué dans un contexte temps-réel. Par conséquent, la réduction de leur complexité en termes d’empreinte mémoire et de complexité de calcul est actuellement un sujet d’intense investigation de plusieurs équipes de recherche.
Pour réduire leur empreinte mémoire, les paramètres d’un réseau profond doivent être compressés. Différentes techniques, telles que l’élagage des poids du réseau [1], la quantification [2] ou une combinaison des deux [3], ont été appliquées. Avec la méthode proposée en [3], il a été montré de manière expérimentale qu’une forte réduction de l’empreinte mémoire peut être obtenue avec une très faible perte des performances d’inférence.
Des membres de l’équipe Signal, Images et Systèmes (SIS) du Laboratoire I3S s’intéressent à la compréhension théorique des effets de la compression sur les performances d’inférence d’un réseau profond, notamment, à donner une prédiction de la perte de performance en fonction du taux de compression des paramètres. Dans un cadre de classification binaire et en se focalisant sur la compression par la quantification des paramètres de la dernière couche du réseau, un travail récent de l’équipe [4] donne une approximation de la perte de justesse de classification introduite par la compression. Cette approximation est donnée en fonction des paramètres de la couche, des caractéristiques du problème de classification sous-jacent et du nombre de bits de quantification utilisé pour la compression.
Sujet :
L’approximation obtenue en [4] n’est valable que sous certaines hypothèses de travail, notamment sur les distributions des entrées de la dernière couche du réseau et sur la distribution des erreurs de quantification des paramètres. Le but premier de ce stage est de réaliser un certain nombre d’expériences pour vérifier ces hypothèses dans un cadre pratique, i.e. lorsque le réseau étudié est un réseau profond utilisé en pratique (ex. : ResNet [5]) et lorsque les données du problème de classification sont réelles (ex. : données CIFAR [6] ou ImageNet [7]). Ces expériences seront réalisées en langage python et nécessiteront l’utilisation de librairies dédiées à l’apprentissage profond (pytorch [8] ou tensorflow [9]).
Selon l’avancement du stagiaire, différentes pistes théoriques pourraient être explorées : adaptation des hypothèses de travail dans le cas où elles ne sont pas exactement vérifiées en pratique, extension de l’étude [4] à la compression de plusieurs couches du réseau, ou encore, extension de [4] à la classification multi-classes.
Références :
[1] S. Anwar, K. Hwang et W. Sung, “Structured pruning of deep convolutional neural networks,” JETC, vol. 13,no. 3, pp. 32:1-32:18, 2017.
[2] B. Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. G.Howard, H. Adam et D. Kalenichenko, “Quantization and training of neural networks for efficient integer-arithmetic-only inference,” IEEE CVPR, pp. 2704-2713, 2018.
[3] S. Han, H. Mao et W. J. Dally, “Deep compression: Compressing deep neural network with pruning, trained quantization and Huffman coding,” 4th ICLR, Y. Bengio and Y. LeCun, Eds., 2016.
[4] D. Resmerita, R. Cabral Farias, B. D. de Dinechin et L. Fillatre, “Distortion Approximation of a Compressed Softmax Layer,” IEEE SSP, pp. 491-495, 2021.
[5] K. He, X. Zhang, S. Ren et J. Sun, “Deep residual learning for image recognition,” IEEE CVPR, pp. 770-778, 2016.
[6] A. Krizhevsky et G. Hinton, “Learning multiple layers of features from tiny images,” 2009. https://www.cs.toronto.edu/~kriz/cifar.html
[7] J. Deng, W. Dong, R. Socher, L. J. Li, K. Li et L. Fei-Fei, “Imagenet: A large-scale hierarchical image database,” IEEE CVPR, pp. 248-255, 2009.
[8] https://pytorch.org/
[9] https://www.tensorflow.org
Profil du candidat :
Étudiant de Master 2 ou fin de cycle ingénieur avec une des spécialisations suivantes :
– Traitement statistique du signal
– Statistiques
– Science des données
Formation et compétences requises :
– Formation en traitement statistique du signal ou en statistiques.
– Maîtrise du langage python.
– Connaissance des réseaux de neurones profonds et des librairies python dédiées (pytorch et/ou tensorflow).
– Écriture de rapports scientifiques avec LaTex.
Adresse d’emploi :
Laboratoire d’Informatique, Signaux et Systèmes de Sophia-Antipolis (I3S) – UMR7271 – UNS CNRS
2000, route des Lucioles – Les Algorithmes – bât. Euclide B 06900 Sophia Antipolis – France
Document attaché : 202111011758_compression_reseaux_neurones_vf.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIST3N, université de technologie de Troyes
Durée : 6 mois
Contact : frederic.bertrand@utt.fr
Date limite de publication : 2022-01-17
Contexte :
Collaboration de recherche avec une entreprise.
Début février 2022.
Sujet :
Le stage porte sur l’adaptation et l’évaluation des performances d’algorithmes de prédiction dans le domaine du processus mining/intelligence.
Profil du candidat :
Connaissances en machine learning et éventuellement dans les environnements cloud.
Langages principalement utilisés python et Julia.
Formation et compétences requises :
Stage de M2, de projet de fin d’études d’ingénieur.
Formation en informatique orienté ML/DL.
Adresse d’emploi :
Université de technologie de Troyes, Troyes.
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LISIC
Durée : 6 months
Contact : gilles.delmaire@univ-littoral.fr
Date limite de publication : 2022-01-17
Contexte :
Hyperspectral Imaging for precision agriculture is a fast-growing field with the advent of compact hyperspectral imagers that provide multiple wavelengths.
In this context, an ongoing Phd thesis, funded by the PMCO and the ULCO university, aims at extracting potato leaf spectra along a field by scanning it with a portable hyperspectral imager. Through
these experimentation, it is expected to detect and locate the affected plants by late blight. To this end, extracting a consistent datacube representing part of the field is needed.
To this goal, the alignment of datacube layers obtained from a spatio-spectral compact hyperspectral imager (funded by the FEDER and Hauts-de-France Region) appears as a challenging task. Indeed, this
kind of imager is designed to scan the scene through a thin lens, causing parallax effects from oblique vision. This effect directly impacts the datacube design with some indesirable spatial gaps while browsing the spectral layers.
Sujet :
The main goal of the internship is to stitch images together into a big datacube with a negligible geometric reconstruction error along the layers regarding the potato leaf scale.
Detailed information in the associated file.
Profil du candidat :
The applicant should conduct Master or engineering studies in relevant fields (artificial intelligence, datascience, applied mathematics). Some knowledge on optics and hyperspectral imagery may be useful.
Formation et compétences requises :
The applicant should conduct Master or engineering studies in relevant fields (artificial intelligence, datascience, applied mathematics). Some knowledge on optics and hyperspectral imagery may be useful.
Good programming skills in Python, Matlab and Shell programming are expected.
Good oral and written communication skills are needed.
Adresse d’emploi :
LISIC Lab,
La Malassise, Chemin de la Malassise,
62219 Longuenesse
Document attaché : 202201131745_Demande_Stage_Recherche_M2.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ICube – Université de Strasbourg
Durée : 4 à 6 mois
Contact : a.capobianco@unistra.fr
Date limite de publication : 2022-01-29
Contexte :
L’utilisation de techniques de Machine Learning/Data Mining pour l’analyse de séries temporelles est en plein essor, plus particulièrement en Sciences de l’Environnement (Hydrologie, télédétection).
Dans le cadre de ses travaux, l’équipe SDC-ICube développe la plateforme d’analyse de séries temporelles FODOMUST (https://sdc.icube.unistra.fr/en/index.php?title=FODOMUST).
Cette plateforme dispose d’une interface déportée MultICube suivant un modèle MVC.
FODOMUST propose des outils d’analyse d’image et de visualisation des résultats de classifications à l’expert. Ces visualisations doivent permettre de faciliter le travail d’analyse des experts géographe et faciliter les tâches de classification et de décision sur la base des propositions du logiciel. La visualisation des informations fournie, pour être utile, doit être suffisamment précise et complète pour que l’expert puisse réellement faire son choix. Cependant, la masse des données à traiter et la complexité des processus d’analyse entraine une importante densité informationnelle et donc un risque de surcharge cognitive qui représente un frein à l’adoption des outils développés.
Sujet :
Pour mieux répondre aux besoins des experts, nous souhaitons migrer l’application existante vers une application web. Afin de faciliter l’intégration de ces nouveaux outils dans des processus d’analyse de données complexes tout en limitant le coût cognitif induit par l’usage de la plateforme, nous souhaitons nous inscrire dans une démarche de co-conception impliquant les utilisateurs finaux dans le processus de création et de développement de ce nouvel outil.
L’objectif de ce travail sera donc triple. Il s’agira :
1. de faire une étude des besoins et attentes des utilisateurs : pour cela, le•la stagiaire organisera des ateliers de co-conception avec les utilisateurs finaux. Différentes méthodes pourront être considérées. Le•la stagiaire sera secondé•e par Margaux Holveck (Ingénieur de Recherche – Géomatique).
2. de concevoir et valider avec les utilisateurs une proposition d’interface.
3. de fournir et d’évaluer un prototype « preuve de concept » permettant de mieux visualiser le résultat potentiel. Le•la stagiaire sera secondé par un•e étudiant•e stagiaire en développement web pour la réalisation de ce prototype fonctionnel.
Profil du candidat :
Le•la candidat•e devra poursuivre une formation en Informatique, Sciences humaines et sociales ou Psychologie Cognitive avec de bonne connaissance en Ergonomie ou Interaction Homme-Machine.
Formation et compétences requises :
Des connaissances en UI/UX et conception d’interface sont requises. Des connaissances en développement front-end (HTML/CSS et Javascript) seront un plus.
Adresse d’emploi :
ICube – Université de Strasbourg
300 bld Sébastien Brant
67400 Illkirch
Document attaché : 202111250634_SujetM2-2021-Ergonomie-Interface.pdf
