
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : StatSC Oniris VetAgroBio Nantes
Durée : 6 mois
Contact : veronique.cariou@oniris-nantes.fr
Date limite de publication : 2024-04-15
Contexte :
La digestion anaérobie, ou méthanisation, est un bioprocédé permettant de convertir la matière organique en biogaz, riche en
méthane. Ce bioprocédé est utilisé de plus en plus largement à l’échelle industrielle pour la valorisation des déchets organiques
en énergie renouvelable. Il repose sur l’activité d’une communauté microbienne complexe, dynamique, et sensible aux
variations des conditions opératoires. Cette sensibilité peut avoir pour conséquence une instabilité du procédé, et des
répercussions importantes pour les opérateurs. Afin d’optimiser la digestion anaérobie, une compréhension approfondie du
fonctionnement des communautés microbiennes, en particulier face à des stress, est essentielle. Les méthodologies haut-débit
omiques s’avèrent des outils particulièrement pertinents pour cela. La métagénomique, la métatranscriptomique, la
métabolomique et la métataxonomique permettent en effet de caractériser une communauté microbienne à différents
niveaux de son fonctionnement. Ces approches sont particulièrement intéressantes lorsqu’elles sont utilisées dans un contexte
longitudinal, c’est-à-dire en analysant une suite temporelle d’échantillons plutôt que des échantillons uniques. Ainsi, il est
possible de mieux saisir la dynamique de l’écosystème microbien suite à un changement de paramètre opératoire ou à un
stress, et de proposer des solutions pour limiter les répercussions sur le procédé.
Cependant la plupart des méthodes statistiques utilisées pour analyser les données omiques ne tiennent pas compte
explicitement de la temporalité, et traitent les différents points de temps comme des échantillons indépendants. Pour exploiter
pleinement le potentiel des données longitudinales et prendre en compte le lien temporel entre les échantillons, la création
de pipelines analytiques spécifiques est requise. Ces pipelines permettraient d’identifier les marqueurs biologiques associés à
l’évolution des conditions opératoires et à l’évolution des performances des procédés. On pourrait chercher des liens entre les
dynamiques temporelles des microorganismes et faire des hypothèses biologiques. On pourrait également envisager de
déconvoluer l’effet des différents facteurs sur les dynamiques microbiennes et par exemple distinguer la dynamique naturelle
de l’écosystème de l’effet spécifique d’un paramètre donné.
Sujet :
Dans ce contexte, l’objectif du stage sera de mettre en place un pipeline analytique spécifique pour la valorisation des données
omiques longitudinales issues de bioprocédés. Différents défis statistiques seront à résoudre (Kodikara et al. 2022). Des jeux
de données omiques (metataxonomique, métagénomique, métabolomique) issues d’échantillons prélevés dans des
bioréacteurs de laboratoire sont disponibles. Elles proviennent d’expériences réalisées dans l’unité PROSE pour évaluer les
conséquences de différents stress salins sur les performances de la digestion anaérobie. On pourra s’appuyer sur des travaux
préliminaires précédents (Bodein et al. 2019, Chapleur et al. 2021).
Bodein, A., Chapleur, O., Droit, A. and Lê Cao, K.-A. (2019) A Generic Multivariate Framework for the Integration of Microbiome Longitudinal Studies With
Other Data Types. Frontiers in Genetics 10(963).
Chapleur, O., Poirier, S., Guenne, A. and Lê Cao, K.-A. (2021) Time-course analysis of metabolomic and microbial responses in anaerobic digesters exposed to
ammonia. Chemosphere 283, 131309.
Kodikara, S., Ellul, S. and Lê Cao, K.-A. (2022) Statistical challenges in longitudinal microbiome data analysis. Briefings in Bioinformatics 23(4).
Profil du candidat :
– Connaissances solides en statistiques et en particulier en analyse de données,
– Aptitude à développer des scripts de traitement de données sous R,
– Capacités rédactionnelles et lecture d’articles scientifiques en anglais,
– Aptitudes au travail en équipe et à la communication.
Formation et compétences requises :
Master 2 en statistique / biostatistique
Adresse d’emploi :
Oniris VetAgroBio
Campus des Sciences de l’Ingénieur
44300 Nantes
Document attaché : 202403151506_DOMULO_Stage_M2_StatSC_PROSE_2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LORIA
Durée : 6 mois
Contact : lydia.boudjeloud-assala@univ-lorraine.fr
Date limite de publication : 2024-04-15
Contexte :
L’identification de communautés sur les réseaux sociaux est généralement effectuée selon deux types d’approches. La première consiste en l’exploitation de la similarité entre les individus du réseau social considéré en fonction de leurs caractéristiques (âge, sexe, activité sur un service donné, appréciations musicales, etc.). La seconde consiste en l’exploitation du graphe des liens sociaux explicites entre les individus (amis sur Facebook, suivis/suiveurs sur Deezer, etc.) afin d’en extraire des cliques ou des quasi-cliques.
L’une des problématiques de ce domaine de recherche est l’évaluation de la pertinence des communautés extraites. Une solution répandue consiste à vérifier d’une part que les individus au sein de chaque groupe sont fortement similaires (haute similarité intra-cluster), et d’autre part que la similarité entre les individus de groupes différents est faible (faible similarité inter-cluster). Le problème de cette solution est qu’un score élevé calculé selon ce type de critères ne correspond pas forcément à des communautés pertinentes, et que des communautés extraites très différentes peuvent avoir des scores très proches.
Une manière possible d’amoindrir ce problème serait de croiser deux points de vue différents, chacun correspondant à l’un des deux types d’approches de clustering mentionnées ci-dessus. En effet, ces deux types d’approches utilisant des informations très différentes en entrée, leurs sorties sont souvent très différentes elles aussi. Or, la meilleure version de chacune de ces approches devrait en principe produire des communautés aussi proches des communautés réelles du réseau social considéré que possible, et leurs sorties respectives devraient elles aussi être aussi similaires que possible. La pertinence d’un algorithme correspondant à l’un de ces deux types d’approches pourrait ainsi être évaluée en fonction de la distance entre sa sortie et celle d’un algorithme de l’autre type. L’idée est donc de rechercher une stratégie de dialogue qui, étant donnés deux algorithmes des deux types (similarité et liens sociaux), permette à ces algorithmes de converger vers des sorties aussi similaires que possible.
Sujet :
Objectifs
Les objectifs de ce stage porteront ainsi sur la détermination de stratégies de dialogue entre les deux types d’algorithmes et sur la possibilité d’obtenir une convergence. Un bon point de départ est l’article de Forestier et al. (2010) sur la résolution itérative de conflits entre clusterings.
Nous fournirons au stagiaire une base de données issue du site senscritique, qui permet à ses utilisateurs de rédiger des critiques de films, de livres, de musique, etc., d’attribuer des notes et de suivre d’autres utilisateurs.
Dans un premier temps, le stagiaire devra se familiariser avec d’une part les algorithmes classiques de clustering (K-means, DBscan, etc.) et d’autre part les algorithmes d’extraction de quasi-cliques (Quick, alpha-bêta-cliques, etc.). Des bibliothèques implémentant ces algorithmes seront exploitées dans un second temps pour observer les différences entre les communautés produites en fonction du type d’algorithme et des paramètres choisis (nombre de clusters, densité des clusters, connectivité minimale du voisinage, etc.). Enfin, des stratégies itératives permettant de faire dialoguer les deux types d’approches seront proposées, implémentées et expérimentées.
https://homepages.loria.fr/gbonnin/internships/detection-of-communities-fr.html
Profil du candidat :
Master, école d’ingénieur
Formation et compétences requises :
Compétence en Informatique, Science de donnée, Machine Learning,
Adresse d’emploi :
LORIA Nancy
Document attaché : 202401161044_Nancy_MasterThesis_Description___Identification_de_communautés__Copy_.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire des signaux et syst`emes (L2S)
Durée : between 4 and 6 mont
Contact : stefano.fortunati@centralesupelec.fr
Date limite de publication : 2024-04-16
Contexte :
Reinforcement Learning (RL) methodologies are currently adopted in different context requiring sequential decision-making tasks under uncertainty. The RL paradigm is based on the perception-action cycle, characterized by the presence of an agent that senses and explores the unknown environment, tracks the evolution of the system state and intelligently adapts its behavior in order to fulfill a specific mission. This is accomplished through a sequence of actions aiming at optimizing a pre-assigned performance metric (reward). Despite of their wide applicability, classical RL algorithms are based on a cumbersome assumption: the stationarity of the environment, i.e. the statistical and physical characterization of the scenario, is assumed to be time-invariant. This assumption is clearly violated in surveillance application, where the position and the number of targets, along with the statistical characterization of the disturbance may change over time. To overcome this limitation and include the non-stationarity in the RL framework, both theoretical and application-oriented non-stationary approaches have been proposed recently in the RL literature. The application of these non-stationary-based line of research to robust radar detection problems has been recently investigated.
Sujet :
The aim of this internship is then to support and complete the ongoing research activity by testing and validating the non-stationary RL algorithms on several realistic scenarios where the radar acts as an agent that continuously senses the unknown environment (i.e., targets and disturbance) and consequently optimizes transmitted waveforms in order to maximize the probability of detection (PD) by focusing the energy in specific range-angle cells. Due to their crucial strategical interest, particular attention will be devoted to scenarios containing drones.
Profil du candidat :
Master 2 or equivalent in machine learning / applied mathematics / statistical signal processing or any related field.
Formation et compétences requises :
machine learning / applied mathematics / statistical signal processing / Matlab/ Python
Adresse d’emploi :
Laboratoire des signaux et systèmes (L2S), Bât IBM, Rue Alfred Kastler, 91400 Orsay.
Document attaché : 202311161045_Internship_proposal_IPSA.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LS2N
Durée : 5 à 6 mois
Contact : julien.blanchard@univ-nantes.fr
Date limite de publication : 2024-04-20
Contexte :
With the digital transformation of our societies, more and more domains are interested in the analysis of series of symbolic events, such as Web user behavior analysis, healthcare and patient monitoring or fraud detection in financial transactions. Grasping the dynamics of these data streams requires revealing hidden structures behind them. To this end, Gunawardana and Meek have proposed a novel approach called Graphical Event Models (GEMs), probabilistic models capable of explicitly describing the temporal dependencies between events [1,2,3]. The PILGRIM software library developped by the DUKe reasearch team at the LS2N laboratory provides an original implementation of GEMs and of algorithms for learning them from logs – see [4,5,6] for examples of DUKe’s works on GEMs.
Sujet :
The goal of this internship is to study GEMs more deeply from both a theoretical and practical point of view, and to develop new methods for learning and using them. Several directions are possible:
– design and implement sampling and inference algorithms ;
– compare GEMs with process mining (log analysis approach [7]) : founding principles, model properties, experiments on data ;
– adapt explainable AI techniques to GEMs.
Possibility of extending into a PhD thesis if the internship is satisfactory.
[1] Asela Gunawardana and Chris Meek. Universal models of multivariate temporal point processes. In Proceedings of the 19th International Conference on Artificial Intelligence and Statistics, volume 51 of Proceedings of Machine Learning Research, pages 556–563, 09–11 May 2016. PMLR.
[2] Christopher Meek. Toward learning graphical and causal process models. In Proceedings of the UAI 2014 Conference on Causal Inference: Learning and Prediction – Volume 1274, CI’14, pages 43–48, 2014. CEUR-WS.org.
[3] Asela Gunawardana, Christopher Meek, and Puyang Xu. A model for temporal dependencies in event streams. In Proceedings of the 24th International Conference on Neural Information Processing Systems, NIPS’11, pages 1962–1970, 2011. Curran Associates Inc.
[4] Mathilde Monvoisin and Philippe Leray. Multi-task transfer learning for timescale graphical event models. In 15th European Conference on Symbolic and Quantitative Approaches to Reasoning with Uncertainty (ECSQARU 2019), 2019.
[5] Dimitri Antakly, Benoit Delahaye, and Philippe Leray. Graphical event model learning and verification for security assessment. In 32th International Conference on Industrial, Engineering, Other Applications of Applied Intelligent Systems (IEA/AIE 2019), Advances and Trends in Artificial Intelligence, pages 245–252, 2019.
[6] SPARS project : Sequential pattern analysis in robotic surgery. https://project.inria.fr/spars/
[7] Wil M. P. van der Aalst. Process Mining: Data Science in Action. Springer, Heidelberg,2 edition, 2016.
Profil du candidat :
– Autonomy, rigor, initiative, analytical and synthesis skills, sense of commitment, communication and interpersonal skills
– C++ programming
Send CV, motivation letter and academic results in PDF format to julien.blanchard@univ-nantes.fr
Formation et compétences requises :
Master’s degree with specialization in Data Science or Machine Learning
Master 2 ou dernière année d’école d’ingénieur
Adresse d’emploi :
Polytech Nantes, rue Christian Pauc, 44306 Nantes, France
Document attaché : 202311301055_Internship_GEM_2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Insitut Fresnel
Durée : 5 à 6 mois
Contact : andre@fresnel.fr
Date limite de publication : 2024-04-24
Contexte :
L’IRM est l’une des principales modalités d’imagerie utilisées dans la pratique clinique aujourd’hui. L’une de ses particularités est de fournir un contraste des tissus mous. De plus, contrairement aux autres modalités d’imagerie, l’IRM permet d’obtenir des informations sur les processus pathologiques de manière non invasive. Cependant, le temps d’acquisition de l’IRM constitue un obstacle majeur dans de nombreuses applications. Un long temps d’acquisition conduit, par exemple, à l’inconfort du patient, à l’apparition d’artefacts de mouvement sur l’image et à l’augmentation du coût de l’examen.
Sujet :
Une manière d’accélérer les examens IRM est de réduire le nombre de points dans l’espace d’acquisition. Deux stratégies peuvent alors être employées pour restaurer la qualité des images : L’imagerie parallèle [1] et le « Compressed Sensing » (CS) [2]. L’imagerie parallèle utilise la diversité de l’information fournie par un système multi-capteurs. Le CS, quant à lui, est basé sur l’apriori que les images sont parcimonieuses dans certains domaines de transformation. Le CS fait alors appel à des algorithmes itératifs permettant de prendre en compte cette contrainte de parcimonie.
Récemment les méthodes d’apprentissage profond ont montré leur efficacité pour la reconstruction d’IRM [3]. Parmi ces approches, certaines ont été proposés pour imiter les algorithmes de compressed sensing [4]. Le but de ce stage est de recenser et de faire une étude comparative de ces méthodes.
[1] Griswold MA, Jakob PM, Heidemann RM, Nittka M, Jellus V, Wang J, Kiefer B, Haase A. Generalized autocalibrating partially parallel acquisitions (GRAPPA). Magn Reson Med. 2002.
[2] M. Lustig, David Donoho, J. M. Pauly, Sparse MRI: The application of compressed sensing for rapid MR imaging, Magn Reson Med. 2007.
[3] F. Knoll et al., Deep-Learning Methods for Parallel Magnetic Resonance Imaging Reconstruction: A Survey of the Current Approaches, Trends, and Issues, in IEEE Signal Processing Magazine, vol. 37, no. 1, pp. 128-140, Jan. 2020.
[4] Zeng, G., Guo, Y., Zhan, J. et al. A review on deep learning MRI reconstruction without fully sampled k-space. BMC Med Imaging 21,2021
Profil du candidat :
Etudiant en dernière année d’école d’ingénieur ou Master 2 en Traitement signal/image, sciences des données ou mathématiques appliqués.
Formation et compétences requises :
Le candidat devra obligatoirement être à l’aise avec le langage python et les bibliothèques numpy et pytorch. Cela signifie qu’une première expérience en apprentissage profond est nécessaire. Un goût pour la physique et les applications biomédicales est souhaité.
Adresse d’emploi :
Insitut Fresnel, 52 Av. Escadrille Normandie Niemen, 13013 Marseille
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : GREYC ou LITIS
Durée : 6 mois
Contact : luc.brun@ensicaen.fr
Date limite de publication : 2024-05-05
Contexte :
L’apprentissage profond a révolutionné de nombreux domaines tels que l’analyse d’images ou le traitement automatique des langues. Pourtant, l’incapacité de ces systèmes à justifier leurs décisions est très vite apparue comme une limite forte.
Ce problème est d’autant plus saillant dans la prédiction de l’action thérapeutique d’une molécule où il n’est pas viable d’engager des moyens et du temps pour la synthèse / le test de molécules sur la simple base d’une prédiction par un réseau. Plus précisément, la capacité d’un réseau (en l’occurence sur graphe) à expliquer sa décision permet:
* de valider les prédictions avant d’engager des efforts et des moyens sur les synthèses d’une série moléculaire
* d’obtenir une intuition sur les propriétés physico-chimiques clés que doit posséder une molécule pour avoir une action biologique ciblée.
Le second point est également très intéressant car il ouvre des perspectives vers la conception de nouvelles molécules thérapeutiques.
Sujet :
Notre étude commencera par une étude des réseaux sur graphes (GNN) permettant de prédire les propriétés de nos jeu de données. L’étude sera ciblée sur la prédiction des interactions protéines/ligands à partir de plusieurs représentations de graphes moléculaires.
Si cette étape est validée, nous aborderons une comparaison des méthodes de la littérature permettant d’expliquer les résultats de ces GNNs. Les résultats produits (en termes d’explication) seront évalués en utilisant plusieurs critères tels que l’accuracy, l’aire sous la courbe, la fidélité, la parcimonie,…. Nous espérons identifier à partir de cette étude des sous structures pertinentes pour les propriétés à prédire.
Nous essaierons, dans un troisième temps, d’appliquer ces méthodes sur les graphes moléculaires squelettiques. Il s’agira de comparer sous l’angle de l’explicabilité les descriptions moléculaires “brutes” et celles produites en intégrant une expertise du domaine via le graphe pharmacophorique.
Ce sujet peut être considéré comme un formation pour une thèse de doctorat qui pourrait commencer à l’issue du stage.
Profil du candidat :
Nous recherchons des candidats de niveau Bac+5 avec de bonnes bases en apprentissage machine. Une capacité à travailler en équipe combinée à une curriosité pour les problèmes scientifiques et une certaine autonomies seraient des plus.
Formation et compétences requises :
Le candidat doit être inscrit en dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation.
Une expérience en informatique pour la Science des Données, apprentissage profond, notamment sur graphes ainsi que pytorch sera un plus.
Adresse d’emploi :
Le stage pourra se dérouler à Caen (au laboratoire GREYC) ou à Rouen (laboratoire LITIS).
Document attaché : 202401231248_theseCODAG.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LITIS
Durée : 5/6 mois
Contact : Sebastien.Adam@univ-rouen.fr
Date limite de publication : 2024-05-05
Contexte :
Les réseaux de neurones sur graphe (GNN) sont un champs d’étude en plein essor ces dernières années. Les Message Passing Neural Network (MPNN) tels que Graph Convolutional Network (GCN) et Graph Isomorphism Network (GIN) sont les plus utilisés des GNNs du fait de leur complexité linéaire. Cependant, il a été démontré que l’expressivité de ces modèles était limitée. En effet, en terme de séparabilité, ils sont moins expressifs que le test de Wesfeiler-Lemahn et en terme de comptage de sous-structures, il ne peuvent pas compter les triangles dans un graphe
Sujet :
Durant ce stage, vous explorerez une nouvelle approche, décrite dans cite{piquenot2023iclr}, basée sur les Context Free Grammar (CFG). Les CFG sont composées de règles que l’on peut sélectionner pour construire des couches de GNN. Un exemple de couche de GNN produite à partir d’une grammaire basée sur la séparabilité est visible sur la Figure ref{fig:gram}. Ce stage s’inscrit dans une démarche de recherche de performance d’un GNN. Nous chercherons dans un premier temps à développer un code permettant de produire une couche de GNN à partir de règles dans une CFG que l’on pourra choisir. Ce code permettra à l’utilisateur de tester pour une tâche donnée la pertinence des règles de la CFG. Dans un second temps, le stagiaire pourra mesurer les performances de GNNs produits à partir de différents ensembles de règles sur des datasets usuels de la littérature.
Profil du candidat :
Etudiant en dernière année de Master ou d’école d’ingénieur, en mathématiques appliquées, science des données ou intelligence artificielle.
Formation et compétences requises :
Bonnes connaissances du Machine Learning
Bonnes compétences en Python et Pytorch
Adresse d’emploi :
Laboratoire LITIS, UFR Sciences et Techniques, Avenue de l’Université, 76800 Saint Etienne du Rouvray
Document attaché : 202401191526_stage_M2_G2N2.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Institut FEMTO-ST
Durée : 6 mois.
Contact : zeina.almasry@femto-st.fr
Date limite de publication : 2024-05-05
Contexte :
Les réseaux de neurones (RN) sont largement utilisés dans plusieurs domaines. Toutefois, les résultats fournis par un algorithme basé sur les RN intègrent des incertitudes liées aux données et au modèle. Il est important de quantifier ces incertitudes, pour fournir une information supplémentaire afin d’assister la décision finale. Par exemple, en industrie lorsqu’une anomalie est détectée avec un faible niveau de confiance, une vérification supplémentaire à l’aide d’une autre source d’information est ajoutée (image, intervention humaine…) avant de planifier des actions de réparation. Un autre exemple en médical, la mesure de l’incertitude permet aux praticiens de prendre des décisions adaptées pour la prise en charge des patientes comme par exemple explorer d’autres tests. Plus généralement, une quantification fiable de l’incertitude de la prédiction permet de faire confiance ou non aux prévisions pour des entrées interpolant/extrapolant les situations vues dans l’ensemble d’entraînement. Plusieurs approches sont proposées pour la quantification d’incertitude, certaines sont dédiées aux RN.
Les réseaux de neurones bayésiens (RNB) fournissent un outil mathématique pour mesurer l’incertitude du modèle. L’idée est de remplacer les valeurs déterministes des paramètres du RN (poids et biais) par des distributions de probabilité avec un a priori gaussien, pour ensuite apprendre les paramètres de ces distributions. Une fois entraîné, les sorties du RN peuvent être évaluées plusieurs fois pour obtenir une distribution empirique des prédictions. Plusieurs méthodes ont été proposées pour les RNB basées, par exemple, sur l’approximation de Laplace ou des méthodes de Monte Carlo Hamiltonien. Dans le cadre de ce projet, l’objectif est de développer une méthode de quantification basée sur les RNB. La méthode sera appliquée pour un problème de classification et régression sur des données synthétiques.
Sujet :
Objectifs du stage :
— Etat de l’art sur les RNB.
— Développer un algorithme basé sur les RNB.
— Optimisation de l’architecture du réseau ainsi que les différents hyperparamètres.
— Appliquer l’algorithme pour la quantification l’incertitude pour la régression et la
classification et évaluation les performances.
— Comparer l’approche proposée avec d’autres techniques de la littérature dropout, ensemble learning.
Profil du candidat :
Master 2 ou en dernière année d’école d’ingénieur.
Formation et compétences requises :
mathématiques-appliquées, apprentissage profond, programmation Python.
Adresse d’emploi :
26 Rue de l’Épitaphe, 25000 Besançon.
Document attaché : 202401221232_sujet_stage.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire des signaux et syst`emes (L2S)
Durée : between 4 and 6 mont
Contact : stefano.fortunati@centralesupelec.fr
Date limite de publication : 2024-05-31
Contexte :
One of the key features characterizing the new generation of radio telescopes is the large number of their antenna elements. Built in 2010, the Low-Frequency Array (LOFAR) is currently the largest radio telescope in operation with 100000 antenna dipoles distributed across several European countries. Furthermore, the upcoming Square-Kilometer Array (SKA) will be made up of more than 130000 antennas. Such a large number of antennas will make it possible to acquire increasingly accurate and detailed images of the celestial vault. Such images will form the basis for promising developments in astrophysics and cosmology in the coming years.
However, as in any other remote sensing system, the signal collected by a radio telescope is affected by different sources of disturbance that will degrade the quality of the collected image. Consequently, to take full advantage of the potential of the new radio telescopes, one must first take the disturbance into account. In general, this disturbance is characterized as a zero-mean Gaussian random process with possibly unknown correlation structure.
Then, the crucial question is: is it possible to derive robust imaging algorithms, without any assumption on the specific form of the noise distribution, and that still remain accurate? If yes, which is the price to pay?
Sujet :
This internship is part of the“SIDEREAL” project. The objectives
of the internship are the following:
1. Building upon the existing works, we will adapt the array signal model to the context of radio telescopes. Particular attention will be devoted to the disturbance model to be used in astronomical data analysis and on its statistical description.
2. After these preliminary investigations, the project will focus on the development of original image reconstruction algorithms for radio astronomy by exploiting the massive number of antenna elements available in modern radio telescopes. Their performance and statistical properties will be assessed by means of simulated data.
Profil du candidat :
Master 2 or equivalent in machine learning / statistical signal processing or any related field
Formation et compétences requises :
Statistical signal processing, estimation theory, programming skills in Matlab or Python.
Adresse d’emploi :
Laboratoire des signaux et systèmes (L2S), Bât. IBM, Rue Alfred Kastler, 91400 Orsay.
Document attaché : 202311021052_Internship_proposal_SF_LB.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRIT
Durée : 6 mois
Contact : emmanuelle.claeys@irit.fr
Date limite de publication : 2024-06-30
Contexte :
La consommation d’énergie des ordinateurs devient une préoccupation majeure dans le cadre du réchauffement climatique. Pour optimiser leur consommation électrique d’application informatique, il est nécessaire de disposer d’informations précises sur leur comportement. Il devient alors possible de choisir la bonne fréquence d’un processeur. Cependant, le choix de la vitesse de fréquence peut fortement détériorer son fonctionnement, ou au contraire, n’avoir aucun effet visible pour l’utilisateur.
Sujet :
L’objectif de ce projet sera réalisé en plusieurs étapes
Découvrir en temps réel la vitesse des applications à partir de données instantanées. La modélisation se fera à l’aide de capteurs en temps réel (compteurs de performances matérielles, RAPL, …).
Modéliser le comportement à grain fin des applications pour les relier à l’incidence d’un changement de fréquence (en termes de performances et d’énergie).
Utiliser un algorithme d’apprentissage par renforcement (ici un modèle de bandit) pour choisir en temps réel la fréquence la plus adaptée.
Des données de monitoring fin sont déjà disponibles et seront utilisées pour la partie modélisation. La partie expérimentation et validation se déroulera sur la plateforme Grid5000 (plateforme nationale d’expérimentation en informatique).
https://www.irit.fr/~Georges.Da-Costa/post/bandits/
Profil du candidat :
Des compétences en analyse de données temporelles et en modélisation statistique seront appréciées ainsi qu’un intérêt pour les enjeux écologiques et les algorithmes d’apprentissage par renforcement. La co-rédaction d’un article présentant les résultats obtenus dans un journal scientifique étant attendu, l’objectif du candidat de poursuivre vers une thèse est un plus.
Le stage sera encadré par Emmanuelle Claeys et Georges Da Costa dans une ambiance conviviale :). Un ordinateur et un bureau seront fournis, ainsi qu’une indemnité mensuelle de stage de 591 €. La durée du stage est de 5-6 mois. Vous pouvez nous envoyer votre candidature (lettre de motivation + CV / court curriculum vitæ) par email à Emmanuelle.Claeys@irit.fr et georges.da-costa@irit.fr.
Formation et compétences requises :
Bac+5 Info/Math
Adresse d’emploi :
Campus Paul Sabatier IRIT
Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –
Laboratoire/Entreprise : Institut d’Astrophysique de Paris
Durée : 3 à 6 mois
Contact : florent.leclercq@iap.fr
Date limite de publication : 2024-06-30
Contexte :
Physical cosmology has brilliantly interwoven high-energy physics and observational astronomy to sketch the history of the Universe’s evolution from the Big Bang to its present state. Yet, lingering mysteries still beckon, primarily concerning dark energy, the cause of the Universe’s accelerated expansion, and the elusive masses of neutrino particles. Recent advances in statistical cosmology show the potential of going beyond traditional methodologies centred around correlation functions to unveil these secrets. The INFOCW project, funded by the Agence Nationale de la Recherche (ANR), seeks to employ models that predict the complete map of the large-scale structure as seen by ESA’s Euclid satellite, a recently launched space observatory. Through the synergy of cosmological simulations, data science, and astrophysical observations, the project promises to bring forth innovations that harness information trapped in the cosmic web—the Universe’s grandest observable structure.
Sujet :
Identifying and extracting the maximum amount of cosmological information from cosmic maps is still a largely open problem and will play a pivotal role in INFOCW. The goal of this master internship and PhD project is to tackle this task. In the first phase of the project, we will utilise physically and statistically motivated cosmic web probes. We will then optimise the extraction of cosmological information using automatically defined statistical summaries of galaxy catalogues, i.e. machine-aided definition of probes.
More details and French version: https://florent-leclercq.eu/supervision.php#internship-phd-2024
Profil du candidat :
We are looking for candidates with:
– A strong background in cosmology and/or astrophysics,
– Good computational abilities, preferably some familiarity with at least Python,
– A willingness to learn, and to work collaboratively.
We are seeking to appoint the same candidate for a master internship (dates at the candidate’s convenience from February 2024) followed by a three-year PhD studentship from October 2024, subject to satisfactory performance. Both positions are based in the large-scale structure and distant Universe group of the Institut d’Astrophysique de Paris (IAP). Supervision will be provided by Florent Leclercq (principal investigator of INFOCW) & Guilhem Lavaux. Funding for research expenses (travel, small equipment) is provisioned.
Application files must contain a CV and a transcript of record for all higher education programmes. They should be addressed to Florent Leclercq (florent.leclercq@iap.fr) & Guilhem Lavaux (guilhem.lavaux@iap.fr). One or more letters of recommendation (optional) can be sent directly by their authors to the same addresses.
Formation et compétences requises :
We are looking for candidates with:
– A strong background in cosmology and/or astrophysics,
– Good computational abilities, preferably some familiarity with at least Python,
– A willingness to learn, and to work collaboratively.
Adresse d’emploi :
Institut d’Astrophysique de Paris, 98bis boulevard Arago, 75014 Paris, France
Offre en lien avec l’Action/le Réseau : EducAction/– — –
Laboratoire/Entreprise : IRIMAS
Durée : 5 mois
Contact : nour.el-mawas@univ-lorraine.fr
Date limite de publication : 2024-07-01
Contexte :
The ANR COPCOT project involves members from Pixel team (CREM), MSD Team (IRIMAS), Trigone team (CIREL), and France-IOI association. Our aim is to understand learners’ skills-building in the Technology Enhanced Learning platform Quick-Pi, and to facilitate skills-building through content and feedback personalization.
Sujet :
The goal of this internship is to analyze learners’ data from the Quick-Pi platform (https://quick-pi.org/contenu.html) in order to identify relevant learner behaviors and extract data indicators contributing to the skills construction in programming among learners.
In particular, the candidate will work on the following tasks:
• Learners’ data analysis. Analysis of trace logs data from users’ interactions help us to better understand their learning process, distinguish groups of learners, and predict learners’ success in each Quick-Pi exercise.
Trace logs data can be seen as time series, hence this task will start by reviewing existing Machine Learning algorithms [1] used for time series analysis. Then the candidate will identify and adapt these algorithms to our sequential data in order to predict the learners’ success in each exercise on the Quick-Pi platform. The implicit data provided by Quick-Pi logs (like time spent on an exercise, navigation logs, code lengths, etc.) will be used. Once the pertinent algorithm to predict students’ success is found,
indicators can be found. Existing learners’ data analysis techniques such as knowledge tracing [2, 3] will be investigated to predict the success of students in each exercise.
• Indicators identification. The candidate will analyze which logs in the selected algorithm of the previous task were used by the algorithm itself to predict the success. This will help us to identify indicators. We believe that if the selected algorithm successfully predicts learners’ success, we should be aware of which specific log lines contributed to this prediction the most. For example, we can find that the time spent on an exercise may have a correlation with the learners’ success in a specific exercise.
These indicators are crucial to understand skills-building and learners’ difficulties. Features selection techniques [4] and explainability techniques [5] will be investigated in order to identify pertinent indicators for skills- building.
References
[1] H. Ismail Fawaz, G. Forestier, J. Weber, L. Idoumghar, and P.-A. Muller, “Deep learning for time series classification: a review,” Data mining and knowledge discovery, vol. 33, no. 4, pp. 917–963, 2019.
[2] M. Sao Pedro, R. Baker, and J. Gobert, “Incorporating scaffolding and tutor context into bayesian knowledge tracing to predict inquiry skill acquisition,” in Educational Data Mining 2013, Citeseer, 2013.
[3] S. I. Ram´ırez Luelmo, N. El Mawas, and J. Heutte, “Existing machine learning techniques for knowledge tracing: A review using the prisma guidelines,” in International Conference on Computer Supported Education, pp. 73–94, Springer, 2022.
[4] V. Vijayalakshmi and A. Prakash, “Developing an optimized feature selection process for designing efficient content management system using educational data,” International Journal of Advanced Research in Science Technology (IJARST), vol. 7, no. 1, pp. 15–24, 2020.
[5] R. Alamri and B. Alharbi, “Explainable student performance prediction models: a systematic review,” IEEE Access, vol. 9, pp. 33132–33143, 2021.
Profil du candidat :
The candidate must be registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science
Formation et compétences requises :
• Good skills in Python programming are mandatory
• Good skills in Machine Learning are required
• Interest, knowledge and/or a first experience in Technology Enhanced Learning (learning programming in particular) will be appreciated
Adresse d’emploi :
UHA/IRIMAS EA 7499, Mulhouse, France
Document attaché : 202310310845_internship_position_COPCOT_2023_VF.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : Laboratoire des Signaux et Systèmes
Durée : 5 mois
Contact : francois.orieux@l2s.centralesupelec.fr
Date limite de publication : 2024-07-01
Contexte :
Le traitement de mesures instrumentales nécessite souvent d’utiliser le modèle de données, ou modèle direct, dans la méthode. Par exemple les mesures sont affectées d’un bruit, d’un flou, ou vivent dans un autre espace que celui des inconnues (des coefficients de Fourier versus une image pour le cas de l’IRM).
Autant le modèle direct est stable et bien posé (à partir des paramètres on peut générer des données), autant le problème inverse est le plus souvent instable et mal-posé.
Sujet :
Les techniques de résolution de problèmes inverses ont fortement évolué ces dernières années avec les nouvelles techniques d’apprentissage machine. On peut mentionner le déroulage d’algorithmes itératif (unrolling), les approches plug-and-play, le RED (regularization by denoising), ou encore les a priori basés donnés.
Le travail consistera à comprendre et mettre en œuvre les approches utilisant les réseaux génératifs comme les VAE ou encore les réseaux inversibles. Il s’agit d’une approche reposant sur la minimisation d’un critère mixte
J(x) = |y – H x|² + R(x)
où le terme d’attache aux données utilise le modèle d’observation connu H (flou, inpainting, debruitage…) et le terme de régularisation R(x) est appris à partir de données. La solution est alors définie comme x = argminₓ J(x).
* Dans un premier temps, le stagiaire se familiarisera sur les problèmes inverses et leurs méthodes de résolution.
* Ensuite, il devra faire un état de l’art sur les méthodes basées données et apprentissage statistique pour la résolution de problèmes inverses. Le sujet étant récent, la littérature est abondante et diverse. Des points d’entrée bibliographique seront fournis.
* Nous nous attacherons à mettre en œuvre une des deux méthodes mentionnées plus haut. Les résultats devront être comparés aux résultats obtenus avec les approches classiques : filtre de Wiener, parcimonie… pour lesquels des codes sont à disposition.
* L’application sera à déterminer parmi celles de l’équipe : synthèse de Fourier pour la radioastronomie, la microscopie ou encore reconstruction d’image en tomographie.
Le travail se fera sur un poste équipé d’une carte GPU Nvidia 3080 ou 4090 avec Linux, TensorFlow et Python.
Profil du candidat :
L’étudiant devra avoir une formation type ingénieur ou Master~2 en traitement du signal ou d’images, data science ou machine learning. Il devra posséder des connaissances en mathématiques appliquées ou en programmation.
Formation et compétences requises :
L’étudiant acquerra au cours du stage des compétences en estimation, optimisation, apprentissage machine, inférence statistique, traitement de données et python.
Adresse d’emploi :
L2S, 3 rue Joliot-Curie, 91190 Gif-sur-Yvette
Document attaché : 202311010608_stage-dnn-orieux-l2s.pdf
Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –
Laboratoire/Entreprise : Laboratoire des Signaux et Systèmes
Durée : 5
Contact : francois.orieux@l2s.centralesupelec.fr
Date limite de publication : 2024-07-01
Contexte :
L’augmentation de la puissance des machines de calcul a incité à la conception d’instrument générant des quantités importantes de données. Parallèlement, le désir de travailler sur des inconnues de grande taille telle que des images hautes ou très haute résolution est de plus en plus présent en particulier dans les sciences expérimentales ou observationnelles.
Le stage s’inscrit dans le cadre du projet international SKA, Square Kilometer Array, et de l’ANR DarkEra. SKA est un observatoire pour la radioastronomie qui produira un volume de données considérable pour produire des images à une résolution spatiale et spectrale inégalées. Les antennes sont réparties en australie et en afrique du Sud, ce qui en fera le plus grand interféromètre radio à ce jour. L’équipe est impliquée dans le projet par le biais de l’ANR DarkEra et du LabCom ECLAT (ATOS, IETR, INRIA…).
Sujet :
Pour exploiter pleinement l’ensemble des informations disponibles, une modélisation fine du processus d’acquisition est nécessaire. Cela définit un modèle direct H, ou simulateur, capable de reproduire des données y à partir d’une image x comme y = Hx. Cependant l’utilisation naïve de H conduisant à des problèmes inverses généralement mal posés, c’est à dire ne produisant pas de résultats satisfaisant.
Les approches standard pour l’inversion reposent généralement sur la minimisation de critères régularisés, la régularisation permettant de rendre le problème bien posé.
* Dans un premier temps le stagiaire se familiarisera sur les problèmes inverses et leurs méthodes de résolution.
* Ensuite le stagiaire s’appuiera sur le travail de thèse de Nicolas Monnier qui a travaillé sur l’accélération du modèle H. L’objectif est de réutiliser son travail pour partir d’un modèle de donnée fiable et rapide.
* Enfin nous travaillerons à l’élaboration de méthode plus modernes de résolution de problèmes inverse exploitant cette accélération. On explorera notamment les algorithmes de Majorisation-Minimisation (ou MM) et l’utilisation de préconditionneur.
* En fonction de la formation du stagiaire on pourra également plutôt s’orienter sur la mise en œuvre efficaces des algorithmes sur GPU.
Profil du candidat :
L’étudiant devra avoir une formation type ingénieur ou Master~2 en traitement du signal ou d’images, data science ou machine learning. Des
connaissances en mathématiques appliquées, programmation ou architecture de calcul seront appréciés.
Formation et compétences requises :
L’étudiant acquerra aux cours du stage des compétences en estimation,
optimisation, inférence statistique, traitement de données, calculs intensifs, radioastronomie et python.
Adresse d’emploi :
L2S, 3 rue Joliot-Curie, 91190 Gif-sur-Yvette
Document attaché : 202311010558_stage-ska-orieux-l2s.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIP6 (CNRS et Sorbonne Université)
Durée : 6 mois
Contact : Matthieu.Latapy@lip6.fr
Date limite de publication : 2024-09-01
Contexte :
Alors qu’il joue un rôle essentiel dans les échanges de marchandises à travers le monde, le trafic maritime est régulièrement perturbé par des mouvements sociaux ou écologistes (grèves ou blocages dans les ports ou à bord des navires, comme les 10 jours de grève des dockers de la côte ouest des USA en 2002). Il est aussi perturbé par des accidents
(comme l’obstruction du canal de Suez par un navire échoué pendant 6 jours en 2021), des catastrophes naturelles (par exemple, le tremblement de terre à Kobé en 1995 ou la sécheresse au canal de Panama en août 2023), ou de la piraterie (plus de 300 actes recensés
par an).
Sujet :
L’impact de tels événements, ainsi que la robustesse du réseau d’échanges et ses fragilités, sont mal connus. En particulier, quelle est l’ampleur, la durée et la structure des perturbations ? Restent-elles locales ou se propagent-elles loin à travers le réseau, et sous
quelles conditions ? De petits événements peuvent-ils engendrer de grandes perturbations par des effets en cascades ? Comment le retour à la normale s’opère-t-il ? Y a-t-il des points particulièrement fragiles dans le réseau ? Les perturbations induites par des mouvements sociaux sont-elles similaires aux autres types de perturbations ? Existe-t-il des
sous-parties du réseau plus robustes que d’autres ?
Ce stage propose une approche orientée données pour répondre à ces questions et améliorer drastiquement les connaissances sur ces sujets.
Profil du candidat :
Master en informatique, ouverture interdisciplinaire (géographie, SHS), volonté de poursuivre en thèse.
Formation et compétences requises :
Analyse de données, manipulation de grandes données, graphes, réseaux.
Adresse d’emploi :
Paris centre
Document attaché : 202402051751_stage_reseaux_maritimes.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Ce stage n’est plus disponible
Laboratoire/Entreprise : CNRM – Centre National de Recherches Météorologiqu
Durée : 6 mois
Contact : victor.sanchez@meteo.fr
Date limite de publication : 2025-01-15
Contexte :
L’utilisation de l’intelligence artificielle (IA) pour la Prévision Numérique du Temps (PNT) se démocratise progressivement depuis plusieurs années. Les algorithmes d’apprentissage profond et les approches génératives ont d’ailleurs récemment fait leur preuve dans ce domaine d’application. Désormais, ces méthodes ont la capacité de produire des champs physiques avec une certaine cohérence physique, pour un coût numérique très inférieur aux méthodes classiques d’intégration numérique.
Le stage proposé se place dans le cadre de Destination Earth (DestinE). DestinE est une initiative de la Commission européenne dans le cadre du programme EU Digital Europe. Ce projet vise à déployer plusieurs jumeaux numériques de la Terre, qui aideront à surveiller et à prévoir les changements environnementaux et l’impact humain, afin de développer et de tester des scénarios qui soutiendraient le développement durable et les politiques européennes correspondantes pour le Green Deal. L’IA, et en particulier l’apprentissage profond, sont un des axes développés dans DestinE. Le travail durant le stage sera à destination du projet DE_371, auquel l’équipe d’accueil participe.
L’objectif du projet DE_371 est de démontrer que des méthodologies utilisant les algorithmes d’IA à l’état de l’art peuvent aider à améliorer l’estimation de l’incertitude des prévisions, en permettant de produire des prévisions d’ensemble de grande taille et à haute résolution spatiale et temporelle.
Sujet :
L’objectif du travail proposé est d’utiliser des techniques d’IA dites génératives comme les Réseaux Antagonistes Génératifs (GAN) [1] pour améliorer les performances du système opérationnel de prévision d’ensemble Arome. L’équipe d’accueil a développé un prototype StyleGAN [2][3] capable de générer des membres Arome physiquement cohérents sur un quart sud-est de la France et pour quelques variables de surface. Ce stage se propose d’utiliser ce prototype comme base de
développement. Les résultats encourageants mènent vers plusieurs pistes d’approfondissement et d’amélioration, qui feront l’objet du présent stage, parmi lesquelles :
• Adaptation du modèle à une extension du domaine actuel.
• Exploration de méthodes de Transfer Learning [4] sur le domaine nordique (Norvège, Suède).
• Evaluation des prévisions StyleGAN sur des évènements à fort impact.
[1] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., … & Bengio, Y. (2020). Generative adversarial networks. Communications of the ACM, 63(11), 139-144. https://dl.acm.org/doi/pdf/10.1145/3422622.
[2] Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J., & Aila, T. (2020). Analyzing and improving the image quality of stylegan. In Proceedings of the IEEE/CVF conference on computer vision and
pattern recognition (pp. 8110-8119).https://openaccess.thecvf.com/content_CVPR_2020/papers/
Karras_Analyzing_and_Improving_the_Image_Quality_of_StyleGAN_CVPR_2020_paper.pdf
[3] Brochet, C., Raynaud, L., Thome, N., Plu, M., & Rambour, C. (2023). Multivariate Emulation of Kilometer-Scale Numerical Weather Predictions with Generative Adversarial Networks: A Proof of Concept. Artificial Intelligence for the Earth Systems, 2(4), 230006. https://doi.org/10.2496.
[4] Lee, D., Lee, J. Y., Kim, D., Choi, J., & Kim, J. (2022). Fix the noise: Disentangling source feature for transfer
learning of StyleGAN. arXiv preprint arXiv:2204.14079. https://arxiv.org/pdf/2204.14079
Profil du candidat :
Le ou la stagiaire pourra disposer de moyens de calculs sur GPU importants (plate-forme Météo France et/ou super-calculateur EuroHPC), au sein d’une équipe expérimentée et motivée. Il ou elle bénéficiera
des outils et méthodes déjà développés dans l’équipe. Ce stage sera l’occasion de développer ses compétences, notamment :
• expérience de développement d’algorithmes d’apprentissage profond à l’état de l’art
• manipulation d’une infrastructure de calcul haute-performance
• gestion d’une base de code commune et ajout de fonctionnalités
• intéractions avec des partenaires internationaux (centres météorologiques en Norvège et Suède)
Formation et compétences requises :
Ce stage requiert un réel intérêt pour la prévision numérique du temps (des connaissances préalable à ce sujet seraient un plus mais ne sont pas nécessaire). De solides compétences en statistiques et une bonne maîtrise du langage Python seront également nécessaires. Une connaissance préalable du fonctionnement des réseaux de neurones profonds (en particulier des réseaux convolutifs CNN) est souhaitée. Une première expérience d’une bibliothèque de Deep Learning (PyTorch, TensorFlow, …) serait un plus.
Adresse d’emploi :
42 Av. Gaspard Coriolis, 31100 Toulouse
Document attaché : 202410040756_Fiche-proposition-PFE_IENM_IA_2025.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : NAVER Labs
Durée : 6 mois
Contact : julien.velcin@univ-lyon2.fr
Date limite de publication : 2024-11-30
Contexte :
This internship is part of an ANR project called DIKÉ (https://www.anr-dike.fr/), which aims at studying bias, fairness and ethics of compressed NLP models. Results are expected to be reported in a paper by the end of the internship (or soon after). The internship will be hosted at NAVER LABS Europe and co-supervised by NAVER LABS and Lyon 2 University researchers.
Sujet :
The goal of this internship is to investigate strategies to diminish offensive content generation focusing on implicit offensive speech in multilingual settings. More details and online application here: https://europe.naverlabs.com/job/offensive-content-mitigation-research-internship/
Profil du candidat :
PhD or last year MSc student in NLP-related domains
Formation et compétences requises :
– Solid deep learning and NLP background
– Strong programming skills, with knowledge of PyTorch, NumPy, and the HF Transformers
– Familiarity with recent preference optimization techniques, such as DPO, is a plus
– Ability to communicate in English; knowledge of French is an advantage
Adresse d’emploi :
NAVER Labs, Europe
6 Chem. de Maupertuis, 38240 Meylan
Offre en lien avec l’Action/le Réseau : DSChem/– — –
Laboratoire/Entreprise : CEA
Durée : 6 mois
Contact : etienne.thevenot@cea.fr
Date limite de publication : 2024-11-30
Contexte :
La spectrométrie de masse haute résolution couplée à la chromatographie liquide (LC-HRMS) est une technologie puissante en santé pour détecter et caractériser l’ensemble des petites molécules dans un échantillon biologique (métabolomique), afin de découvrir de nouveaux biomarqueurs et médicaments. L’identification des métabolites (i.e. la détermination de leur structure 2D) à partir de l’analyse du spectre de masse obtenu après fragmentation du composé (MS/MS) représente un défi majeur en raison de la taille limitée des bases de données de spectres de référence expérimentaux comparée à la diversité chimique du métabolome. C’est pourquoi les approches in silico, et en particulier les méthodes d’apprentissage statistique se sont développées ces dernières années [1] pour prédire à partir d’un spectre MS/MS (liste de pics correspondant à des couples « masse, intensité ») une représentation de la molécule et/ou de son processus de fragmentation en sous-structures sous forme de descripteurs chimiques ou de chaine de caractères (e.g. SMILES). Toutefois, les performances des modèles actuels restent limitées à 26% de prédiction correcte de la structure 2D. Pour enrichir l’information chimique dans les spectres MS/MS, notre laboratoire a développé de nouvelles approches expérimentales multiplexées qui permettent d’acquérir en parallèle une grande quantité de spectres sur le même composé dans des conditions de fragmentation distinctes.
Sujet :
L’objectif du stage est de développer de nouveaux modèles d’apprentissage profond pour l’identification structurale à partir des données MS/MS multiplexées. A partir d’une base de données originale de composés récemment caractérisés expérimentalement de manière approfondie au laboratoire, les performances prédictives des modèles de l’état de l’art seront d’abord évaluées (e.g. par prédiction de descripteurs chimiques ou de SMILES grâce à un transformer ou un auto-encoder [2]). Un nouveau type d’architecture sera ensuite développé pour intégrer l’ensemble des informations multiplexées et montrer leur impact sur la qualité de la prédiction. L’ensemble des algorithmes seront implémentés avec les librairies PyTorch et RDKit notamment, et appliqués à la recherche de biomarqueurs dans les données de plusieurs cohortes cliniques disponibles au laboratoire.
Mots clés : apprentissage statistique, théorie des graphes, chimie numérique, spectrométrie de masse, santé
Références :
[1] Liu et al. (2021) Current and future deep learning algorithms for tandem mass spectrometry (MS/MS)-based small molecule structure elucidation. Rapid Commun Mass Spectrom, DOI:10.1002/rcm.9120.
[2] Russo et al. (2024) Machine learning methods for compound annotation in non-targeted mass spectrometry—A brief overview of fingerprinting, in silico fragmentation and de novo methods. Rapid Commun Mass Spectrom. DOI: 10.1002/rcm.9876.
Profil du candidat :
Nous recherchons un.e candidat.e avec un bon dossier en mathématiques appliquées (apprentissage statistique, théorie des graphes) et motivé.e par les applications multidisciplinaires (chimie, physique, biologie).
Formation et compétences requises :
Adresse d’emploi :
Le stage s’effectuera au centre CEA de Saclay, dans l’équipe science des données métabolomiques du laboratoire Innovations en Spectrométrie de Masse pour la Santé.
Merci d’adresser votre candidature (CV détaillé, lettre de motivation, notes de licence et master et nom de deux référents) à :
Etienne Thévenot (etienne.thevenot@cea.fr)
Equipe sciences des données (https://odisce.github.io)
Laboratoire Innovations en Spectrométrie de Masse pour la Santé (LI-MS)
UMR Médicaments et Technologies pour la Santé (MTS)
CEA, Centre de Saclay, F-91191 Gif sur Yvette, France
Document attaché : 202410041921_240924_stage_M2_cea_ai-ms2_EThevenot.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2024-12-20
Contexte :
Contexte :
Les systèmes alimentaires sont fortement interconnectés entre les pays à l’échelle mondiale, comme le montrent les récentes perturbations telles que la guerre en Ukraine et la pandémie mondiale. Le flux des denrées alimentaires est vulnérable aux chocs, et ces perturbations influencent les prix des denrées alimentaires, qui à leur tour affectent les modes de consommation alimentaire. Cela a eu un impact significatif sur les régimes alimentaires des populations, en particulier dans les pays sous-développés où la sécurité alimentaire est déjà fragile. Cependant, les scientifiques et les décideurs politiques manquent de données et d’outils pour identifier les points faibles des flux alimentaires et construire des systèmes alimentaires résistants aux chocs et aux perturbations. Si des progrès considérables ont été réalisés grâce aux données d’observation de la Terre pour cartographier l’emplacement des cultures et la productivité agricole (par exemple, le rendement des cultures), peu d’attention a été accordée aux étapes intermédiaires du flux de travail – distribution, transformation et marchés – qui sont essentielles pour comprendre et modéliser la manière dont les denrées alimentaires passent de la production à la consommation.
Grâce aux progrès de l’intelligence artificielle et à son application aux données d’observation de la Terre, les images satellitaires collectées en continu à l’échelle mondiale, combinées aux données météorologiques, permettent de suivre les systèmes alimentaires en temps réel. Les modèles d’apprentissage profond, capables de capturer des relations complexes et non linéaires, ainsi que les algorithmes multimodaux intégrant des données issues de sources variées, ouvrent de nouvelles perspectives dans ce domaine.
Ce stage propose d’exploiter des données d’observation de la Terre multi-temporelles et multi-résolutions, en les combinant avec des modèles d’apprentissage, pour surveiller les systèmes alimentaires, estimer les rendements agricoles et analyser leurs liens avec les prix des marchés.
Sujet :
Bonjour,
Nous proposons une offre de stage de master 2 sur “Intégration des données d’observation de la Terre et méthodes d’apprentissage profond pour le suivi des systèmes alimentaires”.
Ce stage se déroulera sur une période de 6 mois entre janvier et juin 2025 et sera co-encadré par des chercheurs Cirad de l’UMR TETIS, Simon Madec et Roberto Interdonato. Vous trouverez l’offre de stage sur ce lien :
https://nubes.teledetection.fr/s/mXoY5qYsQNnPRta
Les étudiant.e.s intéressé.e.s peuvent envoyer CV, lettre de motivation et relevé de notes M1 (ou 4ème année) avant le 6/12/2024 à :
simon.madec@cirad.fr , roberto.interdonato@cirad.fr
en précisant en objet du mail “CANDIDATURE STAGE SCOSSA 2025”.
Merci par avance de bien vouloir transmettre cette offre à vos étudiants.
Candidature :
Envoyer CV, lettre de motivation et relevé de notes M1 (ou 4ème année) avant le 6/12/2024 à :
simon.madec@cirad.fr , roberto.interdonato@cirad.fr
en précisant en objet du mail “CANDIDATURE STAGE SCOSSA 2025”.
Profil du candidat :
Compétences du candidat/e :
• Connaissances/goût pour la programmation
• Intérêt pour l’analyse de données
• Rigueur scientifique
• Curiosité et ouverture d’esprit
• Capacité d’analyses, rédactionnelles et de synthèse
Formation et compétences requises :
Adresse d’emploi :
Maison de la Télédétection, 500 rue JEan François Breton, 34090, Montpellier
Document attaché : 202411200802_Stage SCOSSA 2025_FR.pdf
Offre en lien avec l’Action/le Réseau : DSChem/– — –
Laboratoire/Entreprise : CEA
Durée : 6 mois
Contact : etienne.thevenot@cea.fr
Date limite de publication : 2024-12-20
Contexte :
La spectrométrie de masse haute résolution couplée à la chromatographie liquide (LC-HRMS) est une technologie puissante en santé pour détecter et caractériser l’ensemble des petites molécules dans un échantillon biologique (métabolomique), afin de découvrir de nouveaux biomarqueurs et médicaments. L’identification des métabolites (i.e. la détermination de leur structure 2D) à partir de l’analyse du spectre de masse obtenu après fragmentation du composé (MS/MS) représente un défi majeur en raison de la taille limitée des bases de données de spectres de référence expérimentaux comparée à la diversité chimique du métabolome [1]. C’est pourquoi les approches in silico, et en particulier les méthodes d’apprentissage statistique se sont développées ces dernières années [2] pour prédire à partir d’un spectre MS/MS (liste de pics correspondant à des couples « masse, intensité ») une représentation de la molécule et/ou de son graphe de fragmentation en sous-structures sous forme de descripteurs chimiques ou de chaine de caractères (e.g. SMILES). Toutefois, les performances des modèles actuels restent limitées à 26% de prédiction correcte de la structure 2D. Pour enrichir l’information chimique dans les spectres MS/MS, notre laboratoire a développé de nouvelles approches expérimentales multiplexées qui permettent d’acquérir en parallèle une grande quantité de spectres sur le même composé dans des conditions de fragmentation distinctes.
Sujet :
Sujet : L’objectif du stage est de développer de nouveaux modèles d’apprentissage profond pour l’identification structurale à partir des données MS/MS multiplexées.
Travail demandé : A partir d’une base de données originale de composés récemment caractérisés expérimentalement de manière approfondie au laboratoire, les performances prédictives des modèles de l’état de l’art seront d’abord évaluées (e.g. par prédiction de descripteurs chimiques ou de SMILES grâce à un transformer ou un auto-encoder). Un nouveau type d’architecture basé sur la prédiction structurée sera ensuite développé pour intégrer l’ensemble des informations multiplexées et la modélisation de la fragmentation sous forme de graphe, et montrer l’impact sur la qualité de la prédiction. L’ensemble des algorithmes seront implémentés avec les librairies PyTorch et RDKit.
Mots clés : apprentissage statistique, prédiction structurée, théorie des graphes, chimie numérique, spectrométrie de masse, santé
Références :
[1] De Vijlder,T. et al. (2018) A tutorial in small molecule identification via electrospray ionization-mass spectrometry: The practical art of structural elucidation. Mass Spectrometry Reviews, 37, 607–629.
[2] Russo,F.F. et al. (2024) Machine learning methods for compound annotation in non-targeted mass spectrometry—A brief overview of fingerprinting, in silico fragmentation and de novo methods. Rapid Communications in Mass Spectrometry, 38, e9876.
Profil du candidat :
Nous recherchons un.e candidat.e avec un très bon dossier en mathématiques appliquées (apprentissage statistique, théorie des graphes) et motivé.e par les applications multidisciplinaires (chimie).
Formation et compétences requises :
Adresse d’emploi :
Lieu du stage : Le stage s’effectuera au centre CEA de Saclay, dans l’équipe science des données du laboratoire Innovations en Spectrométrie de Masse pour la Santé, en partenariat avec l’équipe Signal, Statistique et Apprentissage de Telecom Paris.
Durée du stage : 6 mois à partir de début 2025
Date limite de candidature : 30 novembre 2024
Contact : Merci d’adresser votre candidature (CV détaillé, lettre de motivation, notes de licence et master et nom de deux référents) à :
Etienne Thévenot (etienne.thevenot@cea.fr)
Equipe sciences des données (https://odisce.github.io)
Laboratoire Innovations en Spectrométrie de Masse pour la Santé (LI-MS)
UMR Médicaments et Technologies pour la Santé (MTS)
CEA, Centre de Saclay, F-91191 Gif sur Yvette, France
Document attaché : 202411191549_241119_stage_M2_cea_ai-ms2_EThevenot.pdf
