
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : INRAE
Durée : 5-6 mois
Contact : sandro.bimonte@inrae.fr
Date limite de publication : 2024-01-31
Contexte :
Autonomous robots move on plots to perform technical tasks such as mechanical weeding. They are programmed to perform these tasks by minimizing movement on plots, via trajectories planned, while avoiding potential fixed obstacles (such as a root or a pole) or mobile (human, animals, or vehicle) requiring a deviation to the trajectory predefined. Therefore, robots are the main sources of a trajectory data stream. This stream needs to be continuously queried in order to identify patterns and outliers. For example, every second the farmer could be interested to know if a possible collision among robots will happen. This kind of queries are implemented by Data Stream Management Systems (DSMSs). To the best of our knowledge, DSMSs have not been benchmarked for querying robot data, yet.
Sujet :
In this project we will study the existing open source DSMSs that can be integrated with our supervision system LambdAgrIoT [1].
The study is conducted over two features, namely: querying capabilities and performance. Then, the best solution will be integrated into LambdAgrIoT.
Work plan
Analysis of existing work on trajectory stream querying (Spark Streaming, Flink, etc.)
Benchmark existing DSMSs
Integration in the LambdAgrIoT system of the chosen solution
Implement the web interface to visualize the results
Profil du candidat :
Master 2
Formation et compétences requises :
Skills: SQL, Java, Web programming, DSMSs (Spark Streaming, Flink, etc.) (optional), Kafka (optional), Grafana (optional)
Adresse d’emploi :
Aubiere, Campus Cezaux
Document attaché : 202401141146_Stage M2_ Continuous queries over trajectory robots data (1).pdf
Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –
Laboratoire/Entreprise : DAVID Lab – UVSQ – Versailles
Durée : 6 mois
Contact : mustapha.lebbah@uvsq.fr
Date limite de publication : 2024-01-31
Contexte :
In this research internship, we aim to test the feasibility of a modern neural methodology based on the generative model, which has been successfully applied to text/image processing. The field of video generation technology has seen significant advancements, with modern models capable of producing highly realistic videos [1, 4, 5]. Drawing an analogy to this, studying the life cycle of an aircraft engine can be viewed similarly to creating a video. In this analogy, each frame represents a distinct flight undertaken by the aircraft, during which multiple continuous parameters forming multivariate time series data. Each multivariate time series can be compared to a frame in a video, reflecting the dynamic states of the aircraft engine during the respective flight.
Sujet :
The aim of this research internship is to strengthen collaboration with Safran.
-Study the current state of the art in deep generative model and multivariate time series,
-By sequentially analyzing this collection of parameters flight after flight, akin to stringing together video frames, we can create a detailed and comprehensive depiction of the aircraft engine’s life cycle, allowing for the identification of behavioral patterns, anomalies and providing predictive insights into the engine’s performance and longevity.
-Based on previous studies [2, 3], implement one or more algorithms/architectures. The results obtained during the internship may lead to contributions to open-source software, or even a scientific publication, depending on the intern’s skills and motivation.
Profil du candidat :
End of engineering degree, M1/M2 in data science, statistics, artificial intelligence, or computer science. Excellent understanding of machine learning basics, particularly deep learning models. Excellent programming skills, especially with tensorflow/keras.
Formation et compétences requises :
End of engineering degree, M1/M2 in data science, statistics, artificial intelligence, or computer science. Excellent understanding of machine learning basics, particularly deep learning models. Excellent programming skills, especially with tensorflow/keras.
Adresse d’emploi :
The internship will be in the DAVID Lab at the University of Versailles
Document attaché : 202312150838_DAVID-UVSQ-Research_Internship_GenerativeMTS.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : TSCF, INRAE
Durée : 5-6 mois
Contact : sandro.bimonte@inrae.fr
Date limite de publication : 2024-01-31
Contexte :
The main goal of agro-ecology is to provide new practices that respect the environment and grant good farming production. Internet of Things (IoT) and robots play an important role in this context. Indeed sensors are able to provide accurate pedo-climatic data and robots can be employed for repetitive and accurate agricultural tasks during a long period. Moreover, robots are usually supported by electrified engines and they are light, reducing the impact of soil compaction. Nowadays robots are arriving in farms, where several types of machines exist and cohabit: tractors and robots of different types. The main task of farmers and agricultural stakeholders is moving more and more towards managing this equipment and analyzing agronomic and economic data by means of Farm Management Information Systems (FMSIs). Existing FMSIs lack tools dedicated to the monitoring of fleets of diverse robots, which represents an important barrier to the growth of the usage of robots in the field and therefore of the agro-ecology development. Therefore, the need of a system being able to monitor the behavior of the robots in the field in real-time appears. TSCF, INRAE Clermont Ferrand have proposed an architecture (called LambAgrIoT) for robots monitoring and scheduling, based on a complex Big Data architecture (i.e. Lambda architecture) [1]. This architecture allows an effective management of real-time and historical data issued from sensors and robots. Although LambAgrIoT presents an effective data management framework for the storage and analysis of IoT and robotic agricultural data, the Stream Layer, which in in charge of managing real-time data, is supported by a simple web based client that do not allow an awareness monitoring of the on-going execution of the agricultural practice.
Data used by this system is BIG DATA. In particular the are are: (1) complex spatio-temporal data (e.g., robot trajectories, meteorological data); (2) stream data (e.g., from sensors deployed in fields), multimedia data (e.g., video, images) (3) historical data (e.g., warehoused data). These data are also acquired at different spatial and temporal scales (such as plot and city, second and hour). In order to take benefit from these data in such a supervision system, an ad-hoc geovisualization of these data must be provided
Sujet :
The main goal of this project is to define a data-driven geovisualization method that allows for an effective situation awareness of the fleet of robots supervision. Since data are too much, complex and at different temporal and spatial scales a new geovisualization method must be proposed in order to show to the end user “only” data that are relevant for his/her supervision task at the right moment. This means that the system must automatically propose the visualization method based on the real time data. To achieve this goal, a set of indicators/rules must be defined in order to choose the right geovisualization, and for each of them the most appropriate semiology must be used. Therefore, indicators/rules and data must be able to be presented to the user as a set of aggregated data in a dynamic and interactive way.
Planned work
Study existing work on geovisualization in the context of agricultural robots
Define the indicators/rules for changing visualization
Define the most appropriate geovisualization for each ‘state”
Study the Superob supervision system developed by INRAE [1]
Implement the proposal in SuperRob
Write the M2 report
Profil du candidat :
Master 2
Formation et compétences requises :
Web Development (HTML, CSS, JavaScript)
Wep mapping (Mapbox, Deck GL, etc.)
Adresse d’emploi :
9 Avenue Blaise Pascal, Aubiere
Document attaché : 202401131554_stageM2GeoVis (1).pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : laboratoire URePSSS, Université de Lille
Durée : 6 mois
Contact : elsa.heyman@univ-lille.fr
Date limite de publication : 2024-01-31
Contexte :
In type 1 diabetes (T1D), physical activity is an essential component of the treatment plan because of its
recognised beneficial effects on numerous health parameters. Nevertheless, T1D individuals often have
a level of physical activity that falls short of international recommendations. The main obstacles to
physical activity are fear of hypoglycaemia and diabetes imbalance. Depending on the intensity, duration,
method and timing of the last insulin injection, physical activity can have a hypo- or hyperglycaemic
effect. Faced with this situation, it is difficult for T1D sports practitioners to anticipate appropriate
adaptations to their insulin and/or diet: at present, recommendations as to the adaptations to be made
according to the characteristics of the exercise remain very vague due to the lack of studies carried out
under real-life conditions (glucose monitoring sensors).
The overall aim of the project is to improve the accuracy of algorithms for predicting variations in blood
sugar levels as a function of physical activity, using data recorded by sensors worn in everyday life,
taking into account diet, insulin administered (e.g., from insulin pumps), etc.
Sujet :
The sensors (accelerometer, continuous glucose monitoring systems, insulin pumps, etc) worn by the
patients living with T1D generate a large amount of temporal data each day. This data needs to be
processed and analysed automatically to produce simple indicators that are useful to patients, and to
enable research teams to base their predictive models on it. Codes for calculating indices of glycaemic
excursions (e.g., time spent at different thresholds of hypoglycaemia or hyperglycaemia, glycaemic
variability, i.e., rapid variations towards high and low glycaemia levels, etc.) have already been developed
to process data from glucose sensors. These codes are also designed to create a formatted database for
each patient, enabling a number of simple indicators to be displayed and calculated. These codes were
then put into an intuitive web interface for researchers and doctors.
The main objective of the internship will be to explore machine learning methods in order to improve
the algorithms and statistical models for prediction of hypo and hyperglycaemic risk around physical
activity (considering their temporal dynamics).
Profil du candidat :
o In-depth knowledge of data science
o In-depth knowledge of the main supervised and unsupervised learning models
o Strong skills in R or, failing that, in Python for data science
o Fluent reading of English
o Autonomy, rigor, reliability
o Ability to listen and communicate with the scientific community
o Ability to present work orally and in writing
Formation et compétences requises :
master in data science.
Adresse d’emploi :
The internship will be located at the University of Lille, within the URePSSS laboratory
(Multidisciplinary Sport, Health and Society Research Unit, ULR 7369) under the supervision of Prof.
Elsa Heyman and Dr. Pierre Morel, in close collaboration with Prof. Philippe Preux of the CRISTAL
laboratory (UMR 9189, IT, Signal and Automation Research Centre). Regular videoconference meetings
will be organised with a collaborator from the University of Rennes (Joris Heyman) and Montreal (Rémi
Rabasa-Lhoret).
Document attaché : 202311281455_FicheStageURePSSS_Anglais_URePSSS_CRISTAL.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire des Sciences du Numérique de Nantes (L
Durée : 6 mois
Contact : christine.sinoquet@univ-nantes.fr
Date limite de publication : 2024-01-31
Contexte :
Ce stage s’inscrit dans le cadre d’une collaboration à l’interface entre numérique et santé, avec Le Laboratoire Expérimental de SImulation en Médecine Intensive (LE SiMU) de l’Université de Nantes. Le SiMU permet notamment de se perfectionner dans la gestion de situations critiques en anesthésie. Il intervient sur simulateurs de patients haute-fidélité (mannequins), avec immersion des acteurs en formation dans une équipe médicale humaine pleine-échelle interprofessionnelle.
Dans le but d’améliorer la sécurité et la qualité des soins peropératoires, les formateurs du SiMU souhaitent varier la diversité des scénarios à proposer aux internes en anesthésie et infirmiers anesthésistes, en formation initiale, ainsi qu’ aux praticiens plus expérimentés, en formation continue. Pour varier les scénarios, il est proposé à terme d’automatiser la génération de scénarios réalistes de simulation, en s’appuyant sur tout ou partie de la base de profils anesthésiques enregistrés par le CHU de Nantes depuis 2004 (500 000 profils anesthésiques). Dans cette modalité assistée par le numérique, la personne qui suit la formation (interne ou infirmier), fait partie de l’équipe médicale. Les autres membres de l’équipe médicale sont simulés très simplement (icônes réalisant des actions et émettant des informations, sur l’écran de l’ordinateur assigné à l’apprenant). De cette innovation est attendu un accès potentiel à une grande variété de scénarios réalistes de simulation de cas d’anesthésie. Servir cet objectif de formation répond également à terme au besoin d’anticipation par prédiction, inhérent au paradigme de la médecine personnalisée, en pleine émergence.
Pour atteindre cet objectif, deux axes de recherche ont été explorés au sein de l’équipe DUKe du LS2N. Ils portent respectivement sur une approche de data mining / raisonnement à base de cas, et une approche machine learning (modèle de Markov autorégressif à changements de régimes). Les travaux du stage exploreront une troisième catégorie d’approche, centrée sur les modèles neuronaux profonds.
Les CHU ont obligation légale d’enregistrer toutes les données relatives aux interventions chirurgicales. Parmi ces dernières, figurent les profils anesthésiques des patients. Un profil anesthésique est constitué d’une trace d’événements et d’une série temporelle multivariée. La trace d’événements est la séquence horodatée des actions réalisées par l’équipe médicale (e.g., administration d’un anesthésique) pendant la chirurgie. Les actions orchestrent l’évolution des paramètres physiologiques du patient. La série temporelle multivariée correspond à un ensemble de séries temporelles univariées qui décrivent chacune l’évolution d’un paramètre physiologique du patient (e.g., fréquence cardiaque).
Sujet :
Dans le cadre de ce stage, nous ramenons le problème à un problème de prédiction de série temporelle. L’apprentissage d’un réseau de neurones profond à partir des séries temporelles des profils anesthésiques permettra cette prédiction.
Il existe un nombre assez limité de revues de l’état de l’art récentes qui soient consacrées au Deep Learning, lorsqu’il est utilisé pour la prédiction de séries temporelles ([LZ2020] https://arxiv.org/pdf/2004.13408.pdf ; [SGM2020] https://arxiv.org/abs/1911.13288 ; [THS2020] http://doi.org/10.1089/big.2020.0159).
Dans le domaine de la prédiction pour les séries temporelles comme dans d’autres domaines, l’émergence de modèles de réseaux de neurones compétitifs a rapidement relégué les Perceptrons Multi-Couches (Multilayer Perceptrons, MLPs) au second plan.
Les Réseaux de Neurones Récurrents (Recurrent neural networks, RNNs) ont été conçus pour pouvoir traiter des données séquentielles. Un RNN réalise la même tâche à chaque pas de temps : la séquence (x1 , x2 , · · · , xt , xt+1 · · · ) correspondant à la série temporelle est fournie au RNN, élément par élément (pas de temps par pas de temps). La prédiction de séries temporelles via l’utilisation d’un RNN est un problème qui donne lieu à des recherches actives (voir par exemple [CC2016] dans le domaine des finances).
Les Réseaux de Neurones Récurrents à Mémoire Court et Long Terme (Long Short-Term Memory networks, LSTMs) représentent la sous-catégorie la plus utilisée des RNN. En effet, leur capacité à capturer les dépendances à long terme leur assure de meilleures performances en prédiction que celles des RNN. Les LSTM ont été utilisés pour la prédiction de séries temporelles dans de nombreux domaines, comme par exemple la prédiction du coût de l’électricité [PLL2018] ou la prédiction d’énergie renouvelable [GHS2016].
Les Réseaux de Neurones Convolutifs (Convolutional Neural Networks, CNNs) sont une classe particulière de réseaux de neurones artificiels, capable de préserver les dépendances spatiales existant au sein des données, en n’autorisant que très peu de connexions entre les couches successives du réseau. Le terme Réseaux de Neurones Convolutifs Temporels (Temporal Convolutional Networks, TCNs) a été introduit récemment [BKK2018]. De très nombreux travaux sur l’utilisation de CNN pour la prédiction de séries temporelles ont été publiés, comme dans le domaine de la prédiction de demande en énergie [AE2017]. Des modèles hybrides ont été proposés, qui combinent des couches CNN et LSTM, ou bien connectent les sorties d’un CNN aux entrées d’un CNN, ou encore proposent une intégration de modèles par combinaison des sorties obtenues d’un CNN et d’un LSTM exploités en parallèle. Par exemple, cette dernière approche a été appliquée pour la prédiction dans les domaines de l’énergie, de la météorologie et des finances [SZL2019].
Les modèles Seq2Seq (Encoder-Decoders, Transformers) sont conçus pour transformer une séquence fournie en entrée en une deuxième séquence obtenue en sortie. Une utilisation emblématique des Transformers est la traduction, en traitement du langage naturel. Les Transformers ont été récemment utilisés pour la prédiction de séries temporelles (voir par exemple [N2019]).
Les auto-encodeurs (AutoEncoders, AEs) constituent une sous-catégorie particulière des encodeurs-décodeurs. Ce type de modèle a notamment été combiné avec d’autres modèles, comme les LSTM, pour la prédiction de séries temporelles (voir par exemple [BYR2017]).
Références bibliographiques
[AE2017] Almalaq, A. and Edwards, G. (2017) A review of deep learning methods applied on load forecasting, 16th
International Conference on Machine Learning and Applications (ICMLA), 511-516.
[BKK2018] Bai, S. and Kolter, J. Z. and Koltun, V. (2018) An empirical evaluation of generic convolutional and recurrent networks for sequence modeling, arXiv:1803.01271.
[BYR2017] Bao, W. and Yue, J. and Rao, Y (2017) A deep learning framework for financial time series using stacked autoencoders and long-short term memory, PLOS ONE, 12(7):e0180944.
[CC2016] Chandra, R. and Chand, S. (2016) Evaluation of co-evolutionary neural network architectures for time series prediction with mobile application in finance, Applied Soft Computing, 49:462-473.
[GHS2016] Gensler, A. and Henze, J. and Sick, B. and Raabe, N. (2016) Deep learning for solar power forecasting – an approach using AutoEncoder and LSTM neural networks, International Conference on Systems, Man, and Cybernetics (SMC), 2858-2865.
[LZ2020] Lim, B. and Zohren, S. (2020) Time series forecasting with deep learning: a survey, https://arxiv.org/abs/2004.13408-review.
[N2019] Nino, S. (2019) Transformers and time series forecasting, Princeton University, USA, thèse.
[PLL2018] Peng, L. and Liu, S. and Liu, R. and Wang, L. (2018) Effective long short-term memory with differential evolution algorithm for electricity price prediction, Energy, 162:1301-1314.
[SZL2019] Shen, Z. and Zhang, Y. and Lu, J. and Xu, J. and Xiao, G. (2019) A novel time series forecasting model with deep learning, Neurocomputing, 396(5):302-313.
[THS2020] Torres, J. F. and Hadjout, D. and Sebaa, A. and Martínez-Álvarez, F. and Troncoso, Al. (2020) Deep learning for time series forecasting: a survey. Big Data, ahead of print, http://doi.org/10.1089/big.2020. 0159
Profil du candidat :
Profil Master 2 Bioinformatique ou Master 2 Informatique, avec un intérêt marqué pour les travaux en collaboration avec des médecins anesthésistes, infirmiers anesthésistes, infirmiers de bloc opératoire et des informaticiens/bioinformaticiens ; intérêt marqué pour l’intelligence artificielle et le Deep Learning. Un stage de Master 1 dans un domaine proche du sujet représente un plus.
Formation et compétences requises :
Profil Master 2 Bioinformatique ou Master 2 Informatique,
– Capacité à réaliser des recherches sur Internet pour identifier des codes éprouvés permettant de servir de base aux solutions proposées
– Goût prononcé pour la programmation, aisance en programmation, rigueur dans la programmation
– Capacité à documenter du code
– Capacité à rendre compte de l’avancement de ses travaux, capacité au reporting (hebdomadaire)
Adresse d’emploi :
Stage en présentiel
LS2N
Faculté des Sciences et des Techniques
2 rue de la Houssinière
44322 Nantes Cedex
Document attaché : 202311281534_stage_m2_bioinfo_deep_learning_pred_serie_temporelle_context_seq_events_2023_24_23_11_09_thur.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ERIC
Durée : 6 mois
Contact : mohamed-lamine.messai@univ-lyon2.fr
Date limite de publication : 2024-01-31
Contexte :
Knowledge Graphs & Cybersecurity
Sujet :
In the era of increasing cyber threats, it is crucial for organizations to have a comprehensive understanding of their vulnerabilities and the interconnectedness of their digital assets. This research internship aims to explore the potential of knowledge graphs [1] in the field of cybersecurity by developing a dynamic vulnerability data model (e.g., CVE) integrated with an organizational knowledge graph representing network architecture, host operating systems, software versions (e.g., web server version, libraries, database server version), and more. The ultimate goal is to empower organizations to gain insights into threat dependencies and enhance their cybersecurity measures [2]. Additionally, we aim to investigate the construction of digital twins using knowledge graphs to provide a visual and conceptual representation of an organization’s cyber environment [3].
Objectives of this internship :
• Knowledge Graph Modeling: Design and develop a knowledge graph schema that incorporates dynamic vulnerability data (e.g., CVEs) and organizational information (network architecture, software versions, etc.).
• Data Integration: Establish mechanisms to extract, transform, and load vulnerability data and organizational information into the knowledge graph.
Page 2 sur 2
• Dependency Analysis: Analyze the knowledge graph to identify and visualize the dependencies and relationships between vulnerabilities and organizational assets, enabling a better understanding of threat landscapes.
• Digital Twin Construction: Investigate the utilization of knowledge graphs to construct digital twins that mimic the behavior and interactions within an organization’s cyber ecosystem, providing a simulated environment for testing security strategies and evaluating risk scenarios.
• Machine Learning: propose knowledge graph embedding to detect vulnerabilities and attacks [4, 5, 6].
• Implementation and tests
Profil du candidat :
Master 2 student (or equivalent).
Formation et compétences requises :
The candidate must have advanced skills (M2 level) in computer science (data science, machine learning and notions of graph theory and computer security are highly desirable).
Adresse d’emploi :
ERIC Laboratory, Porte des Alpes Campus, Bron.
Document attaché : 202309071410_Internship-FIL-ROMANCE-1.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LISIC
Durée : 6 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2024-01-31
Contexte :
Ce stage s’inscrit dans le cadre des activités conjointes des laboratoires LISIC (UR 4491, Calais) — plus particulièrement les activités de l’équipe SPeciFI dans l’antenne de Saint-Omer du LISIC — et LOG (UMR 8187, Wimereux) — plus particulièrement les activités de l’équipe TELHYD du LOG — autour de l’imagerie satellitaire pour l’observation marine côtière, dans le cadre de la Structure Fédérative de Recherche og{}Campus de la Merfg~ et du projet TOSCA OSYNICO financé par le CNES. En particulier, dans le cadre de ces projets initiés en 2020, le LISIC développe des méthodes à la frontière entre traitement du signal et des images et intelligence artificielle appliquées aux données satellitaires (images multi- ou hyper-spectrales). Le LOG s’intéresse à l’analyse théorique et l’observation de processus physiques afin de comprendre et prévoir leurs impacts sur l’environnement marin, d’un point de vue de la biologie ou de la biogéochimie.
Sujet :
L’observation satellitaire de notre planète connaît depuis plusieurs décennies d’importantes avancées instrumentales, avec des développements conséquents que ce soit en terme de résolution spatiale (par exemple en télédétection de la couleur de l’eau à haute résolution spatiale 10-60 m) et en terme de résolution spectrale (imagerie hyper-spectrale). Une image Multi-Spectrale (MS) ou Hyper-Spectrale (HS) consiste en un cube de données dont deux axes décrivent les variations spatiales et un axe décrit les variations spectrales. La principale différence entre une image HS et une image MS réside dans le nombre très réduit de bandes spectrales observées dans cette dernière.
Cependant, à cause de contraintes physiques, l’augmentation du nombre de bandes spectrales dans une image HS entraîne une diminution de sa résolution spatiale. Ainsi, aujourd’hui, notre planète est observée à la fois par des imageurs MS ayant une très bonne résolution spatiale mais une faible résolution spectrale et par des imageurs HS ayant une très bonne résolution spectrale mais une faible résolution spatiale (et un ensemble d’imageurs aux propriétés intermédiaires).
Dans le cadre de ce stage, nous nous intéressons à l’observation marine côtière via les données des satellites Sentinel-2 et Sentinel-3. Les images obtenues par ces deux satellites permettent d’étudier la couleur de l’océan, c’est-à-dire la répartition spatiale et temporelle de la concentration en phytoplancton, en matière en suspension et en matière organique. Les données Sentinel-2 consistent en des cubes avec 13 bandes spectrales pour une résolution spatiale variant de 10 à 60 m en fonction des bandes, acquises tous les 5 jours environ. Les données Sentinel-3 sont des cubes avec 21 bandes spectrales pour une résolution spatiale de 300 m, acquises tous les jours. En observation marine, pour comprendre les phénomènes complexes qui se passent en milieu côtier, il est nécessaire que les données à disposition combinent :
– une bonne résolution spectrale pour mieux analyser le milieu biogéochimique (chlorophylle, particules en suspension, etc) ;
– une bonne résolution spatiale pour mieux appréhender les phénomènes de répartition de ce milieu qui sont beaucoup plus complexes en milieu côtier qu’en pleine mer ;
– une courte période d’acquisition de ces images pour repérer des phénomènes très concentrés dans le temps (blooms de phytoplanctons par exemple).
Aucune donnée satellitaire ne permet aujourd’hui de respecter ces trois contraintes.
Dans le cadre de ce stage, nous proposons de traiter conjointement des données Sentinel-2 et Sentinel-3 acquises approximativement le même jour (fusion spatio-spectrale), afin de générer des données combinant le nombre de bandes spectrales de Sentinel-3 et la résolution spatiale de Sentinel-2. En particulier :
1) Nous souhaitons traiter des données qui ont subi une correction atmosphérique, permettant une comparaison avec des mesures in situ. Cependant, ce traitement entraîne des problématiques comme la présence de données manquantes (au niveau des terres, des nuages et des navires) ou des valeurs négatives sans signification physique.
2) Nous souhaitons traiter conjointement les trois résolutions spatiales de Sentinel-2 avec l’unique résolution spatiale de Sentinel-3, espérant ainsi améliorer la qualité de fusion.
3) Nous souhaitons effectivement réaliser une comparaison avec les mesures in situ.
Les méthodes envisagées feront appel à un formalisme régularisé de factorisation matricielle / tensorielle et/ou à un formalise de type apprentissage profond.
Le stage pourra être poursuivi par la préparation d’une thèse dans le domaine de l’apprentissage comprimé pour la fusion spatio-spectro-temporelle d’images satellitaires.
Le stage aura lieu dans la nouvelle antenne de Longuenesse du LISIC, dédiée actuellement à l’imagerie hyperspectrale. Cette antenne, créée récemment, compte à ce jour 6 chercheurs permanents, 1 chercheur post-doctorant et 4 doctorants. Le ou la stagaire sera encadré(e) par Claire Guilloteau, Mattthieu Puigt et Gilles Roussel qui apporteront leur expertise respective en traitement des images MS/HS et en machine learning (deep learning, factorisation matricielle, optimisation) pour l’imagerie satellitaire.
De nombreux échanges auront lieu avec le LOG, situé à Wimereux (et plus particulièrement avec Cédric Jamet et Vincent Vantrepotte). Le LOG apportera ses compétences sur la couleur de l’océan, notamment sur l’analyse des images fusionnées et leur validation. Le LOG fournira les mesures in-situ de validation et des images dans des zones côtières d’intérêt (Manche orientale, Guyane, Cambodge, Vietnam).
Ces deux laboratoires sont situés au coe{}ur du Parc naturel régional des caps et marais d’Opale, à proximité directe de Lille, de l’Angleterre, de la Belgique et de l’Europe du Nord (Amsterdam à 4h de route de Longuenesse).
Profil du candidat :
Issu(e) d’une filière scientifique en sciences de données (traitement du signal et des images, informatique avec une dominante en intelligence artificielle/apprentissage/machine learning, mathématiques appliquées), vous êtes curieux(se) et très à l’aise en programmation (Matlab, Python). Vous lisez et parlez avec aisance l’anglais courant. Bien que non-obligatoire, une première expérience en factorisation de données (décomposition de matrices ou tenseurs, séparation de sources, apprentissage de dictionnaire, etc) ou en deep learning sera appréciée. Pour candidater, merci d’envoyer un courriel à {claire.guilloteau, matthieu.puigt, gilles.roussel} [at] univ-littoral.fr en y annexant les documents pouvant supporter votre candidature :
– votre CV,
– une lettre de motivation,
– vos relevés de notes de Licence 3, Master 1, Master 2 (si ces dernières sont disponibles) ou d’Ecole d’Ingénieurs (première à troisième année),
– deux lettres de recommandation ou les noms et moyens de contact de deux référents académiques.
Formation et compétences requises :
Ecole d’ingénieurs ou Master avec une dominante en traitement de données / machine learning / mathématiques appliquées
Adresse d’emploi :
LISIC, antenne de Longuenesse, EILCO, Campus de la Malassise, 62698 Longuenesse
Document attaché : 202311280725_Stage_SFR_2024_LISIC_LOG.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CReSTIC
Durée : 6 mois
Contact : nicolas.passat@univ-reims.fr
Date limite de publication : 2024-01-31
Contexte :
cf. https://medyc.cnrs.fr/wp-content/uploads/2023/10/Stage_MODELAGE.pdf
Sujet :
cf. https://medyc.cnrs.fr/wp-content/uploads/2023/10/Stage_MODELAGE.pdf
Profil du candidat :
cf. https://medyc.cnrs.fr/wp-content/uploads/2023/10/Stage_MODELAGE.pdf
Formation et compétences requises :
cf. https://medyc.cnrs.fr/wp-content/uploads/2023/10/Stage_MODELAGE.pdf
Adresse d’emploi :
Reims
Document attaché : 202310200605_Stage_MODELAGE.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LISN/INRIA
Durée : 6 mois
Contact : thibault.monsel@universite-paris-saclay.fr
Date limite de publication : 2024-01-31
Contexte :
This internship is part of a larger project dedicated to building a bridge between Machine Learning and Dynamical Systems : inferring models more robust and less data hungry thanks to physics-based constraints, inspecting the behavior of the models, providing some online guarantees, and relating Physics and computational regularities to improve the model understanding and assessment. The connection between Physics and Machine Learning is nowadays considered in both directions and the scientific construction of this domain is underway. The internship will focus on developing new approachs of modelling dynamical systems as a whole. For the first part of the internship, the intern will get up to speed with continuous-depth models like href{https://arxiv.org/abs/1806.07366}{neural ODE} and href{https://arxiv.org/abs/1904.01681}{augmented Neural ODE}. For the second part of the internship, new research ideas will be explored like href{https://arxiv.org/pdf/2306.14545.pdf}{delayed differential equations}. The candidate is expected to be proactive and have a keen sense of critical thinking. The aim of the internship will be to publish the work in a conference/journal.
Sujet :
Modelling partially observed dynamical systems with continuous-depth models
Profil du candidat :
The candidate should have a solid background in statistics, machine learning and/or applied maths;
knowledge in Python language is required with frameworks like Pytorch/ Tensorflow/JAX. Some background in physics is appreciated too since the intern will train models on datasets from numerical simulations of physical systems. Any knowledge and experience in functional programming is a bonus.
Formation et compétences requises :
The candidate should have a solid background in statistics, machine learning and/or applied maths;
knowledge in Python language is required with frameworks like Pytorch/ Tensorflow/JAX. Some background in physics is appreciated too since the intern will train models on datasets from numerical simulations of physical systems. Any knowledge and experience in functional programming is a bonus.
Adresse d’emploi :
Campus Universitaire bâtiment 650, 1 rue Raimond Castaing, 91190 Gif-sur-Yvette
Document attaché : 202312041200_Offre_Stage_LISN_INRIA_M2.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CEDRIC-Cnam et Sport Amat
Durée : 6 mois
Contact : michel.crucianu@cnam.fr
Date limite de publication : 2024-01-31
Contexte :
Sport Amat 1 naît du constat de la mise en invisibilité du sport amateur dans les médias et sur les réseaux sociaux. Pour palier à ce déséquilibre, nous proposons la mise en place de solutions de captation vidéo sur des infrastructures sportives. Les vidéos sont ensuite accessibles en direct en et VOD à travers un site et une application. Les objectifs de Sport
Amat sont :
— Promouvoir, démocratiser, rendre accessible et inclusif le sport amateur en apportant des outils et des moyens aux acteurs et actrices de cet écosystème (petits clubs, collectifs, clubs ruraux, handisport. . .).
— Accompagner via le numérique un retour au physique. Un moyen de créer du lien, de fidéliser et de favoriser les dynamiques en faisant venir les sportifs et le public dans les gymnases.
Sujet :
Sujet détaillé : http://cedric.cnam.fr/~ferecatu/Stage_CNAM_SportAMAT.pdf
L’analyse automatique des données vidéo trouve de nombreuses applications dans le sport : identification des temps forts, extraction de statistiques de jeu, assistance à l’arbitrage, assistance à l’entraînement par l’analyse des gestes techniques ou des tactiques de jeu, etc. De nombreux travaux ont abordé ces aspects (voir par ex. [5, 10], allant du suivi de joueurs dans les vidéos à la caractérisation de gestes techniques, en passant par la reconnaissance d’actions de différents niveaux (simples ou complexes, individuelles ou de groupe). Ces travaux se sont appuyés sur la mise à disposition de diverses bases de vidéos annotées, concernant principalement une pratique professionnelle des sports les plus populaires. Par ailleurs, des implémentations de différentes méthodes de l’état de l’art sont librement disponibles, comme PaddlePaddle (qui s’intéresse entre autres au football et au basket), MTV [11] ou MVD [9].
Le développement récent de caméras rapides haute résolution et abordables a provoqué une explosion de la quantité de vidéos sportives disponibles, surtout concernant les sportifs amateurs. Cela reflète le grand intérêt du public pour ces nouveaux contenus. Ces vidéos, très peu annotées, diffèrent de façon souvent significative de leurs équivalents professionnels et cela rend difficile non seulement l’application directe mais aussi l’adaptation des méthodes existantes à ces contenus.
Dans ce stage nous cherchons à améliorer les performances des méthodes de reconnaissance d’actions dans des vidéos de sports, mises au point en général sur des contenus annotés professionnels, lorsqu’on les applique à des vidéos de sports amateurs. Les sports privilégiés sont le basket et le football en salle (ou futsal). Le basket et le football (soccer) sont deux des sports les plus suivis au monde, et il existe déjà un nombre important de travaux dédiés à la détection et au suivi des joueurs ou à la reconnaissance d’actions, s’appuyant sur des bases annotées de matches professionnels comme FineBasketball [4], NPUBasketball [8], ComprehensiveSoccer [12], SoccerNet [3], SSET [2], SoccerDB [7], SoccerNet-v2 [1]. Or, les vidéos de matches amateurs présentent des caractéristiques différentes : fonds variés, mouvements différents des joueurs non professionnels, conditions de prise de vue, etc. Par ailleurs, pour le futsal on observe des différences supplémentaires : le jeu se déroule à l’intérieur (contrairement au football), le terrain est autre, les mouvements sont différents sur sol dur, la caméra est fixe et grand angle, etc.
Le défi est d’identifier les aspects qui posent le plus de difficultés et de proposer des améliorations adaptées sans exploiter un nombre significatif d’annotations pour le sport amateur car celles-ci ne sont pas disponibles. Nous explorerons dans ce but des méthodes de transfert d’apprentissage [13, 6], s’appuyant éventuellement en partie sur des modèles génératifs.
Profil du candidat :
Étudiant(e) en 2ème année de Master, dernière année d’école d’ingénieur ou équivalent :
— Avec une expérience de stage(s) passé(s).
— Bonne maîtrise du domaine de l’apprentissage profond.
— Bonne connaissances de Python et de la librairie PyTorch.
— Une bonne maîtrise de l’anglais technique est indispensable.
Formation et compétences requises :
Étudiant(e) en 2ème année de Master, dernière année d’école d’ingénieur ou équivalent :
— Avec une expérience de stage(s) passé(s).
— Bonne maîtrise du domaine de l’apprentissage profond.
— Bonne connaissances de Python et de la librairie PyTorch.
— Une bonne maîtrise de l’anglais technique est indispensable.
Adresse d’emploi :
CEDRIC-Cnam, 2 rue Conté, 75003 Paris
Document attaché : 202312041222_Stage_CNAM_SportAMAT.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LASTIG
Durée : 5 mois
Contact : nathalie-f.abadie@ign.fr
Date limite de publication : 2024-01-31
Contexte :
Il existe des solutions de plus en plus performantes pour détecter et transcrire du texte dans des scènes ou dans des documents. Peu à peu, celles-ci sont également appliquées à des cartes scannées pour en extraire et transcrire les écritures. En effet, extraire les noms de lieux contenus dans les cartes anciennes permettrait d’indexer spatialement les grands corpus de cartes numérisés par différentes institutions, mais pas nécessairement géoréférencées. Par ailleurs, c’est un moyen de constituer ou d’enrichir automatiquement des gazetiers utiles à la géolocalisation d’autres ressources (cartographiques ou textuelles).
Nous souhaitons appliquer des méthodes d’extraction et de reconnaissance des toponymes à différents types de cartes anciennes :
– des cartes topographiques du territoire (carte de Cassini ou carte d’état major),
– des plans à grande échelle, comme ceux du cadastre napoléonien, qui contiennent des toponymes et éventuellement des numéros de parcelles. Ces derniers permettent de localiser
les entités géographiques mentionnées dans les matrices cadastrales.
Les principales difficultés d’extraction sont liées à la grande variabilité des styles de cartes, aux multiples polices ou graphies d’écriture, au placement et à l’orientation des écritures dans les cartes, ainsi qu’aux recouvrements entre le texte et les objets géographiques représentés. Par ailleurs, les modèles à base de réseaux de neurones profonds utilisés pour détecter du texte dans les images nécessitent de disposer de grands corpus annotés pour être entraînés. Or, il n’existe pas de corpus de ce type, utilisable pour entraîner des modèles de reconnaissance du texte dans des cartes et sa production semble difficilement réalisable car chaque type de carte est différent, les styles des fonds et des textes changent.
Sujet :
L’objectif de ce stage est de produire des modèles entraînés avec peu d’exemples et capables de s’adapter à des types de cartes totalement inédits. Pour cela, les pistes suivantes devront
être explorées :
– Utilisation de modèles de détection de texte dans des scènes naturelles pour détecter les écritures dans des cartes ;
– Génération d’un jeu de données synthétique à partir du cadastre moderne (transfert de style des cartes du cadastre ancien) ;
– Proposition d’une approche de découpage de la carte selon les limites de la zone cartographiée.
Productions attendues:
➔ Corpus d’entraînement et de test pour la détection, la classification et la reconnaissance des écritures dans les cartes anciennes;
➔ Modèles entraînés + le code déposé sur un Github;
➔ Mémoire de stage.
Profil du candidat :
– Extraction d’informations dans des images (scans de cartes, images aériennes, images au sol type StreetView, etc.) : segmentation sémantique d’images, OCR, HTR, etc.
– Données géographiques structurées,
– Développement Python,
– Un intérêt pour la cartographie historique est un plus.
Formation et compétences requises :
Master 2 ou troisième année d’école d’ingénieur en informatique, en géomatique ou en humanités numériques.
Adresse d’emploi :
Institut National de l’Information Géographique et Forestière (IGN),
Saint-Mandé (métro 1, station Saint Mandé) ou Ecole Nationale des Sciences Géographiques (ENSG), Champs-sur-Marne (RER A, station Noisy-Champs).
Document attaché : 202401111433_2024_StageExtractionTexteCartesAnciennes.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LaMcube, en collaboration avec CRIStAL
Durée : 6 mois
Contact : jean-baptiste.colliat@univ-lille.fr
Date limite de publication : 2024-01-31
Contexte :
Ce stage se place dans le contexte d’une nouvelle collaboration entre le LaMcube, laboratoire de mécanique de l’université de Lille., et CRIStAL, laboratoire d’informatique, autmatique et traiement de signal de l’Université de Lille.
L’objectif est d’explorer l’utilisation de l’apprentissage par renforcement pour le test de matériaux.
Sujet :
The goal of this internship is to design, implement and test a reinforcement learning agent able to control a material testing machine. This machine is used to perform research on materials at the LaMcube lab. The reinforcement learning part of the internship will be handle in collaboration with team Scool at CRIStAL/Inria.
Mechanics of materials aims to understand, model and optimize the mechanical response of industrially relevant materials. Here, the scale of observation as well as the size of the specimens are the keystones in order to build an accurate identification strategy. Major improvements have been made during the last four decades, mainly thanks to the renewal of measurement techniques. Still, several material properties and field values are difficult to measure directly. This is especially true for the interfaces. Moreover, the search for adaptive loading paths able to activate specific fine scale mechanisms is of the greatest interest, regardless of the material.
During this internship, we aim to develop a novel experimental-numerical technique in order to determine such quantities of interest by selecting the optimal macroscopic multiaxial loading paths. Reinforcement learning is coupled with material testing to attain this goal. The objective is to explore several RL algorithms in order to train an agent to control the material testing machine. A simulation environment based on the Finite Element Method will be used to train the RL agent.
(See the attached pdf for pictures.)
Profil du candidat :
Strong knowledge in reinforcement learning.
Knowledge in mechanics is a plus.
Ability to communicate and work on an interdisciplinary project.
Autonomous, able to propose original and realistic ideas.
Interested in practical applications of RL.
Formation et compétences requises :
Master d’informatique avec une spécialisation en apprentissage automatique.
Adresse d’emploi :
Cité scientifique, Villeneuve d’Ascq.
Document attaché : 202311281450_RL_intern_CRISTAL_LAMCUBE.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire I3S – Sophia Antipolis
Durée : 6 mois
Contact : lionel.fillatre@i3s.unice.fr
Date limite de publication : 2024-01-31
Contexte :
Contexte :
Il s’agit de développer un réseau de neurones profond pour classifier des images de lésions cutanées et proposer un score numérique qui mesure la qualité de la classification.
Sujet :
Objectif :
Les lésions cutanées sont une maladie grave à l’échelle mondiale [1]. Par exemple, la détection précoce du mélanome sur des images biomédicales augmente considérablement le taux de survie. Cependant, la reconnaissance précise d’une lésion cutanée est difficile. Une classification automatique et fiable des lésions cutanées est essentielle pour améliorer la précision et l’efficacité des traitements. Notre but est de développer une chaine de traitement afin d’identifier la lésion cutanée présente dans une image analysée. Cette chaine sera composée d’une étape de segmentation suivie par une étape de classification. Chaque élément de la chaine sera modélisé avec un réseau de neurones [2]. À terme, les deux réseaux de neurones pourront être fusionnés pour disposer d’un unique réseau qui effectue l’intégralité du traitement de l’image analysée. Pour l’étape de classification, nous utiliserons un algorithme récemment développé par notre équipe de recherche [3]. Le stagiaire aura à sa disposition de nombreuses images [4] pour entrainer et tester les algorithmes développés.
Bibliographie :
[1] J. Zhang, Y. Xie, Y. Xia and C. Shen, “Attention Residual Learning for Skin Lesion Classification,” in IEEE Transactions on Medical Imaging, vol. 38, no. 9, pp. 2092-2103, 2019.
[2] http://www.deeplearningbook.org/
[3] Marie Guyomard, Susana Barbosa, Lionel Fillatre, “Kernel Logistic Regression Approximation of an Understandable ReLU Neural Network”. ICML 2023, Honolulu, Hawaii, USA.
[4] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/DBW86T
Profil du candidat :
Stage niveau M2/Ingénieur en mathématiques appliquées et/ou en informatique.
Formation et compétences requises :
Profil recherché :
Ces travaux requièrent les compétences suivantes :
– Programmation informatique : les développements informatiques seront réalisés en Python et Pytorch (connaître préalablement Python n’est pas nécessaire mais souhaitable)
– Notions de bases en machine learning (en particulier sur les réseaux de neurones).
Adresse d’emploi :
Lieu du stage : campus SophiaTech (Sophia Antipolis).
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire I3S – Sophia Antipolis
Durée : 6 mois
Contact : lionel.fillatre@i3s.unice.fr
Date limite de publication : 2024-01-31
Contexte :
Il s’agit de développer un réseau de neurones profond pour partitionner, de façon non-supervisée, un ensemble de données selon plusieurs points de vue.
Ce sujet de stage est réalisé dans le cadre d’un projet ANR. En fonction des résultats obtenus, le stagiaire pourra poursuivre en thèse (financement déjà obtenu).
Sujet :
Objectif :
Nous disposons de données biomédicales qui concernent des patients atteints de troubles mentaux. Nous souhaitons développer un algorithme de partitionnement (« clustering ») qui nous permet de regrouper ces patients en différents groupes. Ce partitionnement devrait nous permettre d’identifier les caractéristiques communes qui sont partagés par les patients qui souffrent d’un même trouble mental. Un seul partitionnement est souvent peu informatif car il est difficile de forcer ce partitionnement à différencier des troubles qui ne sont préalablement étiquetés. Notre but est d’utiliser le Deep Learning (ou apprentissage profond) afin de calculer, de façon simultanée, plusieurs partitionnements complémentaires entre eux [1]. De cette façon, certains de ces partitionnements devraient permettre d’identifier des groupes de patients qui auraient des caractères biologiques homogènes et révélateurs de leur état de santé.
Le Deep Learning [2] permet d’effectuer des traitements non-linéaires complexes sur les données. Durant ce stage, il s’agira donc d’identifier les architectures de réseaux les plus prometteuses en partitionnement multi-vues (chaque vue correspond à une façon différente de regrouper les données). Les architectures retenues seront alors appliquées aux données disponibles. Le stagiaire pourra s’appuyer sur des travaux méthodologiques récents [3] qui développent des méthodes de partitionnement multi-vues.
Bibliographie :
[1] U. Fang, M. Li, J. Li, L. Gao, T. Jia and Y. Zhang, “A Comprehensive Survey on Multi-View Clustering,” in IEEE Transactions on Knowledge and Data Engineering, vol. 35, no. 12, pp. 12350-12368, 2023.
[2] http://www.deeplearningbook.org/
[3] F. Falck, H. Zhang, M. Willetts, G. Nicholson, C.Yau and C. Holmes, Multi-facet clustering variational autoencoders, Advances in Neural Information Processing Systems, 2021.
Profil du candidat :
Stage M2/Ingénieur en mathématiques appliquées et/ou en informatique.
Envoyer son CV et ses résultats académiques niveau L1, L2, L3, M1 et M2 à lionel.fillatre@i3s.unice.fr
Formation et compétences requises :
Ces travaux requièrent les compétences suivantes :
– Programmation informatique : les développements informatiques seront réalisés en Python et Pytorch (connaître préalablement Python n’est pas nécessaire mais souhaitable)
– Notions de bases en machine learning (en particulier sur les réseaux de neurones).
Adresse d’emploi :
campus SophiaTech (Sophia Antipolis)
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : SESSTIM, Aix-Marseille Université
Durée : 5-6 mois
Contact : jean-charles.dufour@univ-amu.fr
Date limite de publication : 2024-01-31
Contexte :
Le Service transversal de Pharmacie Clinique et Soins Pharmaceutiques de l’APHM en collaboration avec le service BioSTIC de l’APHM et le SESSTIM (Unité Mixte de Recherche UMR1252 labélisée par l’Inserm, l’IRD et Aix-Marseille Université) cherche à améliorer la sécurité et la pertinence des ordonnances médicamenteuses via une analyse pharmaceutique détaillée, automatisée et systématisée.
Ce stage s’inscrit dans la continuité de résultats préliminaires obtenus l’an passé avec des approches de Machine Learning (particulièrement forêts aléatoires, Random Forest Classifer, RFC) qui se sont montrés particulièrement intéressants pour des erreurs impliquant les lignes de prescriptions considérées individuellement et isolément. Il s’agira dans ce stage d’investiguer plus avant des méthodes avancées de Deep Learning pour détecter des erreurs impliquant plusieurs lignes de prescriptions concomitantes. Les travaux seront réalisés sur des jeux massifs de données réelles.
Pour réaliser l’analyse des données, implémenter et évaluer les méthodes pertinentes un stage de 5 à 6 mois est proposé avec une gratification financière pour un(e) étudiant(e) niveau ingénieur ou master 2 en science des données ou intelligence artificielle. Le stage est à pourvoir dès février-mars 2024. Il pourrait se poursuivre par une expérience professionnelle de 1 an en CDD en fonction des financements obtenus par l’équipe projet et des résultats du stage.
Sujet :
Le stage porte spécifiquement sur l’implémentation et l’évaluation de modèles d’analyse de séquences, type réseaux de neurones récurrents (GRU/LSTM), afin de détecter des erreurs de prescriptions complexes, comme les interactions médicamenteuses ou le surdosage par prescriptions redondantes, afin d’accroitre les performances de détection, et in fine la sécurité du patient.
La mission du ou de la stagiaire sera dans un premier temps de finaliser la mise en qualité des données et l’analyse descriptive des données. Le ou la stagiaire devra s’appuyer sur les revues de la littérature récentes (que nous avons déjà identifiées) pour sélectionner les méthodes d’IA applicables aux données à notre disposition. La plus grande partie du stage sera consacrée à l’implémentation des méthodes, l’entrainement des modèles, et la sélection des modèles les plus performants. Le ou la stagiaire devra documenter les développements réalisés et présenter régulièrement l’état de ces travaux lors des réunions d’équipe.
Profil du candidat :
Datascience
Formation et compétences requises :
– Bonnes connaissances en Deep Learning et notamment des réseaux de neurones récurrents (GRU/LSTM).
– Maitrise d’environnement Python et des bibliothèques Tensorflow ou PyTorch
– Capacité d’analyse et de synthèse
– Forte autonomie et esprit d’initiative
– Capacité à travailler en mode projet
– Rendre compte des avancements des travaux et communication des résultats
– Bonne communication à l’oral et à l’écrit (Français et/ou Anglais).
– Connaissances du métier de la santé appréciée
Adresse d’emploi :
Facultés des Sciences Médicales et Paramédicale, Marseille
Document attaché : 202312041313_Offre-Stage-fevrier-mars-2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Centre de Recherche en Neurosciences de Lyon – CRN
Durée : 6 mois
Contact : gaelle.leroux@cnrs.fr
Contexte :
Parmi les 450 membres du Centre de Recherche en Neurosciences de Lyon (CRNL), beaucoup participent activement au mouvement de la science ouverte, de manière individuelle et collective. On peut citer par exemple l’organisation d’un workshop sur les nouvelles façons d’évaluer et de diffuser les connaissances scientifiques dans l’espace numérique” (02/2020), des séminaires, des présentations didactiques comme celles sur le pré-enregistrement, Git ou des standards disciplinaires. Des groupes de travail se sont formalisés, notamment autour des questions des publications (gestion des collections HAL du Centre et des équipes, questionnaire annuel sur les formes et pratiques de publication depuis 2021) et de la diffusion de la science vers la société civile (cellules communication & valorisation ). Début 2022, les chef.fe.s d’équipe ont voté à l’unanimité la science ouverte comme une priorité et un « Plan du CRNL pour la Science Ouverte » a été adopté. Il décrit 4 axes prioritaires avec des objectifs concrets pour mettre en œuvre la science ouverte dans les pratiques.
Sujet :
Missions du stage :
• Appliquer la méthodologie du baromètre général de la science ouverte pour les publications du CRNL et analyser les résultats (Bracco & al. 2022)
• Quantifier les frais de publication du CRNL (voir OpenAPC, même période que le baromètre)
• Identifier à cette occasion, les éventuelles publications dans des revues prédatrices
• Identifier un outil collaboratif pour mettre en place une base de données recensant les actions vers le grand public
• Identifier et analyser les freins aux changements ; propositions éventuelles
Profil du candidat :
Stage ingénieur ou M2
Formation et compétences requises :
• Cursus ingénieur ou titulaire d’un Master 1 en information et médiation scientifique et technique
• Une maîtrise des outils de bureautique
• Une bonne connaissance ou une appétence pour la programmation
• Une connaissance du contrôle de version Git serait un plus
Pour ce stage, la personne devra présenter de bonnes capacités relationnelles (nombreux interlocuteurs à rencontrer pour collecter les informations), d’organisation et de rigueur (gestionnaire de contrôle de version Git, un peu de programmation à adapter à partir de code existant) et rédactionnelle (rédaction de fiches et de guides). Une documentation sera systématiquement associée à chaque production. L’anglais est la langue du monde de la recherche ; le niveau B2 minimum est demandé, C1 serait apprécié afin de pouvoir échanger avec de nombreux collègues non francophones.
Adresse d’emploi :
CRNL
Bâtiment 462 Neurocampus Michel Jouvet – Bureau F07C
95, boulevard Pinel – 69675 Bron cedex
Document attaché : 202308251030_2023_offre_stage_6mois_M2_OS_v3_DEFINITIVE.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CNRS / Parc National de la Vanoise
Durée : 5 à 6 mois
Contact : vincent.miele@univ-lyon1.fr
Date limite de publication : 2024-02-01
Contexte :
Le bouquetin des Alpes (capra ibex,[1]) est une espèce emblématique du Parc National de la Vanoise, premier parc national français créé il y a 60 ans cette année. Dans un contexte de changements globaux, il devient primordial de comprendre les stratégies de déplacement du bouquetin en fonction du paysage (c.a.d les caractéristiques du terrain et de la végétation; on parle d’habitat éco-paysager) pour mieux anticiper les difficultés que cette espèce pourrait rencontrer dans un futur proche.
Dans le même temps, la disponibilité de données aériennes/satellites à forte résolution offre la possibilité d’étudier finement ces caractéristiques du paysage, notamment graĉe aux techniques de machine learning les plus récentes (deep learning en particulier, [2]).
Sujet :
Le/la stagiaire aura comme objectif de se positionner « dans les yeux du bouquetin » pour décrire la variabilité du paysage sur un site de référence du Parc de la Vanoise, le vallon d’Orgère. Ce que voit cette espèce sera inféré par l’étude de données aériennes/satellites à forte résolution, ce qu’il décide sera compris par la mise en correspondance avec les données des balises/colliers GPS (12 bouquetins suivis sur l’Orgère).
Le/la stagiaire fera dans un premier temps une étude des différentes sources de données disponibles (par exemple BD ORTHO IGN, Sentinel-2, Google Earth, LiDAR HD IGN) afin d’établir le champ des possibles de chaque source et de leur combinaison possible. Dans un deuxième temps, il/elle assemblera ces données sur le secteur du vallon de l’Orgère. A partir de ces données, le/la stagiaire mobilisera par la suite différentes techniques de machine learning pour optimiser la description de la végétation/du paysage. Il/elle utilisera les modèles pré-entrainés de l’état de l’art (CNNs ou vision transformers ; [3,4] par exemple) pour tester une approche de machine learning non supervisé sur la base des features obtenues à partir de ces modèles. En fonction des résultats, le/la stagiaire pourra être amené.e à entrainer un modèle de manière auto(self)-supervisée pour améliorer la description obtenue. Les résultats obtenus seront comparés aux cartographies existantes (CarHab par exemple). Le/la stagiaire analysera par la suite les déplacements des bouquetins relativement à la description du paysage obtenue. Les données des colliers GPS permettront de reconstituer les trajectoires et de les confronter à la variabilité prédite de la végétation/du paysage.
En fonction des avancées du stage, l’approche pourra être étendue à d’autres secteurs/espèces d’intérêt.
Le stage donne droit à une gratification de stage réglementaire. Par ailleurs, des déplacements au sein du Parc de la Vanoise sont à envisager pour confronter les prédictions in-silico à des observations de terrain.
[1] Espèce emblématique du patrimoine alpin, le bouquetin des Alpes (Capra ibex) vivait il y a plusieurs dizaines de milliers d’années dans la plupart des reliefs d’Europe centrale et occidentale, y compris les massifs montagneux de basse altitude. Chassée comme gibier, l’espèce était au bord de l’extinction à la fin du XIXe siècle : il ne restait en effet qu’une centaine d’individus à l’emplacement du futur Parc national du Grand Paradis, et quelques dizaines d’individus en Maurienne à l’emplacement du futur Parc national de la Vanoise. C’est par la volonté du roi Victor Emmanuel II et la mise en place d’une réserve de chasse en 1856 en Italie, par un programme de restauration décidé par la première loi fédérale de protection de la nature en Suisse (1875), puis plus tard par la création des parcs nationaux du Grand Paradis (1922) en Italie et du Parc national de la Vanoise (1963) en France, que cette espèce fut sauvée de l’extinction.
[2] Miele et al, Images, écologie et deep learning, Regards SFE2 2021
[3] Stewart et al, TorchGeo: Deep Learning With Geospatial Data, arXiv 2022
[4] Tseng et al, Lightweight, Pre-trained Transformers for Remote Sensing Timeseries, arXiv 2023
Profil du candidat :
Formation en data science / machine learning / informatique.
Intérêt pour les questions de biodiversité, de conservation, et plus généralement d’écologie scientifique.
Formation et compétences requises :
Maitrise de Python. Connaissance minimale de Linux.
Connaissances en machine learning et en deep learning.
Optionnellement, des connaissances en système d’information géographique et/ou analyse de données spatiales.
Adresse d’emploi :
Le/la stagiaire signera sa convention avec la Parc National de la Vanoise dont le siège est à Chambéry. Il/elle réalisera son stage au laboratoire CNRS/Université Savoie Mont Blanc « Laboratoire Ecologie Alpine » sur le campus Technolac de Chambéry. Le stage pourra toutefois être réalisé à Villeurbanne dans le laboratoire CNRS/Université Lyon 1 « Laboratoire Biométrie Biologie Evolutive » si la présence à Chambéry est problématique.
Document attaché : 202310131210_stagePNVCNRS.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIG, Université Grenoble Alpes & Inria
Durée : 6 mois
Contact : silviu.maniu@univ-grenoble-alpes.fr
Date limite de publication : 2024-02-11
Contexte :
Artificial intelligence and neural networks in particular have brought unprecedented progress in recent years in important areas such as language, vision and control, among others. However, two important challenges remain. First, some of the simplest fundamental traits of human intelligence such as generalization and basic logical reasoning, remain difficult to realize and integrate, as neural architectures do not allow adding logic rules to their optimizations. Secondly, there is no sound and generic way to integrate explanations into their architecture or to track from where and how the outputs were computed.
This lack of understanding, reasoning, and traceability translates into a fundamental weakness of AI in terms of explainability and accountability. As a result, AI-based methods are commonly used as “black boxes” where it is difficult to to evaluate or identify why a particular network or part of a network works well or poorly to accomplish a particular task: the knowledge processed (relations, concepts) is not explicitly shown. **Neuro-symbolic AI** is an area of research that has become particularly active in bridging this gap, studying methods for **combining symbolic knowledge representation and reasoning with deep learning**. An important challenge is the combination of two completely different worlds: Euclidean spaces for learning, and symbolic logic for reasoning. This implies moving from the world of symbolic logic with Boolean interpretation to fuzzy or probabilistic interpretations, by integrating probabilities into the logic.
Going further, neural architectures (neuro-symbolic or otherwise) would benefit greatly from the ability to explain the results of their reasoning. This can be achieved by **annotating the parts of the neural computation graph**. In this manner one can track what has been used in the answer to the query or how the data was transformed; this is known as **provenance** or **lineage**.
Sujet :
The proposed internship aims at covering at least one of the following two objectives:
1. To investigate theoretical and practical methods for querying data structures built from noisy and incomplete data, i.e. to develop approaches with high tolerance to noise and missing data, while enabling reasoning capabilities that are beyond the reach of current sub-symbolic systems (neural networks).
2. To extend the probabilistic annotations used in neuro-symbolic computing with provenance annotations, in order to also provide explanation for the output and the reasoning. This can be achieved by extending previous work on graph queries and provenance.
Profil du candidat :
We are interested in students able to obtain _working implementations_, possibly directly in popular frameworks such as PyTorch or Tensorflow, and evaluation over _real-world_ datasets.
The offer is in a laboratory belonging to a ZRR, hence special access permissions are required. The internship can take place only if these permissions are given.
Formation et compétences requises :
Master student in Compute Science, data-related, M1 or M2.
Programming skills (Python, etc.) required.
Adresse d’emploi :
Laboratoire d’Informatique de Grenoble, UMR 5217
Bâtiment IMAG – 150 place du Torrent
Domaine universitaire de Saint-Martin-d’Hères
Offre en lien avec l’Action/le Réseau : – — –/Innovation
Laboratoire/Entreprise : L@bISEN Yncréa Ouest, Equipe Vision-AD, Nantes
Durée : 4 à 6 mois
Contact : ayoub.karine@yncrea.fr
Date limite de publication : 2024-02-11
Contexte :
Situé dans la réserve naturelle nationale d’Iroise, l’îlot de Morgol est le principal îlot accueillant des phoques gris dans l’archipel de Molène. Un observatoire permettait ces dernières années d’effectuer le comptage des individus ainsi que le suivi des naissances à distance, jusqu’à sa destruction à la suite d’intempéries. L’Office Français de la Biodiversité (et le Parc naturel marin d’Iroise) souhaite qu’un nouveau dispositif de suivi de la faune sauvage de l’îlot de Morgol soit mis au point, avec comme objectif de minimiser les perturbations humaines et non
humaines. Outre les équipements placés physiquement sur l’îlot, l’observatoire sera doté d’une plateforme logicielle qui implémente des algorithmes intelligents de détection de débarquement afin de continuer la surveillance de cet îlot aujourd’hui interdit au public.
Sujet :
Ce stage a pour but de mettre en oeuvre la partie intelligence artificielle du projet. En particulier, il est souhaité que les données vidéos issues de la caméra et sauvegardées sur l’unité
de stockage déportée à terre seront analysées en continu pour fournir : (1) une alerte en cas de débarquement sur l’îlot de Morgol et (2) une information approximative du nombre de phoques gris sur l’îlot. Ces deux types d’informations pourront être disponibles à travers un fichier Excel par exemple. Il est important de noter qu’une première version de ces analyses a été réalisée pour la précédente version du système[1] (avant sa destruction par les intempéries).
La première tâche sera réalisée en utilisant un système d’intelligence artificielle basé sur un réseau de neurones profond de type CNN spécialisé dans la détection[2]. Ce dernier sera optimisé pour détecter les classes « bateau » et « humain » et entraîné avec une base de données adaptée comme COCO par exemple. Cette intelligence artificielle sera associée à un outil de
régularisation permettant de traiter temporellement les données pour éviter : (i) les détections multiples d’un même évènement ainsi que (ii) les éventuelles fausses alarmes. Ainsi, la détection
d’évènements de type « débarquement » sera possible. Il est important de noter que l’évaluation de la performance de ce système en situation réelle ne sera pas possible si aucune base de données d’évènements annotés n’est disponible.
La seconde tâche, plus expérimentale, sera aussi réalisée avec un réseau de neurones profond de type CNN possiblement orienté vers l’estimation d’individus dans les foules[3]. Le but de ce système d’intelligence artificielle sera de fournir une estimation du nombre de phoques gris sur l’îlot de Morgol à intervalle régulier (à définir). Afin d’entraîner cet algorithme, des vidéos contenant une variété de densité de phoques gris devront être rendues disponibles afin de compléter la base de données annotée déjà disponible, si cela est nécessaire.
Pour les deux tâches détaillées ci-dessus, les traitements réalisés ne seront exploitables que pour des images fixes et lorsque la visibilité sur l’îlot le permet. Afin de réaliser ces tâches d’intelligence artificielle sur les données en temps réel, une unité de calcul de type Jetson Nano Orin sera utilisée et connectée en réseau avec l’unité de stockage. Celle-ci devra embarquer les deux algorithmes d’intelligence artificielle mis au point (détection des débarquemens et comptage des phoques) en s’appuyant par exemple sur des stratégie d’embarquement comme PyTorch
Mobile[4], ONNX[5] ou TensorRT[6].
** Références :
[1] Ayoub Karine, Jean-Yves Mulot, Yves Auffret, Thibault Napoléon, “Video Seals Recognition using Transfer Learning of Convolutional Neural Network” in International Conference on
Image Processing Theory, Tools and Applications IPTA 2020, Nov 2020, Paris, France.
[2] G. Cheng et al., “Towards Large-Scale Small Object Detection : Survey and Benchmarks” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no. 11, pp.
13467-13488, 1 Nov. 2023.
[3] Vishwanath A. Sindagi abd Vishal M. Patel, “A survey of recent advances in CNN-based single image crowd counting and density estimation” in Pattern Recognition Letters, vol. 107, pp. 3-16, 2018.
[4] https ://pytorch.org/mobile/home/
[5] https ://onnx.ai/
[6] https ://developer.nvidia.com/tensorrt
Profil du candidat :
Master 2
Formation et compétences requises :
Le candidat doit avoir :
• suivi un cursus de Master ou d’Ingénieur dans un des domaines suivants : intelligence artificielle, vision par ordinateur, science des données, mathématiques appliquées ;
• de solides compétences en algorithmique et en programmation ;
• des connaissances en vision par ordinateur appliquée ;
• une connaissance de la bibliothèque PyTorch serait un plus.
Adresse d’emploi :
33 QUATER Av. du Champ de Manœuvre, 44470 Carquefou
Document attaché : 202401151028_SujetM2_visionEmbarquée.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : TSCF, INRAE Clermont-Auvergne-Rhône-Alpes, campus
Durée : Adaptable en fonctio
Contact : francois.pinet@inrae.fr
Date limite de publication : 2024-02-15
Contexte :
Pour candidater, merci d’envoyer rapidement un CV par email à : François Pinet, Directeur de recherche (INRAE) : francois.pinet@inrae.fr
Equipe de recherche « COPAIN – Systèmes d’information communicants et agri-environnementaux », Unité de Recherche « TSCF – Technologies et Systèmes d’information pour les agrosystèmes – Clermont-Ferrand ». https://www6.ara.inrae.fr/tscf/Les-equipes/Equipe-Copain
INRAE, campus des Cézeaux, Aubière
Le laboratoire de recherche TSCF d’INRAE rassemble 60 agents. Il mobilise les sciences pour l’ingénieur et les sciences et technologies de l’information et de la communication pour conduire des recherches sur les méthodes et outils pour une ingénierie des systèmes agro-environnementaux. L’activité de l’équipe d’accueil (COPAIN) au sein du laboratoire, est consacrée aux techniques d’ingénierie des systèmes d’information communicants dédiées à la gestion agri-environnementale.
Le stage sera co-encadré à distance par des scientifiques de l’unité de recherche SADAPT « Science Action Développement – Activités Produits Territoires » d’INRAE qui se trouve en région parisienne. Le sujet du stage s’inscrit dans la continuité des travaux du réseau POPCORN . Dans le cadre du projet de recherche POP-Extend qui vise à mieux comprendre le métabolisme agri-alimentaire des territoires en développant un modèle intégré production-consommation-déchet.
Plus largement, INRAE a pour objectif de répondre aux enjeux sociétaux concernant :
– La sécurité alimentaire et nutritionnelle ;
– La transition des agricultures (agroécologie, réduction de la chimie) ;
– La gestion des ressources naturelles et des écosystèmes (eau, sol, forêt) ;
– L’érosion de la biodiversité ;
– L’économie circulaire et les risques naturels.
Sujet :
A INRAE, une application Web pour le diagnostic et l’étude de la consommation alimentaire est en cours de développement depuis 2021. Ce logiciel peut être utilisé pour comparer la consommation alimentaire de territoires contrastés (par ex. moyennes versus grandes villes ; différentes aires urbaines) ou pour analyser l’autonomie alimentaire théorique de territoires. A terme, une possible utilisation concernera la comparaison avec des scénarios basés sur des évolutions de population, de leur mobilité et de leurs pratiques alimentaires (par ex. augmentation du télétravail, baisse des flux touristiques, développement de régimes “santé”).
L’application a été programmée en Java (pour la gestion du serveur) et Javascript (pour le contenu des pages Web), et est connectée à une base de données Postgresql qui stocke notamment des données statistiques. Des visualisations graphiques (charts) ont été implémentées avec Jqplot. L’application intègre aussi une interface cartographique créée avec Leaflet, qui permet d’afficher les données géoréférencées.
L’objectif du présent stage est d’analyser avec les encadrants de nouvelles fonctionnalités, et de les implémenter au sein de l’application. Ces modifications toucheront à la fois la base de données, le code du serveur et le code embarqués dans les pages Web qui seront visualisées par les utilisateurs. Les travaux seront réalisés dans un processus itératif : spécifications des besoins utilisateurs, implémentation informatique, validation et tests.
L’outil pourra intéresser les communautés scientifiques pluridisciplinaires mobilisant des approches systémiques dans l’analyse des conditions d’une territorialisation des systèmes agri-alimentaires, de la réduction de leurs empreintes sur l’environnement, et dans l’éclairage d‘opportunités et de limites d’une transition bioéconomique des territoires, et ainsi servir aux travaux de chercheuses et chercheurs issu.e.s de multiples disciplines (SHS et sciences dures).
Profil du candidat :
Compétences techniques requises : Connaissance de langages Java et Javascript
Formation et compétences requises :
Niveau requis : Nous recherchons un étudiant en cours de formation informatique (Licence, Maîtrise ou école d’ingénieurs).
Période de stage : En 2024. Durée et dates adaptables en fonction de la formation universitaire.
Adresse d’emploi :
INRAE, TSCF, Campus universitaire des Cézeaux, 9 avenue Blaise Pascal – CS 20085 – 63178 Aubière
