Adapter les modèles de type ChatGPT pour interroger en langage naturel une base de données mondiales sur les acquisitions foncières

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2023-12-15

Contexte :
L’initiative Land Matrix (https://landmatrix.org) et son observatoire mondial des acquisitions de terres à grande échelle ont pour objectifs de créer une source fiable de données permettant d’alimenter les débats et de mettre en œuvre des actions éclairées sur les transactions foncières à grande échelle. La Land Matrix collecte des données sur les tentatives prévues, conclues et échouées visant à acquérir des terres au moyen d’achat, de location ou de concession à des fins de production agricole, d’extraction de bois, de finance du carbone, d’activités industrielles, de production d’énergie renouvelable, de conservation de la nature et de tourisme, dans les pays à revenus faibles ou intermédiaires.
Référence mondiale sur les phénomènes d’acquisitions de terres dans le monde académique, les données de la Land Matrix restent encore peu utilisées pour accompagner l’action publique malgré d’importants efforts pour que les données soient en accès libre. Nous faisons l’hypothèse que l’accès aux données et leur exploitation restent des freins importants à l’utilisation des informations contenues dans la base de la Land Matrix. En effet, une certaine expertise en informatique et une bonne connaissance des champs de variables sont nécessaires pour que l’utilisateur puisse accéder aux informations nécessaires.

Sujet :
L’objectif du stage est de simplifier l’accès aux données de la base Land Matrix en permettant son interrogation en langage naturel. Les récentes avancées en intelligence artificielle, dont bénéficient les modèles de langues de type OpenAI/ChatGPT ou meta/Llama-2, offrent de nouvelles opportunités pour convertir des questions, formulées en langage naturelle, en langage informatique (génération de code python et/ou SQL). Ces modèles généralistes nécessitent, cependant, d’être ajustés à la structure de données de la base Land Matrix afin de n’extraire que les données réellement attendues par les utilisateurs. Les stratégies d’ajustement sont un attendu de ce stage dont l’objectif final est de proposer un agent conversationnel (Chat bot) capable de générer les requêtes informatiques à partir d’une formulation en langage naturel. Une requête potentielle serait un croisement de filtres géographiques, filtres de types d’investisseurs et de filtres d’intentions d’investissements, par exemple : « j’aimerais savoir quelles banques soutiennent des investissements miniers (lithium) en Argentine ».

Compétences du candidat/e :
• Analyse des données (collecte, exploration, mise en lien)
• Programmation (préférablement Python)
• Capacité d’analyses, rédactionnelles et de synthèse
• Travail d’équipe
Informations complémentaires :
Durée de 6 mois, à partir de février 2024.
Le stage se déroulera au CIRAD, dans l’UMR TETIS (Territoire, Environnement, Télédétection et Information Spatiale), située dans les locaux de la Maison de la Télédétection à Montpellier.
Le stagiaire sera encadré par Rémi Decoupes (INRAE, UMR TETIS), Jérémy Bourgoin, Roberto Interdonato (CIRAD, UMR TETIS) et Marie Gradeler (ILC).
Financement :
Le stage est soutenu par le projet Land Matrix. La rémunération du stagiaire sera de l’ordre de 600 euros par mois.

Modalité de candidature :
Attention : cette proposition ne concerne que les stages d’étudiants sous convention avec une école ou une université : il ne s’agit pas d’une offre d’emploi.
Envoyer une lettre de motivation d’une page, précisant en outre la durée et période possible du stage, un CV détaillé, et un relevé des notes à : remy.decoupes@inrae.fr et jeremy.bourgoin@cirad.fr
Date limite pour l’envoi du dossier : 30 Novembre, 2023

Profil du candidat :
Compétences du candidat/e :
• Analyse des données (collecte, exploration, mise en lien)
• Programmation (préférablement Python)
• Capacité d’analyses, rédactionnelles et de synthèse
• Travail d’équipe

Formation et compétences requises :
Compétences du candidat/e :
• Analyse des données (collecte, exploration, mise en lien)
• Programmation (préférablement Python)
• Capacité d’analyses, rédactionnelles et de synthèse
• Travail d’équipe

Adresse d’emploi :
Maison de la Télédétection, 500 Rue Jean François Breton, 34090 Montpellier

Document attaché : 202311141527_stage.pdf

Modèles d’apprentissage automatique sur des données complexes pour la prévention de défaut de paiement

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : 5-6 mois
Contact : hamida.seba@univ-lyon1.fr
Date limite de publication : 2023-11-13

Contexte :
Pour plusieurs applications du monde réel, identifier des motifs qui ne se conforment pas à une activité normale est une question fondamentale pour garantir une prestation de service correcte ainsi que la sécurité et la fiabilité du système [1]. C’est principalement le cas pour des applications de surveillance et de suivi telles que la vidéosurveillance, la surveillance médicale, la détection de logiciels malveillants, la détection de fraudes financières, etc. Un motif anormal est appelé anomalie ou valeur aberrante. Une anomalie est généralement définie comme un motif comportemental qui s’écarte significativement de la plupart des motifs comportementaux du système surveillé et apparaît dans une proportion significativement plus petite que celle des motifs normaux. Avec l’explosion des quantités de données à traiter pour ce genre d’applications, le recours aux modèles d’apprentissage et en particulier l’apprentissage profond est devenu inévitable dans ce domaine.

Sujet :
Durant ce stage, nous nous intéressons aux modèles d’apprentissage capables de traiter des données complexes multi-sources et hétérogènes sur les clients d’une entreprise de location d’ordinateurs personnels (MacBook & iPad) :
• données contrôlées communiqués par le client (nom, prénom, adresses (facturation, livraison), tel, mail)
• données informatique extraites de la connexion internet du client (IP)
• données bancaires
• données issues de blacklists
• données socio-démographiques issues de l’INSEE
Le but de l’analyse de ces données est de réaliser un profiling plus « fair » (sans critères socio-discriminants) de clients qui permettra de prévenir les défauts de paiement. L’approche proposée est la construction de graphes de connaissances ego-centriques [2] profilons (profilant ???) les clients et permettant de représenter toutes les informations les concernant. Ensuite, il s’agira de se baser sur cette représentation pour détecter toute anomalie qui peut engendrer un défaut de paiement. Cette représentation basée sur des graphes de connaissances nécessitera d’utiliser et/ou de concevoir des modèles d’apprentissage adaptés [3, 4]. Le stagiaire commencera par effectuer un état de l’art sur la problématique ainsi que sur les modèles d’apprentissage existants. Il mettra ensuite en place la solution la plus adaptée aux données considérées durant le stage.

Ce stage pourra se poursuivre avec une thèse CIFRE.

Profil du candidat :
Compétences avancées (niveau M2) en informatique (en particulier en apprentissage machine fortement souhaitées).

Formation et compétences requises :
Data science, machine learning

Adresse d’emploi :
LIRIS, Université Lyon 1

Document attaché : 202311131510_LIRISHOPLIZ Sujet de stage.pdf

Appel à communication Conférence EGC 2024 : Atelier HIA

Date : 2023-11-15
Lieu : 24ème conférence francophone sur l’Extraction et la Gestion des Connaissances EGC 2024 Dijon

Atelier HIA (2ieme édition)
Humain et IA, travailler et apprendre en bonne intelligence

Résumé :
La société emploie désormais quotidiennement des outils reposant sur des techniques d’IA et réciproquement afin de perfectionner les techniques d’IA, un grand nombre de données en partie générées par l’humain sont nécessaires. Cet atelier a pour objectif de réunir les acteurs/actrices de la recherche et de l’industrie intéréssé.e.s par les enjeux écologique, sociétaux et éthique de la cohabitation entre humain et IA. Nous nous intéresserons notamment aux plates-formes de crowdsourcing, de sciences participatives ou d’éducation participative, qui préfigurent une forme de travail hybride entre humains et IA.

L’ atelier aborde plusieurs problématiques :
Comment tendre vers une association durable bénéfique et réciproque entre l’homme et la machine notamment quand les deux partis entrent en conflits ?
Comment permettre à une IA d’apprendre avec moins de données ?
Quels outils sont mis à la disposition de l’humain pour favoriser son travail voir son apprentissage dans ces conditions ?

Thèmes de l’atelier (liste non exhaustive) :
– Sobriété numérique (Collection et analyse de données en faveur de la sobriété numérique, réduction de l’emprunte CO2 de plateformes de crowdsourcing…)
– Modélisation des utilisateurs (ontologies de compétences, validation des qualifications, qualité des réponses, motivation, …) Apprentissage machine en présence d’humains (apprentissage supervisé interactif,
incrémental, apprentissage actif, …)
– Apprentissage Humain favorisé par le crowdsourcing ( Systèmes adaptatifs, Tuteurs ou agents intelligents, Personnalisation de l’apprentissage, Systèmes de recommandation, Modalités de collaboration …)
– Défis de l’interaction homme-machine dans les plate-formes (ergonomie, biais de comportement en présence d’IA, …)
– Ethique des plateformes (protection de la vie privée, transparence, équité, auditabilité, droit du travail, durée du travail, …)
– Modèles de description des tâches pour humains et machines (workflows, langage naturel, …)
– Interface Homme-Machine pour le crowdsourcing (visualisation des données de crowdsourcing, visualisation de collaboration, design de systèmes…)
– Infrastructures sous-jacentes (centralisée, distribuée, chiffrée, composition de plateformes, …)
– Fiabilité des plates-formes (satisfaction de bonnes propriétés, preuves, performances, respect de la vie privée,…)

Les soumission peuvent être écrites en français ou en anglais et de quatre types selon leur
état d’avancement :

résumés étendus de papier publiés (4 pages)
articles longs (maximum 12 pages)
articles courts (maximum 4 pages)
propositions de démonstrations logicielles (4 pages)

Les soumissions doivent être au format PDF et utiliser le format LaTeX RNTI. Les articles et résumés doivent être soumis via EasyChair.

Les dates :

15 Novembre : Soumission sur Easychair

20 Décembre : Notifications aux auteurs

20 Janvier : Version finale

23 Janvier : Atelier à la conférence EGC

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Apprentissage profond pour l’accélération d’IRM

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Insitut Fresnel
Durée : 5 à 6 mois
Contact : andre@fresnel.fr
Date limite de publication : 2024-04-24

Contexte :
L’IRM est l’une des principales modalités d’imagerie utilisées dans la pratique clinique aujourd’hui. L’une de ses particularités est de fournir un contraste des tissus mous. De plus, contrairement aux autres modalités d’imagerie, l’IRM permet d’obtenir des informations sur les processus pathologiques de manière non invasive. Cependant, le temps d’acquisition de l’IRM constitue un obstacle majeur dans de nombreuses applications. Un long temps d’acquisition conduit, par exemple, à l’inconfort du patient, à l’apparition d’artefacts de mouvement sur l’image et à l’augmentation du coût de l’examen.

Sujet :
Une manière d’accélérer les examens IRM est de réduire le nombre de points dans l’espace d’acquisition. Deux stratégies peuvent alors être employées pour restaurer la qualité des images : L’imagerie parallèle [1] et le « Compressed Sensing » (CS) [2]. L’imagerie parallèle utilise la diversité de l’information fournie par un système multi-capteurs. Le CS, quant à lui, est basé sur l’apriori que les images sont parcimonieuses dans certains domaines de transformation. Le CS fait alors appel à des algorithmes itératifs permettant de prendre en compte cette contrainte de parcimonie.
Récemment les méthodes d’apprentissage profond ont montré leur efficacité pour la reconstruction d’IRM [3]. Parmi ces approches, certaines ont été proposés pour imiter les algorithmes de compressed sensing [4]. Le but de ce stage est de recenser et de faire une étude comparative de ces méthodes.

[1] Griswold MA, Jakob PM, Heidemann RM, Nittka M, Jellus V, Wang J, Kiefer B, Haase A. Generalized autocalibrating partially parallel acquisitions (GRAPPA). Magn Reson Med. 2002.

[2] M. Lustig, David Donoho, J. M. Pauly, Sparse MRI: The application of compressed sensing for rapid MR imaging, Magn Reson Med. 2007.

[3] F. Knoll et al., Deep-Learning Methods for Parallel Magnetic Resonance Imaging Reconstruction: A Survey of the Current Approaches, Trends, and Issues, in IEEE Signal Processing Magazine, vol. 37, no. 1, pp. 128-140, Jan. 2020.

[4] Zeng, G., Guo, Y., Zhan, J. et al. A review on deep learning MRI reconstruction without fully sampled k-space. BMC Med Imaging 21,2021

Profil du candidat :
Etudiant en dernière année d’école d’ingénieur ou Master 2 en Traitement signal/image, sciences des données ou mathématiques appliqués.

Formation et compétences requises :
Le candidat devra obligatoirement être à l’aise avec le langage python et les bibliothèques numpy et pytorch. Cela signifie qu’une première expérience en apprentissage profond est nécessaire. Un goût pour la physique et les applications biomédicales est souhaité.

Adresse d’emploi :
Insitut Fresnel, 52 Av. Escadrille Normandie Niemen, 13013 Marseille

Apprentissage automatique et profond pour la prédiction d’indicateurs de sécurité alimentaire à partir de données hétérogènes

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2023-12-15

Contexte :
La sécurité alimentaire (SA) est un problème central dans de nombreuses régions du monde, comme en témoigne sa présence parmi les 17 objectifs de développement durable (ODD 2 – Faim zéro). Pour surveiller les situations d’insécurité alimentaire, plusieurs systèmes d’alerte précoce sont actifs aujourd’hui, tels que GIEWS (FAO) et FEWSNET (USAID). Ces systèmes utilisent un ensemble limité de types de données, i.e., données agroclimatiques provenant d’images satellites et indicateurs extraits d’enquêtes auprès des ménages sur les facteurs nutritionnels, économiques et liés à la production. De plus, une intervention humaine est souvent nécessaire pour combiner et résumer toutes les sources d’information.
Les recherches menées précédemment par TETIS ont montré que des données ouvertes hétérogènes, liées à différents niveaux à la sécurité alimentaire, peuvent être utilisées pour développer des méthodes d’apprentissage automatique capables de produire des indicateurs en lien direct avec la SA. L’idée est d’utiliser des données qui représentent des proxys pour les raisons multiples et interdépendantes à l’origine de ce phénomène. Quelques exemples peuvent être des rasters d’informations spatiales (i.e. cartes de distance aux infrastructures, aux marchés, etc.), information géographique bénévole (Open Street Map), données météorologiques (i.e. températures moyennes, cumuls de précipitations, etc.), indicateurs économiques et données textuelles issus des médias locaux [2,3].

Sujet :
L’objectif de ce stage est d’évaluer le framework développé à TETIS [1] et testé initialement sur le cas du Burkina Faso, sur différents pays d’Afrique, notamment Rwanda et Tanzanie. L’idée à la base du framework est d’exploiter des stratégies d’apprentissage automatique et profond de dernière génération qui peuvent faire face à des aspects critiques, tels qu’une grande hétérogénéité des données d’apprentissage, mis face à une quantité des données de vérité de terrain (scores de SA) limitée.
Dans un premier temps, le travail sera focalisé sur l’actualisation des sources d’un ensemble de données hétérogènes adaptées aux zones d’étude. Cela inclut la collecte et la mise en lien des données a différentes échelles et de nature différentes.
Une fois finalisée la base des donnés, l’étudiant s’occupera de tester le framework d’entraînement des modèles et l’évaluation des modèles d’estimation des indices de SA ainsi entraînés. Les résultats attendus sont soit quantitatifs (évaluation des performance du framework par rapport à des données de référence), soit qualitatifs (production des cartes d’insécurité alimentaire à l’échelle nationale).

[1] Hugo Deléglise, Roberto Interdonato, Agnès Bégué, Elodie Maître d’Hôtel, Maguelonne Teisseire, Mathieu Roche. Food security prediction from heterogeneous data combining machine and deep learning methods. Expert Syst. Appl. 190: 116189 (2022)
[2] Cheick Tidiane Ba, Chloé Choquet, Roberto Interdonato, Mathieu Roche. Explaining food security warning signals with YouTube transcriptions and local news articles. GoodIT 2022: 315-322
[3] Hugo Deléglise, Agnès Bégué, Roberto Interdonato, Elodie Maître d’Hôtel, Mathieu Roche, Maguelonne Teisseire. Mining News Articles Dealing with Food Security. ISMIS 2022: 63-73

Profil du candidat :
 Analyse des données (collecte, exploration, mise en lien)
 Programmation (préférablement Python)
 Capacité d’analyses, rédactionnelles et de synthèse
 Travail d’équipe

Formation et compétences requises :
 Analyse des données (collecte, exploration, mise en lien)
 Programmation (préférablement Python)
 Capacité d’analyses, rédactionnelles et de synthèse
 Travail d’équipe

Adresse d’emploi :
Maison de la télédétection, 500 Rue Jean François Breton, 34090 Montpellier

Document attaché : 202311091909_SujetStageM2.pdf

MODÉLISATION PAR APPRENTISSAGE PROFOND D’UN “STYLO MAGIQUE”

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : IGN
Durée : 6 mois
Contact : nicolas.gonthier@ign.fr
Date limite de publication : 2023-12-15

Contexte :
L’Institut national de l’information géographique et forestière (IGN) est un établissement public à caractère administratif placé sous la tutelle des ministères chargés de l’écologie et de la forêt. Sa vocation est de produire et diffuser des données (open data) et des représentations (cartes en ligne et papier, géovisualisation) de référence relatives à la connaissance du territoire national et des forêts françaises ainsi qu’à leur évolution.

Grâce à son école d’ingénieurs, l’ENSG-Géomatique, et à ses équipes de recherche pluridisciplinaires, l’institut cultive un potentiel d’innovation de haut niveau dans plusieurs domaines (géodésie, forêt, photogrammétrie, intelligence artificielle, analyse spatiale, visualisation 3D, etc.).

Au sein de la DSI, le Service Innovation, Maturation et Valorisation (SIMV) est chargé de la mise en œuvre du programme de R&D. Il doit assurer l’entretien et l’évolution des plateformes et équipements technologiques permettant de structurer le processus d’innovation et d’assurer l’interface entre l’enseignement, la recherche, et les développements à caractère plus opérationnel. Il est chargé de développer des prototypes, technologiques d’une part et produits et d’usages d’autre part, qui seront de nature à évaluer l’innovation et à décider de son éventuelle valorisation industrielle en interne ou en externe.
Au sein du SIMV, le Département Appui à l’Innovation (DAI) réalise des études et des prototypes permettant de valider la pertinence et la maturité des travaux de recherche. Le cas échéant, il monte en maturité des codes de recherche vers les souches de production via le développement de maquettes, la réalisation de tests et la rédaction de documentation.

Sujet :
Dans un contexte où la transition écologique est devenue un enjeu national et international, l’IGN s’est donné comme mission de cartographier le plus fréquemment possible l’anthropocène, autrement dit les évolutions et l’impact de l’activité humaine sur le territoire. Cela implique un suivi de l’artificialisation des sols, des zones agricoles, de la forêt, etc. Cela demande d’être capable de pouvoir mettre à jour plus régulièrement nos référentiels cartographiques. Le faire de façon complétement manuelle est un travail titanesque et l’apport de solutions automatiques est primordiale pour atteindre nos objectifs. Pour cela, le travail, qu’il soit manuel ou automatique, consiste à comparer deux images co-alignées spatialement, et de repérer les zones de changement qui ont une valeur sémantique au sens de nos nomenclatures métiers, de détourer ces zones et de mettre à jour nos référentiels cartographiques là où le territoire a changé.

La piste que nous souhaitons étudier pour accélérer le suivi du territoire, consiste à essayer de faciliter le travail pour l’opérateur dans le détourage des zones de changement. L’apparition de modèles de vision par ordinateur inspirés des LLM utilisant de la prompt-ingénierie [1] laisse penser que cela pourrait être transposable dans le cadre de la détection du changement. D’autant plus que des travaux de recherche très récents montrent d’excellents résultats dans l’exploitation de modèles de type “segment anything” pour la segmentation du changement [2]. Nous avons déjà conduit des tests avec le modèle “segment anything” sur nos images, mais dans le cas de la segmentation mono-date. Ici, le challenge sera de trouver les bonnes adaptations sur la partie prompt et décodeur afin qu’elles soient exploitables dans le cadre d’une paire d’images présentant un changement significatif pour l’IGN.

Les missions du stage :

Pour cette mission vous intégrerez une équipe projet dédiée à la détection du changement de 3 personnes actuellement, vous serez encadré par deux d’entre elles.
Dans un premier temps, le stage consistera à faire un état de l’art sur la prompt-ingénierie appliquée à la vision par ordinateur et de se mettre à jour sur les architectures siamois pour la détection du changement [4].
Il faudra ensuite implémenter avec pytorch un modèle inspiré de la littérature, il est fort probable en effet qu’il faille combiner des idées de deux ou quelques papiers de recherche dans le cadre de ce stage. On utilisera un ou deux jeux de données open data à des fins d’entraînement et de test.
Selon les avancées du stage, une intégration dans un SIG (système d’information géographique) ainsi que des tests en coordination avec les équipes de production pourraient être envisagés.
Bibliographie :

[1] : Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., … & Girshick, R. (2023). Segment anything. arXiv preprint arXiv:2304.02643.

[2] : Ding, L., Zhu, K., Peng, D., Tang, H., & Guo, H. (2023). Adapting Segment Anything Model for Change Detection in HR Remote Sensing Images. arXiv preprint arXiv:2309.01429.

[3] : Shafique, A., Cao, G., Khan, Z., Asad, M., & Aslam, M. (2022). Deep learning-based change detection in remote sensing images: A review. Remote Sensing, 14(4), 871.

[4] : Daudt, R. C., Le Saux, B., & Boulch, A. (2018). Fully convolutional siamese networks for change detection. In 2018 25th IEEE International Conference on Image Processing (ICIP) (pp. 4063-4067). IEEE.

[5] : Zheng, Z., Ma, A., Zhang, L., & Zhong, Y. (2021). Change is everywhere: Single-temporal supervised object change detection in remote sensing imagery. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 15193-15202).

Profil du candidat :
Formation Bac +5, spécialisation en apprentissage machine et vision par ordinateur.

Formation et compétences requises :
Connaissance et pratique de python et de la bibliothèque Pytorch. Le stage étant exigeant techniquement, il est préférable d’avoir déjà pratiqué Pytorch appliqué à de la computer vision, de savoir implémenter un réseau de convolution ou d’attention ‘from scratch’.

Savoir lire et exploiter des API python, car il vous sera probablement demandé d’exploiter des bibliothèques spécialisées dans la manipulation de données géographique.

Savoir mobiliser des résultats de recherche (recherche bibliographique, lecture et ré-implémentation de publications scientifiques…).

Bon niveau d’anglais lu (lecture d’articles).

Une expérience en manipulation de l’information géographique est un plus.

Adresse d’emploi :
IGN Saint-Mandé (94)

Econom’IA

Date : 2024-05-06 => 2024-05-07
Lieu : Bordeaux, France

Announcement and Call for papers

1st Edition of Econom’IA Conference

We are proud to announce the first Econom’IA conference that will take place in BSE (Bordeaux School of Economics), Bordeaux, France, on May 6-7, 2024.

This conference aims to explore and foster the cutting-edge applications of Artificial Intelligence (AI), Text Mining, Web Mining, Data Visualization, and other innovative techniques in all the fields of Economics. Econom’IA brings together researchers from the academic world as well as entrepreneurs that use innovative techniques to analyse economic data.

This 2-day conference proposes morning sessions with formal lectures and practical workshops given by established scholars in the field to discover new tools and techniques[1], and afternoon sessions dedicated to presentations and discussions of papers using at least one of these innovative techniques.

For this first edition, we are particularly honoured to have Renaud Aioutz-Lefebvre (OpenStudio) on May 6th and Emmanuel Flachaire (AMSE, Aix-Marseille university) on May 7th as our keynote speakers.

Econom’IA conference will particularly focus on the following topics:

Machine Learning and Deep Learning applications,
Text and Web Mining,
Advanced data collection and visualization.

Application and deadlines:

Authors willing to attend the conference can apply by submitting an application in one single pdf document in English including a research proposal (2-4 pages maximum) or a published paper to present during the presentation sessions. Submissions must include at least one application of innovative techniques in Economics and will undergo a peer-review process. Applications can be submitted at the following link:

https://economia.sciencesconf.org/

It is also possible to attend the conference as an auditor after filling out the form on the conference website. A confirmation will be sent to you via email.

Deadline for application: 15 January, 2024

Notification of acceptance: 29 February, 2024

Registration reduced fee payment : from 1 March to 20 March , 2024

Registration full fee payment: from 20 March to 17 April, 2024

Participation fees:

The reduced conference fee is 150 Euros for registrations before 20th March 2024, and increases to 250 Euros after this date (participants and auditors). Fees include the registration to the conference (access to the conference lectures and presentations), breaks, lunches and gala dinner.

3 free registrations are reserved for participants from third countries or scholarship holders. For more détails please contact the organizing comitee.

Contact Information:

For inquiries and further information, please contact the conference organizing committee at economia_orga@groupes.renater.fr

Organizing Committee

Mathieu Bernard (Economix, université Paris Nanterre, CNRS)

François Maublanc (Thema, CY Cergy Paris Université)

Olha Nahorna (Bordeaux School of Economics, université de Bordeaux, CNRS)

Karine Onfroy (Bordeaux School of Economics, université de Bordeaux)

Guillaume Pouyanne (Bordeaux School of Economics, université de Bordeaux)

[1] For the workshops, basic knowledge of programming in Python or R is recommended.

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Master Internship on Enabling XAI in IoT-enhanced Spaces at Institut Polytechnique de Paris

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : SAMOVAR
Durée : 6
Contact : aikaterini.tzompanaki@cyu.fr
Date limite de publication : 2024-01-15

Contexte :
With the emergence of the Internet of Things (IoT) and computing (cloud-edge) continuum technologies
infrastructures are becoming more sensorized, fueling the development of smart space ecosystems and
improving societal quality of life. As a result, smart spaces are becoming popular in many domains,
including healthcare, education, building management, and more. This integration with the IoT brings
much potential in revolutionizing the way that these environments operate. Initially, IoT sensors mea-
sure physical phenomena (temperature, energy consumption, luminosity) in a continuous way, producing
streams of data. Such data is often used for analysis and predictions to either optimize different criteria
(e.g., occupancy, user comfort, energy consumption, etc.), or identify and anticipate problems. To man-
age and control the data generated by IoT devices, AI algorithms can be used to enable smarter, more
efficient, and more responsive devices to their environment.

Sujet :
To enable efficient decision making, it is increasingly common that predictions be accompanied by
explanations, i.e., pieces of information either on the data, the models, or both for giving insights on
why the predictions were made. For example, a smart building employs IoT devices to measure energy
consumption of different plugs in households, as well as temperature of different rooms. Using this
measurements as training data, a Machine Learning model can be used to predict the energy consumption
of the air-conditioning appliance plug (label) using different IoT data features (e.g., temperature). Since
this is a continuous setting scenario, at time t1 we may have gathered D1 data, which we use to train a
decision tree M1. At a later time t2, incrementally we have obtained D1 ⊂ D2, along with a new trained
model M2. Let’s assume the following predictions made by M1 and M2 for a test point p: y1 = M1(p) =
10watts and y2= M2(p) = 50watts. An example of traditional local explanations for these two predictions
could be e1 : p.temperature = 20 while e2 : p.temperature = 35. We argue that a more informative
and correct explanation would be the information that the distribution of the training data has changed;
it is not only that the current temperature is at 35 degrees, but also that the timestamps with high
temperatures appear more often in the data than before t1.
This internship aims to study the usage of data distribution changes through time for the construction
of more pertinent XAI models for IoT-enhanced spaces. Use cases will be provided from existing data
models and data instances from IoT devices deployed in smart spaces of the Institut Polytechnique de
Paris (IP Paris). The successful candidate will be considered for a 3 year PhD contract at the end of the internship

Profil du candidat :
Internship Objectives
The selected candidate will be working on the following tasks:
– Get familiar with data models for smart spaces.
– Leverage datasets of smart spaces for prediction and decision making.
– Study data drifts and distribution changes in datasets for IoT space predictions.
– Propose explanation formalizations based on data distribution changes.

Formation et compétences requises :
Master 2 on computer science or last year of engineering school.

Adresse d’emploi :
Telecom SudParis, Evry or Palaiseau

Document attaché : 202311091058_XAI_IoT_internship.pdf

Clustering de Réseaux d’ordre supérieur pour des données de transports maritimes

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N
Durée : 5/6 mois
Contact : francois.queyroi@univ-nantes.fr
Date limite de publication : 2024-01-15

Contexte :
Le contexte de ce stage est l’analyse des relations entre lieux à partir de trajectoires maritimes Ces traces peuvent être définies comme des séquences discrètes d’événements (e.g. les différents ports visités par un navire). Dans ce cadre, on s’intéresse aux relations indirectes entre lieux e.g. sachant qu’un navire vient de Shanghai et est actuellement à Singapour, quelle est sa prochaine destination ? On va ainsi chercher à dépasser la représentation usuelle des déplacements sous la forme de graphes en utilisant des « réseaux d’ordre supérieur » (voir Fig. 1). Ces réseaux représentent les probabilités de transitions d’un lieu à un autre en tenant compte d’un historique de déplacement. Ainsi, ce nouveau type de graphe inclut des « noeuds-mémoire » correspondant à des sous-séquence de lieux. Par exemple, le nœud « Singapour/Tokyo » va encoder l’événement « Le navire, actuellement à Singapour, est arrivé de Tokyo ». Ces modèles reflètent mieux les données d’entrées que les modèles « sans mémoire » (chaîne de Markov d’ordre 1) où la probabilité de transition d’un port à l’autre ne dépendra que du port actuel.
La construction et la fouille de ces nouveaux modèles constituent d’important axes de recherche dans le domaine de la fouille de réseaux. Une application importante est la détection de communautés de lieux chevauchantes, qui est l’objectif de ce stage détaillé plus bas. Ce stage se situe dans la prolongation d’avancées récentes sur ce sujet [Saebi et al. 2020, Queiros et al, 2022]. Les résultats obtenus seront valorisés à travers des publications scientifiques et des outils logiciels.

Sujet :
Un premier objectif du stage est de proposer des outils permettant de produire un clustering chevauchant des lieux à partir d’un partitionnement des noeuds-mémoires d’un réseau d’ordre supérieur. En effet, un cluster de lieux doit représenter un groupe de lieux dont la majorité des flux est dirigée vers d’autres lieux du même groupe. Toutefois, certains lieux (typiquement des grands ports du réseau maritime international) vont pouvoir appartenir à différents groupes. Une problématique dans ce cadre est que la façon dont sont construit les réseaux d’ordre supérieur va beaucoup influencer les clusters découverts si on utilise directement des algorithmes classiques [Queiros et al, 2022]. Le stage consistera à développer un algorithme évitant cet écueil. On pourra par exemple proposer une alternative à l’algorithme de clustering Walktrap [Pons et Latapy, 2005] (voir Fig. 2). Cela impliquera toutefois d’utiliser une fonction de scoring qui est définie pour les clusterings chevauchant (par ex. [Esquivel et Rosvall, 2011]). L’algorithme développé pourra être intégré au paquet Python honyx (https://pypi.org/project/honyx).

Un deuxième objectif sera la constitution de jeux de données de trajectoires maritimes par l’utilisation d’API de sites recensant les positions des navires.

Profil du candidat :
Nous cherchons un.e étudiant.e en M2 mathématique/informatique (ou équivalent) intéressé.e et ayant des compétences dans l’analyse de données et la fouille de graphes.
– intérêt pour la Recherche et le travail à la fois en équipe et en autonomie
– bonne maîtrise de Python
– capacités rédactionnelles
– bon niveau d’Anglais

Formation et compétences requises :
Nous cherchons un.e étudiant.e en M2 mathématique/informatique (ou équivalent) intéressé.e et ayant des compétences dans l’analyse de données et la fouille de graphes.
– intérêt pour la Recherche et le travail à la fois en équipe et en autonomie
– bonne maîtrise de Python
– capacités rédactionnelles
– bon niveau d’Anglais

Adresse d’emploi :
Polytech Nantes.
Rue Christian Pauc, 44300 Nantes

Document attaché : 202311081135_sujet_clust2024_fr.pdf

Extraction de contenu multimodal — Application au cas des manuels scolaires

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Laboratoire CEDRIC du CNAM (Paris)
Durée : 5 ou 6 mois
Contact : guinaudeau@limsi.fr
Date limite de publication : 2024-01-15

Contexte :
Le projet ANR MALIN a pour objectif de rendre utilisables les manuels scolaires numériques par les enfants en situation de handicap. En effet, les manuels numériques actuellement disponibles nécessitent d’être adaptés pour être accessibles à ces enfants. Ces adaptations concernent aussi bien les aspects techniques que pédagogiques. Dans la plupart des cas, les manuels sont adaptés de façon artisanale et les délais de livraison peuvent être de plusieurs mois. Ces contraintes ne permettent pas de rendre efficiente l’inclusion scolaire des enfants en situation de handicap. L’objectif du projet ANR MALIN est donc de développer des solutions techniques afin d’aboutir à l’automatisation de l’adaptation des manuels scolaires numériques pour les rendre accessibles (accès, traitement et interaction avec les contenus) aux élèves en situation de handicap. Le projet ANR repose sur une collaboration entre quatre laboratoires : LISN (Université Paris-Saclay), MICS (Ecole CentraleSupelec), CEDRIC (CNAM), Inserm 1284 (CRI, Université de Paris).

Sujet :
L’objectif du stage consiste à concevoir des approches d’extraction automatique de la structure d’un exercice de manuel scolaire (consignes, enoncés, exemples, etc.) et de son contenu multimédia (textes, images, dessins, graphiques, équations, courbes…) à partir des fichiers fournis par les éditeurs (ceux-ci sont le plus souvent au format pdf). Plusieurs approches seront à envisager : une approche d’adaptation et d’enrichissement de systèmes de structuration automatique de documents textuels (segmentation thématique, segmentation discursive) prenant en compte la spécificité et la multi-modalité des données traitées et une approche basée sur le traitement automatique des images visant à identifier les différents blocs en se basant sur les caractéristiques de l’image, connue sous le nom de « Document Layout Segmentation and Analysis » [1, 2]. Des approches récentes d’apprentissage profond seront testées sur des jeux de données annotées manuellement afin d’adapter des modèles existants et obtenir des résultats d’extraction satisfaisants.

[1] Wang, Jiapeng, Lianwen Jin, and Kai Ding. “Lilt: A simple yet effective language-independent layout transformer for structured document understanding.” arXiv preprint arXiv:2202.13669 (2022).
[2] Huang, Yupan, et al. “Layoutlmv3: Pre-training for document ai with unified text and image masking.” Proceedings of the 30th ACM International Conference on Multimedia. 2022.

Profil du candidat :
Master en informatique ou TAL avec une spécialisation dans au moins un des domaines suivants :
○ traitement automatique des langues
○ apprentissage automatique

Formation et compétences requises :
Maîtrise de Python (langage de prédilection du projet)
La connaissance des principales librairies d’apprentissage sera appréciée.

Adresse d’emploi :
Lieu de travail : Laboratoire CEDRIC du CNAM
Durée du contrat : 5/6 mois
Début souhaité : printemps 2024
Contact : Pour postuler, merci d’envoyer un CV, les notes de M1 et M2 et une lettre de motivation à Camille Guinaudeau (guinaudeau@limsi.fr), Olivier Pons (olivier.pons@lecnam.net) et Caroline Huron (caroline.huron@cri-paris.org).

Document attaché : 202311080140_SujetStageMALIN_extraction.pdf