ATLAS

 

Action ATLAS

Apprentissage, opTimisation Large-échelle et cAlculs distribuéS

Responsables

Thématiques
Apprentissage de représentations, optimisation pour l’apprentissage, calcul haute performance et deep learning
Données concernées
Données astrophysiques , données médicales, photographies, données de réseaux radio, données agronomiques, données neurophysiologiques et comportementales
Résumé
L’objectif de la fouille de données est la recherche d’informations pertinentes dans de grandes masses de données afin d’aider à la décision et à la prévision. Il s’agit à chaque fois de développer de nouveaux outils pour prendre en compte la nature des données analysées qui peuvent être extrêmement complexes, par exemple hétérogènes et/ou présentant une structure de dépendance qu’il convient d’être capable de modéliser. L’Action ATLAS sera centrée autour de quatre axes principaux : collecte des données, apprentissage de représentation, optimisation pour l’apprentissage, calcul haute performance et réunira des collègues statisticiens, informaticiens, traiteurs de signaux, neuroscientifiques ainsi que des médecins, des biologistes et des industriels.
Objectifs
L’objectif de la fouille de données est la recherche d’informations pertinentes dans de grandes masses de données afin d’aider à la décision et à la prévision. Il s’agit à chaque fois de développer de nouveaux outils pour prendre en compte la nature des données analysées qui peuvent être extrêmement complexes, par exemple hétérogènes et/ou présentant une structure de dépendance qu’il convient d’être capable de modéliser. Cet enjeu de la grande dimension et de l’analyse statistique de données complexes nécessite l’implication de chercheurs issus de communautés thématiques variées, afin de s’attaquer à différents verrous comme :
  • La collecte des données et leur stockage. Quelles stratégies d’acquisition peut-on développer ?
    Compte tenu de la complexité, des coûts induits et du temps requis pour les campagnes d’acquisition in situ, il est nécessaire d’évaluer le gain de plus-value dans l’utilisation des données engendré par l’amélioration de la qualité des mesures obtenue avec certains systèmes d’acquisition.
  • Leur représentation : l’efficacité d’un algorithme d’apprentissage statistique dépend fortement du choix du mode de représentation des données. Idéalement, ces représentations doivent être parcimonieuses et permettre de bien rendre compte de la nature des données : éventuelles dépendances ou nature séquentielle des données, caractère hétérogène. Dans les applications réelles, les « bonnes caractéristiques » peuvent être conçues par des experts ayant une solide connaissance du domaine, souvent après de nombreux tâtonnements et expériences. Une autre possibilité consiste à apprendre automatiquement ces « bonnes représentations ».
  • Optimisation pour l’apprentissage : Une des difficultés est liée au caractère non lisse et non convexe des problèmes d’optimisation sous-jacent. Il nous paraît important d’explorer et de comparer différentes approches comme les formulation de type “mixed integer”, les relaxations continues,les approches de type contraintes actives, proximales et gradient stochastique. Un des défis est lié à la taille de l’espace des paramètres, la multitude des hyperparamètres ainsi que le danger de sur-apprentissage.
  • Calcul haute performances: Mise en oeuvre sur accélérateurs (GPU,…), déploiement sur grille. Les progrès récents dans le calcul haute performance (HPC) changent la nature de l’apprentissage statistique et ont amené à introduire de nouvelles approches comme l’apprentissage profond.

 

Visitez le site web de l’Action ATLAS


Évènements à venir

Jun 28 – Jun 30 all-day Grenoble
La Conférence sur l’Apprentissage automatique (CAp) est le rendez-vous annuel de la communauté francophone pour la présentation des résultats de recherche originaux, ainsi que l’échange et la diffusion d’expériences novatrices dans le domaine de l’apprentissage[...]