Journées Science des Données MaDICS 2017 – 22 juin

When:
22/06/2017 all-day
2017-06-22T00:00:00+02:00
2017-06-23T00:00:00+02:00
Where:
Ecole de Management, Marseille
Montée de l'Université Rue Joseph Biaggi - CS 70329 13331 Marseille Cédex 3

Journées Science des Données MaDICS 2017

Data Science Innovatives Days, Jeudi 22 juin – Vendredi 23 juin


Programme du jeudi 22 juin 2017  – Auditorium EMD           

Liste des inscrits (Direction seulement)

9:15 Café – Accueil
9:45 Ouverture des journées
10:00 Data challenges with modularization and code submission – Lessons learned
Balazs Kegl, DR2 CNRS, University Paris Saclay

Motivated by the shortcomings of traditional data challenges, we have developed a unique concept and platform, called Rapid Analytics and Model Prototyping (RAMP) , based on modularization and code submission. Open code submission allows participants to build on each other’s ideas , provides the organizers with a fully functioning prototype , and makes it possible to build complex machine learning workflows while keeping the contributions simple. We will start this presentation by describing the context and motivation, the guiding design principles , and some of the technical details (front and backend) of the platform. We will then walk you through some of the most interesting workflows and applications (e.g., anomaly detection in particle physics detectors, classifying molecular spectra for safe drug administration, spatio-temporal time series prediction in climate science). In the last third of the talk we will present a preliminary analysis of the RAMPs that touches on both the technical (machine learning) aspects of the tool and on the sociology of crowdsourcing data analytics.

11:00 Les recherches en masses de Données Bioacoustiques sous l’impulsion de l’Action EADM
Hervé Glotin, Université de Toulon

Les masses de données bioacoustiques permettent d’investiguer de nouveaux champs de recherche sur de nombreux écosystèmes. Nous présentons deux exemples qui ont bénéficié de l’impulsion de MaDICS.
Le premier champ de recherche a consisté à optimiser des modèles de traitement de longues séries stéréophoniques pour améliorer les connaissances sur Physeter macrocephalus (cachalot) dont le comportement est très peu connu, et engendrant un risque de collision avec un trafic maritime de plus en plus intense. Le projet Bombyx ( http://glotin.univ-tln.fr/BOMBYX ) au large du Parc de Port-Cros a résulté sous l’impulsion de l’hackathon MaDICS EADM 2016 en des suivis 2D du cachalot sur des mois d’enregistrement (2 To de données stéréo). Les connaissances inédites extraites de cette masse de donnée portent sur le nombre, direction, et sens des passages, comportements sur des km3 de cette espèce méconnue.
Le second champ de recherche traite de la classification de 1500 espèces d’oiseaux dans le cadre du challenge LifeClef Bird 2017, INRIA Zenith et SABIOD, soutenu par MaDICS EADM. Nous présentons le modèle de classification état de l’art de cette tâche de classification de très grande diversité, conçu par le LSIS. Nous avons transposer le modèle de classification d’image large échelle de Google (Inception deep learning) dans le cadre de la classification d’images spectrales de vocalises d’oiseaux. Nous montrons comment nous avons rapidement adapté le modèle au domaine bioacoustique, et caractérisons les performances dépassant les autres propositions d’équipes internationales, dont certaines reposaient aussi sur une approche deep learning.

11:30 Machine Learning, Analyse statistique en partenariat industriel au sein de l’Action ATLAS
Charlotte Laclau, Laboratoire LIG Grenoble
Le but de l’exposé sera de présenter deux partenariats autour du machine learning et de l’analyse statistique, nés au sein de l’Action ATLAS et faisant à chaque fois intervenir des équipes académiques et des industriels. On expliquera à chaque fois le contexte, les outils mis et jeu et les différentes applications qui ont pu être développées ou en perspective.
12:00 La recherche partenariale et la valorisation
Mathilde Mougeot, Chargée de mission valorisation, INSMI
12:30 Déjeuner
14:00 News MaDICS
Christine Collet, Gernoble INP, Direction MaDICS, INS2i
Echanges avec le CNRS
Adeline Nazarenko, Directrice Adjointe Scientifique INS2i
14:30 Scientific workflows and companion tools for reproducibility in bioinformatics: status, opportunities and first lessons learnt
Sarah Cohen Boulakia, Université Paris-Saclay

With the development of new experimental technologies, an avalanche of data has to be computationally analyzed for scientific advancements and discoveries to emerge. Faced with the complexity of analysis pipelines, the large number of computational tools, and the enormous amount of data to manage, there is compelling evidence that many (if not most) scientific discoveries will not stand the test of time: increasing the reproducibility of computed results is of paramount importance.
The objective we set out in this work is to place scientific workflows in the context of reproducibility: We define several levels of reproducibility; we characterize and define the criteria that need to be catered for by reproducibility-friendly scientific workflow systems; we use such criteria to place several representative and widely used workflow systems and companion tools within such a framework; we discuss the remaining challenges posed by reproducible scientific workflows in the life sciences.
Our study was guided by three use cases from the French community, involving in silico experiments. ReproHackathons have followed, providing even more concrete feedback in the ability of the current systems to run reproducible experiments.

15:00 Pitch des posters et démonstrations
Vincent Claveau, Appel à Posters et démonstrations
16:00 Pause
16:30 Gouvernance des masses de données, Questions éthiques et juridiques
Danièle Bourcier, DR CNRS, Commission d’éthique du numérique (Alliance ALLISTENe)

Les problématiques juridiques soulevées par les Big data apportent de nouveaux enjeux pour ce qui en est du respect de la vie privée et de la protection des données personnelles. En effet, les Big data ne se réfèrent pas uniquement aux données (implicitement ou explicitement) communiquées par les individus en question, mais aussi aux données produites ou inférées par les opérateurs en ligne, grâce à des algorithmes de plus en plus sophistiqués.
Mais les enjeux du Big data s’étendent bien au-delà des problématiques liées à la vie privée. En vue des nouvelles techniques de profilage sur Internet, les Big data entrainent aussi une perte potentielle d’autonomie de la part des internautes qui se voient de plus en plus assujettis aux décisions prises par des algorithmes, qui vont déterminer la façon dont ils peuvent effectivement interagir avec une plateforme donnée, d’après la catégorie dans laquelle ils ont été classés. Une réflexiion éthique s’impose.
Nous verrons les questions de vie privée posées par les big data notamment dans le domaine de la santé et examinerons la dernière charte éthique élaborée sur l’Apprentissage machine élaboré par la CERNA.

17:30 Posters et Démonstrations
18:30 Apéritif et Networking