Journées Big Data

16-17 novembre 2015

 

Les labex CIMI et AMIES, les GDR MADICS et MascotNUM du CNRS, le CMI SID, l'IMT et l'IRIT organisent les lundi 16 et mardi 17 novembre à Toulouse deux journées consacrées aux Big Data. Cet événement s'inscrit dans le cadre du trimestre thématique Machine Learning organisé par le CIMI cet automne. Il est soutenu par le groupe MAS de la SMAI, et il est labellisé par le réseau MDK. Il est ouvert à tous, sous réserve d'inscription gratuite en précisant votre nom et organisme de rattachement par mail à cette adresse.

Modification de dernière minute : suite aux événements de Paris, Daniel Bouche annule sa participation à la journée. Par ailleurs, nous nous joindrons à la minute de silence organisée par l'université à midi. Le nouveau planning du lundi matin est donc le suivant :
  • 9:30-10:10: Didier Auroux
  • 10:15-10:55: Balázs Kegl
  • 11:00-11:10: Pause café
  • 11:10-11:55: Michelle Rochette
  • 12:00-12:15: hommage aux victimes des attentats de Paris devant le bâtiment central de l'université

Lundi 16 novembre 2015:
Journée Big Data des GDR MADICS et MascotNUM

Matinée: exposés scientifiques

  • 9:30 - 10:10 : Assimilation de données, Didier Auroux, Université de Nice.
    L’assimilation de données est l’ensemble des techniques qui permettent de combiner un modèle et des observations (ou données). D’un côté, le modèle, qui est généralement représenté sous forme d’équations mathématiques : c’est la phase de modélisation, d’un phénomène physique, biologique, chimique, etc, qui consiste à représenter ce phénomène à l’aide d’équations mathématiques. Et de l’autre, les données, représentant une source d’information expérimentale ou observationnelle. Et le but est généralement de reconstituer l’état du système, puis de prévoir son évolution dans le futur. L'assimilation de données a permis des avancées majeures dans de nombreux domaines (comme la météorologie, l'océanographie, l'imagerie médicale, …) pour lesquels la quantité de données et la taille des grilles de résolution numérique des modèles sont sources de difficultés pour la mise en œuvre opérationnelle.
  • 10:15 - 10:55 : HPC, Evolution des machines et impact sur les méthodes numériques, Daniel Bouche, CEA Bruyères le Châtel. Slides de la présentation.
    Attention: exposé annulé.
    Daniel Bouche est directeur de recherches CEA, et chercheur associé à l’ENS Cachan. Il a travaillé sur la simulation numérique de divers phénomènes et systèmes physiques : diffraction d’ondes, écoulements hydrodynamiques, matériaux.
    The present and expected tremendous increase in computing power of mainframe computers offers fantastic opportunities for numerical simulations in a number of fields, including uncertainty quantification. However, to achieve reasonable efficiency on present and future machines, numerical methods have to satisfy a number of constraints. The most obvious is that the work has to be divided fairly between the numerous cores, which implies fine-grained parallelism and load balancing. Another mandatory task is to take advantage of the vector units, which become omnipresent on high performance processors. In this talk, we shall present the present and foreseeable evolution of processors and machines, and how numerical methods have to evolve to take full advantage of these progresses.
  • 11:00 - 11:15 : Pause café
  • 11:15 - 11:55 : Systemic challenges of data science initiatives, Balázs Kegl, Université Paris 11. Slides de la présentation.
    Attention: exposé avancé à 10h15.
    Balász Kegl est Directeur de Recherche en informatique au CNRS, data scientist avec plus de 100 articles scientifiques. Il possède une vaste experience aux interfaces de data science et des données scientifiques (physique, biologie, science de la terre). Depuis 2014, il dirige le Centre de Data Science de l'Université Paris-Saclay.
    Data science is a novel discipline, concerned with the design of automated methods to analyze massive and complex data in order to extract information. Data science projects require expertise from a vast spectrum of scientific fields ranging from research on methods (statistics, signal processing, machine learning, data mining, data visualization) through software building and maintenance to the mastery of the scientific domain where the data originate from. To tackle challenges arising from managing such a multidisciplinary landscape, a number of universities launched data science initiatives (DSIs) in the last couple of years. The goal of this talk is to raise and partially answer some of the questions these initiatives are facing, through the experience we accumulated at the Paris-Saclay Center for Data Science: What is the scope of a DSI? How is the data science ecosystem structured? Who are the players of the ecosystem? Where are the bottlenecks? What motivates the players, and how to manage the misaligned incentives? What existing tools do we have for managing deeply multidisciplinary projects, and what tools should be develop?
  • 12:00 - 12:40 : Enjeux et perspectives des données massives dans la modélisation biomathématique, Michel Rochette (ANSYS Lyon).
    Attention: exposé avancé à 11h10.
    Michel Rochette est Docteur en mathématiques appliquées. Il est co-fondateur en 1994 de l'entreprise CADOE specialisé en techniques de paramétrisation pour la simulation numérique. Apres l'acquisation de CADOE par ANSYS (leader mondial des logiciels de simulation) en 2001 il devient Directeur de Recherche en charge des techniques de reduction de modeles et d'applications médicales.
    Aujourd'hui les simulations 3D ne font pas partie des protocoles cliniques pour le traitement des patients. L'émergence de ces simulations 3D personnalisées et integrées dans des outils de planning chirurgical et d'assistance per-opératoire représente un défi majeur des acteurs du monde de la santé. Pour pouvoir être utilisé en clinique ces logiciels de simulation doivent être le plus simple possible, suffisament précis et surtout très rapides (de l'odre de quelques minutes en planning) et temps réel en assistance opératoire). Cet objectif de rapidité est à des ordres de grandeur de l'état de l'art des performances pour les simulations 3D non linéaires discrétisées en espace et et en temps. Les techniques de réduction de modèles et l'analyse statistique des données patient représentent les solutions les plus adaptées à ces enjeux. L'exposé proposera des exemples de simulations 3D en chirurgie endovasculaire des pathologies de l'aorte et s'attardera plus particulièrement sur la validation de ces simulations par rapport aux données per-opératoires. Enfin l'exposé portera sur des exemples d''analyse statistique des formes anatomiques.

Après-midi: ateliers

Les ateliers commencent à 14h00. De 15h30 à 16h00, une pause café est organisée dans le hall de l'IMT, avant une synthèse des ateliers de 16h00 à 16h30. Les deux ateliers auront lieu dans le bâtiment 1R3.

  • Atelier 1: Apprentissage/Big Data et Expériences Numériques, animé par Alexandra Carpentiers et Clément Chevalier dans l'amphithéâtre Laurent Schwartz.
    Présentation de l'atelier, cadrage des discussions, et références.
    Le phénomène Big Data ne se caractérise pas seulement par la massivité des jeux de données, mais aussi par la multiplicité des façons dont ces données peuvent être acquises. De nombreuses applications modernes impliquent une collecte active des données par l'utilisateur - comme par exemple dans le cas des systèmes de recommandation qui n'observent la réaction du client que sur les objets recommandés. Plusieurs problèmes passionnants se posent alors - en particulier, celui de concevoir des techniques optimales de collecte de données. L'importance de ces techniques pour le Big Data est encore soulignée par le fait qu'elles peuvent être (et sont) appliquées pour traiter de façon optimale des bases de données massives.Dans mon expose, je présenterais la problématique de l'apprentissage séquentiel, ainsi que quelques développements récents de ce domaine.
    Exposé liminaire d'Alexandra Carpentiers: L'apprentissage sequentiel comme outil face au big data.
  • Atelier 2: HPC et Expériences Numériques, animé par Alfredo Buttari et Pierre Jolivet dans la salle de séminaire du premier étage.
    Slides de la présentation introductive.
    Ever since the production of the first supercomputers in the '60s, High Performance Computing (HPC) has allowed researchers and engineers to achieve important breakthroughs in a wide range of disciplines including physics, chemistry, electronics or economy. HPC has continuously evolved throughout its history pushed, on one side by the need of applications to process larger and lager amounts of data with ever increasing accuracy and reliability and, on the other side, by the fast pace at which computers change and improve. If the solution of linear system with a few thousands variables was a challenging task a couple of decades ago, moderns applications require the solution of systems with millions or even billions of equations. Data assimilation is one among the numerous domains where problems of this size arise. On the other hand, the recent emergence of multicore processors and accelerators (such as GPUs) has marked the beginning of a forced march toward an era of computing in which research applications must be able to exploit parallelism at an unprecedented scale. A modern supercomputer is typically formed by hundreds of nodes, each equipped with multiple multicore processors and, possibly, one or more accelerators; processing units are, moreover, attached to memories with different capacities and data have to be transferred through interconnects with different latencies and bandwidths. Methods have to be designed not only to reduce the complexity of operations and the memory consumption but also to achieve extremely high degrees of concurrency and to comply with the heterogeneity and complexity of modern supercomputers. At the same time, technologies and programming models have to be developed to allow for the fast, efficient and portable implementation of such complex algorithms. In this atelier we will bring to the attention of the public some of the challenges and issues currently tackled by the high performance, scientific computing.

Toutes les informations sur ce site. Rendez-vous dans l'amphithéâtre Laurent Schwartz de l'IMT, Université Paul Sabatier bâtiment 1R3: voir le plan ci-dessous.

Mardi 17 novembre 2015:
Journée Big Data et défis industriels

Matinée: exposés scientifiques

  • 9:00 - 10:00 : Clément Calauzènes, Criteo - Machine learning et big data pour la recommandation: un défi industriel.
    Performance retargeting consists of displaying online advertisements that are personalized according to each user’s browsing history. Criteo’s recommender system chooses a dozen relevant products from over two billion candidates in a few milliseconds, not only for their click performance but also for their probability to generate a sale. In this talk, we will expose how to build such a system through a combination of offline and real-time computations, and the challenges of evolving it.
    Clément Calauzènes received a Ph.D. in Computer Science from Université Pierre et Marie Curie in 2013. Since then, he works at Criteo as Research Scientist. His academic contribution concerns the domains of Learning to Rank and Calibration of Losses.
  • 10:00 - 10:30 : Pause café
  • 10:30 - 11:30 : Tim Van de Cruys, IRIT - modélisation de la sémantique à grande échelle.
    La sémantique distributionnelle envisage de modéliser le sens de mots par rapport aux contextes dans lesquels les mots apparaissent. Ces contextes sont extraits automatiquement de grands volumes de texte, ce qui amène à un grand volume de données et des calculs considérables. Dans cette présentation, on examine les différents algorithmes utilisés pour calculer la similarité sémantique de manière efficace. Nous examinons particulièrement la réduction de la dimensionnalité, qui permet de réduire un grand nombre de dimensions qui se chevauchent à un nombre limité de dimensions sémantiques. Finalement, nous regardons quelques applications utilisant la sémantique distributionnelle à grande échelle, notamment pour le calcul du sens en interaction.
    Slides de la présentation
  • 11:30 - 12:30: Marc Spigai, Institut de Recherche Technologique Saint-Exupéry - Le défi industriel du Machine learning et du Big data en imagerie spatiale.
    L’imagerie spatiale optique et radar pour l’observation de la terre connait depuis quelques années un nouveau défi avec l’accroissement constant du flux d’images acquises par les satellites en orbite défilante et de leurs archives associées. En particulier ces dernières années des mini-constellations ont été mises en orbite comme Pleiades 1A / ​​1B, SPOT6&7 pour l’optique et Cosmo-SkyMed (4 satellites) and Terrasar-X (2 satellites) pour le radar. Plus récemment le programme Copernicus avec ses satellites Sentinel (ESA) délivrera 13 Terra Byte de données chaque jour. L’extraction d’information dans ces gros volumes de données images dans le cadre des applications de la télédétection (agriculture, surveillance maritime, cartographie, etc.) nécessite d’améliorer les aspects semi-automatique et robustesse en s’appuyant en particulier sur des techniques comme le Machine Learning et le calcul distribué. Dans l’exposé on présentera le contexte de l’imagerie spatiale et on illustrera l’utilisation du Machine Learning dans le cas des gros volumes de données avec les travaux en cours dans le projet OCE (Observation et Compréhension de l’Environnement) à l’IRT Saint-Exupery.

14h-16h : success-stories et projets

  • Surveillance des moteurs d’avions en exploitation et analyse des données à Snecma, par Jérôme Lacaille expert Algorithmes de la SNECMA, groupe SAFRAN.
    Slides de la présentation.
  • Prédiction phénotypique à l'aide de données génomiques et environnementales, par Carole Bernon (IRIT, équipe SMAC).
    Le projet GENOMIC BREEDING Decision Support (GBds) avait pour ambition de créer des outils nouveaux d'aide à la création variétale. A partir de nombreuses données génomiques, environnementales (fournies par les partenaires semenciers RAGT 2n et Euralis), ou météorologiques (fournies par MétéoFrance), lobjectif était de développer des outils innovants de prédiction du phénotype de plants de maïs afin de permettre aux semenciers de ne tester que les variétés les plus prometteuses, notamment pour la tolérance à la sécheresse et une meilleure utilisation des intrants. A cette fin, les chercheurs de l'IRIT ont proposé des modèles de prédiction statistiques (équipe APO) ou basés sur les systèmes multi-agents auto-organisateurs (équipe SMAC). Ce dernier modèle a été implanté en étroite collaboration avec UPETEC, une JEI spécialisée dans les solutions logicielles pour l'analyse Big Data.
    Slides de la présentation
  • Systèmes de recommandations dans un environnement distribué et pluridisciplinaire, par Guillaume Allain du groupe Schibsted.
    Schibsted est un conglomérat du secteur des médias avec une activité repartie dans 39 pays dans le monde entier et touchant plus de 200 millions d'utilisateurs uniques par mois. Nous présenterons l'application des systèmes de recommandations aux journaux en ligne ainsi qu'aux sites de petites annonces. Nous détaillerons les problèmes inhérents à la volatilité des contenus et à l'hétérogénéité des profils utilisateurs et présenterons les outils statistiques utilisés.
  • MOBIDIK : Développement de modèles d'implantation NoSQL des mégadonnées, par Olivier Teste (IRIT, équipe SIG).
    Le projet MOBIDIK (nosql MOdeling of BIg Data, Information and Knowledge), en collaboration avec Capgemini, vise au développement du Benchmark SSB+ qui permet la génération de BD Multidimensionnelles dans les systèmes Not-Only-SQL oriéntés-colonnes (HBase) ou orientés-documents (MongoDB). Il est notamment utilisé pour une étude de la migration de données inter-systèmes. Plus largement, l'objectif pour l'entreprise est d'étudier et de mieux appréhender le comportement de ces systèmes Not-Only-SQL et les processus de migration des données d'un système vers un autre. En effet, l'entreprise fait face à des besoins de développement dans différents systèmes NoSQL suivant le type de données et/ou de traitements, suivant les sociétés clientes... Cette étude permet d'envisager la réutilisation de données par migration dans différents systèmes.
    Slides de la présentation
  • Big Data, Mathématiques & Trafic Routier, par Philippe Goudal, Directeur Innovation Mediamobile.
    Les améliorations dans le domaine des capteurs embarqués, des télécommunications et de la gestion des flux de données font considérablement évoluer les services d’information routiers. Les véhicules en mouvement sur le réseau routier communiquent entre eux en temps réel, s’échangeant des informations sur leurs positions et leurs vitesses ainsi que sur les différents événements rencontrés lors de leurs déplacements [ie. état de la chaussée, conditions météorologiques, présence d’obstacles ou plus simplement conditions de trafic observées]. Cette masse de données permet d’appréhender le comportement très complexe du trafic routier. Les enjeux sont multiples : acquérir le flux de données en provenance des automobilistes, les stocker pour en extraire en temps réel l’information qu’elles contiennent et la retransmettre dans le même moment aux utilisateurs afin d’enrichir leur connaissance de la route. Pour répondre à ces enjeux, Mediamobile a développé une technologie fondée sur les dernières méthodologies d’analyse d’information et de modélisation statistique.
    Slides de la présentation

16h: Pause Café

À partir de 16h : Forum Emplois et Stages

Les entreprises souhaitant avoir un stand peuvent nous écrire en précisant le type de sujets qu'elles souhaitent présenter aux étudiants (ex: BI, analyse de données, conception de système d'information, etc.). Seront présents avec un stand (liste en cours de constitution) :

  • Business & Decision, M. Gely, J-P. Naux
  • BVA, M. Guillomot
  • Cap Gemini, C. Cormon, O. Flebus, P. Boisgard
  • CGI, Géraldine Santanach
  • C-S, M. Moulet-Allain
  • Equadex, Lucie Veyssiere
  • Infotel, Raphaël Waeselynck
  • La dépêche du Midi, F. Luvisutto
  • Sogeti, A. Mazurek-Delbart
  • Thalès Group, Sébastien Maréchal

Seront également présents lors de la journée des participants issus de : Airbus, Arca Computing, Droidnik, Kratos, Magellium, Onera, Oracle, Orange, Plateforme Génotoul, Safran Snecma, Sopra, Telepazio...

Cette journée a lieu au bâtiment U4, notamment dans l'amphithéâtre Concorde : voir le plan ci-dessous.

Informations pratiques

Le Campus de Rangueil est accessible en Métro ligne B, arrêt "Université Paul Sabatier". La journée du 16//11 des GDR MascotNum et MADICS a lieu dans l'amphithéâtre Schwartz de l'IMT, Université Paul Sabatier bâtiment 1R3. La journée industrielle du 17/11 a lieu au bâtiment U4, notamment dans l'amphithéâtre Concorde. Pour trouver les bâtiment 1R3 (amphithéâtre Schartz) et U4 (amphithéâtre Concorde), voici une carte du Campus.

Si vous souhaitez participer à ces journées, écrivez-nous un mail en précisant à quelle(s) demi-journée(s) vous souhaitez assister.

Pour venir à l'IMT:

  • En train : Arrivée à la gare Toulouse Matabiau. Prendre le métro A direction Basso Cambo, jusqu'à la station Jean-Jaurès. Prendre ensuite le métro B direction Ramonville, jusqu'à la station Université Paul Sabatier.
  • En avion : Arrivée à l'aéroport Toulouse - Blagnac. Prendre le tramway T2 jusqu'à la station Palais de justice (terminus). Prendre ensuite le métro B direction Ramonville, jusqu'à la station Université Paul Sabatier.
  • En voiture : Suivre Rangueil et Université Paul Sabatier.

BigData@Toulouse

C'est la troisième année que nous organisons nos rencontres Big Data. Pour cette édition, les principaux organisateurs sont :

N'hésitez pas à leur écrire si vous avez des questions !

Inscriptions

Si vous souhaitez participer à ces journées, écrivez-nous un mail en précisant à quelle(s) demi-journée(s) vous souhaitez assister.

Partenaires - Financeurs