Using Scikit-learn and scientific Python at scale

Publié le

Le 2 décembre dernier, la chaire a organisé un Workshop sur l'utilisation de Scikit-Learn, en présence d'une cinquantaine de professionnels des entreprises partenaires et des étudiants du Mastère Spécialisé® Big Data.

Scikit-learn est une bibliothèque open-source Python qui propose aux développeurs des méthodes de machine learning éprouvées. Scikit-learn étend le langage de programmation général Python avec de nombreux algorithmes de machine learning aussi bien supervisés que non supervisés. Utilisée et continuellement développée aussi bien dans le milieu académique qu'en entreprise, cette solution flexible et puissante peut encore apporter beaucoup aux applications de data science en contexte industriel.

 

Scikit-learn for industrial applications, basic research and mind reading

Alexandre Gramfort, enseignant-chercheur à Télécom ParisTech

The Scikit-learn project we know today at http://scikit-learn.org was started at INRIA in Saclay in 2010 by a group of computer scientists and mathematicians that needed better tools to make sense from ever growing brain imaging data. Since then many institutions have continued to invest in Scikit-learn: INRIA, Télécom ParisTech, New-York University to name a few. From the beginning scikit-learn was designed to be a building block of what we call now data science. Six years later Scikit-learn has become the go to library to do machine learning and predictive analytics in Python. The software has more than 200,000 regular users according to the stats by Google Analytics, it is heavily used in industry, in university and to conduct data-driven scientific research. In this talk, I will go over the reasons that made the success of Scikit-learn, I will give examples of industrial and academic impact, and I will present the software ecosystem that is now growing around scikit-learn. And to conclude I will show you how to read people’s mind with scikit-learn taking as input functional MRI data.

Les recherches d'Alexandre Gramfort portent sur le traitement du signal, l'apprentissage statistique et le calcul scientifique avec pour application principale la modélisation et l'analyse de données en neurosciences. Il est un des principaux contributeurs du projet logiciel open source Scikit-learn qui est la librairie standard pour l'apprentissage statistique en Python.

 

Scikit-learn à l'échelle : méthodes pour l'out-of-core

Thierry Guillemot, Ingénieur R&D à Télécom ParisTech

Dans de nombreuses applications, la quantité de données est trop élevée pour pouvoir utiliser les méthodes d'apprentissage traditionnelles. Dans ce cas, scikit-learn propose différentes options pour passer son application à l'échelle. Durant cette intervention, nous allons vous présenter comment utiliser scikit-learn alors que les données à analyser ne tiennent pas en mémoire. Nous parlerons entre autre des méthodes d'apprentissage incrémentales et de l'extraction de caractéristiques au travers de différents exemples (Classification de texte à partir de données distantes...).

Thierry Guillemot est ingénieur recherche dans l'équipe de traitement du signal, apprentissage statistique de Télécom ParisTech. Il travaille principalement au développement et à l'évolution du projet logiciel open source Scikit-learn qui est la librairie standard pour l'apprentissage statistique en Python.

 

Distributed computing for predictive modeling in Python

Olivier Grisel, ingénieur logiciel à l'Inria

In this presentation we will give an overview of some trends in predictive modeling in the Python ecosystem. In particular we will demonstrate how to use cluster computing tools such as dask/distributed to leverage the compute power of a cluster of docker containers to build machine learning models on a public cloud infrastructure.

Olivier Grisel travaille dans l'équipe de recherche Parietal de l'Inria, au sein de la plateforme Neurospin du CEA. Il est un contributeur régulier de la bibliothèque Scikit-learn. Son expertise porte sur le machine learning, le text mining et le traitement du langage naturel.

 

Témoignage industriel : Airbus Group

Vincent Feuillard, ingénieur de recherche en mathématiques appliquées chez Airbus Group Innovation

Ce témoignage a montré comment comment Scikit-learn est actuellement testé en maintenance prédictive des A380. Avant d’opter pour cette solution, les ingénieurs d'Airbus Group Innovations ont procédé à un benchmark des bibliothèques de machine learning basée sur des critères comme la stabilité, la fiabilité, la compatibilité et la pérennité, estimant néanmoins que les deux derniers prérequis ne sont pas assuré de manière évidente.

Vincent Feuillard travaille depuis 2007 au sein d'Airbus Group Innovations en tant qu'ingénieur de recherche. Il s'intéresse et développe des méthodes statistiques et des algorithmes de machine learning avec pour principale visées applicatives : la gestion des incertitudes en simulations et l'aide au diagnostics et pronostics pour la maintenance des avions. Il a été auparavant ingénieur de recherche au Commissariat à l'énergie atomique et aux énergies alternatives.