Organisation des nouvelles équipes de Data, par Dataiku

Publié le dans seminar-past

Compte-rendu de l'intervention de Kenji Lefèvre, VP Product chez Dataiku, le 3 novembre 2016 au cours du séminaire du Mastère Spécialisé Big Data.

Kenji Lefèvre, Ph.D en mathématiques, est VP Product chez Dataiku en charge du développement du logiciel Data Science Studio, plateforme ayant pour ambition d’industrialiser la mise en production d’applications Big Data au sein d’organisations souhaitant exploiter leurs données. Les clients de Dataiku sont des entreprises (Start-up, PME, grands groupes) souhaitant mettre en place rapidement une application pouvant améliorer leur business en exploitant les gisements de données disponibles. Le business model de l’entreprise se base principalement sur la vente de licences du logiciel. Dataiku dispose de bureaux aux Etats-Unis, en France et au Royaume-Uni.

L’organisation des nouvelles équipes Data Science

L’approche des entreprises est souvent héritée de la Business Intelligence (BI) où il s’agit de définir à l’avance les métriques à suivre, les données à collecter et à les transformer  afin de pouvoir prendre des décisions. L’enjeu est d’aller vers une démarche « Data-centric » où l’on va inférer et automatiser des décisions métier à partir des données.

Plusieurs problématiques surgissent lors de ce changement de paradigme. D’abord l’entreprise va devoir repenser son organisation car dans l’organisation classique avec une unité Business Intelligence il y a une séparation nette entre la production et l’unité de BI. Classiquement le management demande la mise en place de dashboards et KPI à partir de données bien structurées et disponibles qui répondent à une problématique bien définie mais qui n’exploitent pas le gisement de données issues de la production. La difficulté de ce type d’organisation réside dans la déconnexion de ces acteurs vis-à-vis de la donnée.

Bien souvent, l’équipe Data Science est constituée à partir d’une organisation existante soit à dominante Data Analyst, soit à dominante ingénieur. On retrouve souvent une organisation composée majoritairement de Data Analysts qui interagissent avec les responsables commerciaux. Cette équipe est complétée par un Data Scientist qui travaille de pair avec un Data Engineer.

Les défis de la réorganisation

Plusieurs freins peuvent être rencontrés lors de cette transformation. L’entreprise voit ses lignes de pouvoir remodelées car la décision n’est plus prise uniquement à partir d’indicateurs par le management mais suggérée par les algorithmes parfois vu comme une « boîte noire » par le métier. Ainsi une démarche de formation des Data Analysts présents avant la mise en place de l’équipe Data Science doit être entreprise pour qu’ils puissent se former à la compréhension des modèles. Une bonne pratique est de commencer avec des modèles simples type régressions linéaires ou arbres de décisions, facilement interprétables par le métier. Fort de ces premiers résultats, l’évangélisation autour de la Data Science sera facilitée et des modèles plus complexes pourront être mis en place.

Stratégies d’acquisition de données

La contribution à la performance d’un projet en Data Science est principalement liée à la bonne définition des objectifs business mais aussi à la stratégie d’accès aux données. Plusieurs solutions peuvent être explorées si la donnée n’est pas disponible. A savoir, utiliser des données de l’Open Data ou bien attendre que des initiatives soient prises pour la mise à disposition des données internes de l’entreprise. Une autre attitude plus pro-active consiste à développer son propre service de collecte de données et le mettre à disposition à travers une API et ainsi évangéliser son réseau. Enfin une attitude plus fine consiste à identifier un problème métier et développer une solution pour répondre à cette problématique en utilisant les données disponibles. Par la suite, on développe un service à partir de cette solution pour d’autres problématiques métiers.

La gestion humaine d’une équipe de Data Science

La tension sur le marché de la Data Science implique une gestion complexe de l’équipe car le turn-over peut être important du fait de la rareté des profils et de l’attente forte autour de la discipline. En effet, trop souvent, le Data Analyst passe beaucoup de temps sur le nettoyage et la collecte de données ce qui laisse peu de temps à l’analyse, le Data Engineer doit jongler avec des technologies encore assez immatures telles que Hadoop, Spark et le système d’information existant de l’entreprise. Le Data Scientist, lui, a souvent des difficultés d’accès aux données pour entrainer ses modèles. Tous ces facteurs peuvent générer de la frustration et les nombreuses sollicitations que peuvent recevoir ces profils ne manquent pas de perturber les activités du Data Science team leader.

Le bon outillage d’une équipe de Data Science

Le paysage des outils de data science est extrêmement changeant entre les nouveaux entrants proposant des solutions innovantes, les divers projets open source de calcul distribué et de machine learning et les géants historiques proposant des offres cloud.

Le choix de l’outillage doit être déterminé par plusieurs facteurs : la volonté de capitaliser ou non les savoirs en internalisant les compétences techniques et scientifiques en interne, l’ouverture a différents langages modernes (python, R, scala…) ou travailler avec des solutions déjà bien établies (SAS, Matlab…) mais nettement moins attractives pour les jeunes recrues, le besoin de mettre en production rapidement les premiers tests afin de vérifier la faisabilité réelle de bout en bout d’une application prédictive.

Le Data Science Studio de Dataiku

Le logiciel permet la création de « workflow » Data Science tels que la préparation des données (filtrage, standardisation, gestion des valeurs manquantes ou aberrantes…), la visualisation, la création de modèles de machine learning, la prédiction. Il permet de s’interfacer avec tous types de sources de données : fichiers csv, bases de données relationnelles, non-relationnelles, de réaliser les traitements via une interface graphique ou en utilisant les langages supportés (Python, Scala, R…) et de travailler de façon collaborative grâce au partage des workflows hébergés sur un serveur. Le Data Science Studio propose un environnement de production pour toutes les applications ayant été developpées en son sein, réduisant le temps du prototypage d’une application data à son utilisation effective.

www.dataiku.com

Compte rendu rédigé par les étudiants du Mastère Spécialisé Big Data : Raphaël Vignes, Dorian Bagur, Talar Guzelbodur.