Dataiku : la solution Big Data pour les entreprises
Publié le dans seminar-past
Kenji Lefèvre, Docteur en mathématique et Product Manager pour Dataiku, était l’invité le 12 février dernier du séminaire du jeudi qu’organise Télécom ParisTech dans le cadre du Mastère spécialisé Big Data. Sa communication a porté sur la présentation de Dataiku : startup éditrice du logiciel Data Science Studio qui permet aux entreprises de construire des applications prédictives dans un environnement Big Data. Retour sur son intervention.
Entreprise spécialisée dans le Big Data et l’analyse prédictive, Dataiku a été fondée en 2013 par un groupe de vétérans du Big Data. Basée en France, la start-up de 25 employés envisage de se développer à l’international, avec l’ouverture d’un bureau à New York courant 2015. Dataiku a remporté un concours Kaggle ainsi que le grand prix des entreprises innovantes en 2014.
La plateforme data science studio (DSS) est un outil « horizontal », c'est-à-dire généraliste, qui permet de traiter beaucoup de cas d’usage Big Data : segmentation, localisation, prévision des volumes, ranking, pricing, évènements, paths, fraude ou en encore évaluation des risques.
Analyse du Big Data en entreprise
Le processus est complexe et nécessite l’implication d’au moins quatre types d’intervenants :
- Le client : c’est souvent lui qui porte la vision. Il définit les intérêts stratégiques pour l’entreprise.
- L’analyste : il dispose d’une expertise métier, aide à définir le périmètre du travail. De ce fait, il est un interlocuteur crucial tout au long du travail analytique.
- Le data scientist : il réalise les manipulations de données et l’expertise statistique. Peu d’entreprises ont parmi leurs collaborateurs un data scientiste, il reste un profil rare encore aujourd’hui.
- Le responsable IT : il gère le système d’information, les problèmes d’architecture et de sécurité. Il est aussi dépositaire de la mémoire du système d’information et de ses changements successifs.
Le succès d’un projet big data dépend de la capacité de l’entreprise à faire travailler ensemble ces intervenants.
La pile technologique Big Data
Les difficultés liées à la gestion du Big Data au sein des entreprises ont été largement évoquées. Aujourd’hui les diverses technologies open-source pour manipuler et analyser de grands volumes de données sont difficiles à interconnecter. Chaque brique servant à optimiser une opération bien spécifique, il est difficile de faire l’économie de la mise en place d’un puzzle technique pour construire une solution Data pérenne. Le data scientist passera bien souvent beaucoup trop de temps à « faire de la plomberie » entre ces différentes technologies plutôt qu’à s’occuper de problèmes spécifiques aux données proprement dites.
Le Data Science Studio
Le Data Science Studio a pour objectif de fluidifier le processus de création d’analyse prédictive en abstrayant les difficultés technologiques derrière une interface dédiée et simple qui permet à différents profils d’utilisateurs d’appréhender les données.
Le fonctionnement de la plateforme se présente comme un jeu qui permet à l’utilisateur de faire de l’analyse rapide, d’évaluer rapidement les modèles, de visualiser des données, d’enrichir avec des données externes, et finalement de démystifier les données en les rendant accessibles à des profils beaucoup moins techniques que les spécialistes Data.
Zoom sur un projet d’analyse big data réussi
La problématique : fournir une meilleure information aux usagers pour trouver des places de parking dans les zones urbaines. En mélangeant deux types de données : les tickets de stationnement et les données open streetmap, l’entreprise Parkeon, leader mondial des horodateurs a construit un modèle prédictif dans le Data Science Studio de Dataiku qui permet de prédire la pression sur les places de parking. Cette technologie lui permet de suggérer aux automobilistes le meilleur chemin vers les places libres à travers une application mobile : Path to park.
Kenji Lefèvre a conclu son intervention par ce conseil sur la gestion du Big Data : « Quelque soit le chantier analytique, il est crucial d’avoir des données de bonne qualité. Quand vous les avez, la partie technique et statistique est en passe de devenir une opération simple ».