Jalgos A.I. (Data Intelligence) : la valeur d’un data scientist réside dans sa démarche scientifique
Publié le dans seminar-past
Compte-rendu de l'intervention du 15 décembre 2016 au cours du séminaire du Mastère Spécialisé® Big Data.
Les débuts de Jalgos
Après avoir étudié à l’école Polytechnique et NYU (New York University) en finance quantitative, Sébastien Lamy de la Chapelle a travaillé 3 ans à Barclays sur la conception d’automates de trading. Fort de ses compétences acquises dans son travail à Barclays en tant que trader algorithmique, il essaye d’appliquer ses principes dans d’autres domaines que la finance et co-fonde Jalgos en 2014.
Jalgos fait de la recherche en intelligence artificielle et a construit des outils de manipulation de données massives ainsi que des algorithmes qu'ils adaptent ensuite chez leurs clients. La jeune start-up a déjà conduit quelques missions dans des secteurs variés : maintenance prédictive - prédiction de pannes, optimisation industrielle, cross-device tracking, classification de documents web avec analyse des sentiments…
Ces applications confirment que la data science n’en est qu’à ses débuts et qu’elle peut être utilisée dans des domaines très variés. L’équipe de Jalgos est composée principalement de data scientists passionnés par la résolution de problèmes et de programmeurs enthousiastes à l'idée de s'attaquer aux challenges ardus posés par le big data.
Exemple d’utilisation de la data science : classification des joueurs de NBA
Fort de son expérience en trading quantitatif, et grand passionné de basket, Sébastien c'est attaqué à la classification des joueurs NBA pendant son temps libre. Ce fut pour lui sa première expérience de data science sur un projet non classique.
Sébastien nous a illustré sur cet exemple la bonne approche d'analyse et les écueils à éviter.
1 - Récupérer les données (scraping)
Il est important pour un data scientist de savoir identifier ses sources de données, de savoir les extraire et de savoir comment les utiliser.
2 - Stocker les données
Selon le contexte, il faut pouvoir écrire et lire rapidement mais également corriger les données. Pour stocker les données, les formats sont variés : csv, base de données SQL, No SQL... La maîtrise de ces outils est très importante et va dicter la facilité avec laquelle on peut analyser.
3 - Analyse
Pour une analyse rapide, il est conseillé d’utiliser un langage interactif et proche de la symbolique mathématique (par exemple, Python ou R). Il est aussi très important de ne pas utiliser les librairies de Python/R comme des boîtes noires. Toute la force d’un bon data scientist repose sur sa compréhension mathématique des algorithmes sous-jacents.
L’analyse inclut également l’exploration de données (vérification de l’intégrité des données, visualisation…). Dans cette phase, il ne faut pas oublier d’aligner l’objectif métier et le transcrire en langage mathématique.
La démarche d'analyse est finalement une suite de tests d'hypothèses simples qui doivent être validés ou infirmés. Au fur et à mesure le data scientist se forge une meilleure compréhension et est capable d'itérer ainsi vers une solution qui répond à la problématique.
Quelle est la rupture créée par la data science ?
L’avènement de la data science est due à plusieurs facteurs mais notamment à l’augmentation de la quantité des données, le développement d’internet, le succès d’analyse de données non structurées… Cependant il n’y a pas eu de révolution au niveau des algorithmes. Le besoin d'analyser systématiquement les données a été identifié dès le début de l'informatique. Le changement réside dans le fait que nous réalisons enfin le potentiel des données.
Les qualités d’un bon data scientist
Les missions du data scientist est de “faire parler les données” (comprendre les métiers et s’inspirer de leurs expertises, utiliser la data visualisation, ajouter des données externes pertinentes…) et de “restituer les données” (c’est à dire communiquer et restituer les résultats). Il faut faire comprendre les résultats à des non datas scientists, produire des rendus visuels, documenter et réintroduire les feedbacks du métier dans la recherche et toujours l'orienter avec un objectif concret en ligne de mire.
Pour répondre à ces besoins, un bon data scientist doit être bon statisticien et programmeur (maîtriser les algorithmes et les comprendre, maîtriser les différents outils d’analyse et de base de données). Il doit également avoir une connaissance dans les sciences en général et posséder une curiosité dans les différents secteurs dans lesquels il sera amené à travailler.
Un message aux futurs data scientists : au final, l’algorithme importe peu, c’est tester les bonnes hypothèses et créer les bons prédicteurs qui est important. Il ne faut pas simplement utiliser des packages sans comprendre les algorithmes. La valeur du data scientist réside dans sa démarche scientifique.
Dernier point d'une importance fondamentale. Les algorithmes, une fois déployés, ont un impact. La bulle filtrante créée par les recommandations automatiques de contenus (publicités, musique, articles, ...) en sont un exemple. On voit que l'utilisation massive de ces algorithmes tend à renforcer des stéréotypes en classant les individus en catégories, effaçant ainsi toutes leurs particularités. Le risque de creuser les inégalités sociales ou de voir les biais des algorithmes détournées à des fins dangereuses est grand. C'est pourquoi le data scientist doit prendre part activement à la réflexion sur les questions éthiques et de responsabilité des algorithmes puisqu'il en est lui-même le concepteur.
Compte rendu rédigé par les étudiants du Mastère Spécialisé® Big Data : Laura Zhou, Mohammed Benseddik et Sidoine Kakeuhfosso.