Deezer : derrière la musique, la data science
Publié le dans seminar-past
Le MS Big Data de Télécom ParisTech a reçu jeudi 15 novembre, Elisa GILLES, Data Scientist Manager et Mahzad KALANTARI, Data Scientist/Engineer, ancienne du MS Big Data, qui sont venues présenter l’équipe Data Analytics de Deezer et ses différentes missions.
Le positionnement de Deezer
Lancé en 2007 par deux Français, Daniel Marhely et Jonathan Benassaya, Deezer est une plateforme de streaming musical qui compte aujourd’hui une base de 14 millions d’utilisateurs dans plus de 180 Pays. Deezer propose un service de streaming permettant un accès à plus de 53 millions de titres ainsi qu’à plus de 100 millions de playlists différentes.
Afin de proposer un service de plus en plus personnalisé à leurs clients, Deezer a défini son organisation autour de trois grands axes : Produit, Technologie et Contenu.
Le big data joue donc un rôle prépondérant dans la vision stratégique de Deezer. L’utilisation d’algorithmes d’apprentissage permet à Deezer d’analyser un nombre toujours plus volumineux de données sur les différentes tendances de comportement utilisateur sur leur plateforme.
La data science permet ainsi à Deezer de pouvoir segmenter les différentes typologies de clients via des algorithmes de type apprentissage non supervisé comme les K-MEANS, d’améliorer l’expérience utilisateur en proposant des listes de recommandation de musiques toujours plus intelligentes et de faciliter la recherche de titres sur la plateforme.
Disposant d’une équipe de recherche et développement autonome, Deezer utilise aussi les techniques associées à l’apprentissage profond (deep learning) par exemple pour extraire d’une musique tous les instruments utilisés. D’autres travaux s'efforcent d’éviter de recommander des albums qui ne contiennent que du contenu déjà publié et ainsi contribuer à la déduplication du contenu.
Enfin, une équipe dédiée Data Analytics monitore les indicateurs clés (KPI) avec l’objectif de pouvoir disposer d’une vision granulaire de l’expérience utilisateur. Ainsi, ces informations extraites des techniques du big data permettent à Deezer de maintenir une base utilisateur solide tout en optimisant le taux de conversion et d’engagement des utilisateurs.
Intégration du Big data
Dans cette section, nous présentons les différentes problématiques sur lesquelles travaillent les équipes de data scientists chez Deezer.
Détection d’émotions (mood)
En partant de l'hypothèse qu'il est possible d'inférer les émotions d'un utilisateur en fonction des titres qu'il choisit d'écouter, il est alors possible de proposer de nouveaux titres adaptés à cette émotion. Mais comment catégoriser une chanson en termes d'humeur ? Chez Deezer, c'est à l'aide de modèles utilisant le deep learning qui, à partir de l'audio et des paroles, estiment directement des grandeurs telles que l'excitation ou la valence, qui sont liée à l'émotion suscitée par une musique.
Extraction d'instruments
Les algorithmes de machine learning des équipes de Deezer permettent également de détecter les instruments utilisés dans un titre.
Systèmes de recommandations
Afin de recommander de la musique à ses utilisateurs Deezer utilise des algorithmes de type filtrage collaboratif (collaborative filtering) ainsi que des approches basées sur le contenu (Content-based filtering). Par exemple, si Deezer me classe parmi les gens qui aiment le classique ainsi que le jazz, alors il me proposera des chansons que les autres utilisateurs de ce groupe aiment.
Infrastructures
Dans cette section, nous présentons les volumes de données, ainsi que les infrastructures et technologies utilisées pour les analyser. Deezer doit gérer et analyser 2TB de données par jour, compte 14 millions d'utilisateurs et possède 1,5 PB d’historique.
Équipes et parc de machines
L'équipe de Data Science chez Deezer est composée de plus de 50 data engineers et data scientists et peut compter sur une centaine de machines pour gérer le volume de données à traiter.
Gestion et analyse des données
Pour stocker et analyser de tels volumes de données, une infrastructure distribuée est nécessaire. Pour cela, l'équipe Data Science de Deezer a opté pour un environnement Spark en Scala. Par ailleurs, les technologies Hive SQL ainsi que HUE sont utilisées pour requêter les données et avoir une interface utilisateur web.
Visualisation des données
Visualiser les données est une des premières tâches de toute équipe de data scientists. Cela permet de partager avec les équipes métier le savoir engendré par les analyses de données. Deezer utilise la technologie Tableau, qui donne accès à des tableaux de bord de visualisation de données.
Gestion des logs
Les nombreux logs produits sont stockés à l'aide de Hadoop et HDFS. La gestion des ressources est réalisée à l'aide de YARN car ce ne sont pas moins de 1900 jobs par jour qui sont exécutés pour traiter ces logs.
Business Intelligence & KPI
La création des Key Performance Indicators (KPI) a pour but d'aider à la prise de décisions vis à vis d'une fonctionnalité. Il est important de garder à l'esprit de limiter le nombre de KPIs ainsi que de dashboards pour ne pas être noyé sous les métriques.
Un KPI important : la satisfaction d'écoute
Un KPI recommandé est la satisfaction d'une feature au regard du volume d'écoute de cette chanson. Prenons l'exemple d'une playlist mis en avant sur la page d’accueil alors nous observons que son volume d'écoutes explose, mais que la satisfaction diminue grandement également. Ceci peut s'expliquer par le fait que, du fait de sa mise en avant généralisée, la playlist devient moins ciblée.
Des mesures de satisfaction pertinentes peuvent être par exemple la durée d’écoute ou le fait d’ajouter un morceau à une playlist personnelle.
En savoir plus : www.deezer.com/fr/company
Compte-rendu rédigé par Thomas Binetruy et Alexandre Martin, étudiants du Mastère Spécialisé Big Data.