Données massives : technologies et enjeux pour le secteur de la musique
Publié le dans seminar-past
Jérôme Pons, fondateur de Music Won’t Stop, est parti de la question : quelle est la place de la musique dans l’écosystème Big Data ? Après analyse d’études de cabinets de conseil et d’autres articles sur le Big Data, il a remarqué que le secteur de la musique (à la croisée des écosystèmes de la culture, des télécoms et de l’informatique et des équipements électroniques) était peu représenté. Pourtant, ce secteur regroupe plusieurs acteurs (créateurs, producteurs, éditeurs, agrégateurs, plateformes de distribution, opérateurs télécoms…) entre lesquels s’exercent de nombreux échanges nourrissant le secteur d’activité de la gestion de données.
Les données générées par le secteur de la musique
Gérer les données demande de comprendre les processus métiers mis en place, les flux financiers et les interdépendances entre tous les acteurs. Cette interface demande d’avoir une vision large des écosystèmes pour analyser quels acteurs assurent la collecte de données (plateforme de distribution, billetterie en ligne, objet connecté, réseau social), l’analyse de données (algorithme), la valorisation de données (grâce à des services techniques spécialisés). Elle exige en outre d’analyser les modèles de données, les interfaces, les formats et protocoles d’échange de données entre les différents acteurs.
A travers l’analyse des données échangées, il est ainsi possible de voir à quelle étape de la chaîne de transmission il y aura la collecte de données et à quelle étape elles seront analysées. Ces données peuvent être créées par différents moyens : l’établissement de contrats (entre artistes et producteurs ou entre plateformes de distribution et consommateurs), la gestion de droits, la création et l’utilisation fichiers musicaux sous différents formats de données multimédia, la génération de métadonnées par tous les acteurs et de rapports de ventes par des plateformes de distribution, l’étude des données d’usage des contenus numériques (goûts musicaux…) ou des données comportementales (habitudes de consommation…) des services en ligne, etc.
Différents types de données sont, ainsi, générés :
Les métadonnées
Les métadonnées sont des « données autour des données ». Il existe plusieurs catégories :
- juridique
- de propriété (code d’identification…)
- de gestion de droits (droit d’auteur et droits voisins, territoires d’exploitation…).
- de contenu
- de description qui se divisent en plusieurs sous-catégories :
- de catalogage (titre du disque, nom de l’artiste, nom et durée du morceau…)
- caractérisantes (genre musical)
- techniques (fréquence d’échantillonnage, quantification …)
- d’enrichissement (biographie de l’artiste…)
- d’analyse (calcul de la tonalité du morceau…)
- conjoncturelles (nombre de ventes, d’écoutes et de vues, notations par les utilisateurs…)
- de description qui se divisent en plusieurs sous-catégories :
Les métadonnées de propriété sont de « petites » données (pouvant tenir sur un ordinateur) qui utilisent soit des codes d’identification normalisés internationalement (chaque auteur possède un code unique tel que l’IPI) soit des codes propriétaires qui sont des métadonnées utilisables uniquement par leur propriétaire (c’est le cas de l’ASIN utilisé par Amazon). Ces dernières métadonnées ne favorisent pas la normalisation nationale.
Actuellement, il y a en effet un réel besoin d’interfaces standardisées dans l’univers de la musique. Or, seule l’architecture DDEX est standardisée ; la plupart des autres sont propriétaires.
Les métadonnées d’analyses et conjecturelles sont primordiales dans le Big Data. En effet, les métadonnées d’analyse vont notamment permettre une analyse fine du fichier audio associé à chaque œuvre. Pour chaque morceau analysé, un jeu d’empreintes numériques y sera associé. Quant aux métadonnées conjoncturelles, elles sont surtout utilisées pour la recommandation musicale grâce à plusieurs facteurs comme les artistes les plus écoutés sur les plateformes de distribution.
Les rapports de vente (reporting)
Il s’agit des données statistiques remontées par les plateformes de distribution notamment aux producteurs phonographiques ou par les billetteries en ligne en particulier aux salles de spectacles.
Les données d’usage des contenus numériques
Ces données permettent de déterminer les goûts musicaux du consommateur à travers ce qu’il écoute et les recherches qu’il fait sur un morceau. Il faut également connaitre son historique d’écoute ainsi que les données statistiques concernant un ensemble de consommateurs afin de pouvoir proposer de la recommandation quantitative. En particulier, il faut observer la manière dont ce contenu sera reconnu et partagé sur les réseaux sociaux ou ajouté à une playlist Deezer ou Spotify par exemple.
Les données comportementales des services en ligne
C’est l’ensemble du service en ligne qui va être regardé (la plateforme, l’attitude du consommateur, s’il écoute le morceau intégralement ou non…). Il n’est pas toujours possible, à partir de ces observations, de déterminer si le consommateur aime ou non le morceau en particulier lorsque le morceau est écouté partiellement (il peut le skipper car il le connaît déjà par cœur). Par contre, lorsqu’il écoute plusieurs fois de suite un morceau, on peut en déduire qu’une certaine addiction s’est mise en place. Seront regardés : ses modes de consommation (téléchargement ou streaming…), les moments d’écoutes privilégiés, les lieux, etc. Mais également, l’historique de navigation et notamment le nombre de clics « ajouter au panier » car, même si l’achat n’est pas systématique, cela traduit tout de même une intention d’achat et permettra un ciblage publicitaire.
Les données personnelles du consommateur
Les données déclaratives (âge, genre, adresse postale, activité sociale…) et les données techniques (récoltées par les équipements électroniques) vont être exploitées, entre autres, pour faire de la valorisation de données.
L’enjeu est alors de collecter toutes ces données et de les valoriser. Face à cette abondance de données, les algorithmes et les programmes, qui remplacent les prescripteurs traditionnels, vont analyser et valoriser ces données ce qui permettra par exemple la prédiction du succès d’un morceau ou de la fréquentation d’un spectacle ainsi que l’affinage de la recherche musicale.
La gestion des données dans le secteur de la musique
La valorisation des données dans le secteur de la musique permet :
- La recherche musicale par descripteur ou par reconnaissance automatique d’œuvres musicales
- La découverte et la recommandation musicale qui consiste à proposer au client des services en ligne de streaming gratuit, playlist ou web radio personnalisées ainsi que des agendas des spectacles
- La consommation de musique se traduisant par l’acte d’achat, l’abonnement ou la billetterie en ligne
Grâce à la valorisation des données collectées, il est possible de :
- Diffuser la musique à travers des agendas personnels (Facebook Event), proposer des expériences augmentées…
- Ecouter de la musique
- Evaluer la musique
- Savoir ce que les gens font de leur musique : stockage, classement…
- Partager la musique
Cas d’usages
Musicovery
Musicovery est un service d’écoute de musique en ligne B2C (destiné au grand public) faisant des propositions à partir de champs remplis. Il propose également un service technique spécialisé de recommandation musicale, sous forme d’API destinée aux professionnels, qui va générer des playlists personnalisées à partir d’informations entrées précédemment. A partir d’une base de données de 1,5 millions de titres classés avec une quarantaine de paramètres, Musicovery utilise un algorithme de recommandation poussé qui s’appuie, entre autres, sur des descripteurs acoustiques et sémantiques.
Musimap
Utilisant également le principe des descripteurs acoustiques et sémantiques, Musimap est un service en ligne B2B (destiné aux professionnels) de recherche musicale avec 55 paramètres à partir d’une base de données de 50 millions de titres et un algorithme de type data mining. Musimap propose également un service technique spécialisé de recherche et de recommandation musicale, sous forme d’API, pour la création de playlist, la supervision musicale et la publicité.
Music Story
Music Story est un service technique spécialisé d’ingestion, de désambiguïsation et d’enrichissement de métadonnées qui a mis en place une API destinées aux professionnels. Il utilise un algorithme de désambiguïsation à partir des codes EAN, IPI, ISRC et ISWC.
Simbals
Simbals offre un service en ligne B2B nommé Radio Test 2.0 qui permet aux professionnels de la radio de faire des propositions de playlists qu’ils diffuseront et ce service leur dira si les morceaux choisis vont marcher, lesquels changer et proposera des titres plus pertinents. En outre, Simbals propose un service technique spécialisé d’identification d’œuvres musicales, de recherche musicale par similarité et de recommandation musicale, sous forme d’API ou de SDK.
Transparency Rights Management
Le service en ligne B2B appelé Track’n’Claim permet la gestion de droits en analysant tout ce qui est diffusé par exemple sur Youtube et peut savoir qui sont les ayants droit pour un morceau donné et repérer la paternité d’une œuvre. Il propose également un service technique spécialisé d’enrichissement de métadonnées et de certification des usages de vidéos musicales avec l’API SecuRights. L’algorithme de certification des usages de vidéos musicales sous-jacent requière des technologies avancées de type Apache et implémente effectivement Apache Hadoop 2.6.0 mais aussi Cascading 3.0 et Scalding.
Lucie Labs
Start-up incubée chez Télécom ParisTech à Sophia Antipolis, Lucie Labs touche l’industrie du spectacle vivant. Elle a mis au point un bracelet connecté qui permet une expérience augmentée du spectacle. L’idée est que les participants d’un festival ou d’un concert aient un bracelet et deviennent un pixel de couleur visible du ciel. L’artiste a, alors, la possibilité de changer la couleur des spectateurs à l’aide d’une tablette tactile. De plus, lorsqu’ils rentrent chez eux, une application nommée Lucie Hive leur propose une « extension du spectacle ». Cette technologie utilise un algorithme de contrôle à distance du bracelet (couleur, fréquence….) à travers la tablette et en fonction de la musique jouée.
Les enjeux du Big Data pour le secteur de la musique
Ces enjeux touchent différents secteurs :
La musique enregistrée à travers :
- les artistes auteurs-compositeurs concernant la perception du droit d’auteur (droit de reproduction issu de la distribution numérique et droit de représentation)
- les artistes interprètes qui vont percevoir les droits voisins issus de la distribution numérique de la musique enregistrée
- les producteurs phonographiques qui vont détecter les artistes émergents sur la base de leur talent et notoriété, enrichir les métadonnées associées à leur catalogue, négocier collectivement les droits voisins et percevoir les droits voisins issus de la distribution numérique.
- les éditeurs phonographiques qui vont connaître la base de fans (fan base) et la typologie des publics des artistes produits et ainsi pouvoir affiner les campagnes de promotions des disques et accroître les territoires d’exploitation par l’agrégation numérique et la distribution numérique du catalogue
- les éditeurs de musique qui vont synchroniser les musiques à l’image (clip vidéo, film, jeu vidéo, pub) et percevoir le droit d’auteur (droit de reproduction issu de la distribution numérique et droit de représentation)
- les agrégateurs numériques qui vont distribuer numériquement les catalogues représentés sur l’ensemble des plateformes de distribution
- les plateformes de distribution qui vont pouvoir affiner la recherche, la découverte et la recommandation musicale (enjeu actuel), connaitre et développer l’audience de la plateforme pour proposer des publicités ciblées aux annonceurs et simplifier la remontée des rapports de vente auprès des producteurs phonographiques et des sociétés de gestion collective
- le public en ne l’enfermant pas dans ses goûts musicaux, en développant l’expérience enrichie ou augmentée et en respectant sa vie privée en protégeant ses données personnelles.
Le spectacle vivant musical à travers :
- les artistes interprètes qui vont percevoir les droits voisins issus de la distribution numérique de captation audiovisuelle de spectacle
- les producteurs de spectacles grâce à l’établissement d’une fan base, la détection d’artistes émergents voire la perception des droits voisins issus de la distribution numérique de captation audiovisuelle de spectacle (enjeu actuel)
- gestion de salle de spectacles et de festivals (billetterie en ligne, agenda des spectacles, contrôle d’accès, paiement sans contact)
Pour tout le secteur de la musique à travers :
- les sociétés de gestion collective pour la collecte des droits sur tous les territoires d’exploitation de l’œuvre musicale ou bien pour le traçage et la certification des exploitations effectives de la musique
- les service en ligne et les services techniques spécialisés en affinant l’analyse des données et les algorithmes associés, en assurant l’interopérabilité des équipements et des services, en protégeant la propriété intellectuelle, en particulier le droit d’auteur et les droits voisins (revenus essentiels de la création artistique), et en développant des normes internationales de type DDEX.