GRDF, du DataLab à la transformation numérique

Publié le dans seminar-past

Séminaire du Mastère Spécialisé® Big Data du 5 novembre 2015 avec Stéphane Ternot, responsable du DataLab de GRDF

Comment et pourquoi GRDF a décidé un jour de créer un DataLab ? Tout est parti d’une conférence sur l’usage des moteurs d’analyse prédictive pour améliorer la détection de fraude à la carte bancaire. Un premier test a été réalisé pour améliorer un modèle de détection de défaillance, dont la réussite a conduit de POC (Proof of Concept) en POC à la création du dataLab de GRDF en 2014. Au-delà de ce test, il a fallu déployer et rendre récurrente cette approche data centric. Le Big Data a un impact réel, car en commençant par les données, on s’intéresse petit à petit à la transformation numérique de l’entreprise toute entière.

L’énergie, un des défis du siècle

GRDF a quatre missions : l’acheminement du gaz naturel, la maintenance du réseau et les interventions d’urgence, la relation avec les pouvoirs publics et le développement du réseau. L’entreprise compte 11 300 salariés répartis sur toute la France. Plusieurs milliers d’entre eux sont tous les jours dans les rues de France, équipés de smartphones dont on peut capter les données sur le terrain.

Mais le plus gros projet de GRDF aujourd’hui est le compteur communiquant Gazpar qui va permettre une meilleure maîtrise des consommations. 11 millions de compteurs seront remplacés d’ici 2022. Fin 2016, 100 000 compteurs auront déjà été remplacés. Le compteur intelligent donnera une connaissance journalière de la consommation, permettant ainsi pour chaque client d’économiser une semaine de consommation par an. La facturation se fera sur index réel et non plus sur estimation. Cela permettra plus globalement une meilleure maîtrise de la demande d’énergie.

Ce projet s’inscrit dans le contexte de la transition énergétique : comment passer de l’énergie carbonnée à l’énergie non carbonnée ? En France, la principale source d’énergie est le nucléaire, mais à 18h quand tous les français allument leur chauffage, il faut encore relancer les centrales à charbon… L’objectif de GRDF est la division par 4 des émissions de CO2 d’ici 2050, avec 73% de gaz produit et consommé en France. C’est pourquoi GRDF incite notamment au développement du biogaz qui est une énergie renouvelable, pour avoir plus de gaz « vert » dans le réseau. Le bio méthane est produit à partir de déchets organiques, agricoles ou ménagers. 370 projets d’injection de bio méthane dans le réseau sont à l’étude.

Les « Smart Gas Grids » seront les réseaux de demain, avec des capteurs à l’entrée pour l’injection du bio méthane, des compteurs communicants sur les points de sortie et le long des canalisations pour mesurer la pression, des usines capables de basculer du gaz à l’électricité et inversement. Les données vont alors permettre des rééquilibrages entre ces différents réseaux d’énergie.(c) GRDF

Voir le détail du schéma sur le site de GRDF.

La gestion des données au cœur du métier de distributeur

Avec le déploiement de la télé exploitation, l’objectif du dataLab est de promouvoir un usage agile de la donnée au sein de l’entreprise. Il s’agit de données complexes et variées qui nécessitent l’utilisation de technologies Big Data, même si le volume n’est pas nécessairement important. Il est ainsi apparu nécessaire de centraliser ces données dont tout le monde avait besoin dans l’entreprise, afin notamment de comprendre les tendances et les comportements des clients finaux. Il ne faut pas oublier que ce sont les fournisseurs de gaz qui gèrent la relation clientèle, et non GRDF, qui ne connait du client que son nom et son adresse.

Les données dont dispose GRDF sont très variées : elles concernent le GNV (Gaz naturel véhicule), le patrimoine (cartographie des canalisations…), la conception et la construction du réseau, les achats, les interventions urgentes, la relation clientèle, l’exploitation et la maintenance, l’organisation, le bio méthane… Il y a aussi l’exploitation des « cartes de chaleur » demandées dans le cadre de la transition énergétique, qui permettent de connaitre le niveau de consommation sur chaque zone d’une commune. Mais à la différence des réseaux télécom, il n’y a pas de capteurs partout et donc à ce jour, pas d’analyse en temps réel.

Les étapes de la conduite d’un projet Big Data à GRDF

  1. Partir de problèmes remontés par les opérationnels
  2. Identifier avec eux les données manipulées
  3. Enrichir avec les données déjà disponibles
  4. Identifier de nouvelles sources
  5. Proposer des modèles prédictifs

Les sujets de travail du Datalab sont variés : passage à l’échelle, effets de seuil, identification des anomalies (défaut avéré ou opportunité business), exploitation des données non structurées, notamment cartographiques… Il faut d’abord identifier les données, puis expérimenter plusieurs algorithmes et proposer un périmètre expérimental avec une vérification terrain. Le Machine Learning permet ensuite d’optimiser le modèle.

Quelques sujets concrets

L’abandon du gaz est un sujet récurrent. On peut se baser sur les mails des clients pour extrapoler leur âge et créer de nouvelles corrélations. En effet c’est une question générationnelle : les personnes âgées auraient tendance à se désengager, peut-être par sentiment de non-maitrise, alors que les plus jeunes n’ayant pas eu de communication sur le gaz naturel pendant 15 ans en ont oublié les avantages. Répertorier, analyser et modéliser ces informations pourrait permettre de comprendre qui décide de mettre fin à son abonnement au gaz et pour quelles raisons.

Une autre application est la recherche des compteurs « à potentiel », en repérant les structures de type cantine scolaire, gymnase, batiments tertiaires… qui pourraient avoir du gaz mais ne sont pas encore raccordés bien que dans une commune desservie.

(c) GRDFEnfin des actions de sensibilisation sont menées avec la CNIL. En effet les compteurs Gazpar donneront les données de consommation de tous les foyers de France, or ce sont des données à caractère personnel qui ne peuvent en aucun cas être utilisés pour un autre usage que le calcul de consommation du client ou l’exploitation du réseau. Il est donc important de rappeler ce message constamment. Des étudiants du Mastère Spécialisé Big Data on ainsi mené en 2015 un projet sur le risque partiel de désanonymisation de données agrégées avec les règles actuelles de la CRE (Commission  de Régulation de l’Energie), sans doute à revisiter.

Le dataLab pose le socle transverse d’un fonctionnement en réseau au sein de toute l’Entreprise. Rattaché à la DSI, il compte aujourd’hui entre 4 et  6 personnes : data scientists, stagiaires, alternants… ainsi que des relais hors de la DSI. Il entend répondre à des enjeux transverses sur la question de la qualité et de la connaissance  des données. Il entend également commencer à induire la culture du risque probabiliste ou statistique qui pourrait permettre de faire des économies, tout en conservant un « risque zéro » pour tout ce qui touche à la sécurité des personnes et des biens.

Pour poursuivre son action, Stéphane Ternot s’est fixé quelques objectifs : être à l’écoute, identifier des partenariats avec des tiers, concevoir des projets « cas d’école ». Et savoir anticiper l’absence de résultats…