Total : les data sciences au service de l’exploration pétrolière

Publié le dans seminar-past

Laurent Castanié est titulaire d’un diplôme d’ingénieur en géologie pétrolière et d’un doctorat en géologie numérique et informatique de l’Ecole Nationale Supérieure de Géologie de Nancy et de l’INRIA Lorraine. Il travaille depuis 3 ans chez Total, d’abord en tant que chef de projet « Urbanisation des données », puis en tant que chef du service Urbanisation & Innovation au sein de la direction Exploration. Avant de rejoindre Total, il a mené chez Paradigm, un éditeur de logiciels de modélisation des réservoirs pétroliers, des projets de développement pour de grandes compagnies pétrolières aux États-Unis, en Europe et au Moyen-Orient.

Navire de forage. Source image : TOTAL

L’industrie pétrolière est organisée en deux grandes branches : l’« Upstream » et le « Downstream ». L’« Upstream » regroupe les activités d’exploration, de développement et d’exploitation des gisements d’hydrocarbures (gaz ou pétrole). Le « Downstream » concerne le transport, le raffinage, la transformation et la distribution (marketing, stations-services…). Total est un groupe pétrolier intégré qui est présent sur toute cette chaîne. Cette approche intégrée permet entre-autres de compenser en partie les effets des fluctuations du prix du baril et les autres aléas du marché pétrolier.

La chaîne de valeur « Upstream » se décompose en sept étapes clés : évaluation et acquisition de domaine minier, exploration du domaine (avec des taux de succès de l’ordre de 10 à 30% pour les puits d’exploration), appréciation de gisement (quantité et localisation du fluide disponible), conception du plan de développement, développement (forage des puits de production, installation des unités d’extraction et de stockage), et enfin exploitation proprement dite. L’étape finale étant la cession du site à un autre opérateur quand la rentabilité baisse, ou sa restitution quand le gisement n’est plus économique.

Les géosciences sont partie intégrante de tout le processus « Upstream » et font appel à quatre spécialistes : le géologue qui observe la structure de la Terre pour identifier les gisements potentiels, le géophysicien qui explore le sol via l’étude de la propagation des ondes sismiques notamment, l’ingénieur réservoir qui simule les écoulements de fluides au sein du gisement pour anticiper la production.

Quatrième et dernier acteur, le métier ayant été créé chez Total il y a seulement 5 ans, le géoinformaticien. Bien que la gestion et l’analyse des données des géosciences ait existé depuis longtemps, la prise de conscience que ces dernières jouaient un rôle de plus en plus important a conduit à la définition de ce nouveau métier exclusivement dédié à la gestion des données issues des géosciences.

Les données en question sont de nature très diverses, mesures de terrain (sondages dans des puits, enregistrements sismiques, etc.), résultats d’interprétation ou encore articles et études scientifiques. Elles participent toutes au processus d’interprétation qui conduit à la prise de décision. Il est capital, dans ce contexte, de conserver et d’entretenir le patrimoine informationnel afin de disposer à tout moment des données nécessaires à la prise de décision.

En support de ce processus d’analyse / interprétation et de décision, il est indispensable que le Système d’Information (SI) réponde aux besoins des utilisateurs concernés, à la fois du point de vue des applicatifs déployés et maintenus que de l’accessibilité aux données. La notion d’urbanisation du SI prend alors toute son importance. Elle est considérée par Total comme un prérequis indispensable pour pouvoir faire de la data science.

L’urbanisation du SI vise à optimiser les flux d’information en facilitant les échanges entre les sources de données et les applications qui les consomment. Il est généralement fait une analogie avec l’urbanisation d’une ville qui optimise les flux de personnes entre les différentes zones urbaines. À ce titre, l’urbanisation du SI s’attache à ouvrir les silos de données et éviter le développement anarchique de connexions entre applications et bases de données. L’urbanisation envisage le SI sur le long terme, dans une démarche stratégique proposant une architecture agile et évolutive.

Le socle d’architecture en cours de construction par Total lui permet d’absorber les évolutions nécessaires à l’entrée de la data science dans ses processus décisionnels. Les technologies NoSQL, le stockage distribué et les applicatifs de BI agile tels que Tableau ou Spotfire commencent à faire leur apparition dans un SI urbanisé. Les ingénieurs qui y travaillent actuellement sur les données se répartissent en trois profils : le profil technologique s’intéresse à l’ingénierie de la donnée, aux infrastructures distribuées, au calcul parallèle… Le data scientist pour sa part est versé dans les  mathématiques appliquées, les statistiques, le machine learning et la programmation. Il a une bonne compréhension des besoins métiers. Enfin, l’expert en visualisation de données est un créatif et va s’attacher à proposer aux métiers des interfaces intuitives et des visuels pertinents. La stratégie de Total étant de construire des équipes pluridisciplinaires, la connaissance des métiers des géosciences n’est pas indispensable, la curiosité et la capacité d’adaptation permettant souvent de compenser.

Actuellement, des six principaux projets menés par Total dans le champ des data sciences, trois s’intéressent plus particulièrement aux technologies Big Data : l’un repose sur le text-mining et la visualisation à des fins d’intelligence économique, le second vise à détecter des fuites de pétrole sur des sites d’exploitation via des images satellites, et enfin le troisième concerne l’extraction automatisée d’information dans de gros volumes de données non structurées. En 2014, un stagiaire du Mastère Spécialisé Big Data a déjà travaillé sur le premier projet, notamment sur les étapes de data crawling, text mining, machine learning, data storage et data visualization. Cette année encore, Total souhaite recruter trois stagiaires pour continuer à valoriser ses téraoctets de données…