Première soutenance de thèse de la Chaire Machine Learning for Big Data

Publié le

Luis Galárraga est doctorant au département INFRES de Télécom ParisTech (groupe DBWeb) depuis février 2014 sous l'encadrement de Fabian Suchanek. Il travaille sur l'Axe 2 de la Chaire : graph-mining et analyse des réseaux sociaux. Le jeudi 29 septembre, il soutiendra à Télécom ParisTech sa thèse sur l'extraction de règles d'association dans des bases de connaissances : Rule Mining in Knowledge Bases. Il sera ainsi le premier doctorant financé par la Chaire à soutenir sa thèse.

Le développement rapide des techniques d'extraction d'information a permis de construire de vastes bases de connaissances généralistes. Ces bases de connaissances contiennent des millions de faits portant sur des entités du monde réel, comme des personnes, des lieux, ou des organisations. Ces faits sont accessibles aux ordinateurs, et leur permettent ainsi de "comprendre" le monde réel. Ces bases trouvent donc de nombreuses applications, notamment pour la recherche d'information, le traitement de requêtes, et le raisonnement automatique. Les nombreuses informations contenues dans les bases de connaissances peuvent  également être utilisées pour découvrir des motifs intéressants et fréquents dans les données. Cette tâche, extraction de règles d'association, permet de comprendre la structure des données ; les règles ainsi obtenues peuvent être employées pour l'analyse de données, la prédiction, et la maintenance de données, entre autres applications.

Cette thèse présente deux contributions principales. En premier lieu, elle propose une nouvelle méthode pour l'extraction de règles d'association dans les bases de connaissances. Cette méthode s'appuie sur un modèle d'extraction qui convient particulièrement aux bases de connaissances potentiellement incomplètes, comme celles qui sont extraites à partir des données du Web. En second lieu, elle montre que l'extraction de règles peut être utilisée sur les bases de connaissances pour effectuer de nombreuses tâches orientées vers les données. Elle étudie notamment la prédiction de faits, l'alignement de schémas, la mise en forme canonique de bases de connaissances ouvertes et la prédiction d'annotations de complétude.

>> En savoir plus