L'équipe académique
Publié le
Le Machine Learning à Télécom ParisTech
Le machine learning représentant un champ d’investigation essentiel dans les sciences et technologies de l'information et de la communication, du fait de l’importance de ses applications, allant de l'indexation et la recherche automatique de documents à la prédiction de comportements en passant par la détection d’anomalies, la recommandation , la visualisation d’information massive ou encore l’analyse des réseaux sociaux.
Télécom ParisTech regroupe de nombreux spécialistes reconnus dans ce domaine, au sein des Départments IDS (Image, Données, Signal) et INFRES (Informatique & Réseaux) principalement .
Les techniques d’apprentissage ne sont pas exclusivement utilisées dans ces départements, elles s’avèrent également pertinentes dans le domaine des communications numériques (pour les questions relatives au « location fingerprinting » par exemple). Toutefois, les résultats obtenus dans le domaine de la théorie de l’apprentissage à Télécom ParisTech sont principalement le fruit de l’activité des chercheurs travaillant au sein des groupes de recherche S2A, DIG, AAO, TII et MM.
L'équipe académique
Stephan Clémençon est Professeur à Télécom-ParisTech, Institut Mines-Télécom, au sein du Département IDS (Image, Données, Signal) et anime le groupe de recherche S2A. Il effectue ses travaux de recherche en mathématiques appliquées au Laboratoire LTCI de Télécom ParisTech. Ses thématiques de recherche se situent principalement dans les domaines du machine-learning, des probabilités et des statistiques. Il est responsable du Mastère Spécialisé « Big Data » à Télécom ParisTech et titulaire de la chaire industrielle « Machine-Learning for Big Data ». Mots-clés : ranking, clustering, détection d'anomalie, graph-mining, moteurs de recommandation
Eric Moulines est Professeur à l'Ecole polytechnique et Professeur associé à Télécom ParisTech. Ses thèmes de recherche incluent le machine-learning, les méthodes de type Monte Carlo, la statistique pour le traitement du signal. Editeur en chef de la revue Bernoulli, il est responsable du Master "Mathématiques pour la science des masses de données". Médaille d'argent du CNRS en 2010, il est également récipiendaire du Grand Prix France Télécom de l'Académie des Sciences en 2011. Mots-clés : approximation stochastique, apprentissage statistique, HMM, méthodes particulaires
Gaël Richard est Professeur à Télécom ParisTech, Institut Mines-Télécom et responsable du département IDS (Image, Données, Signal). Ses travaux de recherche sont au cœur du numérique et dédiés à l’analyse, la transformation, la compréhension ou l’interprétation des signaux sonores (parole, musique, sons environnementaux,…) et dans une moindre mesure des signaux multimedia. Il a notamment développé plusieurs méthodes pour la séparation des signaux musicaux et audio reposant sur des principes de factorisations de matrices non-négatives et d’apprentissage automatique (machine learning). Mots clés : Machine listening, Factorisation de matrices, Apprentissage de représentations, Music Information Retrieval (MIR), Reconnaissance sonore, Séparation de sources
Joseph Salmon est Maître de Conférences à Télécom ParisTech depuis 2012. Il est spécialisé en traitement statistique des images et en apprentissage statistique. Sa recherche porte sur la création et l'étude d'algorithmes pour le traitement de données en grande dimension. Post-doctorat, Duke University, 2011-2012. Doctorat, Université Paris 7, 2010. Master M2MO, Université Paris 7, 2007. ENS de Cachan, 2005-2007. Agrégation de Mathématiques, 2006. ENSAE, 2007. Mots-clés : complétion de matrice, régression linéaire en grande dimension, Lasso, Agrégation d'estimateurs, débruitage d'image.
Fabian M. Suchanek est Maître de Conférences à Télécom ParisTech. Il a fait ses recherches chez l’Institut Max Planck en Allemagne, Microsoft Research Cambridge/UK, Microsoft Research Silicon Valley/USA, et l’INRIA Saclay. Il est l’auteur principal de YAGO, une des plus grandes bases de connaissances publiques dans le monde. Mots-clés : Web Sémantique, Bases de Connaissances, Extraction d'Informations, Traitement du Langage Naturel, Raisonnement Automatique
Slim Essid est enseignant-chercheur à Télécom ParisTech depuis 2006. Sa recherche s'intéresse au machine-learning pour le traitement du signal et l'analyse de données multimodales. Les applications traitées incluent l'analyse de contenus audiovisuels et musicaux, l'analyse d'activités humaines et la reconnaissance des émotions, et l'analyse des signaux EEG. Il a été impliqué depuis 2005 dans plusieurs projets collaboratifs nationaux et européens (FP6 et FP7). Mots-clés : Apprentissage discriminatif, CRF, analyse en variables latentes, factorisation de matrices, données multimodales.
Alexandre Gramfort est Maître de Conférences associé au département Traitement du Signal et de l'Image de Télécom ParisTech. Ses recherches portent sur le traitement du signal, l'apprentissage statistique et le calcul scientifique avec pour application principale la modélisation et l'analyse de données en neurosciences. Il est un des principaux contributeurs du projet logiciel open source Scikit-Learn qui est la librairie standard pour l'apprentissage statistique en Python. Mots-clés : apprentissage supervisé, optimisation, méthodes parcimonieuses, software.
Ons Jelassi est enseignante à la formation continue de Télécom ParisTech. Elle a travaillé dans le domaine de la métrologie et des performances des réseaux dans le cadre de sa thèse et en tant que consultante auprès de grandes entreprises pour des missions d'audit et d'expertise. Ses travaux de recherche au sein du groupe S2A portent sur le passage à l'échelle des algorithmes d'apprentissage. Mots-clés : apprentissage, performances, passage à l'échelle, algorithmes distribués.
Chloé Clavel est enseignant-chercheur à Telecom-ParisTech. Ses activités de recherche appartiennent au domaine de l’Affective Computing. Elle a précédemment travaillé en tant que chercheuse à Thales Research and Technology puis à EDF R&D. Ses travaux concernant l’analyse des opinions et des sentiments dans les textes, ont notamment été abordés dans un contexte applicatif de gestion de la relation client sur des corpus riches en expressions spontanées (forums de relation client, transcriptions manuelles et automatiques des centres d’appels, etc.). Mots-clés : analyse des opinions, text mining, apprentissage, traitement de la parole, reconnaissance des émotions.
Pascal Bianchi est né en 1977 à Nancy. Il est titulaire d’un Master en Sciences de l'Université de Paris XI et de Supélec en 2000 et d’un doctorat de l'Université de Marne-la-Vallée en 2003. De 2003 à 2009, il était Maître de Conférences au Département des télécommunications de Supélec. En 2009, il a rejoint le groupe Statistiques et Applications au LTCI de Télécom ParisTech. Ses intérêts de recherche actuels se trouvent dans le domaine de l'optimisation continue appliquée au traitement du signal et aux systèmes distribués. Mots-clés : traitement statistique du signal, optimisation convexe, optimisation distribuée, réseaux de capteurs.
Laurence Likforman est Professeur Associé (HDR) à Télécom ParisTech depuis 1991. Elle est responsable du cours Reconnaissance des formes et enseigne également en Traitement du signal, Analyse de documents et Statistiques. Mots-Clés : Reconnaissance d'écriture, modèles Markoviens, Réseaux Bayesiens, Réseaux de neurones récurrents.
Florence d'Alché-Buc est Professeur à Télécom-ParisTech, Institut Mines-Télécom depuis 2014. Elle était auparavant professeur à l’Université d’Evry, titulaire d’une ATIGE et co-directrice du laboratoire IBISC. Ses recherches portent sur l’apprentissage statistique, l’inférence de réseaux, la prédiction structurée et la modélisation de systèmes dynamiques avec des différentes applications à la biologie computationnelle. Mots-clés : apprentissage statistique, méthodes à noyaux, prédiction structurée, prédiction de liens, inférence de réseaux, systèmes dynamiques.
François Roueff est Professeur à Télécom-ParisTech, Institut Mines-Télécom, au sein du groupe SSA et professeur associé au département de mathématiques appliquées de l'École Polytechnique. Ses thèmes de recherche se situent principalement dans les domaines du traitement statistique du signal, de l'analyse et la modélisation aléatoire des séries temporelles et des statistiques pour les processus stochastiques. Mots-clés : longue dépendence, analyse en ondelettes, processus de Hawkes, processus localement stationnaires.
Olivier Fercoq est Maître de Conférences à Télécom ParisTech. Il a un Master de Paris 6 et de l'Ensta ParisTech. Pendant son doctorat à l'École Polytechnique (2009-2012), il a étudié des problèmes d'optimisation liés au référencement des pages web et à des applications en biologie. Il a passé deux ans à l'Université d'Édimbourg où il a travaillé sur les méthodes de descente par coordonnée. Il a rejoint Télécom ParisTech en 2014. Ses intérêts de recherche actuels portent sur le développement et l'étude d'algorithmes d'optimisation pour des problèmes de grande dimension. Mots-clés : optimisation, algorithmes stochastiques, vitesse de convergence, grande dimension, calculs en parallèle.
Patrice Bertail est Professeur de mathématiques (section 26) à l'université Paris-Ouest-Nanterre-La Défense, Professeur associé à Télécom ParisTech. Ses thèmes de recherche portent essentiellement sur les probabilités et la statistique non-paramétrique, avec des travaux notamment sur les méthodes de ré-échantillonnage, les valeurs extrêmes, les bornes exponentielles en apprentissage, en indépendant ou pour des chaînes de Markov. Il développe actuellement des techniques basées sur les sondages et le sous-échantillonnage pour le "big data". Il a été responsable du Master ISIFAR, spécialisé autour du risque pour les assurances, à l'université Paris-Ouest. Mots-clés : Ré-échantillonnage, Apprentissage Statistique, Extrêmes, Sondages, chaîne de Markov
François Portier est Maître de Conférences dans le groupe S2A du département IDS de Télécom ParisTech. François Portier a réalisé son doctorat sur la réduction de la dimension en régression à l’Université de Rennes 1, sous la direction de Bernard Delyon (2010-2013). Il effectue, depuis septembre 2013, un postdoctorat à l’Université catholique de Louvain sous la direction de Ingrid Van Keilegom et Johan Segers. Ses thèmes de recherche portent sur l’asymptotique et le bootstrap des estimateurs semi-paramétriques. Mots-clés : Estimation semi-paramétrique, Efficacité, Bootstrap, Processus empirique, Réduction de la dimension.
Umut Simsekli is an Assistant Professor at Télécom ParisTech. He received his PhD degree in 2015 on inference methods for large-scale matrix and tensor factorization models in the Department of Computer Engineering at Bogaziçi University, İstanbul, Turkey. His research interests are in scalable Bayesian machine learning, audio and music processing, and recommendation systems. Keywords: matrix and tensor factorizations, Markov Chain Monte Carlo, audio and music processing.
Albert Bifet est Professeur associé à Télécom ParisTech et pilote du groupe de recherche Data, Intelligence et Graphes. Il est l'un des leaders des environnements MOA et Apache SAMOA pour l'implémentation des algorithmes et l’expérimentation de l'apprentissage en ligne depuis des flux de données évolutifs. Il est l'auteur d'un livre sur la fouille de flux adaptative et sur l'apprentissage et la fouille de modèles depuis les flux de données évolutifs. Précédemment, il a travaillé au sein du Noah’s Ark Lab de Huawei à Hong Kong, au Yahoo Labs de Barcelonne, à l'Université de Waikato et à l'UPC BarcelonaTech. Il était coprésident du parcours industriel de l'IEEE MDM 2016, de l'ECML PKDD 2015, de BigMine (2012-2017) et du parcours Flux de Données de l'ACM SAC (2012-2018). Mots-clés : flux de données, Internet des objets, analytique en temps réel, apprentissage statistique, intelligence artificielle, fouille de graphes.
Giovanna Varni est Maître de Conférences à Telecom-ParisTech depuis 2017. Ses activités de recherche portent sur le domaine du socio-affective computing. Auparavant, Giovanna Varni était chercheuse postdoctorale à l’Université de Gênes (Italie) dans l’équipe InfoMus Lab, puis dans l’équipe INTERACTION (groupe IMI2S) au sein de l’Université Pierre et Marie Curie à Paris 6. Ses travaux s’intéressent à l’analyse des signaux multimodaux non verbaux dans l’interaction homme-homme et homme-machine. Elle a été impliqué depuis 2006 dans plusieurs projets européens (FP7 ; EU-ICT ; STREP et FET). Mots-clés : interaction homme-homme et homme-machine, socio-affective signal processing, synchronie interpersonnelle, geste expressif
Robert M. Gower est Maître de conférence à Télécom ParisTech depuis 2017, il s'intéresse à la conception et à l'analyse de nouveaux algorithmes stochastiques pour résoudre des problèmes de big data dans l'apprentissage automatique et l'informatique scientifique. Mathématicien de formation, ses études universitaires ont commencé avec un baccalauréat et une maîtrise en mathématiques appliquées à l'Université d'État de Campinas (Brésil), où il a conçu les algorithmes à l'état de l'art pour calculer automatiquement les dérivées d'ordre élevé en utilisant une backpropagation. Son doctorat en méthodes numériques stochastiques à l'Université d'Édimbourg lui a valu la 2ème place du prix Leslie Fox 2017 en analyse numérique. Après quoi, en 2016, il obtient le fonds postdoctoral de la Fondation des Sciences Mathématiques de Paris pour continuer son travail en post-doctorat à l'ENS. Mots-clés : Optimisation stochastique, algèbre linéaire numérique aléatoire, optimisation convexe, apprentissage automatique, différenciation automatique.
Pietro Gori est enseignant-chercheur à Télécom ParisTech au sein du Département IDS (Image, Données, Signal). Ses travaux de recherche portent sur le développement des méthodes statistiques et computationnelles pour l'analyse des données multimodales issues de l'imagerie médicale (e.g. images, points, courbes et surfaces). Les applications principales sont l'anatomie computationnelle et l'apprentissage statistique en neuroimagerie. Il participe au développement du logiciel deformetrica pour l'analyse statistique des formes. Mots-clés : anatomie computationnelle, analyse statistique des formes, apprentissage supervisé, imagerie médicale.
Thomas Bonald est Professeur à Télécom ParisTech. Ses recherches portent sur l’analyse de graphes, l’apprentissage automatique et l’analyse de performance de réseaux et de centres de données. Il a reçu en 2013 la médaille Blondel pour ses travaux sur la modélisation du trafic Internet. Mots-clés : Fouille de graphes, apprentissage, détection d’anomalie, méthodes spectrales, chaînes de Markov.
Anne Sabourin est maître de conférences au sein du groupe S2A de Telecom ParisTech depuis 2013. Elle a obtenu son doctorat en 2013 sur les valeurs extrêmes multivariées et l'inférence bayésienne à l'Université Lyon 1, sous la direction d'Anne-Laure Fougères et Philippe Naveau. Ses objets de recherche concernent la théorie des valeurs extrêmes multivariées, la dépendance entre les événements rares, la réduction des dimensions dans les régions extrêmes, avec diverses applications allant des risques environnementaux aux applications en apprentissage automatique telles que la détection d'anomalies. Mots-clés : théorie des valeurs extrêmes multivariées, événements rares, réduction de dimension, détection d'anomalies.
Et aussi :
Doctorants
Gabriela Ciolek est doctorante à Télécom ParisTech depuis septembre 2016. Elle possède une maîtrise en mathématiques financières et d'assurances. Elle a bénéficié d'une bourse d'études Eiffel du gouvernement français sous la supervision de Patrice Bertail au cours de laquelle elle a travaillé sur les procédures de démarrage pour les chaînes de Markov récurrentes de type Harris. Les intérêts de recherche de Gabriela tournent autour de la théorie des chaînes de Markov avec des applications à l'apprentissage statistique, l'amorçage pour les données dépendantes, les inégalités de concentration pour les chaînes de Markov et les processus empiriques. Sa thèse est supervisée par Patrice Bertail et Stephan Clemencon et concerne l'apprentissage statistique pour les données dépendantes de Markov. Mots-clés : chaînes de Markov, processus empiriques, apprentissage statistique, inégalités de concentration, bootstrap, bornes de généralisation.
Mastane Achab est doctorant au sein du groupe S2A depuis le 3 septembre 2016. Il est titulaire du diplôme d'ingénieur de l’Ecole polytechnique et du master MVA de l’ENS Cachan. Sa thèse, encadrée par Stephan Clémençon, Aurélien Garivier et Anne Sabourin, porte sur l'apprentissage par renforcement de stratégies robustes aux risques extrêmes qui existent dans de nombreuses applications (médecine, assurance, finance). Mots-clés : reinforcement learning, multi-armed bandit, risk aversion, extreme value theory.
Hamid Jalalzai est doctorant au sein de l'équipe S2A depuis octobre 2017. Il est ingénieur de l'INSA de Toulouse et titulaire du Master data science de l'Université Paris Saclay. Sa thèse, encadrée par Chloé Clavel, Anne Sabourin et Eric Gaussier, porte sur l'application des extrêmes multivariés et du text mining à l'apprentissage supervisé pour la détection de buzz sur les réseaux sociaux. Mots-clés : apprentissage supervisé, buzz detection, extrêmes multivariés, text mining.
Etudiants en thèse financée par la Chaire
Valentin Barrière est actuellement en doctorat au sein de l'équipe S2A de Télécom ParisTech depuis octobre 2015. Sa thèse porte sur la détection et l'analyse d'opinions dans les interactions orales humain-humain et humain-agent. Il utilise des algorithmes d’apprentissage automatique (Machine Learning) afin de reconnaître des motifs audio et linguistiques caractéristiques d'une expression d'opinion. Mots-clés : analyse des opinions, text mining, apprentissage, modèles hybrides, traitement de la parole, reconnaissance des émotions.
Eugène Ndiaye est doctorant au sein du groupe S2A depuis le 15 octobre 2015 sous la direction d'Olivier Fercoq et de Joseph Salmon. Il est titulaire du master de Probabilités et Statistiques de l'Université Paris-Sud, Orsay ; et travaille principalement sur les algorithmes efficaces de sélection de variables en grande dimension. Mots-clés : coordinate descent, Lasso, sparsity, screening rules.
Anna Korba est doctorante au sein du groupe S2A depuis le 1er octobre 2015. Elle est titulaire du diplôme de l’ENSAE ParisTech et du master MVA de l’ENS Cachan. Sa thèse, encadrée par Stephan Clémençon, Jérémie Jakubowicz et Eric Sibony, porte sur l’analyse statistique des données de rankings (ordres) qui apparaissent dans de nombreux domaines (élections, compétitions, e-commerce). Ses travaux de recherches concernent principalement l’agrégation de rankings et les systèmes de recommandation. Mots-clés : Ranking, Preference Learning, Analyse Multirésolution, Systèmes de recommandation, Agrégation de rankings.
Moussab Djerrab est doctorant au sein du groupe S2A depuis le 1er octobre 2015. Il est titulaire du diplôme de l’ENSAE ParisTech et du master MVA de l’ENS Cachan. Sa thèse, encadrée par Florence d'Alché-Buc, porte sur le traitement des problèmes de prédictions structurés. Ces méthodes d'apprentissages ont des applications variées depuis les problèmes "image-captionning" aux problèmes de prédiction en bio-informatique (structures des molécules). Mots-clés : Prédiction structurée, méthode à noyaux, manifold learning.
Pierre Laforgue est doctorant au sein du groupe S²A (ex STA) depuis le 10 octobre 2016. Diplômé de l'ENSAE ParisTech, il est également titulaire du Master 2 "Mathématiques, Apprentissage et Sciences Humaines" de l'Université Paris Dauphine. Sa thèse, encadrée par Florence D'Alché-Buc et Stephan Clémençon, porte sur l'apprentissage non-supervisé de représentations, avec pour objectif de l'appliquer aux séries temporelles. Mots-clés : unsupervised learning, representation learning, time series.
Alumni
Guillaume Papa, ancien doctorant au département IDS de Télécom ParisTech, a soutienu sa thèse sur les méthodes d’échantillonnages pour la minimisation du risque empirique : "Sampling Method for Scaling-up Empirical Risk Minimization" le 31 janvier 2018. Guillaume a travaillé sur l'Axe 4 de la Chaire : cloud learning et algorithmes d'apprentissage distribués. Réalisée sous la direction de Stéphan Clémençon et Pascal Bianchi, la thèse de Guillaume Papa présente et étudie des méthodes d' échantillonnages pour résoudre des problématiques de passage à l'échelle en Machine Learning. Guillaume va poursuire sa carrière en post doctorat au sein de la BNP Paribas.
Claire Vernade, ancienne doctorante au LTCI, a soutenu sa thèse "Statistical Models of User Behavior for Sequential Learning under Delayed Feedback" le 20 octobre 2017. Pendant son doctorat elle a effectué un stage de recherche chez Adobe Systems. Réalisée sous la direction d'Olivier Cappé, sa thèse concerne principalement l'étude de modèles d'apprentissage en ligne pour les systèmes de recommandation (Axe 1). Elle est issue de la formation d'ingénieur de Télécom ParisTech ainsi que du master MVA (ENS Cachan) qu'elle a suivi dans le cadre du double diplôme cohabilité par l'école. Ses thèmes de recherches incluent notamment les méthodes de bandits (multi-armed bandit models), l'apprentissage par renforcement et l'apprentissage en ligne (Online Learning). Claire va poursuivre sa carrière professionnelle dans les bureaux Berlinois d’Amazon. Mots-clés : recommandation dynamique, problèmes de bandits, apprentissage en ligne, apprentissage par renforcement.
Luis Galárraga, ancien doctorant au sein du département INFRES de Télécom ParisTech (groupe DIG), a travaillé sur l'Axe 2 : graph-mining et analyse des réseaux sociaux. Il a soutenu sa thèse "Rule Mining in Knowledge Bases" le 29 septembre 2016. Réalisée sous l'encadrement de Fabian Suchanek, celle-ci porte sur sur l'extraction de règles d'association dans des bases de connaissances. Pendant son doctorat il a effectué un stage de 3 mois chez Google Inc. Premier doctorant financé par la Chaire, Luis avait commencé son doctorat à l'Institut Max Planck à Sarrebruck en 2012. Issu d'un premier cycle en Ingénierie Informatique à ESPOL (Escuela Superior Politécnica del Litoral) en Équateur, il est titulaire d’un Master en Sciences de l'Université de Sarre en Allemagne. Ses domaines de recherche incluent l'extraction des règles d'association dans les bases de connaissances et le traitement distribué de données sémantiques (RDF). Luis poursuit aujourdh'ui ses travaux de recherche au sein du Computer Science Department de l'Université d' Aalborg au Danemark. Mots-clés : Extraction de règles, Bases de connaissance, Web sémantique, RDF, traitement distribué.
Nicolas Goix a effectué son doctorat au département IDS de Télécom ParisTech (groupe S2A). Il a soutenu sa thèse "Machine learning et extrêmes pour la détection d'anomalies" le 28 novembre 2016. Normalien en mathématiques à l’ENS Cachan, il a fait avant sa thèse un stage d'une année de recherche au LPMA (Paris VI). Réalisée sous la direction de Stéphan Clémençon et Anne Sabourin, sa thèse porte sur les méthodes d'apprentissage pour la détection d'anomalies. Il est aussi contributeur de Scikit-Learn dans le cadre du projet Paris-Saclay Center for Data Science, sous l'encadrement d'Alexandre Gramfort. Après avoir exercé en free-lance, Nicolas est aujourd'hui Quantitative Researcher pour Stratagem Technologies à Londres. Mots-clés : apprentissage non-supervisé, détection d'anomalies, extrêmes multivariés, réduction de dimension.