Certificat d'études spécialisées (CES) « Data Scientist »

Publié le

Afin de permettre à des professionnels en activité de monter en compétence dans le domaine de la science des masses de données, Télécom Evolution propose un Certificat d'études spécialisées (CES) organisé autour de 12 sessions présentielles de deux jours, focalisées sur les technologies informatique et mathématiques dédiées à la gestion et à l’analyse des données massives, et d’une plate-forme d’e-learning permettant aux stagiaires d’approfondir les concepts et les méthodes abordées. Ce nouveau programme vise à enseigner les techniques récentes de gestion et d’analyse de grandes masses de données.

Nous assistons depuis plus d’une dizaine d’années à un véritable « déluge de données ». Les avancées technologiques récentes, la numérisation et la diversification des modes de collecte de données (web, réseaux sociaux tels Facebook ou Tweeter, téléphones mobiles, vidéo, etc.) en particulier, permettent aujourd’hui de stocker des quantités massives d’observations dans des « entrepôts » de données parfois gigantesques, de façon distribuée et actualisés de plus en plus souvent en « temps réel ». Dans de nombreux secteurs d’activité, des investissements considérables ont été réalisés (finance, internet, CRM, biologie, médecine individualisée, télécoms, e-commerce, grande distribution, sécurité, industrie high-tech) pour nous conduire à cette nouvelle « ère technologique de l’information ».

Le phénomène « Big Data » est aujourd’hui perçu comme une tendance de fond, aux conséquences sociétales et économiques considérables. Le déploiement généralisé de plateformes Hadoop permettant l’analyse de données massives non structurées, la mise sur le marché de solutions dédiées à ces analyses par les éditeurs de logiciel majeurs, le phénomène Open Data, le développement de « Clouds » et le succès de sociétés nouvelles dont l’activité repose précisément sur l’exploitation des flux de données de trafic web, indiquent qu’une mutation est en train de se produire, appelant de nouveaux programmes de formation, interdisciplinaires, intégrant toutes les facettes du métier de « data scientist » et permettant d’affronter les challenges posés par les « Big Data » : infrastructure informatique, données, algorithmique, statistique.

Objectifs

Le certificat d’études spécialisées (CES) Data Scientist de Télécom Evolution, délivré par Télécom ParisTech, s’articule autour de trois grands thèmes :

Données : modèles, extraction de descripteurs (features) structurelles et sémantiques

Apprentissage statistique et analyse des données : apprentissage supervisé, non supervisé, batch/online, par renforcement, optimisation distribuée pour l’apprentissage statistique, filtrage collaboratif (moteurs de recommandation), ranking, graph-mining, modèles graphiques

Passage à l’échelle : stockage distribué, calcul distribué, visualisation. Les concepts théoriques et les techniques traités lors cette formation seront illustrés par des applications variées (e.g. e-commerce, industrie, CRM, finance) : moteur de recherche/recommandation, monitoring de systèmes complexes, ciblage marketing, élaboration de filtres anti-spam, scoring de crédit, publicité en-ligne, analyse des réseaux sociaux, etc.

Prérequis

  • Bonne expérience de la programmation
  • Connaissance de Java
  • Mathématiques niveau Licence : algébre linéaire, analyse, probabilités/statistiques, optimisation

Le MOOC "Fondamentaux pour le Big Data", décrivant les connaissances préalables requises pour une telle formation, peut être suivi gratuitement. Les inscriptions sont ouvertes et les cours commencent le 15 janvier.

Public visé

Le CES Data Scientist s’adresse à des ingénieurs, techniciens, chefs de projet souhaitant développer leurs compétences dans le domaine de la gestion et l’analyse statistique des données (massives).

Programme

1. Données (6j, 42h)

  • Types de données : texte (Web, réseaux sociaux), documents semi-structurés (Web, documents internes), graphes (Web, sémantique, réseaux sociaux), données scientifiques et numériques (réseaux de capteurs, simulation, données financières...), image et multimédia
  • Pour chacun de ces types de données : extractions de contenu sémantique (extraction d’information du Web, fouille de graphes...) et de vecteurs de descripteurs (descripteurs multimédia, requêtes OLAP, indexation textuelle)

2. Apprentissage statistique et analyse des données (12j, 84h)

  • Notions de probabilités, méthodes linéaires pour la régression/classification
  • Evaluation de la performance et sélection de modèle (plans d’expérience, validation croisée, bootstrap)
  • Apprentissage supervisé : éléments de la théorie de Vapnik-Chervonenkis, arbres de décision, réseaux de neurones, support vector machines, boosting, lasso, apprentissage par renforcement
  • Big Data : apprentissage en ligne, apprentissage statistique distribué, techniques d’échantillonnage
  • Apprentissage non supervisé : variables latentes, clustering, analyse des affinités, détection d’anomalies
  • Modèles graphiques : chaines de Markov cachées, réseaux bayesiens

3. Passage à l’échelle (6j, 42h)

  • Systèmes de fichiers distribués à grande échelle : HDFS/GFS
  • Stockage à grande échelle : SGBD classiques SQL, distribués ou non ; SGBD, XML, SGBD graphes, stockage de documents, stockage clefs-valeurs par table de hachage distribué (Dynamo) ou arbre distribué (BigTable, HBase)
  • Paradigmes de calcul distribué : MapReduce (et surcouches Pig, Hive), Message Passing Interface
  • Distribution d’algorithmes d’indexation, d’apprentissage et de fouille : index inversé, factorisation de matrice, programmation linéaire, descente de gradient, échantillonnage, PageRank

Des ressources (slides, références, leçons audio ou vidéo) sont fournies sur chacun de ces termes. Le CES est validé par un projet d’application qui mettra en oeuvre les différentes compétences sur ces thèmes.

Dates et modalités d'inscription