Le Mastère Spécialisé® Big Data
Publié le
La formation dispensée en vue de l’obtention du diplôme de Mastère Spécialisé® « Big Data » délivré par Télécom ParisTech se veut à la fois complète et progressive. La quasiubiquité des problématiques « Big Data » s’accompagne naturellement d’une grande variété des secteurs d’activité concernés et d’une inévitable hétérogénéité des profils des candidats au mastère spécialisé. Trois types de profil ont émergé des trois premières sessions de recrutement : de jeunes diplômés (ingénieurs et/ou diplômés de master en informatique, télécommunications ou mathématiques appliquées), des salariés du domaine de l’IT ayant besoin de monter en compétences et enfin des candidats à une reconversion professionnelle dans un secteur très porteur.
Programme
Le programme s’articule autour de trois champs disciplinaires et mobilise des enseignants-chercheurs issus de plusieurs départements de recherche, principalement : le département de traitement de l’image et du signal (TSI), le département informatique & réseaux (INFRES) et le département de sciences économiques et sociales (SES). Plus précisément, les enseignements sont répartis sur une dizaine de cours, délivrant des connaissances approfondies sur les thèmes suivants et proposant de nombreuses séances de travaux pratiques.
Gestion des données
Le but est la maîtrise des systèmes de gestion de données hétérogènes, massives et peu structurées. Partant de concepts et techniques élémentaires relatifs au modèle relationnel et au langage SQL, l’enseignement aborde les notions essentielles de stockage (distribué), d’indexation, d’évaluation/optimisation/répartition de requêtes et détaille de nombreuses briques technologiques amenées à devenir d’éventuels standards (par exemple Cassandra, MongoDB , ElasticSearch).
Données du Web
L’objectif de l’enseignement est de permettre la compréhension et l’utilisation des technologies du Web :
des techniques de base (par exemple HTML, CSS, JavaScript, PHP), aux méthodes permettant d’exploiter automatiquement les données du Web. Les technologies d’informatique décisionnelle, telles que celles mises en oeuvre par les moteurs de recherche et de recommandation, seront couvertes en détail : modélisation (Web sémantique, graphe du Web), extraction (wrappers), indexation (langage naturel), calcul à grande échelle (MapReduce).
Machine Learning
Le programme aborde de nombreux aspects de ce domaine, à l’interface des mathématiques et de l’informatique, dédié à l’élaboration, l’analyse et la mise en oeuvre d’algorithmes permettant à une « machine » d’extraire des informations à partir de données, afin d’accomplir automatiquement des tâches de prédiction, d’aide à la décision ou de représentation efficace des données (indexation, compression). La volonté d’automatisation se conçoit généralement dans des situations où les données à disposition sont « massives » à tel point que les méthodes statistiques classiques, reposant en partie sur l’expertise et le prétraitement humains, s’avèrent impossibles à mettre en oeuvre et/ou inefficaces. Le machine-learning constitue en effet un véritable corpus de méthodes algorithmiques, pouvant s’adapter à des données de nature différente, sur lequel repose de nombreux systèmes décisionnels. L’enseignement proposé couvre les concepts et techniques essentiels en apprentissage supervisé et non supervisé (théorie de Vapnik, support vector machines, méthodes d’agrégation, modèles graphiques) ainsi que les avancées récentes réalisées dans le domaine, motivées par les problématiques du Big Data : apprentissage distribué, optimisation stochastique et apprentissage par renforcement, apprentissage multitâche, graph-mining, ranking.
Systèmes répartis pour le Big Data
Le programme traite en particulier de l’architecture des systèmes répartis et de leurs fonctionnalités (par exemple processus, threads, communications, synchronisation, nommage, répartition des fichiers/données), des grandes tendances en matière de pair-à-pair, de cloud et d’informatique mobile. Il propose une étude détaillée des intergiciels (middleware), des briques technologiques et de l’algorithmique pour la construction de systèmes répartis.
Visualisation
Il s’agira d’enseigner les techniques récentes de visualisation permettent aux utilisateurs de logiciels de mieux comprendre l’information contenue dans les grandes masses de données, ainsi que les règles de décisions complexes fondées sur ces dernières, facilitant ainsi l’interaction entre système décisionnel et utilisateur final.
La sécurité des systèmes d’information
Le programme couvre à la fois les aspects techniques (sécurisation des OS, des bases de données, des sites web), organisationnels/méthodologiques (évaluation/certification de la sécurité des système d’information) et juridiques (loi sur l’économie). Au delà de la vision technique (informatique et mathématiques appliquées), la formation propose d’explorer les aspects sociétaux, juridiques (données personnelles, « privacy ») et économiques, du Big Data.
L’écosystème Big Data
Le Big Data, par son potentiel d’innovation multisectoriel, aura à son échelle un impact certain, forçant l’adaptation, permettant l’émergence ou poussant vers la sortie les acteurs selon leur position et leurs gènes business. Par un mélange de modèles et notions fondamentales et modèles, d’exemples réels et de témoignages de professionnels de cet écosystème, cet enseignement explorera comment les Big Data prennent appui sur l’environnement économique en place pour le modifier.
Données personnelles et économie de l’internet
Il s’agit d’aborder des éléments d’économie de protection de la vie privée, de la réputation et des asymétries d’information ainsi que de valorisation de données sur les moteurs de recherche et les réseaux socio-numériques. Ce cours propose également une étude prospective sur les scénarii possibles autour des données personnelles et des Big Data à moyen et long termes, tant le phénomène est susceptible de faire bouger les barrières légales.
Implication des entreprises
Au delà des compétences reconnues de l’équipe académique de Télécom ParisTech, s’appuyant sur une activité de recherche très compétitive dans les domaines scientifiques afférents, la formation mobilisera des professionnels, issus de secteurs variés (par exemple internet, sécurité, défense, finance, e-commerce, consulting), de grands groupes, de PME innovantes ou de start-ups (celles de l’incubateur de Télécom ParisTech en particulier). Le comité de perfectionnement du mastère spécialisé Big Data compte en particulier des représentants de Thalès, du groupe Safran, d’EADS, de Capgemini, de SAS, de Criteo, d’IBM et de Liligo. L’objectif de la formation étant de garantir l’acquisition d’un socle de connaissances théoriques mais aussi d’un savoir faire opérationnel satisfaisant, il convient en effet de veiller à ce que les enseignements proposés intègrent les contraintes industrielles et soient étayés par des cas d’études correspondant aux enjeux réels du Big Data aujourd’hui.
Les correspondants de nos partenaires industriels interviennent lors de séminaires, de séances de cours ou de travaux pratiques mais participent également à l’élaboration et à l’encadrement de projets « fil rouge », réalisés en groupe de 4 à 5 élèves en parallèle avec les cours tout au long du cursus, autour d’une problématique industrielle. Ces projets doivent permettre d’aborder en situation réelle de nombreuses facettes du Big Data : acquisition des données, stockage, solution analytique, visualisation, mise en SaaS, aspects légaux, modèle économique. Si votre entreprise souhaite s'impliquer dans ce programme de formation, consultez la page "Animation de la formation."
La synergie entre les équipes académiques de Télécom ParisTech et le monde industriel s’incarne aussi à travers trois chaires de recherche étroitement liées au Big Data : « Machine Learning for Big Data », « Big Data & Market Insights » et « Valeurs et Politiques des Informations Personnelles ». Cette interaction très forte entre industrie et académie autour d’enjeux majeurs pour l’innovation assure la pertinence de cette formation.