Axes de recherche
Publié le
Le programme de recherche et d'enseignement proposé portera sur les thèmes suivants :
Axe 1 : apprentissage par renforcement et optimisation/simulation stochastique
Dans de nombreuses situations, la "Machine" produisant automatiquement des décisions/prédictions interagit avec l'environnement d'où émanent les données (ex : phénomène de "market impact" en finance), l'apprentissage doit alors s'appuyer sur un nécessaire compromis entre "exploration" et "décision" et peut être formulé comme un problème d'optimisation stochastique dont la résolution requiert l'utilisation de méthodes de simulation avancées. La recherche d'une balance optimale entre "exploration" et "exploitation" peut parfois s'appuyer sur l'expertise humaine, permettant de définir les actions/décisions optimales et d'identifier plus aisément les paramètres des modèles régissant l'évolution du système. On parle alors d'apprentissage actif.
Axe 2 : graph-mining et analyse des réseaux sociaux
Dans les applications liées à l'Internet ou à l'exploration de réseaux sociaux par exemple, les données se représentent naturellement sous la forme d'un graphe, dont la dimension est souvent trop grande pour permettre une visualisation directe. L'extraction automatique des propriétés de réseaux de très grande dimension est l'un des axes de recherche considéré dans cette Chaire, ses applications vont de l'étude de la diffusion d'information au sein d'un réseau social à l'analyse du Web caché.
Axe 3 : ranking et détection d'anomalies
Dans les applications telles que le traitement des bases de données numériques massives pour le design de moteurs de recherche ou de recommandation, le but recherché n'est pas d'apprendre à prédire un label associé de façon probabiliste à une observation (comme c'est le cas en classification supervisée) mais d'apprendre à ranger les valeurs possibles pour le vecteur aléatoire d'observation dans un même ordre que celui induit par la probabilité a posteriori. Toutefois, le "ranking" ne se résume pas au problème (supervisé) de l'apprentissage d'un ordre mais peut également se référer à l'agrégation d'ordres ou de préférences, avec des applications dans le domaine des méta-moteurs de recherche ou en "database middleware".
Axe 4 : cloud learning et algorithmes d'apprentissage distribués
Les réseaux (Internet, réseaux sociaux, etc.) ont conduit à une véritable explosion des bases de données. A titre d'exemple, fin 2013, le volume d’Internet représentait 1 yottaoctet (1024 octets) et en 2014 environ 50 milliards de pages sont indexées par Google, pour 3 milliards d'utilisateurs. De telles masses de données ne peuvent être stockées que de façon distribuée. Au-delà du problème de stockage, c'est l'analyse de ces « nuages de données » qui constitue aujourd'hui un véritable défi. C'est la raison pour laquelle nous mènerons un effort de recherche très important sur le thème de la décentralisation asynchrone d'algorithmes d'apprentissage supervisé et non supervisé « on-line » (ex : algorithmes de consensus, gossip), ainsi que sur les architectures logicielles permettant l'abstraction de cette décentralisation, élaboration d'algorithme d'apprentissage distribué et « on-line » sous des contraintes de capacité explicites (temps de calcul, mémoire, etc.).
Axe 5 : grande dimension - apprentissage et séries/flux de données temporelles
Les techniques de traitement du signal (ex : filtrage, analyse harmonique computationnelle, séparation de sources) sont encore largement méconnues dans le domaine du machine-learning, une connaissance approfondie de ces dernières pourrait conduire au développement d'approches multivariées massives, multi-échelles/fréquentielles à des fins de prédiction/exploration. La rapidité avec laquelle certaines bases de données sont actualisées (finance, e-commerce, Internet...) parfois en temps réel, motive la recherche de méthodes d'apprentissage performantes dans un cadre séquentiel et adaptatif. La capacité à représenter efficacement des données complexes est souvent un aspect clef de l'apprentissage. Au-delà de la recherche d'une formulation mathématique des problèmes d'apprentissage statistique mentionnés, de solutions algorithmiques, d'un cadre de validité théorique pour ces dernières et de preuves expérimentales de concept, les travaux menés s'attacheront à la question du contrôle et de l'évaluation statistique de la performance des approches proposées.