Projets 2020-2021

· by [Fabrice Popineau] · Read in about 5 min · (1044 words) ·

Voici les propositions de projets dans le cadre de la 3ème année du cursus CentraleSupélec pour l’année scolaire 2020-2021.

Projet 1 - Apprentissage automatique probabiliste

Les techniques d’apprentissage automatique permettent de construire des modèles efficaces de classification ou de régression à partir d’un volume important de données. Malheureusement, nombre de ces modèles “ne savent pas ce qu’ils ne savent pas” : quelle que soit la donnée d’entrée, ils feront une prédiction, mais aucune indication de certitude ne sera associée à cette prédiction. On pourrait penser en particulier dans le cas s réseaux de neurones que l’amplitude dans une sortie softmax soit un indicateur de cette certitude, mais il s’avère que c’est un très mauvais indicateur. Même une valeur élevée dans une sortie softmax peut cacher un “je ne sais pas”. Diverses approches ont été proposées pour augmenter des modèles classiques d’apprentissage automatique comme les forêts aléatoires ou les réseaux de neurones artificiels avec une capacité à identifier la probabilité que le résultat du modèle soit correcte. De plus, ceci peut être envisagé face à des datasets bruités ou non. L’objectif du projet est de recenser ces techniques et d’évaluer leur application aux deux thèmes traités dans la chaire : détection de fraude et trading automatique.

Projet 2 - Modèles prédictifs à base d’autoencodeurs

Un grand nombre de stratégies discrétionnaires et automatiques mises en avant dans les ouvrages sur le trading reposent sur la notion de patterns. Ils mettent en jeu aussi bien les séquences de prix bruts que des combinaisons d’indicateurs. La plupart du temps ces patterns codifiés créés par les analystes techniques reposent pour l’essentiel sur des biais de perception. Ceux basés sur des indicateurs techniques ne résistent pas à un backtesting et ceux basés sur des formes purement graphiques sont trop subjectifs pour être quantifiés de façon efficace. Les approches à base d’apprentissage automatique permettent de bâtir des modèles prédictifs qui s’affranchissent de tout biais de perception. L’hypothèse de ce projet est qu’il existe bien des patterns dans les marchés dont seule une fraction possède une capacité prédictive mais que ces derniers sont probablement constitués de microstructures trop complexes pour être identifiées par un humain ou par des algorithmes simples. Certaines approches de l’apprentissage profond, comme les autoencodeurs, permettent d’extraire des représentations latentes de structures complexes. Il ne subsiste alors que des features caractérisant au mieux la variance des données. Ces représentations latentes peuvent ensuite être utilisées en entrée d’autres modèles tels que des classifieurs. Ce projet consiste à combiner des approches d’apprentissage profond à base d’autoencodeurs et autoencodeurs variationnels et de Clustering afin d’extraire des groupes de patterns similaires des séries temporelles mais aussi d’identifier ceux d’entre eux possédant la capacité à prédire le sens du marché avec une précision suffisamment élevée.

Projet 3 - FraudMemory

L’article [1] présente une architecture de détection de fraude très élaborée qui adresse plusieurs aspects du problème, en particulier la dérive conceptuelle, c’est-à-dire le changement d’habitudes de consommation des clients. Cette architecture pour un apprentissage automatique est complexe : elle combine un encodage des données sous forme de graphes, elle utilise des memory networks [2] qui sont une clasparticulière de modèles d’apprentissage ainsi que des mécanismes d’attention. Les résultats présentés dans [1] sont très bons et nous souhaitons les confirmer en réimplémentant ce modèle pour le tester sur des données réelles.

[1] Yang, K., & Xu, W. (2019, janvier 8). FraudMemory : Explainable Memory-Enhanced Sequential Neural Networks for Financial Fraud Detection. https://doi.org/10.24251/HICSS.2019.126

[2] Weston, J., Chopra, S., & Bordes, A. (2014). Memory Networks. ArXiv:1410.3916 [Cs, Stat]. http://arxiv.org/abs/1410.3916

Projet 4 - Extraction de règles à partir d’un modèle appris automatiquement

Les systèmes de détection de fraude aux paiements ont été tout d’abord réalisés en écrivant manuellement des règles. Aujourd’hui, nous disposons de mécanismes puissants d’apprentissage automatique. Nous pouvons créer des systèmes de détection plus sophistiqués. Par exemple, les modèles à base de forêts aléatoires obtiennent de très bonnes performances. Ces modèles construits par apprentissage automatique sont aussi ts opaques. Les opérateurs bancaires souhaiteraient continuer à utiliser des systèmes à base de règles pour leur qualité d’être humainement lisibles, mais bénéficier des apports des systèmes d’apprentissage automatique.

L’objectif du projet va donc consister à évaluer pour différentes méthodes d’apprentissage automatique, la capacité à retraduire un de leurs modèles sous forme de règles. Ceci place le sujet dans le champ de la recherche neuro-symbolique pour ce qui concerne les approches à base de réseaux de neurones. On s’intéressera bien sûr aussi à la perte éventuelle de précision du modèle, puisque la taille de l’ensemble de règles obtenu devra rester dans des limites raisonnables.

Projet 5 - Calcul quantique appliqué au domaine bancaire

Les algorithmes quantiques font usage des propriétés quantiques de la matière. Cela permet dans certains cas d’obtenir un gain en complexité pour la résolution de problèmes conventionnels par rapport à des méthodes classiques. Ce gain en complexité théorique ne présage pas nécessairement de gain concret effectif pour une instance particulière.

Ce projet s’intéresse aux problématiques issues du domaine bancaire que rencontre la société Lusis
détection de fraude, trading automatique, qui sont les thèmes de la chaire, mais aussi d’autres problèmes comme les algorithmes de recommandation. L’objectif du projet consiste à comprendre dans quelle mesure les problèmes sus-cités se prêtent à l’utilisation de techniques quantiques, d’un point de vue à la fois théorique et pratique.

Projet 6 - Processus stochastiques, apprentissage automatique et trading

Des travaux récents cherchent à exploiter les modèles mathématiques que sont les processus ponctuels temporels dans le cadre du trading automatique. Ces modèles mathématiques sont étudiés depuis de nombreuses années dans un cadre probabiliste, mais ils restent très peu étudiés en association avec l’apprentissage profond [1, 2]. Les processus de Hawkes forment une classe particulière de processus ponctuels temporels qui incorporent les événements passés dans la mesurcrante de l’intensité du processus. L’intérêt des processus de Hawkes est de fournir un modèle sous-jacent très général qui permet de les décliner sur une grande variété de phénomènes qui dépassent largement l’évolution des cours de la bourse (phénomènes naturels, épidémiologiques, etc.).

[1] Yan, J., Xu, H., & Li, L. (2019). Modeling and Applications for Temporal Point Processes. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 3227-3228. https://doi.org/10.1145/3292500.3332298

[2] Xu, H. (s. d.). Modeling and Applications for Temporal Point Processes—Part I.