Hugo Thimonier PhD thesis defense

| September 30, 2024

The thesis is in the Machine Learning domain and its title is “Advancing Anomaly Detection in Tabular Data: A Case-Study on Credit Card Fraud Identification”, under the supervision of Bich-Liên DOAN, Fabrice POPINEAU and Arpad RIMMEL.

The defense will happen on Monday, September 30th at 14:00 in the room 435 of the LISN laboratory. The defense will be in English. For those who cannot attend in person, there will be a visio-conference whose link will be found at https://popineau.pages.centralesupelec.fr/soutenance-hugo-thimonier/ .

The jury members are:

  • Alain CELISSE, rapporteur.
  • Marius KLOFT, rapporteur.
  • Mazen ALAMIR, examinateur.
  • Louise TRAVÉ-MASSUYÈS, examinatrice.
  • Gaël VAROQUAUX, examinateur.

Abstract:

Recent advances in the field of Machine Learning has enabled banks to rely on this class of algorithms to build or augment their detection systems. Nevertheless, applying machine learning methods to identify frauds still remains challenging due to (i) the inherent imbalance in the available datasets and (ii) the possibility of distribution shift. Weakly-supervised anomaly detection (AD) methods appear as a possible solution as they should be robust to both challenges. In this work, we propose two novel weakly-supervised AD methods targeted for tabular data. We then test AD methods on a private online credit card payment dataset and compare their performance to Gradient Boosted Decision Trees (GBDT). We observe a significant performance gap between GBDT and AD methods, in favor of GBDT. Our experiments supports the idea that although promising, weakly-supervised AD method need further improvements to compete with GBDT for the task of fraud detection.

Résumé:

Les progrès récents dans le domaine de l’apprentissage automatique ont permis aux banques de s’appuyer sur ce type d’algorithmes pour renforcer leurs systèmes de détection de fraudes aux paiements par carte bancaire. Néanmoins, utiliser ces méthodes pour identifier les fraudes reste un défi en raison (i) du déséquilibre de classe et (ii) du changement de distribution. Les méthodes de détection d’anomalies (AD) apparaissent comme une solution potentielle en ce qu’elles sont insensibles à ces deux caractéristiques. Nous avons donc proposé deux nouvelles méthodes d’AD pour les données tabulaires. Puis, nous avons testé différentes méthodes d’AD sur un jeu de données de paiements par carte bancaire, et avons comparé leurs performances à celles des Gradient Boosted Decision Trees (GBDT). Nous observons un écart de performance significatif en faveur des GBDT, suggérant que les méthodes d’AD nécessitent davantage d’investigations pour concurrencer les GBDT pour la détection de fraudes.