Avis de soutenance de thèse de doctorat en-sciences mathématiques de Mme. ABDOUCHE Safia
Mme. ABDOUCHE Safia
Soutiendra publiquement sa thèse de Doctorat en Sciences en Mathématiques
Intitulé: << Les modèles prédictifs de machine learning. >>
Le: 12/06/2025 à 09h30, à la salle de conférences de la faculté des sciences de l’UMMTO (Campus Hasnaoua II, dit aussi Bastos).
Directeur de Thèse: Pr. BEDOUHENE Fazia
Co-encadreur: Pr Gasmi Farid
Devant le jury d’examen suivant :
M. HAMAZ Abdelghani | Professeur | UMMTO | Président |
Mme. BEDOUHENE Fazia | Professeur | UMMTO | Directrice de thèse |
M. GASMI Farid | Professeur | UTC, TSE, France | Co-encadreur |
M. ZOUGAB Nabil | Professeur | U. Bejaia | Examinateur |
M. BOUALEM Mohammed | Professeur | U. Bejaia | Examinateur |
Mme. ZIDELMAL Zahia | Professeure | UMMTO | Examinatrice |
Télécharger : Avis de soutenance ABDOUCHE Safia pdf
Abstract
This thesis focuses on machine learning predictive models for regression. The objective is to reconcile theoretical rigor and empirical performance in the face of the growing challenges of prediction in real-world contexts marked by increasing data volume and complexity. After a presentation of the mathematical framework of machine learning and key concepts of statistical learning (real risk, empirical risk, bias/variance trade-off, regularization, cross-validation, etc.), several algorithms are studied: linear models, nonlinear algorithms (decision trees, SVM, neural networks) and ensemble methods (bagging, boosting, stacking).
A major contribution of this thesis lies in the development of two three-layer stacking architectures: a recursive architecture and an iterative one. These architectures have been rigorously evaluated on several real-world datasets, exploiting a combination of heterogeneous base models and optimized meta-models. The results obtained demonstrate superior performance compared to classical methods and even other ensemble methods such as random forests and the XGBoost algorithm, while offering increased flexibility to adapt to various contexts. This thesis also highlights the importance of base model diversity in ensemble approaches, a key criterion to guarantee the efficiency and robustness of the ensemble model. Ultimately, this work can be further developed by exploring even more complex architectures, integrating recent techniques from deep neural networks for the automatic optimization of stacking architectures.
Résumé
Cette thèse porte sur les modèles prédictifs de machine learning pour la régression. L’objectif est de concilier rigueur théorique et performance empirique face aux défis croissants de la prédiction dans des contextes réels marqués par l’augmentation du volume et de la complexité des données. Après une présentation du cadre mathématique du machine learning et des concepts clés de l’apprentissage statistique (risque réel, risque empirique, compromis biais/variance, régularisation, validation croisée, etc.), plusieurs algorithmes sont étudiés : modèles linéaires, algorithmes non linéaires (arbres de décision, SVM, réseaux de neurones) et les méthodes ensemblistes (bagging, boosting, stacking).
Une contribution majeure de cette thèse réside dans le développement de deux architectures de stacking à trois couches : une architecture récursive et une autre itérative. Ces architectures ont été rigoureusement évaluées sur plusieurs jeux de données réelles, en exploitant une combinaison de modèles de base hétérogènes et de méta-modèles optimisés. Les résultats obtenus démontrent des performances supérieures à celles des méthodes classiques et même aux autres méthodes d’ensemble comme les forêts aléatoires et l’algorithme XGBoost, tout en offrant une flexibilité accrue pour s’adapter à des contextes variés. Cette thèse souligne également l’importance de la diversité des modèles de base dans les approches ensemblistes, critère clé pour garantir l’efficacité et la robustesse du modèle global. Au final, ces travaux pourront être approfondis en explorant des architectures encore plus complexes, en intégrant des techniques récentes issues des réseaux neuronaux profonds pour l’optimisation automatique des architectures de stacking.