|
| Titre : | Implémentation d'une méthode de clustering de données. CAS : l'algorithme du k-means | | Type de document : | theses et memoires | | Auteurs : | Dehia Bouterfa ; Aliouane Dyhia ; Ali Ait El Hadj, Directeur de thèse | | Editeur : | Tizi Ouzou : UMMTO.FGEI | | Année de publication : | 2010 | | Importance : | 93p. | | Présentation : | ill. | | Format : | 28cm | | Note générale : | Bibliogr. | | Langues : | Français | | Mots-clés : | Dta Mining | | Résumé : | Nous avons tout d'abord commencé par une introduction dans la quelle nous avons dit que :
-L'information est la ressource du XXI siècle.
-Le Data Mining en est un avatar: nouveau champ d'application à l'interface de la statistique et des technologies de l'information (bases de données, intelligence artificielle, etc).
Pour le premier chapitre, nous avons présenté le data mining comme suit :
- La definition de Frawely: " Data Mining is the non trivial process of identifying valid, novel potentially useful, and ultimately understandable patterns in data ".
-Le Data Mining est l'art d'extraire des connaissances à partir des données.
-Les différentes techniques du Data Mining sont: la classification, l'estimation, la prédiction, la segmentation et les règles d'associations.
*La classification consiste à examiner les caractéristiques d'un élément nouvellement présenté afin de l'affecter à une classe d'un ensemble prédéfini.
*L'estimation : contrairement à la classification, le résultat d'une estimation permet d'obtenir une variable continue. Celle-ci est obtenue par une ou plusieurs fonctions combinant les données en entrée.
*La prédiction : elle ressemble à la classification et à l'estimation mais dans une échelle temporelle différente. Tout comme les tâches précédentes, elle s'appuie sur le passé et le présent mais son résultat se situe dans un futur généralement précisé.
*La segmentation: elle crée des groupes homogènes dans la population.
*Les règles d'association: consistent à déterminer les variables qui sont associées.
-Quelques logiciels implémentant le Data Mining: CLEMENTINE de SPSS, WEKA, TANAGRA…
Pour le deuxième chapitre, nous avons présenté la classification :
-Elle regroupe en classe les données ayant des caractéristiques similaires et séparent celles qui sont différentes.
-Une classe est un ensemble d'entités qui sont semblables, alors que les entités provenant de classes différentes sont dissemblables.
-Les deux approches de la classification sont:
La classification supervisée: vise à classer des objets selon des catégories bien définies aux préalables. Ex: K-NN, Arbre de Décision, Simple Bays…
La classification non supervisée (clustering): elle est " non supervisée " car elle fait référence au fait qu'aucun " superviseur " n'est là pour définir à quelle classe appartient telle ou telle donnée.
Pour le troisième chapitre, nous avons présenté le clustering comme suit :
Les différentes méthodes du clustering (classification non supervisée):
Classification hiérarchique (CH):
Les classes sont emboitées de manière hiérarchique les unes dans les autres. On distingue alors:
La CH ascendante: qui part des données seules que l'on regroupe en sous-ensemble, qui sont à leur tour regroupées, et ainsi de suite.
La CH descendante: qui part de l'ensemble de toutes les données et les fractionne en un certain nombre de sous-ensemble, qui est fractionné à son tour en un certain nombre de sous-ensembles, et ainsi de suite .
Classification non hiérarchique:
Dans cette méthode les classes ne forment pas de hiérarchie (elles sont sur le même niveau). L'objectif dans ce type de méthode est alors de déterminer les différentes classes, sans pour autant former une hiérarchie. L'algorithme généralement utilisé est le
K-means.
Pour le quatrième chapitre, nous avons présenté la k-means comme suit :
K-means est une méthode non hiérarchique largement utilisée dans le clustering de données. elle vise à classer les objets en K classe.
Voici maintenant un schéma représentant son algorithme :
Puis nous avons parlé des avantages et limites du k-means :
-La grande popularité de K-means vient de :
Sa simplicité conceptuelle.
Sa rapidité et ses faibles exigences en taille mémoire.
-les inconvénients de la k-means:
L'utilisateur doit choisir la valeur de K : le nombre de classes. Ce choix peut se faire par simple examen visuel dans le cas de données bidimensionnelles, mais il n'en est pas de même pour des données de dimension supérieure.
Pour une valeur donnée de K, les classes obtenues dépendent beaucoup de la configuration initiale des prototypes.
- Pour finir avec les logiciels l'implémentant : R Kmeans, Tanagra, MATLAB K Means…
Pour le dernier chapitre nous avons présenté le langage C puis quelques interfaces de notre application.
Pour finir avec la conclusion suivante :
*Notre mémoire s'inscrit dans le domaine du Data Mining et plus particulièrement le clustering. Nous avons essayé d'implémenter un de ses algorithmes les plus populaires : K-means.
*Après plusieurs essais sur différents jeux de données nous sommes arrivées à la conclusion que les résultats obtenus dépendent de la valeur de K, et un mauvais choix de ce dernier peut conduire à une classification sans rapport avec la réalité. | | En ligne : | D:\CD.THESE.INF\CD.LIC.INF.2010\BOUTERFA.DEHIA-ALIOUANE.DYHIA.PDF | | Format de la ressource électronique : | PDF | | Permalink : | ./index.php?lvl=notice_display&id=31429 |
Implémentation d'une méthode de clustering de données. CAS : l'algorithme du k-means [theses et memoires] / Dehia Bouterfa ; Aliouane Dyhia ; Ali Ait El Hadj, Directeur de thèse . - Tizi Ouzou (Tizi Ouzou) : UMMTO.FGEI, 2010 . - 93p. : ill. ; 28cm. Bibliogr. Langues : Français | Mots-clés : | Dta Mining | | Résumé : | Nous avons tout d'abord commencé par une introduction dans la quelle nous avons dit que :
-L'information est la ressource du XXI siècle.
-Le Data Mining en est un avatar: nouveau champ d'application à l'interface de la statistique et des technologies de l'information (bases de données, intelligence artificielle, etc).
Pour le premier chapitre, nous avons présenté le data mining comme suit :
- La definition de Frawely: " Data Mining is the non trivial process of identifying valid, novel potentially useful, and ultimately understandable patterns in data ".
-Le Data Mining est l'art d'extraire des connaissances à partir des données.
-Les différentes techniques du Data Mining sont: la classification, l'estimation, la prédiction, la segmentation et les règles d'associations.
*La classification consiste à examiner les caractéristiques d'un élément nouvellement présenté afin de l'affecter à une classe d'un ensemble prédéfini.
*L'estimation : contrairement à la classification, le résultat d'une estimation permet d'obtenir une variable continue. Celle-ci est obtenue par une ou plusieurs fonctions combinant les données en entrée.
*La prédiction : elle ressemble à la classification et à l'estimation mais dans une échelle temporelle différente. Tout comme les tâches précédentes, elle s'appuie sur le passé et le présent mais son résultat se situe dans un futur généralement précisé.
*La segmentation: elle crée des groupes homogènes dans la population.
*Les règles d'association: consistent à déterminer les variables qui sont associées.
-Quelques logiciels implémentant le Data Mining: CLEMENTINE de SPSS, WEKA, TANAGRA…
Pour le deuxième chapitre, nous avons présenté la classification :
-Elle regroupe en classe les données ayant des caractéristiques similaires et séparent celles qui sont différentes.
-Une classe est un ensemble d'entités qui sont semblables, alors que les entités provenant de classes différentes sont dissemblables.
-Les deux approches de la classification sont:
La classification supervisée: vise à classer des objets selon des catégories bien définies aux préalables. Ex: K-NN, Arbre de Décision, Simple Bays…
La classification non supervisée (clustering): elle est " non supervisée " car elle fait référence au fait qu'aucun " superviseur " n'est là pour définir à quelle classe appartient telle ou telle donnée.
Pour le troisième chapitre, nous avons présenté le clustering comme suit :
Les différentes méthodes du clustering (classification non supervisée):
Classification hiérarchique (CH):
Les classes sont emboitées de manière hiérarchique les unes dans les autres. On distingue alors:
La CH ascendante: qui part des données seules que l'on regroupe en sous-ensemble, qui sont à leur tour regroupées, et ainsi de suite.
La CH descendante: qui part de l'ensemble de toutes les données et les fractionne en un certain nombre de sous-ensemble, qui est fractionné à son tour en un certain nombre de sous-ensembles, et ainsi de suite .
Classification non hiérarchique:
Dans cette méthode les classes ne forment pas de hiérarchie (elles sont sur le même niveau). L'objectif dans ce type de méthode est alors de déterminer les différentes classes, sans pour autant former une hiérarchie. L'algorithme généralement utilisé est le
K-means.
Pour le quatrième chapitre, nous avons présenté la k-means comme suit :
K-means est une méthode non hiérarchique largement utilisée dans le clustering de données. elle vise à classer les objets en K classe.
Voici maintenant un schéma représentant son algorithme :
Puis nous avons parlé des avantages et limites du k-means :
-La grande popularité de K-means vient de :
Sa simplicité conceptuelle.
Sa rapidité et ses faibles exigences en taille mémoire.
-les inconvénients de la k-means:
L'utilisateur doit choisir la valeur de K : le nombre de classes. Ce choix peut se faire par simple examen visuel dans le cas de données bidimensionnelles, mais il n'en est pas de même pour des données de dimension supérieure.
Pour une valeur donnée de K, les classes obtenues dépendent beaucoup de la configuration initiale des prototypes.
- Pour finir avec les logiciels l'implémentant : R Kmeans, Tanagra, MATLAB K Means…
Pour le dernier chapitre nous avons présenté le langage C puis quelques interfaces de notre application.
Pour finir avec la conclusion suivante :
*Notre mémoire s'inscrit dans le domaine du Data Mining et plus particulièrement le clustering. Nous avons essayé d'implémenter un de ses algorithmes les plus populaires : K-means.
*Après plusieurs essais sur différents jeux de données nous sommes arrivées à la conclusion que les résultats obtenus dépendent de la valeur de K, et un mauvais choix de ce dernier peut conduire à une classification sans rapport avec la réalité. | | En ligne : | D:\CD.THESE.INF\CD.LIC.INF.2010\BOUTERFA.DEHIA-ALIOUANE.DYHIA.PDF | | Format de la ressource électronique : | PDF | | Permalink : | ./index.php?lvl=notice_display&id=31429 |
|