Comparaison des différentes approches de classification automatique des documents textuels.

Loading...
Thumbnail Image

Date

2016

Journal Title

Journal ISSN

Volume Title

Publisher

Université Mouloud Mammeri

Abstract

Historiquement, la croissance du volume de données textuelles comme les livres et les articles dans les bibliothèques durant des siècles a imposé de définir des mécanismes efficaces pour les localiser. Les premières techniques, comme l’indexation et l’utilisation des catégories de classification ont marqué le monde de l’information électronique. D’énormes efforts ont été déployés depuis, comme le montre la littérature, pour développer des approches et des techniques permettant de retrouver l’information voulue effectivement et efficacement à partir de vastes collections de données textuelles. L’envie d’organiser pour simplifier a progressivement évolué vers l’ambition de classifier pour comprendre et, pourquoi pas pour prédire. Cette évolution a conduit à la création d’outils et de stratégies de classification automatique des données. La classification s’apparente toutefois, au problème de l’extraction de la sémantique d’un texte, puisque l’appartenance d’un document à une catégorie est étroitement liée à la signification de ce texte. De plus, les algorithmes de classification ne sont pas capables de traiter directement les textes dans leur forme brute, c’est pourquoi, une étape préliminaire dite Indexation est nécessaire. Cette étape consiste généralement en la représentation de chaque document par un vecteur, dont les composantes sont par exemple les mots contenus dans le texte, afin de le rendre exploitable par les algorithmes d’apprentissage. Une collection de textes peut être ainsi représentée par une matrice dont les lignes sont les termes pondérés les plus représentatifs, et les colonnes sont les documents de cette collection. On distingue deux approches de classifications automatiques : supervisée et non-supervisée. Les deux approches partagent un but commun mais, à la différence de la classification non supervisée où l’ordinateur doit découvrir lui-même des groupes de documents, la classification supervisée suppose qu’il existe déjà une classification de documents, autrement dit, il existe au départ un échantillon dit d’apprentissage dont le classement est connu. Cet échantillon est utilisé pour l’apprentissage des règles de classement. L’objectif de notre travail consiste à faire une comparaison entre les différentes méthodes de classification supervisée, à savoir, la méthode SVM, KNN, l’Arbre de décision et la méthode Naïve Bayes, et ceci, en les appliquant sur deux collections distinctes de documents textuels. A l’issus de ce travail, on va analyser les résultats afin d’évaluer les performances de chaque algorithme dans chaque collection. Et pour la réalisation de cette expérimentation, on utilisera la boite à outil WEKA. Mots clés : indexation, classification automatique, lemmatisation, pondération, SVM, KNN, Naive Bayes, Arbre de décision, Weka

Description

66 f. : ill. ; 30 cm. (+ CD-Rom)

Keywords

Indéxation, Elément d'indéxation, Pondération, Weka, Net beans

Citation

Conduite De Projets Informatiques