|
| Titre : | Reconnaissance automatique des noms arabes manuscrits anciens | | Type de document : | theses et memoires | | Auteurs : | Farida Ben Belkacem, Auteur ; Amalou Kenza, Auteur ; Soualah, Directeur de thèse | | Editeur : | Tizi Ouzou : UMMTO.FGEI | | Année de publication : | 2011 | | Importance : | 90 p. | | Présentation : | ill. | | Format : | 30cm. | | Note générale : | Bibliogr. | | Langues : | Français | | Mots-clés : | Reconnaissance de caractéres Traitement d'image Modéle Markovcache Réseau de neuronne. | | Résumé : | Depuis son invention il y a plus de 5300 ans [9], l'écriture reste un moyen de communication
privilégié entre les êtres humains. Bien que l'imprimerie créée il y a plus de 550 ans puis
l'informatique aient permis son automatisation, l'écriture manuscrite est loin d'avoir disparu de
notre société et les individus émettent et reçoivent une grande quantité de documents
manuscrits.
Le traitement de masse de ces documents apparaît alors incontournable. Le traitement se
donne pour objectif l'archivage, la recherche, la modification, la réutilisation et la
transmission de l'information contenue dans ces documents. Une grande variété de documents
manuscrits sont candidats à de tels traitement, nous citons entre autre les manuscrits arabes
anciens.
Les manuscrits arabes anciens représentent un patrimoine culturel très précieux. Témoins
d'une civilisation lointaine, ce sont de véritables trésors pour l'humanité. Ces documents se
trouvent, souvent, soumis à une dégradation progressive et irréversible à cause de la
corrosion. Ils sont menacés d'un réel danger de disparition et d'effritement à cause de leur
structure physique (papier ancien, présence de bactéries, …etc.) et du manque de moyens des
lieux de conservation.
Par conséquent, la numérisation et la mise en ligne de ce type de document deviennent une
démarche incontournable. Cette dernière permettra d'accéder à ces ressources sans aucune
contrainte d'espace et de temps.
L'accès aux manuscrits numérisés ne saurait se faire sans un système d'indexation adéquat.
Pour ce faire, le catalogage automatique des manuscrits s'avère indispensable dont le but
d’extraire certaines informations clés. Parmi les informations les plus pertinentes du
catalogue, le nom de l'auteur ou du copiste se trouvent en bonne posture.
Il est donc vivement recherché la reconnaissance des divers noms existants dans le manuscrit
numérisé, ce qui nécessite la mise en oeuvre d’un système de reconnaissance des noms
arabes.
L’objectif de notre travail est la réalisation de système de reconnaissance de noms arabes
manuscrit. Pour ce faire, nous proposons un système basé sur une méthode analytique en
utilisant le modèle de Markov caché (MMC).
Pour mener à bien notre travail, nous avons organisé ce dernier en trois chapitres comme suit :
Dans le premier chapitre, nous présentons les généralités et l’architecture des systèmes de
reconnaissance de caractères, puis nous décrivons les différentes méthodes de reconnaissance
de caractères (Markov Caché, réseau bayésien, réseau de neurone, machine à vecteur de
support) et enfin, nous présentons quelques système existants de reconnaissance de l’écriture
arabe.
Dans le deuxième chapitre, nous présentons l’architecture de notre système de
reconnaissance des noms arabes manuscrits, la description générale et détaillée de ses diverses
parties ainsi que leur fonctionnement et les différents algorithmes utilisés pour réaliser notre
système.
Dans le troisième chapitre, nous décrivons l'implémentation de notre système de
reconnaissance de noms et les essais expérimentaux pour évaluer la performance du système
réalisé.
Enfin, nous présentons nos perspectives après avoir conclu le mémoire et une glossaire pour
définir et expliquer quelques concepts du domaine.
Notre travail se situe dans le cadre de la reconnaissance de l'écriture manuscrite. Nous nous
intéressons en particulier, à la reconnaissance de l'écriture arabe manuscrite hors-ligne. La difficulté de ce sujet a amené plusieurs chercheurs à conduire plusieurs travaux pour remédier
au problème de la reconnaissance. Cependant, nous la recherche demeure loin d'atteindre le
niveau de la capacité humaine dans ce domaine.
L'handicap majeur de la reconnaissance pour les approches existantes est l'opération de la
segmentation. Pour remédier à ce problème nous avons proposé un algorithme qui permet la
segmentation de nom en caractères en éliminant les éléments d’épaisseur uniforme qui relient
ces caractères.
Le système que nous avons proposé est composé de deux sous systèmes: un sous système
d'apprentissage et un sous système de reconnaissance. Le système d'apprentissage a la
capacité de traitement des images, et se charge aussi d’extraction des caractéristiques sous
forme d’un vecteur de description, qui sera destiné à être traité par le modèle de Markov
caché. Trois matrices (A, B, P) représentant chaque lettre sont générées (cf. algorithme de
Baum Welch). Les résultats obtenus seront sauvegardés dans une base de données
d'apprentissage. Chaque lettre est représentée sur la base de données d'apprentissage sous
quatre formes différentes (début, milieu, fin, isolée).
Le sous système de reconnaissance à pour objectif la reconnaissance du nom. Il se charge
d’abord du prétraitement de l'image du nom d’entrée. L'image sera segmentée en lignes puis
en caractères. Chaque caractère passe par le module | | En ligne : | https://dl.ummto.dz/bitstream/handle/ummto/12944/BenBelkacemFarida.pdf?sequence= [...] | | Format de la ressource électronique : | PDF | | Permalink : | ./index.php?lvl=notice_display&id=30684 |
Reconnaissance automatique des noms arabes manuscrits anciens [theses et memoires] / Farida Ben Belkacem, Auteur ; Amalou Kenza, Auteur ; Soualah, Directeur de thèse . - Tizi Ouzou (Tizi Ouzou) : UMMTO.FGEI, 2011 . - 90 p. : ill. ; 30cm. Bibliogr. Langues : Français | Mots-clés : | Reconnaissance de caractéres Traitement d'image Modéle Markovcache Réseau de neuronne. | | Résumé : | Depuis son invention il y a plus de 5300 ans [9], l'écriture reste un moyen de communication
privilégié entre les êtres humains. Bien que l'imprimerie créée il y a plus de 550 ans puis
l'informatique aient permis son automatisation, l'écriture manuscrite est loin d'avoir disparu de
notre société et les individus émettent et reçoivent une grande quantité de documents
manuscrits.
Le traitement de masse de ces documents apparaît alors incontournable. Le traitement se
donne pour objectif l'archivage, la recherche, la modification, la réutilisation et la
transmission de l'information contenue dans ces documents. Une grande variété de documents
manuscrits sont candidats à de tels traitement, nous citons entre autre les manuscrits arabes
anciens.
Les manuscrits arabes anciens représentent un patrimoine culturel très précieux. Témoins
d'une civilisation lointaine, ce sont de véritables trésors pour l'humanité. Ces documents se
trouvent, souvent, soumis à une dégradation progressive et irréversible à cause de la
corrosion. Ils sont menacés d'un réel danger de disparition et d'effritement à cause de leur
structure physique (papier ancien, présence de bactéries, …etc.) et du manque de moyens des
lieux de conservation.
Par conséquent, la numérisation et la mise en ligne de ce type de document deviennent une
démarche incontournable. Cette dernière permettra d'accéder à ces ressources sans aucune
contrainte d'espace et de temps.
L'accès aux manuscrits numérisés ne saurait se faire sans un système d'indexation adéquat.
Pour ce faire, le catalogage automatique des manuscrits s'avère indispensable dont le but
d’extraire certaines informations clés. Parmi les informations les plus pertinentes du
catalogue, le nom de l'auteur ou du copiste se trouvent en bonne posture.
Il est donc vivement recherché la reconnaissance des divers noms existants dans le manuscrit
numérisé, ce qui nécessite la mise en oeuvre d’un système de reconnaissance des noms
arabes.
L’objectif de notre travail est la réalisation de système de reconnaissance de noms arabes
manuscrit. Pour ce faire, nous proposons un système basé sur une méthode analytique en
utilisant le modèle de Markov caché (MMC).
Pour mener à bien notre travail, nous avons organisé ce dernier en trois chapitres comme suit :
Dans le premier chapitre, nous présentons les généralités et l’architecture des systèmes de
reconnaissance de caractères, puis nous décrivons les différentes méthodes de reconnaissance
de caractères (Markov Caché, réseau bayésien, réseau de neurone, machine à vecteur de
support) et enfin, nous présentons quelques système existants de reconnaissance de l’écriture
arabe.
Dans le deuxième chapitre, nous présentons l’architecture de notre système de
reconnaissance des noms arabes manuscrits, la description générale et détaillée de ses diverses
parties ainsi que leur fonctionnement et les différents algorithmes utilisés pour réaliser notre
système.
Dans le troisième chapitre, nous décrivons l'implémentation de notre système de
reconnaissance de noms et les essais expérimentaux pour évaluer la performance du système
réalisé.
Enfin, nous présentons nos perspectives après avoir conclu le mémoire et une glossaire pour
définir et expliquer quelques concepts du domaine.
Notre travail se situe dans le cadre de la reconnaissance de l'écriture manuscrite. Nous nous
intéressons en particulier, à la reconnaissance de l'écriture arabe manuscrite hors-ligne. La difficulté de ce sujet a amené plusieurs chercheurs à conduire plusieurs travaux pour remédier
au problème de la reconnaissance. Cependant, nous la recherche demeure loin d'atteindre le
niveau de la capacité humaine dans ce domaine.
L'handicap majeur de la reconnaissance pour les approches existantes est l'opération de la
segmentation. Pour remédier à ce problème nous avons proposé un algorithme qui permet la
segmentation de nom en caractères en éliminant les éléments d’épaisseur uniforme qui relient
ces caractères.
Le système que nous avons proposé est composé de deux sous systèmes: un sous système
d'apprentissage et un sous système de reconnaissance. Le système d'apprentissage a la
capacité de traitement des images, et se charge aussi d’extraction des caractéristiques sous
forme d’un vecteur de description, qui sera destiné à être traité par le modèle de Markov
caché. Trois matrices (A, B, P) représentant chaque lettre sont générées (cf. algorithme de
Baum Welch). Les résultats obtenus seront sauvegardés dans une base de données
d'apprentissage. Chaque lettre est représentée sur la base de données d'apprentissage sous
quatre formes différentes (début, milieu, fin, isolée).
Le sous système de reconnaissance à pour objectif la reconnaissance du nom. Il se charge
d’abord du prétraitement de l'image du nom d’entrée. L'image sera segmentée en lignes puis
en caractères. Chaque caractère passe par le module | | En ligne : | https://dl.ummto.dz/bitstream/handle/ummto/12944/BenBelkacemFarida.pdf?sequence= [...] | | Format de la ressource électronique : | PDF | | Permalink : | ./index.php?lvl=notice_display&id=30684 |
|