dimanche 7 janvier 2007

Structuration et description automatique des documents électroniques

1- Notice Bibliographique
Titre de l’article: Structuration et description automatique des documents électroniques : le projet européen METAe, du moteur d’exécution aux outils d’édition
Auteur de l’article: Elisabeth Freyre
Référence de la publication: Culture et recherche n° 100 • janvier - février - mars 2004, pages 7-8
Sujet de l’article: Structuration et description automatique des documents numérisés.
Mots-clés: METAe, projet, européen, métadonnées
Référence: http://www.culture.gouv.fr/culture/editions/r-cr/cr100.pdf

2- Résumé
Le projet METAe est un projet de 14 partenaires de sept pays européens et des Etats-Unis qui a été lancé an 2000. Les partenaires ont développés des outils qui peuvent automatiquement, à partir de la numérisation en mode image d'un texte, structurer logiquement les documents, reconnaître les caractères, générer les métadonnées (descriptives et techniques) et converser les documents dans le format d'échange XML.

Le module OCR a été développé pour les polices de caractères et l'outil de structuration et on a réalisé l'accès XML aux documents numérisés. Les bibliothèques et centres de documentation, ont fourni des échantillons de leurs documents numérisés et de leurs métadonnées. Ils ont travaillé à la définition des spécifications du produit et ils sont faits des tests de l'outil développé. On a travaillé sur des livres et périodiques imprimés au XIXe siècle ainsi que sur la police Fraktur.

METAe a développé d’un outil qui gérer automatiquement tout le processus de la numérisation. Cet outil qui s’appelé docWorks/METAe est commercialisé par une société allemande.

Pendant la numérisation d'un document les différents types de métadonnées sont constitués. Les données de description des documents du catalogue de la bibliothèque sont prises directement. Puis viennent les données administratives avec les informations techniques comme par exemple format du fichier, date de la numérisation etc. et la gestion des droits d'accès au document. Les métadonnées du contenu du document sont générées. Toutes les métadonnées de la reconnaissance sont prises en compte et ils peuvent être utilisé pour la reconstruction d’un document à la demande. L’outil METAe décrire automatiquement la structure d’un document par exemple pour un article il décrire le titre, les auteurs, etc. Puis toutes les métadonnées sont stockées dans une base de données interne.

L’outil METAe permet de contrôler la qualité de tout le processus de la numérisation et la génération des métadonnées et l'analyse physique et logique de la structure. L'application fonction sur une plateforme Windows. A chaque étape, on veut travailler et corriger la qualité. L'outil a des fonctions d'apprentissage automatiquement. La reconnaissance est basée sur un ensemble de règles qui s'appelées « grammaire de livres et périodiques ». Le logiciel de reconnaissance de la police Fraktur a été mis au point qui permettre de réutiliser des fichiers XML.

L'outil METAe est déjà utilisé par la Bibliothèque nationale de Norvège et par les bibliothèques autrichiennes. D’autres institutions en Europe et aux Etats-Unis sont en cours d'installation comme par exemple la Bibliothèque nationale de France pour Gallica.

Avec l'outil METAe la numérisation est plus facile dans le cas d'ergonomie et d'accès, moins cher dans le cas d'automatisation à cause de la génération automatique des métadonnées et la reconnaissance de la structure et faible dans le cas de conservation.

3- Commentaire
Je trouve le projet européen METAe intéressante. Dans le projet on a développés des outils qui peuvent structurer et décrire automatiquement des documents numérisés. C’est un outil qui aide au traitement et à la gestion des documents numérisés. Et ça c’est un avantage pour le professionnelles.