Vue d'ensemble de Greenstone

Greenstone est un système complet pour construire et présenter des collections de milliers ou de millions de documents, comprenant du texte, des images, des contenus audio et vidéo.

Les collections

La bibliothèque numérique typique construite avec Greenstone contient de nombreuses collections, organisées individuellement – même si elles ont un air de famille prononcé. Elles sont faciles à maintenir, et on peut facilement y ajouter du contenu et les reconstruire automatiquement.

Il existe plusieurs manières de retrouver de l'information dans la plupart des collections Greenstone. On peut par exemplerechercher des mots particuliersapparaissant dans le corps du texte ou dans une section du document. On peut aussiconsulter des documents par leur titre: il suffit alors de cliquer sur un livre pour le lire. On peut encoreconsulter des documents par thème. Les thèmes représentent les étagères de la bibliothèque: il suffit de cliquer sur une étagère pour en voir les livres. Quand cela a un sens, les documents sont fournis avec une table des matières: on peut alors cliquer sur un chapitre ou sur une sous-section pour en lire le contenu, on peut développer toute la table des matières, ou encore développer tout le document dans la fenêtre de son navigateur (ce qui est utile pour imprimer). Le site web de la bibliothèque numérique de Nouvelle-Zélande (nzdl.org) propose de nombreux exemples de collections.

La page de garde de chaque collection présente l'objectif et la couverture de la collection, et en explique l'organisation. On peut consulter la plupart des collections en y recherchantdes mots-clefs ou en ynaviguant. Lors de recherches, le logiciel Greenstone examine l'ensemble du texte de tous les documents de la collection (ce qui s'appelle une «recherche dans le corps du texte»). Dans la plupart des collections l'utilisateur peut choisir entre plusieurs index, construits à partir de différentes portions des documents. Certaines collections disposent d'un index des documents complets, d'un index des paragraphes, et d'un index des titres, dans lesquels on peut rechercher des mots ou des groupes de mots particuliers. On peut de cette manière retrouver tous les documents contenant un ensemble de mots précis (les mots pouvant s'étaler sur tout le document), tous les paragraphes qui contiennent ce même ensemble de mots (les mots doivent alors tous apparaître dans le même paragraphe), ou tous les documents dont les titres contiennent les mots recherchés (les mots doivent alors se trouver dans les titres du document). On peut rencontrer d'autres index, comme par exemple un index des sections, ou encore un index des en-têtes de sections. Lors de navigations, l'utilisateur examine des listes: liste des auteurs, liste des titres, liste des dates, structures de classification hiérarchiques, etc. Différentes collections proposeront différentes manières de naviguer.

Trouver l'information

Greenstone construit des index portant sur le corps du texte à partir des contenus textuels du document – ce sont des index qui permettent de rechercher tout mot apparaissant dans le texte du document. On peut rechercher dans les index des mots particuliers, des ensembles ou des groupes de mots, et les résultats sont ordonnés en fonction de leur pertinence par rapport à la requête.

Dans la plupart des collections, des données descriptives telles que l'auteur, la date, des mots-clefs, etc., sont associées à chaque document. On appelle ces informations «méta-données». De nombreuses collections de documents contiennent également des index portant sur le texte de certains types de méta-données. De nombreuses collections proposent par exemple un index de recherche dans les titres des documents.

Les utilisateurs peuvent naviguer de manière interactive à travers des listes et des structures hiérarchiques qui sont engendrées à partir des méta-données associées à chaque document de la collection. Les méta-données forment la matière première de la navigation: elles doivent être explicitement fournies, ou bien il doit être possible de les obtenir automatiquement à partir des documents eux-mêmes. Différentes collections proposeront différentes manières de naviguer. Les index de recherche et de navigation sont créés lors d'un processus de «construction», en se basant sur les informations fournies dans le fichier de configuration de la collection.

Greenstone crée toutes ses structures d'index automatiquement à partir des documents et des fichiers qui les accompagnent: rien n'est fait manuellement. Si de nouveaux documents du même format sont disponibles, ils peuvent être automatiquement fusionnés au reste de la collection. En fait, pour la plupart des collections, tout ceci est pris en charge par des processus qui s'exécutent régulièrement, partent à la recherche de nouveaux contenus, et reconstruisent les index – le tout sans aucune intervention manuelle.

Les formats de documents

Les documents originaux sont dans un grand nombre de formats, et sont traduits sous une forme XML standard à l'aide de «greffons» (plugins). Les greffons distribués avec Greenstone sont capables de traiter des documents aux formats texte brut, HTML, Word, PDF, et les messages électroniques (de courrier ou de groupes de discussion). On peut écrire de nouveaux greffons pour de nouveaux types de documents (pour ce faire, il faudra préalablement étudier le Guide du développeur de la bibliothèque numérique Greenstone). Pour construire des structures de navigation à partir de méta-données, on utilise de même un système de «classificateurs». Ces derniers créent des index de navigation de divers types: listes déroulantes, sélecteurs alphabétiques, dates et autres hiérarchies arbitraires. Ici encore, des programmeurs Greenstone peuvent créer de nouvelles structures de navigation.

Documents multimédia et multilingues

Les collections peuvent comprendre du texte, des images, des contenus audio et vidéo. Les contenus non textuels peuvent être reliés aux documents textuels ou accompagnés de descriptions textuelles (telles que les légendes des figures) pour pouvoir être accessibles depuis une recherche dans le corps du texte ou la navigation.

Greenstone utilise partout Unicode, qui est un système standard pour représenter les jeux de caractères des langues du monde. Ceci permet de traiter et de représenter toutes les langues de manière consistante. On a construit des collections avec de l'anglais, de l'arabe, du chinois, de l'espagnol, du français, et du maori. Les collections multilingues intègrent une reconnaissance automatique de la langue, et l'interface est disponible dans toutes les langues mentionnées ci-dessus (entre autres).

Distribuer Greenstone

Les collections sont mises à disposition sur l'Internet ou publiées, sous une forme exactement semblable, sur un cédérom qui s'installe automatiquement sous Windows. Les textes et les index sont compactés, et un protocole CORBA permet de gérer les collections distribuées et les interfaces de requêtes graphiques.

La bibliothèque numérique de Nouvelle-Zélande (nzdl.org) fournit de nombreux exemples de collections, y compris des documents historiques, des informations humanitaires et de développement, des rapports techniques et des bibliographies, des 1#1uvres littéraires, et des magazines.

Sa nature Open Source fait de Greenstone un logiciel facile à compléter, et il bénéficie de l'inclusion de modules sous licence publique générale de GNU pour la recherche dans le corps du texte, la gestion des bases de données, et l'extraction de texte depuis des formats de documents propriétaires. Seule une coopération internationale permettra aux logiciels de bibliothèque numérique de devenir suffisamment complets et de satisfaire les besoins des utilisateurs en richesse comme en souplesse.

Greenstone Wiki

Table of Contents