Créer une collection Greenstone

La voie la plus simple pour créer de nouvelles bibliothèques est d'utiliser "Greenstone Librarian Interface" (l'Interface Bibliothécaire de Greenstone), GLI. Cela vous permet de rassembler une série de documents, importer ou assigner des méta-données, de les intégrer dans une collection Greenstone. Elle permet cinq activités de base qui peuvent être interpolées mais qui sont normalement entreprises dans cet ordre:

Copier le document de l'espace fichiers de l'ordinateur, y compris les collections existantes, vers la nouvelle collection. Toute méta-donné existante reste "attachée" à ces documents. Des documents peuvent être collectés à partir du web par le biais d'une fonctionnalité de mirroring incorporée.
Enrichir les documents en ajoutant des métadatas supplémentaires à des documents individuels ou des groupes de documents.
Concevoir la bibliothèque en déterminant son aspect et les fonctionnalités d'accès qu'elle permet.
Mettre sur pied la bibliothèque en utilisant Greenstone.
Prévisualiser la bibliothèque nouvellement créée, qui aura été installée dans votre page Greenstone en tant que collection ordinaire.

"Librarian Interface" (l'Interface Bibliothécaire) vous permet d'ajouter aux documents ce qu'on appelle méta-données "externes", des méta-données rattachées au document dans son ensemble. Mais les documents ont souvent besoin d'être structurés en sections et sous sections, et des méta-données "internes" peuvent être associées à chaque partie. Dans Greenstone, des documents sources peuvent être "marqués" avec cette information, ce qui sera expliqué dans la section tagging_document_files.

Enfin, une autre alternative pour la création de collections est fournie par le Collecteur "Collector" qui aide à confectionner de nouvelles collections, de modifier ou d'ajouter des éléments à des collections existantes, ou de supprimer des collections. Dans la plupart des cas, le "Librarian Interface" (l'Interface Bibliothécaire), plus recent, devrait être utilisé en lieu et place du collecteur. Ceci sera décrit dans la section the_collector.

Pour utiliser la puissance entière de Greenstone pour construire des collections avancées il faut aussi lire chapitre getting_the_most_out_of_your_documents du Guide de développeur.

l'Interface du Bibliothécaire

Examinons un exemple simple pour expliquer le fonctionnement de l'Interface du Bibliothécaire de greenstone. Les figures de <imgref figure_starting_a_new_collection> à <imgref figure_previewing_the_newly_built_collection> sont des captures d'écran en divers points durant l'interaction. Cet exemple utilise les documents de la collection DLS "Development Library subset" qui est distribuée avec Greenstone. Pour des besoins de l'exposé, la procédure prend la forme d'un passage simple à travers les étapes énumérées ci-dessus. Un modèle d'utilisation plus réaliste pour les utilisateurs est de passer successivement de l'avant à l'arriière à travers les différentes étapes au fur et à mesure que l'exécution se poursuit.

L'interface bibliothécaire peut fonctionner dans un de 4 mode: Assistant Bibliothécaire, Bibliothécaire, Spécialiste des Systemes Bibliothécaires, et Expert. Ces modes cotrolent les niveaux de détails dans l'interface, et peut etre changé à travers 'Préférences' par le menu 'Fichier'. Pour consulter cette partie, il faut que l'interface soit dans le mode pré-construit, Bibliothécaire.

Démarrage

Lancer le "Librarian Interface" (l'Interface Bibliothécaire) sous Windows en sélectionnant "Greenstone Digital Library" (Bibliothèque numérique de Greenstone) dans la section des Programmes du menu "Démarrer" et en choisissant "Librarian Interface". SI vous utilisez Unix, taper plutôt:

cd ~/gsdl cd gli ./gli.sh

où /gsdl est le répertoire contenant le système Greenstone. Pour commencer, on peut soit ouvrir une collection existante, soit en débuter une nouvelle. La figure <imgref figure_starting_a_new_collection> montre l'utilisateur en train de débuter une nouvelle collection. Il a sélectionné "Nouveau" dans le menu Fichier et a commencé à fournir les informations générales sur la collection – son titre, l'adresse électronique de la personne responsable et une description sommaire du contenu, dans une fenêtre pop up. Le titre de la collection est une courte expression utilisée dans la bibliothèque numérique pour identifier le contenu de la collection : les collections existantes ont des noms tels que Bibliothèque de la nourriture et de l'alimentation, Bibliothèque de l'environnement Mondial et ainsi de suite. Lorsque vous tapez le titre, le système attribue un identificateur mnémotechnique unique, le "nom" de la collection, pour un usage interne (Vous pouvez le changer si vous voulez). L'adresse électronique précise le premier point de contact pour tout problème rencontré avec la collection.

La description sommaire est une déclaration qui décrit les principes qui gouvernent ce qui est inclus dans la collection. Il apparaît sous le titre "À propos de cette collection" sur la page initiale de la collection.

A ce point, l'utilisateur décide soit de baser la nouvelle collection sur la structure d'une collection existante, soit de créer une collection d'un type totalement nouveau. Dans la figure <imgref figure_starting_a_new_collection>, il a choisi de la baser sur la collection DLS " Development Library Subset ". Cela implique que la série de méta-données "DLS" qui est utilisée dans cette collection sera utilisée dans la nouvelle collection. (En fait, cette série de méta-données a été utilisée pour mettre sur pied plusieurs collections Greenstone qui partagent une structure et une organisation communes mais avec un contenu différent, comme les collections DLS "Development Library Subset" et la collection de démonstration fournies comme modèles avec Greenstone.

Le jeu de méta-données de DLS contient les éléments suivants:

Titre
Sujet
Langue
Organisation
Mot-clé (c.-à-d. "Howto")

(En plus, il y a un élément de méta-donnée appelé "AZList" qui est utilisé pour déterminer la case de la liste alphabétique qui contient le titre du document, avec des valeurs comme "A-B" ou "C-D-E". Ceci est utilisé pour avoir un contrôle précis sur les divisons à l'intérieur de la liste. Pour la plupart des autres collections il est absent, et Greenstone attribue lui-même les récipients.)

Si, au contraire, l'utilisateur avait choisi utilise "Nouvelle collection" à ce stade, il lui est demandé de sélectionner jeux de méta-données qui doivent être utilisés dans la nouvelle collection. Trois jeux standard sont pré-fournis: "Dublin Core", le jeu de méta-données DLS mentionnée ci-dessus et un jeu qui comprend les éléments de méta-données extraits automatiquement par Greenstone à partir des documents de la collection. L'utilisateur peut aussi créer de nouveaux jeux de méta-données en utilisant un paneau popup activé à travers le menu "metadata" (méta-données).

Plusieurs jeux de méta-données différents peuvent être associés à la même collection; le système les maintient distinctes (si bien que par exemple, des documents peuvent avoir à la fois un titre "Dublin Core" et un titre DLS). Les différents jeux sont clairement distinguées dans l'interface. Dans les coulisses, les jeux de méta-données sont représentés en XML.

Assemblage du matériel source

Après avoir cliqué sur le bouton "OK" du popup "Nouvelle collection", les parties restantes de l'interface, qui étaient grises avant, deviennent actives. Le panneau "Rassembler", sélectionné par l'onglet éponyme en haut de la figure <imgref figure_starting_a_new_collection>, est initialement affiché. Ceci permet à l'utilisateur d'explorer l'espace de fichiers local et les collections existantes tout en rassemblant les documents choisis pour la nouvelle collection. Le panneau est divisé en deux sections, celle de gauche pour naviguer parmi les structures existantes et celle de droite pour les documents dans la collection.

Les opérations disponibles à cette étape sont:

Navigation dans la hiérarchie de la structure existante des fichiers, et dans celle qui est en cours de création, de la manière usuelle.
"Glisser-coller" de fichiers dans la nouvelle collection.
Sélection multiple de fichiers.
"Glisser-coller" de sous-hiérarchies entières.
Suppression de documents de la collection naissante.
Création de nouvelles sous-hiérarchies à l'intérieur de la collection.
Filtrage des fichiers visibles aussi bien dans le système de fichiers local que dans la collection; filtrage basé sur des groupes prédéterminés ou sur des termes contenus dans des fichiers.
Invocation du programme approprié pour afficher les contenus du fichier sélectionné en le double-cliquant.

Une attention particulière est prise pour traiter les collisions de noms identiques quand des fichiers de même nom dans différentes parties de la structure de répertoires de l'ordinateur sont copiés dans le même répertoire de la collection.

Dans la figure <imgref figure_exploring_the_local_file_space>, l'utilisateur utilise l'affichage interactif de l'arborescence des fichiers pour explorer le système local de fichiers. A ce stade, la collection sur la droite est vide; l'utilisateur la remplit en opérant un "glisser-coller" des fichiers d'intérêt du panneau de gauche vers le panneau de droite. De tels fichiers sont "copiés" plutôt que "déplaces": de cette façon, le système de fichiers original n'est pas perturbé. Les techniques usuelles de sélection multiple, de "glisser-coller", de structuration de la nouvelle collection en créant des sous-répertoires et de suppression de fichiers en les déplaçant vers la corbeille, sont toutes disponibles.

Les collections existantes sont représentées par un sous-répertoire à gauche appelé "Collections Greenstone", qui peut être ouvert et exploré comme tout autre répertoire. Cependant, les documents qui s'y trouvent diffèrent des fichiers ordinaires parce qu'ils ont des méta-données qui leurs sont attachées et ceci est conservé quand ils sont déplacés vers une nouvelle collection. Des conflits peuvent arriver lorsque des méta-données ont été assignées en utilisant un jeu de méta-données différent de celui en cours d'utilisation, et il revient à l'utilisateur de les résoudre. Dans la figure <imgref figure_importing_existing_metadata>, l'utilisateur a sélectionné des documents à partir de la collection existante et les a ajoutés à la nouvelle collection. La fenêtre pop up explique que l'organisation des éléments de méta-données ne peut pas être automatiquement importée, et demande à l'utilisateur soit de sélectionner un jeu de méta-données et de cliquer sur "Ajouter" pour ajouter l'élément de méta-données à ce jeu¹⁾, soit de choisir un jeu de méta-données, puis un élément et ensuite cliquer sur "Fusionner" pour renommer l'ancien élément de méta-donnée en l'élément nouveau en fusionnant les deux. Les méta-données dans les documents suivants de la même collection subiront la même manipulation.

Lorsque des ensembles importants de fichiers sont sélectionnés, déposés par un "glisser-coller" dans la nouvelle collection, l'opération de copie peut prendre quelque temps surtout quand il y a conversion de méta-données. Pour indiquer la progression de l'opération, l'interface montre le fichier qui est en train d'être copié et le pourcentage de fichiers déjà traités.

Des fonctionnalités spéciales sont fournies pour le traitement de gros jeux de fichiers. Par exemple, l'utilisateur peut choisir de filtrer l'arborescence des fichiers pour afficher seulement certains fichiers, en utilisant un menu déroulant de types de fichier affiché en dessous des arborescences. Dans la figure <imgref figure_filtering_the_file_trees>, on montre seulement les fichiers HTM et HTML (et seuls ces fichiers seront copiés par l'opération "glisser-coller".

Enrichir les documents

La prochaine étape dans la construction d'une collection consiste à enrichir les documents en y ajoutant des méta-données. L'onglet "Enrichir" affiche un nouveau panneau d'information (figure <imgref figure_assigning_metadata_using_enrich_view>), qui montre l'arborescence de documents représentant la collection sur la gauche, et permet, sur la droite, l'ajout de méta-données datas à des documents individuels ou des groupes de documents.

Les documents qui sont copiés durant la première étape viennent avec des méta-données quelcoques qui leurs sont associées. Si un document est une partie de la collection Greenstone, des méta-données précédemment définies sont transférées vers la nouvelle collection. Il est évident que la nouvelle collection peut avoir un jeu différente de méta-données ou, peut être tout juste un sous-ensemble des méta-données définies, et seules les méta-données qui appartiennent au jeu de la nouvelle collection sont transférées. La résolution de tels conflits peut nécessiter l'intervention de l'utilisateur par le biais d'un dialogue supplémentaire (figure <imgref figure_importing_existing_metadata>). Tous les choix faits sont enregistrés et appliqués pour des copies de fichiers ultérieures.

Le panneau Enrich permet l'assignation de valeurs de meta-données aux documents de la collection. Par exemple, de nouvelles valeurs peuvent être ajoutées au jeu de valeurs déjà existantes pour un élément. Si les valeurs de l'élément ont une structure hiérarchique, la structure peut être étendue de la même manière.

Des valeurs de méta-donnée peuvent aussi être assignés à des répertoires, exactement de la même manière. Les documents dans ces répertoires pour lesquels cette méta-donnée n'est pas spécifiée, héritent les valeurs de la méta-donnée. Cependant, elles peuvent être écrasées par la suite en fournissant des valeurs différentes pour ces documents.

Les opérations à ce stade comprennent:

Assignation de valeurs de méta-données nouvelles ou existente aux documents.
Assignation de méta-donnée à un document individuel.
Assignation de méta-donnée à un répertoire ( ceci est hérité par tous les documents dans le répertoire, y compris ceux qui sont des sous-répertoires.
Assignation de méta-donnée hiérarchique dont la structure peut être mise à jour de façon dynamique si cela est nécessaire.
Edition et mise à jour de méta-donnée assignée.
Revue de méta-données assignées à une sélection de fichiers et répertoires.

Pour notre exemple, dans la figure <imgref figure_assigning_metadata_using_enrich_view> l'utilisateur a sélectionné le dossier ec121e et a assigné "Ec courier" comme son organisation de méta-données. Les boutons pour mettre à jour et supprimer les méta-données sont activées suivant les sélections effectuées.

Durant cette phase d'enrichissement, en fait à n'importe quel autre moment, l'utilisateur peut choisir d'afficher toutes les méta-données qui ont été assignées aux documents de la collection. Ceci est fait en sélectionnant une série de documents et en choisissant "Méta-données assignées" à partir du menu des jeux de méta-données, ce qui ouvre une fenêtre popup comme celle de la figure <imgref figure_viewing_all_metadata_for_selected_files> qui montre les méta-données sous forme d'un tableau. Pour les grandes collections, il est utile de pouvoir afficher les méta-données associées à certains types de documents seulement, et quand l'utilisateur a spécifié un filtre de fichiers comme mentionné ci-dessus, seuls les documents sélectionnés sont visibles dans l'affichage des méta-données.

Le panneau dans la figure <imgref figure_editing_the_metadata_set> permet à l'utilisateur d'éditer les jeux de méta-données. Ici, l'utilisateur regarde l'élément "Subject" du jeu DLS. Les valeurs de cet élément forment une hiérarchie, et l'utilisateur est en train d'examiner et peut être de changer la liste des valeurs qui lui sont assignées. Le même panneau permet de changer le "profil" pour la mise en correspondance des éléments d'un jeu de méta-données l'autre. Ce profil est créé au cours de l'importation de documents à partir de collections qui ont des méta-données pré-assignées.

Conception de la collection

Le panneau de conception (figure <imgref figure_designing_the_collection>—<imgref figure_configuring_arguments_to_a_plug-in>) permet la spécification de la structure, l'organisation et la présentation de la collection qui est en train d'être créée. Comme déjà noté, le résultat de ce processus est enregistré dans le fichier de configuration de la collection "collection configuration file", qui est le moyen pour Greenstone d'exprimer les fonctionnalités requises par une collection. Cette étape comprend une série d'écrans d'interaction séparés, chacun traitant un aspect de la conception de la collection. En effet, il sert d'équivalent graphique à l'opération usuelle d'édition manuelle du fichier de configuration.

Les opérations comprennent:

Revue et édition de méta-données de niveau collection, telles que titre, auteur et accès public à la collection.
Définition des indexes de texte complet à construire.
Création de sous-collections et construction d'indexes à leur allouer.
Ajout ou suppression de support de langues d'interface prédéfinies.
Construction d'une liste de plugins à utiliser, et leurs arguments.
Présentation de la liste à l'utilisateur pour revue et modification.
Configuration de plugins individuels.
Construction d'une liste de "classificateurs", leurs arguments, affectation et configuration.
Affectation de chaînes de formatage à divers contrôles de la collection, en vue de changer son apparence.
Revue des jeux de méta-données utilisés dans la collection ainsi que leurs éléments.

Dans la figure <imgref figure_designing_the_collection>, l'utilisateur a cliqué sur l'onglet "Conception" et étudie les informations générales sur la collection, entrées lors de la création de la nouvelle collection. A gauche, sont listés les différentes facettes que l'utilisateur peut configurer : Général, Plug-ins de document , Type de recherche, Indexes de recherche, Indexes de partition, Recherche inter-collection, Classificateurs de navigation, Fonctionnalités de formatage, Traduction de texte, Jeux de méta-données. L'apparence et la fonctionnalité varient entre celles-ci. Par exemple, en cliquant sur Plug-in, on a l'écran de la figure <imgref figure_specifying_which_plug-ins_to_use> qui vous permet d'ajouter, de supprimer ou de configurer des plugins, et de changer l'ordre dans lequel les plugins sont appliqués aux documents.

Les plugins et les classificateurs disposent de plusieurs arguments ou "Options" que l'utilisateur peut fournir. La boîte de dialogue dans la figure <imgref figure_configuring_arguments_to_a_plug-in> montre l'utilisateur précisant des arguments à certains plugins. Les champs grisés deviennent actifs quand l'utilisateur ajoute l'option en cliquant sur la case à cocher se trouvant à côté. Puisque Greenstone est un système open-source en croissance continuelle, le nombre d'options tend à augmenter au fur et à mesure que les développeurs ajoutent de nouvelles fonctionnalités. Pour aider à y faire face, Greenstone a un programme fonctionnel "Plug-in information " qui liste les options disponibles pour chaque plugin, et le "Librarian Interface" (l'Interface Bibliothécaire) l'invoque automatiquement pour déterminer quelle option montrer. Ceci permet à l'interface interactive de l'utilisateur de suivre automatiquement les développements dans le logiciel.

Construction de la collection

Le panneau "Créer" (figure <imgref figure_getting_ready_to_create_new_collection>) est utilisé pour construire une collection basée sur les documents et d'assigner des méta-données. Le plus gros du travail est fait par le code Greenstone lui-même. L'utilisateur contrôle le déroulement externe à travers une série d'écrans interactifs, chacun traitant les arguments fournis à une certaine étape du processus de création.

L'utilisateur observe la construction en cours à travers une fenêtre qui montre non seulement le texte génèré par les scripts d'importation et de construction d'index, mais aussi par les barres de progression qui indiquent le degré global d'exécution de chaque script.

La figure <imgref figure_getting_ready_to_create_new_collection> montre le "Create View" (Affichage Créer). Des options, pouvant être appliquées pendant la création de ce processus, sont montrées en haut. L'utilisateur sélectionne les valeurs appropriées pour les options. La figure illustre un popup "tool tip" (boîte à outils) qui est disponible à travers l'interface pour expliquer la fonction de chaque argument.

Lorsqu'il est satisfait avec ces arguments, l'utilisateur clique "Construire collection". Greenstone affiche continuellement un texte qui indique le déroulement et ceci est montré par le biais d'une barre de progression plus informative.

Aperçu

Le bouton "Prévisualiser la Collection" (figure <imgref figure_getting_ready_to_create_new_collection>) est utilisé pour visualiser la collection qui a été créée. L'appui sur ce bouton initiera la page web hebergeant cette collection (figure <imgref figure_previewing_the_newly_built_collection>). En pratique, l'aperçu montre souvent des défauts dans la conception de la collection ou sur les valeurs individuelles de méta-données, et l'utilisateur retourne souvent aux étapes précédentes pour les corriger. Ce bouton devient actif une fois que la collection a été créée. La collection nouvellement créée sera aussi installée dans votre page d'accueil Greenstone comme une des collections normales.

Aide

L'aide en ligne est toujours disponible et elle est obtenue en utilisant l'élément "Aide" situé à droite de la principale barre de menu, en haut de chacune des figures. Ceci ouvre un fichier hiérarchiquement structuré du texte d'aide, et il est tenu compte du contexte courant de l'utilisateur pour mettre en relief la section qui est appropriée à l'étape actuelle de l'interaction. En plus, comme noté ci-dessus, à chaque fois que la souris est maintenue sur tout objet interactif, une petite fenêtre popup apparaît afin de donner un "tool tip" textuel comme illustré vers le bas de la figure <imgref figure_getting_ready_to_create_new_collection>.

L'interface bibliothécaire du Guide d'Utilisateur

&chap_gli;

Le balisage des fichiers de documents

Les documents source ont souvent besoin d'être structurés en sections et sous-sections, et il faut communiquer cette information à Greenstone de sorte qu'il puisse puisse conserver la structure hiérarchique des documents. On peut également associer des méta-données – telles que son titre – à chaque section et sous-section.

Les documents source d'un processus de reconnaissance optique de caractères (ROC) sont typiquement un ensemble de fichiers de traitement de texte, y compris des images. S'ils sont représentés sous la forme de fichiers Microsoft Word, on peut les importer dans Greenstone en utilisant le greffon Word. On peut aussi les convertir en HTML et les importer dans Greenstone en utilisant le greffon HTML.

Dans les deux cas, on peut indiquer la structure hiérarchique d'un document en insérant des balises dans le texte comme suit:

<!--
<Section>
<Description>
<Metadata name="Title"> Assurer le respect des droits de l'homme pour les pauvres: stratégies pour atteindre les cibles de développement international </Metadata>
</Description>
-->

(texte de la section)

<!--
</Section>
-->

On utilise les marqueurs%!– … –%car ils dénotent des commentaires en HTML; ces balises de section n'auront donc aucun impact sur la mise en forme du document. Il faut inclure ces autour des balises de sections, même si le document sur lequel on travaille n'est pas de l'HTML (si par exemple il s'agit d'un fichier de type Microsoft Word).

On peut spécifier d'autres types de méta-données dans la portion Description (située entre les balises<Description>et</Description>), mais ce n'est pas le cas du style de collection décrit ici.

Il est important de se rappeler que l'on crée une table des matières hiérarchique lorsque l'on insère des balises de sections dans le document. Cela signifie qu'on peut imbriquer des sections dans d'autres sections. En fait, il faut imbriquer toutes les sections dans une grande section qui recouvre l'ensemble du document.

L'exemple suivant illustre le cas d'un document composé de deux chapitres, dont le second contient deux sous-sections. Vous trouverez des exemples concrets de documents source balisés de cette manière dans les documents source des collections Demo et DLS.

<!-- <Section> <Description> <Metadata name="Title">Mon document</Metadata> </Description> <Section> <Description> <Metadata name="Title">Chapitre 1</Metadata> </Description> -->
(text du chapitre 1)
<!-- </Section> <Section> <Description> <Metadata name="Title">Chapitre 2</Metadata> </Description> <Section> <Description> <Metadata name="Title">Sous-section 1</Metadata> </Description> -->
(texte de la sous-section 1)
<!-- </Section> <Section> <Description> <Metadata name="Title">Sous-section 2</Metadata> </Description> -->
(texte de la sous-section 2)
<!-- </Section> </Section> </Section> -->

Il faut noter que des méta-données assignées à partir dun onglet de section dans un document source prend le pas sur celle assignée au document tout entier. Ceci signifie que vous ne devez pas spécifier explicitement la méta-donnée "Title" ("Titre") pour la section de plus haut niveau à l'intérieur d'un document source à moins que vous ne veuilliez écraser le titre que vous lui avez donné en spécifiant la méta-donnée. Dans l'exemple ci-dessus, à moins de vouloir écraser le titre du document existant, vous devriez omettre la ligne où on peut lire:

<Metadata name="Title">Mon document</Metadata>

Le Collector

Le Collector est un outil d'assistance qui vous aidera à créer de nouvelles collections, à modifier ou ajouter à des collections existantes, ou à effacer des collections. Pour ce faire vous serez guidés à travers un ensemble de pages web qui vous demanderont les informations nécessaires. Ces pages web parlent d'elles-mêmes, et la présente section vous les décrira. Au lieu d'utiliser le Collector, on peut aussi construire des collections depuis la ligne de commande – les premières pages du Guide du développeur détaillent ce processus pas à pas.

Avant de construire et de distribuer des collections d'informations numériques, il faut réfléchir aux conséquences et aux responsabilités que cela implique. On trouve des aspects légaux relatifs aux droits: pouvoir accéder à des documents n'implique pas forcément qu'on puisse les distribuer à des tiers. On trouve aussi des aspects sociaux: les collections devraient respecter les coutumes de la communauté dont leurs documents proviennent. Enfin, on trouve des aspects éthiques: il existe des documents qu'il vaut mieux ne pas communiquer. La plume est plus puissante que l'épée! Soyez sensible au pouvoir de l'information, et faites-en sage usage.

Pour accéder au Collector, cliquez sur le lien approprié depuis la page d'accueil de la bibliothèque numérique.

Dans Greenstone, la structure d'une collection est déterminée lors de sa mise en place. Cela comprend aussi bien le format des documents source, la manière de les représenter à l'écran, les sources de méta-données, quelles possibilités de navigation offrir, quels index de recherche dans le corps du texte fournir, et comment afficher les résultats des recherches. Après la mise en place de la collection, il est facile d'y inclure de nouveaux documents – pour peu qu'ils soient dans le même format que les documents existants, et que les mêmes méta-données soient fournies, exactement de la même manière.

Le Collector dispose des fonctions de base suivantes:

créer une nouvelle collection de même structure qu'une collection existante;
créer une nouvelle collection d'une structure différente de celle des collections existantes;
ajouter du contenu à une collection existante;
modifier la structure d'une collection existante;
effacer une collection; et
exporter une collection existante sur un cédérom autonome et auto-installable.

Les figures <imgref figure_using_the_collector_to_build_a_new_collection> et suivantes illustrent l'utilisation du Collector pour la création d'une nouvelle collection, à partir d'un ensemble de fichiers HTML stockés localement dans le cas de cet exemple. Il faut d'abord décider de travailler sur une collection existante ou d'en construire une nouvelle. Dans le premier cas, vous vous trouverez dans les deux premiers points de la liste numérotée ci-dessus; dans le second, ce seront les quatre derniers points qui vous concerneront. Dans la figure <imgref figure_using_the_collector_to_build_a_new_collection>, l'utilisateur opte pour la création d'une nouvelle collection.

Se connecter

Dans tous les cas, il est nécessaire de se connecter avant de pouvoir faire quoi que ce soit. En général, on utilise un navigateur web pour accéder à l'outil de construction de collection sur un ordinateur distant, afin de construire une collection sur ce serveur. Il est bien sûr hors de question d'autoriser n'importe qui à construire des collections (ne serait-ce que pour des raisons de droits), c'est pourquoi Greenstone renferme un système de sécurité qui oblige qui veut construire des collections à se connecter avant toute autre chose. Ceci permet à un système central d'offrir un service à ceux qui souhaitent construire des collections d'informations et utiliser le serveur pour les rendre disponibles à d'autres. D'autre part, même si vous utilisez Greenstone sur votre ordinateur local et y construisez des collections, il est nécessaire de vous connecter car il ne faut pas autoriser des tiers utilisant Greenstone sur votre ordinateur à construire des collections sans autorisation préalable.

Structure de dialogue

Suite à la connexion, on voit apparaître la page présentée figure <imgref figure_using_the_collector_to_build_a_new_collection_1>. Elle montre la suite d'étapes impliquées dans la construction d'une collection, c'est-à-dire:

Informations sur la collection
Données source
Configurer la collection
Construire la collection
Afficher la collection.

La première étape consiste à spécifier le nom de la collection et les informations associées. La deuxième étape est de préciser d'où proviendront les données source. La troisième permet d'ajuster les options de configuration, une étape que vous trouverez de plus en plus utile à mesure que vous serez plus expérimenté avec Greenstone. La quatrième étape indique où se fera tout le travail (de l'ordinateur). Durant le processus de «construction» le système construit tous les index et rassemble toutes les autres informations nécessaires au bon fonctionnement de la collection. La cinquième étape vous permettra de visualiser la collection nouvellement créée.

Ces cinq étapes sont représentées sous forme d'une suite de boutons gris au bas de l'écran figure <imgref figure_using_the_collector_to_build_a_new_collection_1>, ainsi qu'au bas de toutes les autres pages générées par le Collector. Cet affichage aide les utilisateurs à se rappeler où ils en sont dans le processus. Le bouton à cliquer pour passer à la suite est affiché en vert (informations sur la collection sur la figure <imgref figure_using_the_collector_to_build_a_new_collection_1>). Les boutons gris (tous les autres, sur la figure <imgref figure_using_the_collector_to_build_a_new_collection_1>) sont inactifs. Les boutons deviennent jaunes au fur et à mesure de la progression dans les étapes, et l'utilisateur peut revenir à une étape antérieure en cliquant sur le bouton jaune correspondant. Cet affichage est inspiré des «assistants» largement utilisés dans les logiciels propriétaires pour guider les utilisateurs tout au long des différentes étapes de l'installation de nouveaux logiciels.

Informations sur la collection

La prochaine étape, celle des informations de collection, est illustrée figure <imgref figure_using_the_collector_to_build_a_new_collection_2>. Lorsqu'on crée une nouvelle collection, il est nécessaire de donner certaines informations la concernant:

titre,
adresse de courrier électronique de contact, et
une brève description.

Le titre de la collection est une petite phrase utilisée à travers la bibliothèque numérique pour identifier le contenu de la collection. On peut citer comme exemples de titres «Bibliothèque de la nourriture et de la nutrition», «Bibliothèque environnementale mondiale», «Bibliothèque de développement pour l'humanité», etc. L'adresse électronique spécifie qui contacter pour tout problème rencontré avec la collection. Si le logiciel Greenstone détecte un problème, il est possible qu'il y envoie un rapport décrivant l'erreur. Enfin, la brève description est une phrase décrivant les critères d'inclusion dans la collection. Elle apparaît sous l'en-tête à propos de la première page, lors de la présentation de la collection.

La position actuelle dans les étapes de construction de la collection est dénotée par une flèche qui apparaît au bas de chaque page – dans ce cas, comme illustré par la figure <imgref figure_using_the_collector_to_build_a_new_collection_2>, nous nous trouvons à l'étape des informations de la collection. On continue vers la figure <imgref figure_using_the_collector_to_build_a_new_collection_3> en cliquant sur le bouton vert données source.

Données source

La figure <imgref figure_using_the_collector_to_build_a_new_collection_3> est le moment où l'utilisateur spécifie le texte source qui constituera la collection. On peut soit baser sa collection sur l'une des structures par défaut fournies, soit sur la structure d'une collection existante.

Si vous optez pour la structure par défaut, la nouvelle collection pourra contenir des documents HTML (fichiers d'extensions .htm ou .html), des fichiers texte (fichiers d'extensions .txt ou .text), des fichiers au format Microsoft Word (fichiers d'extensions .doc), des documents PDF (fichiers d'extensions .pdf), ou des courriers électroniques (fichiers d'extensions .email). Vous trouverez plus d'informations sur les différents formats de documents qu'on peut inclure dans la section 3.4.9.

Si vous basez votre nouvelle collection sur une collection existante, les fichiers de la nouvelle collection devront avoir exactement le même type que ceux utilisés pour construire la collection existante. Vous remarquerez que certaines collections utilisent des formats de fichiers en entrée non standard, et que d'autres utilisent des méta-données stockées dans des fichiers auxiliaires. Si ces informations sont absentes de vos nouvelles données, certaines fonctionnalités de navigation pourront mal fonctionner. Si par exemple vous clonez la collection «Demo», vous remarquerez peut-être que les boutons thèmes, organisation, et comment faire ne fonctionnent pas bien.

La page web propose des boîtes pour indiquer la localisation des documents source: on peut spécifier jusqu'à trois sources différentes en entrée dans la figure <imgref figure_using_the_collector_to_build_a_new_collection_3>. Si cela ne vous suffit pas, cliquez sur le bouton intitulé More sources («davantage de sources»).

Il existe trois types de spécifications:

un nom de répertoire dans le système du serveur Greenstone (commençant par «file://»);
une adresse commençant par «http://», pour les fichiers à télécharger depuis le web;
une adresse commençant par «ftp://», pour les fichiers à télécharger en FTP anonyme.

Si vous utilisez file:// ou ftp:// pour spécifier un fichier, ce fichier sera rapatrié.

Si vous utilisez http://, tout dépend si l'URL correspondante fournit dans le navigateur une page web normale ou une liste de fichiers. Si elle fournit une page web normale, cette page sera téléchargée – ainsi que toutes les pages vers lesquelles elle pointe, et les pages vers lesquelles pointent ces dernières, etc., pourvu que toutes résident sur le même site, sous cette URL.

Si vous utilisez file:// ou ftp:// pour spécifier un dossier ou un répertoire, ou si vous donnez une URL en http:// qui mène vers une liste de fichiers, tout le dossier et tous ses sous-dossiers seront inclus dans la collection.

Vous pouvez spécifier des sources de plusieurs types.

Dans le cas de la figure <imgref figure_using_the_collector_to_build_a_new_collection_3>, la nouvelle collection contiendra des documents copiés depuis un système de fichiers local ainsi que depuis un site web externe, qui sera copié localement (une copie «miroir» en sera faite) pendant le processus de construction.

Quand on clique sur le bouton configurer la collection pour passer à la prochaine étape de la construction, le Collector vérifie que toutes les sources de données spécifiées sont joignables. Ceci peut prendre quelques secondes, ou même quelques minutes si vous avez spécifié plusieurs sources. Si l'une ou l'autre des sources spécifiées ne sont pas disponibles, on obtient une page comme celle de la figure <imgref figure_using_the_collector_to_build_a_new_collection_4>, marquant d'une croix les sources non disponibles (dans le cas présent, c'est le cas de toutes deux).

Plusieurs raisons peuvent expliquer le fait que des sources soient non disponibles:

le fichier, le site FTP ou l'URL indiqué n'existe pas;
il vous faut d'abord vous connecter à votre FAI;
vous tentez d'accéder à une URL alors que vous vous trouvez derrière un pare-feu.

Le dernier cas est potentiellement celui qui a l'air le plus mystérieux. Il se produit si en temps normal il vous faut fournir un nom d'utilisateur et un mot de passe pour accéder à l'Internet. Parfois, il est possible que votre navigateur web affiche correctement la page si on y en entre l'URL, alors que le Collector prétend que cette source n'est pas disponible. L'explication est que la version affichée dans votre navigateur provient peut-être d'une copie tampon (cache). Malheureusement, les copies tampon locales sont invisibles au Collector. Dans un tel cas de figure, nous vous recommandons de télécharger d'abord les pages à l'aide de votre navigateur.

Configurer la collection

La figure <imgref figure_using_the_collector_to_build_a_new_collection_5> présente l'étape suivante. La construction et la présentation de toutes les collections sont contrôlées par des spécifications enregistrées dans un fichier de configuration de collection spécial (voir ci-dessous). Les utilisateurs expérimentés pourront utiliser cette page pour modifier les réglages de configuration, mais la plupart passeront directement à la dernière étape. En fait, dans la figure <imgref figure_using_the_collector_to_build_a_new_collection_3>, les boutons configurer la collection et construire la collection sont tous les deux affichés en vert, ce qui signifie bien que l'on peut complètement court-circuiter la troisième étape du processus.

Dans notre exemple, l'utilisateur a fait une petite modification au fichier de configuration par défaut en incluant le drapeau file_is_url à l'aide du greffon (plugin) HTML. Ce drapeau provoque l'insertion des méta-données d'URL dans chaque document, en se fondant sur la convention de nom de fichier adoptée par l'outil qui crée le miroir. Ces méta-données sont utilisées dans la collection pour permettre aux utilisateurs de se référer à la version originale du document, plutôt qu'à une copie locale.

Construire la collection

La figure <imgref figure_using_the_collector_to_build_a_new_collection_6> illustre l'étape de «construction». Jusqu'à présent, les réponses fournies dans l'interface ont simplement été enregistrées dans un fichier temporaire. L'étape de construction est celle où tout le travail est réellement effectué.

Lors de la construction, les index de navigation et de recherche sont construits en suivant les instructions du fichier de configuration de collection. Le processus de construction peut prendre de quelques minutes à quelques heures, selon la taille de la collection et la puissance de l'ordinateur. Certaines collections très conséquentes peuvent prendre plus d'un jour à construire.

Lorsque vous atteindrez cette étape, une ligne d'état située au bas de la page web vous donnera un suivi de la progression de l'opération, suivi mis à jour toutes les 5 secondes. Le message visible dans la figure <imgref figure_using_the_collector_to_build_a_new_collection_6> indique que lors de la capture d'écran, Greenstone effectuait une conversion de format de document de PDF vers HTML.

Des avertissements seront affichés si certains fichiers ou URL requis en entrée n'existent pas, ou existent mais qu'aucun greffon (plugin) ne peut les traiter, ou que le greffon ne peut pas trouver un fichier associé, telle qu'une image incrustée dans un document HTML. L'objectif est que vous suiviez cette progression en laissant cette fenêtre ouverte dans votre navigateur. Si des erreurs provoquent la fin prématurée du processus, elles seront enregistrée dans cette zone d'état.

Vous pouvez arrêter le processus de construction à tout instant en cliquant sur le bouton Arrêt de la construction, visible figure <imgref figure_using_the_collector_to_build_a_new_collection_6>. Si vous quittez la page web (sans avoir annulé le processus de construction à l'aide du bouton Arrêt de la construction), la construction continuera à s'effectuer, et la nouvelle collection sera installée à la fin de l'opération.

Afficher la collection

Quand la collection est construite et installée, la suite de boutons visibles aux bas des figures <imgref figure_using_the_collector_to_build_a_new_collection_1> à <imgref figure_using_the_collector_to_build_a_new_collection_5> apparaît au bas de la figure <imgref figure_using_the_collector_to_build_a_new_collection_6>, avec le bouton afficher la collection activé. Ce bouton emmène directement l'utilisateur vers la collection nouvellement construite.

Enfin, il existe une fonctionnalité d'envoi de courrier d'électronique à l'adresse électronique de contact de la collection ainsi qu'à l'administrateur système, à chaque création (ou modification) d'une collection. Ceci permet aux responsables de vérifier tout changement prenant place et de surveiller ce qui se passe sur le système. Cette fonctionnalité est désactivée par défaut mais elle peut être activée en éditant le fichier de configuration main.cfg (voir à ce sujet le Guide du développeur de la bibliothèque numérique Greenstone, section configuring_your_greenstone_site).

Travailler avec des collections existantes

Lorsque l'on démarre le Collector, il faut spécifier si on souhaite créer une collection entièrement nouvelle, ou travailler avec une collection existante, en y ajoutant ou en en effaçant des données. Étant donné qu'il crée automatiquement toutes les structures de recherche et de navigation à partir des documents eux-mêmes, Greenstone facilite l'ajout de nouvelles informations à des collections existantes. Aucun lien n'étant inséré manuellement, il est possible de fusionner automatiquement au reste de la collection de nouveaux documents disponibles, s'ils sont au même format.

Pour travailler avec une collection existante, il faut d'abord sélectionner la collection au sein d'une liste fournie par le logiciel. Certaines collections sont «protégées en écriture» et ne peuvent pas être modifiées: de telles collections n'apparaîtront pas dans la liste de sélections. Avec la collection retenue, vous pourrez:

Ajouter de nouvelles données et reconstruire la collection;
Éditer le fichier de configuration de la collection;
Effacer entièrement la collection;
Exporter la collection sur un cédérom.

Ajouter de nouvelles données

Les fichiers spécifiés par vous seront ajoutés à la collection. Assurez-vous de ne pas spécifier à nouveau des fichiers déjà présents dans la collection, sans quoi deux copies en seraient incluses. Les fichiers sont identifiés par leur chemin d'accès complet, et les pages web par leur adresse web absolue. On peut spécifier des répertoires et des fichiers de la même manière que lors de la construction d'une nouvelle collection.

Si vous souhaitez ajouter des données à une collection et que pour l'une ou l'autre raison, le processus de construction échoue, l'ancienne version de la collection demeurera inchangée.

Éditer le fichier de configuration

Les utilisateurs expérimentés peuvent éditer le fichier de configuration de la collection, de la même manière que lors de la construction d'une nouvelle collection. La section 4explique les réglages de configuration.

Effacer la collection

On vous demandera de confirmer le fait que vous souhaitez vraiment effacer la collection. Une fois la collection effacée, Greenstone ne pourra pas la récupérer!

Exporter la collection

Vous pouvez exporter la collection sous une forme qui lui permette d'être écrite sur un cédérom Windows autonome et auto-installable. Les logiciels propriétaires créant des cédéroms auto-installables étant onéreux, cette fonctionnalité comprend un module d'installation maison.

Lors de l'export de la collection, la boîte de dialogue vous informe du nom du répertoire où se trouve le résultat de l'opération. Ce répertoire doit intégralement être gravé sur le cédérom en utilisant un logiciel standard de gravage.

L'immense variété des différentes configurations Windows possibles nous a empêché de tester et de déboguer l'installeur de Greenstone dans toutes les conditions possibles. Bien qu'il produise des cédéroms qui fonctionneront sur la plupart des systèmes Windows, il est toujours en cours de développement. Si vous rencontrez des problèmes et que vous disposez d'un logiciel d'installation propriétaire (tel qu'InstallShield, par exemple), vous pouvez utiliser ce dernier pour créer des cédéroms à partir des informations fournies par Greenstone. Le répertoire d'export mentionné ci-dessus contient quatre fichiers relatifs au processus d'installation, et trois sous-répertoires qui contiennent la collection et le logiciel au complet. Ôtez les quatre fichiers et utilisez InstallShield pour créer une image de cédérom qui installera ces répertoires et créera un raccourci vers le programme gsdlserver.exe.

Formats de documents

Lors de la construction de collections, Greenstone traite chaque format de document source en recherchant un «greffon» (plugin) qui est capable de le traiter. Les greffons sont spécifiés dans le fichier de configuration de la collection. Greenstone utilise en général le nom de fichier pour déterminer le format de document – par exemple, toto.txt sera traité comme un fichier texte, toto.html comme un fichier HTML, et toto.doc comme un fichier Word.

Voici un résumé des greffons disponibles pour les formats de documents les plus courants. Vous trouverez plus de détails sur ces greffons ainsi que des greffons supplémentaires, capables de traiter des formats moins courants, dans le Guide du développeur de la bibliothèque numérique Greenstone.

TEXTPlug (.txt, .text)

TEXTPlug interprète un fichier texte comme un simple document. Il ajoute des méta-données de titre en se fondant sur la première ligne du fichier.

HTMLPlug (.htm, .html; et aussi .shtml, .shm, .asp, .php, .cgi)

HTMLPlug traite les fichiers HTML. Il extrait les méta-données de titre en se fondant sur la balise<title>, et peut aussi extraire toute autre méta-donnée exprimée dans la syntaxe de la balise<meta>de HTML. Ce greffon dispose de nombreuses options, documentées dans le Guide du développeur de la bibliothèque numérique Greenstone.

WORDPlug (*.doc)

WORDPlug importe des fichiers au format Microsoft Word. Il en existe de nombreuses variantes différentes – et même les programmes de Microsoft sont coutumiers d'erreurs de conversion. Greenstone utilise des programmes indépendants pour convertir les fichiers Word en HTML. Pour certains anciens formats Word, le système utilise un simple algorithme d'extraction qui trouve toutes les portions de texte incluses dans le fichier en entrée.

PDFPlug (*.pdf)

PDFPlug importe des documents au format PDF d'Adobe («format de document portable»). Comme WORDPlug, il utilise un programme indépendant, qui s'appelle pdftohtml dans le cas présent, pour convertir des fichiers PDF en HTML.

Comme dans le cas de WORDPlug, les collections afficheront par défaut l'équivalent HTML du fichier lorsque l'utilisateur cliquera sur l'icone document; cependant, on peut modifier les chaînes de format dans le fichier de configuration de la collection pour donner plutôt accès à l'utilisateur au fichier PDF original, et nous vous recommandons de procéder ainsi. Contentez-vous de remplacer les balises<link> … </link>par des balises<srclink> … </srclink>.

Le programme pdftohtml ne parvient pas à traiter certains fichiers PDF. Le processus de conversion prend un temps exponentiellement long, et on voit souvent apparaître à l'écran un message traitant de ce processus. Si cela se produit, la seule solution que nous puissions proposer est d'ôter le document concerné de la collection. PDFPlug ne peut pas non plus traiter les fichiers PDF chiffrés.

PSPlug (*.ps)

PSPlug importe des documents au format PostScript. Il fonctionne au mieux si votre ordinateur dispose déjà d'un programme standard sous Linux et appelé ps2ascii. Ce programme est disponible sur la plupart des installations Linux, mais pas sous Windows. Si ce programme n'est pas disponible, PSPlug se limite à un simple algorithme d'extraction de texte.

EMAILPlug (*.email)

EMAILPlug importe des fichiers contenant du courrier électronique, et traite les formats de courrier électronique courants tels que ceux utilisés par Netscape, Eudora, et les lecteurs de courrier électronique sous Unix. Chaque document source est examiné à la recherche d'un ou de plusieurs courriers électroniques mis bout à bout, et si cette recherche aboutit le contenu du document est traité. Le greffon extrait les méta-données des champs Subject («objet»), To («destinataire»), From («expéditeur»), et Date. Cependant, ce greffon ne traite pas encore correctement les courriers électroniques encodés au format MIME – bien que lisibles, ils ont souvent un aspect étrange.

ZIPPlug (.gz, .z, .tgz, .taz, .bz, .zip, .tar)

Le greffon ZIPPlug traite les formats d'entrée compactés et/ou d'archives suivants: gzip (.gz, .z, .tgz, .taz), bzip (.bz), zip (.zip .jar), et tar (.tar). Il repose sur les programmes gunzip, bunzip, unzip, et tar, qui sont des outils standard sous Linux. ZIPPlug est désactivé sur les ordinateurs employant Windows.

¹⁾

N.D.T. : Respectivement «et», «ou», et «non» en anglais.

Table of Contents