Exercice de travail dirigé Greenstone

Back to wiki
Retourner à l' indexe
Obligation: Regarder une collection multimédia
Fichiers échantillon: beatles.zip
Fabriqué pour version Greenstone: 2.60
Modifié pour version Greenstone: 2.70

Construire une collection multimédia

On va procéder à une reconstruction complète de la collection Beatles que vous venez de regarder. On va utiliser peu de contenu afin de travailler plus rapidement durant l'indexation.

  1. Démarrez une nouvelle collection (Fichier → Nouveau) appelée small_beatles, en se basant sur celle par défaut "New Collection." (Ce serait plus simple de se baser sur la collection Advanced Beatles,mais nous voulons savoir comment la construire en partant de zéro) Remplissez tous les champs avec les informations requises et utilisez le jeu de métadonnées Dublin Core (par défaut)

  1. Copiez les fichiers fournis dans

    sample_files → beatles → advbeat_small

    votre nouvelle collection. Faites-le en ouvrant advbeat_small, en sélectionnant les 8 éléments qu'il contient (de discography à beatles_midi.zip), et en les glissant. Comme certains fichiers sont en formats MP3 et MARC, on vous demandera s'il faut ajouter les plugins MP3Plug et MARCPlug dans votre collection. Cliquez sur <Add Plugin>.

  1. Passez au volet Enrich et regardez les fichiers. Il n'y a pas de métadonnées—encore. Souvenez-vous qu'il suffit de double-cliquer sur un fichier pour le prévisualiser.

    (Il y a des fichiers MIDI dans la collection mais aucun plugin pour les gérer. Cela demandera quelques manipulations avancées que nous verrons plus tard)

  1. Passez au volet Création et construisez la collection avec build .

  1. visualisez le résultat avec Preview.

Corriger manuellement les métadonnées

  1. Vous pourriez avoir besoin de corriger les métadonnées—par exemple l'atroce faute d'orthographe dans le titre "MAGICAL MISTERY TOUR."Ces documents sont dans la section discographique, avec des noms de fichier qui contiennent la même faute. Localisez l'un d'entre eux dans le volet Enrich. Notez que l'élément de métadonnées extrait ex.Title est rempli et mal orthographié. On ne peut le corriger car il est extrait du fichier et cela à chaque fois que l'on reconstruit la collection.

  1. Au lieu de modifier les métadonnées dc.Title de ces deux fichier avec "Magical Mystery Tour." passez au volet Enrich , ouvrez le volet discography et regardez les fichiers concernés. Changez les titres dc.Title pour la formulation correcte.

Maintenant, il y a un petit souci. Les métadonnées dc.Title ne figureront pas dans l'index a-z car le classificateur est paramétré pour utiliser ex.Title. Mais si on change ce classificateur pour qu'il utilise dc.Title nous perdrons tous les titres extraits ! Heureusement, il y a une manière de s'en sortir en spécifiant une série de noms de métadonnées dans le classificateur.

  1. Passez au volet Conceptionet sélectionnez la section Browsing Classifiers . Double-cliquez sur le classificateurTitle (le premier) pour éditer les paramètres de configuration.

    Construisez la collection avec Build et regardez le résultat avecpreview .

    Extraire les métadonnées n'est pas fiable. Mais cela ne coûte pas cher ! D'un autre côté, affecter manuellement les métadonnées prend du temps. Nous allons donc voir comment tirer parti des deux solutions, c'est à dire en utilisant les métadonnées extraites automatiquement, mais en les corrigeant quand elles sont mauvaises. Cela ne va peut être pas plaire aux bibliothécaires professionnels, mais c'est une bonne méthode pour les professeurs de musique souhaitant assembler leurs collections sans trop d'effort.

Naviguer par type de fichier

  1. Tout d'abord, retirons le classificateur de noms de fichiers AZList qui n'est pas très utile, et remplaçons-le par la structure de navigation qui regroupe les documents par catégorie (discography, lyrics, audio etc.). Les catégories sont définies manuellement en assignant les métadonnées.

    Construisez la collection avec Build et regardez le résultat avec preview .

Supprimer le texte inutile

  1. Les fichiers audio ont une icône MP3 qui joue le fichier quand on la clique, mais aussi un document de texte associé contenant rien d'utile. On ne devrait pas le voir, mais pour le supprimer, il faut passer par la définition de format.

    Afin de faciliter l'opération, on a préparé un fichier contenant le bon texte. Dans le Worpad, ouvrez le fichier suivant :

    sample_files → beatles → format_tweaks → audio_tweak.txt

    (Assurez-vous de bien lancer le Wordpad car le Notepad n'affiche pas bien les retours-chariot.) Mettez le texte dans le presse papier en le sélectionnant et en allant dans Edit → Copy. Maintenant, retournez à l'interface Librarian, sélectionnez tout le texte figurant actuellement dans la définition de format Vlist et allez dans Edit → Paste pour remplacer l'ancien texte par le nouveau. Il faut ne pas oublier de cliquer sur <Replace Format> à la fin.

    Visualisez le résultat. Vous devrez peut-être cliquer sur le bouton Recharger> du chercheur pour le forcer à recharger la page.

  1. Pendant que nous y sommes, retirons le nom du fichier source figurant après chaque document.

    N'oubliez pas de cliquer sur <Replace Format> après tout ce travail ! Regardez le résultat avec Preview sans reconstruire la collection.

Utiliser AZCompactList plutôt que AZList

  1. Il y a parfois plusieurs documents avec le même titre. Par exemple, All My Loving apparaît à la fois comme parole et comme tablature (associé à ALL MY LOVING). L'index titles a-z peut être amélioré en regroupant tout cela sous une même icône d'étagère.Cette tâche sera accomplie par AZCompactList.

    Construisez la collection à nouveau avec Build et regardez le résultat avec preview . Tous les élements de All My Loving apparaissent maintenant dans la même étagère. Par contre, plusieurs éléments se sont pas bien regroupés car les titres ne sont pas uniformes : par exemple A Hard Day's Night a au moins quatre variantes. On va voir comment résoudre le problème.

Afficher le nombre d'éléments contenus dans une étagère

  1. Pour qu'une étagère affiche les élements qu'elle contient, il faut insérer une ligne dans la définition de format VList via la section Format Fonction du volet Design.

    <td valign=top>
    {If}{[dc.Format] eq 'Audio',
      [srclink][srcicon][/srclink],
      [link][icon][/link]}</td>
    <td>{If}{[numleafdocs],([numleafdocs])}</td>
    <td valign=top>[highlight] {Or}{[dls.Title],[dc.Title],[Title],Untitled} [/highlight]</td>

    Ce texte est disponible dans format_tweaks → show_num_docs.txt, que l'on peut copier coller comme précédemment. Cliquez ensuite sur <Replace Format>.

    Regardez le résultat avec Preview sans qu'une reconstruction soit nécessaire.

  1. Maintenant, intéressons-nous aux images. Les documents inutiles sont également présents. Pour supprimer les documents inutiles, changez la définition de format VList dans le volet Fonction Format en ajoutant les deux lignes en surbrillance et en fermant les balises :

    <td valign=top>
    {If}{[dc.Format] eq 'Audio',
      [srclink][srcicon][/srclink],
      {If}{[dc.Format] eq 'Images',
        [srclink][thumbicon][/srclink],
        [link][icon][/link]}}</td>
    <td>{If}{[numleafdocs],([numleafdocs])}</td>
    <td valign=top>[highlight] {Or}{[dls.Title],[dc.Title],[Title],Untitled} [/highlight]</td>

  1. Dans la section Classificateur de Recherche du paneau Design, ajoutez le classificateur Phind. Laissez les settings à leur défaut: ceci génère un classificateur de phrase de recherche qui origine ces phrases de Title et de text.

  1. Pour finaliser la collection, utilisez le bouton URL to 'about page' icon dans la section General du volet Conception . Choisissez l'image :

    advbeatles_large → images → beatlesmm.png

    Construisez et visualisez la collection avec Build et preview.

Notez comment nous avons assigné les métadonnées dc.Format à tous les documents dans la collection avec un effort minimal. On a pu le faire en tirant parti de la structure des dossiers. On avait beau se plaindre de sa complexité, mais cette structure peut être exploitée grace à l'ajout de métadonnées.

Utiliser UnknownPlug

Dans l'exercice qui suit, nous allons ajouter des fichiers MIDI. Il n'y a pas de plugin dans Greenstone pour l'instant. Mais cela ne nous arrêtera pas !

  1. UnknownPlug est un plugin générique très commode. Il ne sait rien des formats de fichier mais il peut être utilisé pour les manipuler—comme les fichiers MIDI—en se basant sur leur extension et en ajoutant des métadonnées basiques.

    Dans la section Plug-ins de documents du panel Modèle:

    Dans cette collection, tous les fichiers midi sont inclus dans le fichier beatles_midi.zip. ZIPPlug (présent dans la liste des plugin par défaut) est utilisé pour les décompresser et ensuite aller dans la liste des plugin chercher UnknownPlug.

  1. Construisez la collection et visualisez-la avec Build et preview . Malheureusment, les fichiers MIDI n'apparaissent pas en tant que fichiers audio dans le bouton browse. C'est parce qu'on ne leur a pas encore affecté de métadonnées dc.Format.

Nettoyer le navigateur avec des expressions régulières

Nous maintenant nettoyons le navigateur titles a-z.

Pour cela nous devons mettre l'interface Librarian dans un mode différent. Quatre sont proposés. L' Assistant, qui peut ajouter des documents et des métadonnées aux collections, ou créer de nouvelles collections avec des structures reprenant celles existant. Les Librairian qui peuvent également créer de nouvelles collections au design original, sans accéder aux fonctions avancées (comme les expressions régulières). Le Library System Specialist qui accède à toutes les fonctionnalités de design mais ne peut gérer les tâches de dépannage (comme la sortie débug des programmes Perl). Enfin les Experts qui accèdent à toutes les fonctions.

Puisque vous êtes certainement en mode Librarian, on va passer en mode Library Systems Specialist pour le prochain excercice.

  1. Pour chancher de mode, cliquez sur File → Preferences → Mode et passez à Library Systems Specialist. Notez qu'il faut, selon la description, être capable de formuler des expression régulières pour passer dans ce mode. C'est ce que nous allons faire maintenant.

  1. Nous retournons à notre index titles a-z pour le nettoyer. Le but est de retirer les variantes de texte pour uniformiser les titres. Par exemple, on va considérer "ANTHOLOGY 1", "ANTHOLOGY 2" et "ANTHOLOGY 3" comme identitques afin de les regrouper. Pour cela :

    En reconstruisant et en prévisualisant la collection, avec Build et preview vous verrez combien de titres ont été regroupés sur la même étagère. Testez votre compréhension des expressions régulières en tentant de rationaliser les regroupements de titre . (Note : [[:punct:]] gère tout caractère de ponctuation.) Les icônes associées aux fichiers Word et PDF ne sont pas les bonnes mais nous corrigerons cela plus tard.

L'exercice précédent était fait en mode Librarian Systems Specialist mode car il nécessitait l'emploi d'expressions régulières, quelque chose qui est rarement maîtrisé par les bibliothécaires.

Un des usages efficace des expressions régulières dans l'exercice était de nettoyer le navigateur titles a-z. Peut être que la meilleure façon de procédé serait d'avoir les bonnes métadonnées de titres. Les métadonnées extraites des fichiers HTML est complexe et inutilisable, et cela se voyait dans l'index alphabétique. La définition de métadonnées correctes serait plus simple mais en même temps plus laborieuse. Nous allons donc opter pour l'usage des expressions régulières dans le classificateur AZCompactList afin de nettoyer les métadonnées. C'est un peu difficile à maîtriser et pas évident à réaliser, mais si vous réussisez à vous en sortir, c'est une manière bien plus rapide que d'avoir à saisir un grand volume de métadonnées.

Utiliser des macros non-standards

Pour finir notre collection, nous ajoutons un peu de décoration

  1. Avec l'explorateur de fichier Windows, localisez et travaillez sur les dossiers suivants.

    sample_files → beatles → advbeat_large

  1. Copiez les dossiers images et macros qui se situent au premier niveau d'arborescence de votre collection. (on peut écraser le dossier image de destination) Le dossier images inclut des icônes, et le dossier macros définit des noms de macros employant ces images. Pour regarder ces définitions, utilisez un éditeur de texte et regarder le fichier extra.dm dans le dossier macros .

Utiliser des icônes distinctes selon le type de média

  1. Editez à nouveau la définition de format VList en procédant ainsi (dans Design →Fonction Format)

    <td valign=top>
      {If}{[numleafdocs],[link][icon][/link]}
      {If}{[dc.Format] eq 'Lyrics',[link]_iconlyrics_[/link]}
      {If}{[dc.Format] eq 'Discography',[link]_icondisc_[/link]}
      {If}{[dc.Format] eq 'Tablature',[link]_icontab_[/link]}
      {If}{[dc.Format] eq 'MARC',[link]_iconmarc_[/link]}
      {If}{[dc.Format] eq 'Images',[srclink][thumbicon][/srclink]}
      {If}{[dc.Format] eq 'Supplementary',[srclink][srcicon][/srclink]}
      {If}{[dc.Format] eq 'Audio',[srclink]{If}{[FileFormat] eq 'MIDI',_iconmidi_,_iconmp3_}[/srclink]}
    </td>
    <td>
    {If}{[numleafdocs],([numleafdocs])}
    </td>
    <td valign=top>
    [highlight]
    {Or}{[dc.Title],[Title],Untitled}
    [/highlight]
    </td>

  1. La définition complète est dans le fichier format_tweaks → multi_icons.txt.

  1. Regardez alors votre collection avec Preview. Des icônes différentes sont utilisées pour discography, lyrics, tablature, et MARC. Il y a même une distinction entre les fichiers MP3 et MIDI. Si vous laissez le pointeur de souris au dessus de ces images, un petit message apparaît et décrit le type de fichier dans le language d'interface courant (note : extra.dm gère l'Anglais et le Français).

Changer l'image de fond de la collection

  1. Ouvrez le dossier macros de votre collection et localisez extra.dm. Faites un clic droit dessus. Sélectionnez le WordPad comme application pour l'ouvrir.

  1. Le contenu de ce fichier est succint, indiquant uniquement ce qui doit être ignoré des paramètres par défaut pour cette collection. Dans WordPad, vers le début du fichier vous le verrez.

    _collectionspecificstyle_ {
    <style>
    body.bgimage \{ background-image: url("_httpcimages_/beat_margin.gif"); \}
    \#page \{ margin-left: 120px; \}
    </style>
    }

    Utilisez le copier coller pour ces trois lignes afin que cela ressemble à cela :

    # Original statements
    #_collectionspecificstyle_ {
    #<style>
    #body.bgimage \{ background-image: url("_httpcimages_/beat_margin.gif"); \}
    #\#page \{ margin-left: 120px; \}
    #</style>
    #}

    _collectionspecificstyle_ {
    <style>
    body.bgimage \{ background-image: url("_httpcimages_/tile.jpg"); \}
    </style>
    }

    Un dièse (#) en début de ligne signale un commentaire, et Greenstone ignorera tout ce qui suit. On met en commentaire les trois anciennes lignes et on les remplace par les trois nouvelles. C'est pratique pour avoir une sauvegarde de l'ancienne version et pouvoir la recouvrir à tout moment. Ces trois lignes sont relatives à l'usage de l'image de fond. La nouvelle image tile.jpg était présente dans le dossier images que l'on avait copié précédemment.

  1. Sauvegardez dans WordPad le fichier extra.dm.

  1. Avec Preview vous verrez que la nouvelle page d'accueil a bien une image de fond.

    D'autres fonctionnalités peuvent être modifiées en éditant les fichiers de macros—par exemple les fentêtes et pieds de page, ainsi que le style de surbrillance utilisé pour les termes de recherche (couleur différente, caractère gras, etc)

  1. Vous pouvez revenir en arrière en ajoutant un dièse devant les trois premières lignes (#) et en retirant le dièse figurant devant les trois lignes suivantes. Rappelez-vous de sauvegardez le fichier. Enfin, pour annuler tous les changements, effacez tout simplement le contenu des dossiers macros et images.

Construire une collection en taille réelle

  1. Pour finir, construisons une collection plus grande. Procédez ainsi :

Ajouter un nagivateur de collage d'images

  1. Passez au volet Conception et choisissez la section Browsing Classifiers. Dans le menu select classifier to add choisissez Collage. Cliquez <Add Classifier...>. Sans regarder les options, cliquez sur <OK> en bas du pop up.

  1. Passez alors au volet Création et procédez à un build et à une preview de la collection.


Copyright © 2005 2006 2007 by the New Zealand Digital Library Project at the University of Waikato, New Zealand
Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.2 or any later version published by the Free Software Foundation; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy of the license is included in the section entitled “GNU Free Documentation License.”