Ejercicio tutorial de Greenstone

Back to wiki
De regreso al index
Archivos muestra: difficult_documents.zip
Ideado para versión Greenstone: 2.60
Modificado para versión Greensotne: 2.70

Documentos PDF difíciles

  1. Construir una colección nueva de Greenstone con los dos archivos en Archivos de _ejemplo\documentos_difíciles. Use la colección de configuración por defecto: esto es, simplemente reuna los archivos en una nueva colección y constrúyala.

    Estos archivos se llaman Texto no extraible.pdf y caracteres raros.pdf—sus nombres indican los problemas que van a causar!

  1. Ahora haga una vista previa de la colección. Las listas de títulos y de nombres de archivos muestran solamente uno de los documentos. Cuando hace clic en el ícono "texto" para ver el texto extraído de ese documento, es basura. Durante el proceso de construcción apareció el mensaje: "Se procesó un documento y se incluyó en la colección; se rechazó un documento."

Modos en la Interfaz del Bibliotecario

La Interfaz del Bibliotecario puede operar en diferentes modos. Hasta ahora, usted ha estado usando el modo por defecto, llamado "Bibliotecario."

  1. Use el item Preferencias en el menú File para cambiarse a modo Experto y construya otra vez la colección. El panel Crear se ve diferente en modo Experto porque ofrece más opciones: localice el botón Construir Colección, cerca al fondo de la ventana y haga clic sobre él. Ahora aparece un mensaje indicando que el archivo no se pudo procesar y por qué razón.

  1. Recomendamos que regrese al modo Bibliotecario en los siguientes ejercicios, para evitar confusión

Conversión Mejorada de PDF con Ghostscript

Si usted tiene el Ghostscript instalado, entonces podrá usar un nuevo método de manejo para los documentos PDF que pueden causar problemas. Ghostscript es un programa que puede convertir archivos Postscript y PDF en otros formatos. Usted puede bajarlos de internet de http://www.cs.wisc.edu/~ghost/ (siga el link hasta la presente liberación estable).

  1. Greenstone puede convertir archivos PDF en una serie de imágenes con un archivo correspondiente que detalla cómo componen todo el documento (llamado archivo item). Para esta parte del ejercicio hay que instalar ImageMagick (ver Instalar Greenstne).

  1. En la lista de Plugins de Documentos en el panel Diseño, haga doble clic en PlugPDF para obtener una ventana que muestra las definiciones y ajuste la opción convertir_a a pagedimg_gif.

  1. Construir la colección y vista previa de la misma. Ambos documentos PDF se han procesado y dividido en páginas, pero cada página muestra "Este documento no tiene texto" porque al convertir archivos PDF a imagen no hay extracción de texto.

  1. Para ver los documentos apropiadamente necesitamos modificar una instrucción de formato. En la sección Aspectos de Formato en el panel Diseñol, escoja la instrucción de formato Texto de Documento. Reemplazar:[Text] con [srcicon] y haga clic en <Reemplazar Formato>.

  1. Vista Previa de la colección desde el panel Crear. (No es necesario construirlo). Ahora se muestran las imágenes de los documentos en vez del texto extraído. Ambos texto no extraible.pdf y caracteres raros.pdf se ven muy bien ahora.


Copyright © 2005 2006 2007 by the New Zealand Digital Library Project at the University of Waikato, New Zealand
Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.2 or any later version published by the Free Software Foundation; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy of the license is included in the section entitled “GNU Free Documentation License.”