VISIÓN GENERAL DE GREENSTONE

Greenstone es un sistema completo de creación y presentación de colecciones compuestas de miles o millones de documentos, que incluyen texto, imágenes, sonido y vídeo.

Las colecciones

Una biblioteca digital típica creada con Greenstone contendrá muchas colecciones, organizadas individualmente, pero muy parecidas entre sí. De fácil mantenimiento, las colecciones pueden aumentarse y reorganizarse automáticamente.

En la mayoría de las colecciones Greenstone hay varias maneras de encontrar información. Por ejemplo, se pueden buscar palabras específicas que aparecen en un texto o en una sección de un documento. Se pueden consultar documentos por título ; basta con hacer clic en un libro para poder leerlo. Se pueden consultar documentos por tema. Los temas están representados por estantes; basta con hacer clic en un estante para ver los libros. Cuando procede, los documentos vienen acompañados de un índice: se puede entonces hacer clic en un capítulo o una subsección para abrirlo, visualizar el índice completo o presentar el documento íntegro en la ventana de su navegador (lo cual es útil para la impresión). El sitio Web de la Biblioteca Digital de Nueva Zelanda (  nzdl.org ) ofrece numerosos ejemplos de colecciones.

En la primera plana de cada colección se indica su objetivo y cobertura, y se explica su organización. Se puede tener acceso a la mayoría de las colecciones mediante las funciones de búsqueda y consulta. En la búsqueda, el programa Greenstone examina el texto completo de todos los documentos incluidos en la colección (esto se denomina “búsqueda en texto completo”). En la mayoría de las colecciones los usuarios pueden escoger entre los índices creados sobre la base de diferentes partes de los documentos. Algunas colecciones disponen de un índice de documentos completos, un índice de los párrafos y un índice de los títulos, en los que se pueden buscar determinadas palabras o frases. De este modo, se pueden encontrar todos los documentos que contienen un conjunto específico de palabras (las palabras pueden estar dispersas en todo el documento), o todos los párrafos que contienen ese conjunto de palabras (que deben aparecer todas en el mismo párrafo), o todos los documentos cuyo título contiene las palabras buscadas (todas las palabras deben aparecer en el título del documento). Puede haber otros índices, por ejemplo un índice de secciones y un índice de encabezados de secciones. Durante el proceso de consulta el usuario examina unas listas: listas de autores, listas de títulos, listas de fechas, estructuras de clasificación jerárquica, etc. Las diferentes colecciones ofrecen diferentes posibilidades de consulta.

Búsqueda de información

Greenstone crea índices de texto completo a partir del texto del documento, es decir, índices que permiten buscar cualquier palabra en el texto completo del documento. Se pueden buscar en los índices determinadas palabras, combinaciones de palabras, o frases, y los resultados se ordenan según su pertinencia con respecto a la consulta formulada.

En la mayoría de las colecciones, los datos descriptivos, como el autor, el título, la fecha, las palabras clave, etc., se asocian a cada documento. Esta información se denomina metadatos. Muchas colecciones también contienen índices de texto completo de algunos tipos de metadatos. Por ejemplo, muchas colecciones tienen un índice de títulos de documentos que permite la búsqueda.

Los usuarios pueden consultar de forma interactiva las listas y estructuras jerárquicas que se generan a partir de los metadatos asociados con cada documento de la colección. Los metadatos forman la materia prima para la consulta. Se los debe suministrar explícitamente o deben poder derivarse automáticamente de los propios documentos. Cada colección ofrece distintas funciones de búsqueda y de consulta. Los índices para la búsqueda y la consulta se constituyen durante un proceso de “creación”, con arreglo a la información que figura en el archivo de configuración de la colección.

Greenstone crea todas las estructuras de índices automáticamente a partir de los documentos y los archivos conexos; nada se hace manualmente. Si se añaden nuevos documentos con el mismo formato, se los puede incorporar a la colección automáticamente. En efecto, en muchas colecciones esto se lleva a cabo mediante procesos que se ponen en marcha periódicamente, localizan el material nuevo y reconstituyen los índices, todo ello sin ninguna intervención manual.

Formatos de documentos

Los documentos de origen se presentan en diversos formatos y se convierten a un formato normalizado xml para la indexación mediante plugins. Los plugins distribuidos con Greenstone tratan documentos en texto sin formato, HTML, word y pdf, y los mensajes Usenet y de correo electrónico. Pueden escribirse nuevos plugins para distintos tipos de documentos (para ello es necesario consultar la Guía del Programador de la Biblioteca Digital Greenstone). Para crear estructuras de consulta a partir de metadatos, se utiliza un sistema análogo de “clasificadores”. Éstos crean índices de consulta de diversos tipos: listas desplegables, selectores alfabéticos, fechas y jerarquías arbitrarias. Una vez más, los programadores Greenstone pueden crear nuevas estructuras de consulta.

Documentos multimedia y plurilingües

Las colecciones pueden contener texto, imágenes, sonido y vídeo. Los contenidos no textuales se enlazan con los documentos textuales o se acompañan de descripciones textuales (como las leyendas de las figuras) para poder buscar y consultar en modo de texto completo.

Greenstone utiliza constantemente Unicode, un sistema normalizado para la representación de los conjuntos de caracteres empleados en los idiomas del mundo. Ello permite tratar y presentar cualquier idioma de manera uniforme. Se han creado colecciones que contienen textos en árabe, chino, inglés, francés, maorí y español. Las colecciones plurilingües disponen de una función de reconocimiento automático de idioma y la interfaz está disponible en todos los idiomas antes mencionados (entre otros).

Distribución de Greenstone

Las colecciones pueden consultarse en Internet o están publicadas, en forma idéntica, en un CD-ROM que se instala automáticamente en computadoras equipadas con Windows. El texto y los índices están compactados y un protocolo Corba permite administrar las colecciones distribuidas y las interfaces de consultas gráficas.

La Biblioteca Digital de Nueva Zelanda ( nzdl.org ) ofrece muchos ejemplos de colecciones, entre ellas de documentos históricos, información humanitaria y sobre desarrollo, informes técnicos y bibliografías, obras literarias y publicaciones periódicas.

Por ser un programa de código fuente abierto, Greenstone puede ampliarse fácilmente e incorporar módulos sujetos a la Licencia Pública General de GNU para la recuperación de información en texto completo, la gestión de bases de datos y la extracción de texto a partir de formatos de documentos patentados. Sólo mediante una cooperación internacional se logrará que los programas de biblioteca digital sean lo suficientemente completos para responder a las necesidades mundiales con la riqueza y la flexibilidad que los usuarios merecen.