Обзор Greenstone

Программа Greenstone - это исчерпывающая система для создания и просмотра коллекций, состоящих из многих миллионное документов, включающих тексты, рисунки, аудио- и видео-файлы.

Коллекции

Типичная цифровая библиотека, созданная с помощью Greenstone, содержит в себе множество коллекций, организованных по отдельности, хотя они имеют много сходства друг с другом. Легко поддерживаемые, эти коллекции могут быть дополнены и перестроены автоматически.

Существуют несколько способов поиска информации во множестве коллекций Greenstone. Например, мы можете искать определенные слова, которые встречаются в тексте или в определенной части документа. Вы можете просматривать документы по наименованию: просто нажмите на иконку книги для чтения. Также вы можете просматривать документы по определенной тематике. Темы изображены в виде книжных полок: просто нажмите на иконку книжной полки, чтобы просмотреть книги. Есть такие документы, в которых имеются оглавления: вы можете нажать на главу или ее часть для открытия, а также открыть полное оглавление во весь экран или полностью поместить весь документ в окно вашего браузера (полезно при печати). На веб-сайте New Zealand Digital Library (nzdl.org) можно найти множество показательных коллекций.

На внешней странице каждой коллекции написана цель создания, краткий обзор и объяснение того, как организована коллекция. Большинство коллекций можно открыть путем поиска и просмотра. При поиске программа Greenstone просматривает все документы, находящиеся в коллекции (называется "full text search" "поиск по всему тексту"). Во многих коллекциях существуют индексы, разбивающие документ на несколько частей, по которым пользователь также может осуществлять поиск. Некоторые коллекции имеют индексы полных документов, индексы параграфов, индексы названий, по каждому из которых можно осуществлять поиск определенных слов или фраз. Используя индексы, можно найти все документы, содержащие определенный набор слов (эти слова могут быть разбросаны по всему тексту), или все параграфы с определенным набором слов (которые должны все находиться в этом параграфе), или все документы в названиях которых содержатся эти слова (все указанные слова должны находиться в названии документа). Также могут существовать и другие индексы, например индексы секций и индексы названий секций. Просмотр включает в себя определенный перечень, которым пользуется пользователь: перечень авторов, названий, дат, иерархической классификационной структуры и т.д. Разные коллекции предлагают разные возможности для просмотра.

Поиск информации

Greenstone имеет полнотекстовые индексы- те индексы, которые позволяют проводить поиск любых слов по всему тексту документа. В индексах также можно искать по одному слову, набору слов, фраз, после чего результаты представляются в таком порядке, в котором они более важны для пользователя.

Во многих коллекциях такие данные, как автор, название, дата, ключевые слова, имеет каждый документ. Эта информация называется метаданными. Многие коллекции имеют полнотекстовые индексы определенных метаданных. Например, во многих коллекциях можно осуществлять поиск по индексу названий документов.

Пользователи могут просматривать перечни и иерархические структуры. Метаданные являются начальным пунктом для осуществления просмотра. Разные коллекции предлагают разные возможности для просмотра. Индексы для поиска и просмотра создаются во время "building" процесса программирования файла, в соответствии с информацией в конфиг-файле коллекции.

Greenstone создает все индексные структуры автоматически из документов и вспомогательных файлов: ничего не нужно делать вручную. Если появляются новые документы в таком же формате, они могут быть присоединены к коллекции автоматически. Для многих коллекций эти процессы осуществляются автоматически, поиск новой информации и перестройка индексов - все без ручной настройки.

Форматы документов

Документы, впоследствии добавляемые в коллекцию, могут быть разных форматов, которые с помощью "плагинов" ("plugins") переводятся в один стандартный формат XML. Плагины, которые распространяются вместе с Greenstone, обрабатывают простой текст, HTML, документы форматов DOC и PDF, а также сообщения Usenet и электронной почты (email). Могут быть созданы и новые плагины для других видов документов (для этого вам нужно изучить Руководство для разработчика). Для создания структур для просмотра метаданных, используется аналогичная система "классификаторов". С помощью них можно создать разные индексы для просмотра: алфавитные указатели, данные и разнообразные иерархические структуры. Таким образом люди, умеющие программировать в Greenstone, могут создавать новые структуры для просмотра.

Мультимедийные и разноязычные документы

Коллекции могут содержать текст, рисунки, аудио- и видео материалы. Нетекстовой материал связан с текстовым файлом либо через ссылку, либо имеет текстовое описание (такое как заголовок) для облегчения возможности полнотекстового поиска и просмотра.

Unicode, который является стандартной схемой при представлении символов, применяемых в мировых языках, используется в программе Greenstone. Это позволяет переработать на любой язык и показать его на экране в правильной форме и последовательности. Были созданы коллекции, содержащие арабский, китайский, английский, французский и испанский языки. При работе с разноязычными коллекциями программа автоматически определяет язык. Интерфейс программы доступен на всех вышеупомянутых языках и других.

Распространение Greenstone

Коллекции доступны в Интернете или публикуются на самоустанавливающихся компакт-дисках в таком же виде, как в интернете. Для уменьшения объема текста и индексов используется сжатие. Протокол Corba поддерживает рапространяемые коллекции и графические интерфейсы.

Цифровая Библиотека Новой Зеландии (nzdl.org) предлагает многие показательные коллекции, включающие исторические документы, гуманитарную информацию и информацию развития, технические доклады и библиографии, художественные книги и журналы.

Будучи открытым источником, Greenstone готова к развитию и извлекают выгоду из включеных в GNU-Лицезию модулей для полнотекстового поиска, управления базами данных, извлечения текстов из документов специфичных форматов. Только через совместное международное сотрудничество цифровое библиотечное программное обеспечение станет достаточно всесторонним, полным и гибким, удовлетворяющим мировые потребности, что и заслуживают пользователи.