Создание Коллекций Greenstone

Самый простой способ создания новых коллекций состоит в том, чтобы использовать Библиотечный интерфейс Greenstone (GLI). Он позволяет Вам собирать подборки документов, импортировать или задавать метаданные и встраивать их в коллекцию Greenstone. Он поддерживает пять основных действий, которые могут менять порядок, но номинально предпринимаются в излагаемом порядке:

  1. Копирование документов из файлового пространства компьютера, включая существующие коллекции, в новую коллекцию. Любые существующие метаданные остаются «приложенными» к этим документам. Документы могут также быть собраны из Интернета с помощью встроенных зеркальных средств.
  2. Насыщение документов добавлением новых метаданных к индивидуальным документам или группам документов.
  3. Проектирование коллекции, определяя, как она должна выглядеть, и средства доступа, которые она должны обслуживать.
  4. Построение коллекции с использованием Greenstone.
  5. Предварительный просмотр вновь созданной коллекции, которая будет установлена на Вашей стартовой странице Greenstone в качестве одной из рядовых коллекций.

Библиотечный интерфейс позволяет Вам добавлять к документам то, что обычно называют «внешними» метаданными, то есть метаданные, которые принадлежат документу в целом. Но документы часто должны подразделяться по разделам и подразделам, и «внутренние» метаданные могут быть связаны с каждой её частью. В Greenstone исходные документы могут быть наделены этой информацией, и мы объясняем это в разделе tagging_document_files.

Наконец, альтернативный способ построения коллекций обеспечивается Коллектором, который помогает Вам создавать новые коллекции, изменяя существующие, добавляя к существующим или удаляя коллекции. Он был создан до Библиотечного интерфейса, и для большинства практических целей Библиотечный интерфейс должен использоваться вместо Коллектора. Это описано в разделе the_collector.

Чтобы использовать Greenstone на полную мощность для построения продвинутых коллекций, Вы будете должны также прочесть главу getting_the_most_out_of_your_documents Руководства разработчика.

Библиотечный интерфейс

Чтобы разъяснить, как действует Библиотечный интерфейс Greenstone, мы покажем это на простом примере. Рисунки ## -## – это снимки экрана на различных стадиях в течение взаимодействия. В этом примере используются документы из коллекции подмножества Библиотеки развития (DLS), которая распространяется вместе с Greenstone. Для описательных целей экскурс примет вид прохождения отдельных этапов, упоминавшихся выше. Более реальный образец использования для пользователей состоит в том, чтобы переключать прохождение назад и вперед через различные стадии по мере выполнения задачи.

Библиотечный интерфейс может быть запущен в одном из 4 режимах: Помошник Библиотекаря, Библиотекарь, Системный специалист библиотеки, и Эксперт. Режимы определяют уровень детализации интерфейса, и могут быть установлены через раздел 'Настройки' меню 'Файл'. Рассказ об этом разделе подразумевает, что интерфейс библиотекаря установлен в режим по умолчанию, 'Библиотекарь'.

Начальный этап

Запустите Библиотечный интерфейс под Windows, выбирая Цифровая библиотека Greenstone из раздела Программы меню Старт и в нем - Библиотечный интерфейс. Если Вы используете Unix, вместо этого наберите

cd ~/gsdl
cd gli
./gli.sh

где ~/gsdl - директория, содержащая систему Greenstone. Чтобы начать работу, Вы должны открыть существующую коллекцию или начать новую. Рисунок ## показывает пользователю процесс начала создания новой коллекции. Он выбрал Новая из файлового меню и начал заполнять общие сведения о коллекции – её название, адрес электронной почты лица, ответственного за неё, и краткое описание содержания – в всплывающем окне. Название коллекции – это короткая фраза, используемая всюду в Цифровой библиотеке, чтобы идентифицировать содержание коллекции. Существующие коллекции имеют имена типа Продовольствие и Библиотека питания, Всемирная экологическая библиотека и т.д. Когда Вы впечатали название, система назначает уникальный мнемонический идентификатор «имя коллекции» для внутреннего использования (Вы можете изменить его, если захотите). Адрес электронной почты определяет первый пункт контакта в случае любых проблем, с которыми сталкиваются при создании коллекции.

Краткое описание – это положение, описывающее принципы, которыми руководствуются, что включать в коллекцию. Оно появляется под заголовком Об этой коллекции на начальной странице коллекции.

Array

Array

На этом этапе пользователь решает, создавать ли новую коллекцию такой же структуры, что и существующая коллекция, или создавать полностью новый вид коллекции. На рис.## он выбрал базирование на коллекции подмножества Библиотеки развития (ПБР). Это подразумевает, что набор метаданных ПБР, который используется в этой коллекции, будет применен и для новой коллекции. (Фактически, этот набор метаданных использовался для построения нескольких коллекций Greenstone, которые имеют общую структуру и организацию, но различное содержание, включая Библиотеку развития и Демонстрационную коллекцию, поставляемые в качестве образцов с Greenstone).

Набор метаданных DLS содержит следующие пункты:

  • Название
  • Предмет
  • Язык
  • Организация
  • Ключевые слова

(Кроме того, имеется пункт метаданных, называемый AZList, который используется для того, чтобы определить, какой участок алфавитного списка содержит название документа со значениями типа “А-B” или “C-D-E”. Это используется для того, чтобы иметь возможность точного управления разделами списка. Для большинства других коллекций эта опция отсутствует, и Greenstone назначает сегменты самостоятельно).

Если же на этом этапе пользователь выбрал другой вариант - «Новая коллекция», то его попросили бы выбрать, какие наборы метаданных должны использоваться в этой новой коллекции. Три стандартных набора предварительно установлены: Dublin Core, метаданные DLS, упоминавшейся выше, и набор, который включает элементы метаданных, извлеченные Greenstone автоматически из документов коллекции. Пользователь может также создавать новые наборы метаданных, используя ниспадающую панель, активизированную с помощью меню «метаданные».

Несколько различных наборов метаданных могут быть связаны с одной и той же коллекцией; система держит их отдельно, так что, например, документы могли бы иметь Название как в Dublin Core, так и в DLS. Различные наборы четко отличаются по интерфейсу. Неявно наборы метаданных представлены в XML.

Сбор исходного материала

После щелчка кнопкой ОК в меню «Новая коллекция» остающиеся части интерфейса, которые были до того серого цвета, становятся активными. Панель Сборщика, отобранная клавишей с тем же именем сверху на рис.## , показана в первоначальном виде. Это позволяет пользователю использовать локальное файловое пространство и существующие коллекции, собирая отобранные документы для новой коллекции. Панель разделена на две части, левая из которых предназначена для того, чтобы просмотреть существующие структуры, а правая – для документов в коллекции.

Действия, доступные на этом этапе, включают:

  • Навигацию по существующей иерархической файловой структуре и по созданной структуре, действуя обычным способом.
  • Перемещение и ввод файлов в новую коллекцию.
  • Множественный выбор файлов.
  • Перемещение и ввод полных подиерархий.
  • Удаление документов из возникающей коллекции.
  • Создание новых подиерархий в пределах коллекции.
  • Фильтрование файлов, которые являются видимыми, и в локальной файловой системе, и в коллекции, основанной на предварительно определенных группах или на стандартном файле, подходящих терминов.
  • Запуск соответствующей программы для показа содержания отобранного файла двойным щелчком на нём.

Предприняты меры предосторожности, когда имеют дело со столкновениями имён, если файлы с одинаковым именем в различных частях структуры директории компьютера скопированы в одну папку коллекции.

На рисунке ## пользователь использует интерактивный показ файлового дерева для исследования локальной файловой системы. На этой стадии коллекция справа пуста, пользователь наполняет ее, перетягивая и пропуская интересующие его файлы с левой на правую часть панели. Такие файлы скорее «скопированы», чем «перемещены», чтобы не нарушать первоначальную файловую систему. Обычные методы выбора для множественного перемещения и ввода, структурирования новой коллекции путем создания поддиректорий («папок»), а также удаления файлов из них, перемещая их в корзину, все они являются доступными.

Существующие коллекции представлены поддиректорией слева, называемой «Коллекции Greenstone», которые могут быть открыты и исследованы подобно любой другой директории. Однако, документы в ней отличаются от обычных файлов тем, что они уже имеют приложенные метаданные, которые сохраняются при перемещении в новую коллекцию. Конфликты могут возникнуть из-за того, что их метаданные, возможно, были заданы с использованием различных наборов метаданных, примененных для новой коллекции. Пользователь должен разрешить эти конфликты. На рисунке ## пользователь выбрал некоторые документы из существующей коллекции и перетянул их в новую. Всплывающее окно объясняет, что элемент метаданных Организация не может быть автоматически импортирован, и предлагает пользователю или выбрать набор метаданных и напечатать Добавить, чтобы добавить этот элемент метаданных к данному набору1), или выбрать набор метаданных, а затем элемент и напечатать Слить, чтобы эффективно переименовать старый элемент метаданных на новый, объединяя их. Метаданные в последующих документах из той же самой коллекции будут автоматически обработаны тем же самым способом.

Когда отобраны большие наборы перетягиванием и введением их в новую коллекцию, действия по копированию могут занять некоторое время, особенно если происходит преобразование метаданных. Чтобы отразить продвижение процесса, интерфейс показывает, какой файл в данное время копируется и какой процент файлов уже обработан.

Предусмотрены специальные средства обслуживания, когда имеют дело с большими наборами файлов. Например, пользователь может выбрать фильтрование файлового дерева, чтобы показывать только некоторые файлы, используя понижающиеся меню типов файлов, показанных под деревьями. На рисунке ## показаны только файлы НТМ и НТМL (и только эти файлы будут скопированы путем перемещения и остановки).

Наполнение документов

Следующая стадия в создании коллекции должна наполнить документы добавлением метаданных. Клавиша «Обогатить» выводит новую панель информации (рисунок ## ), которая показывает дерево документа, представляя коллекцию слева, а справа – позволяет добавлять метаданные к индивидуальным документам или к группе документов.

Документы, которые были скопированы в ходе первого этапа, идут с любыми применимыми приложенными метаданными. Если документ является частью предварительно заданных, то метаданные переносятся в новую коллекцию. Конечно, эта новая коллекция может иметь различные наборы метаданных или возможно только часть набора определенных метаданных, и только те метаданные, которые принадлежат набору новой коллекции, переносятся. Разрешение таких конфликтов может потребовать пользовательского вмешательства через дополнительный диалог (рисунок ## ). Любые сделанные выборы запоминаются для последующих копий файлов.

Панель «Обогатить» позволяет задать значения метаданных к документам в коллекции. Например, новые значения можно добавить к набору существующих значений для элемента. Если значения элемента имеют иерархическую структуру, иерархия может быть расширена тем же самым способом.

Array

Array

Array

Array

6: Просмотр всех метаданных для отобранных файлов

Значение метаданных могут также быть заданы для папок тем же самым способом. Документы в этих папках, для которых эти метаданные не указаны, наследуют эти значения метаданных. Однако они могут впоследствии быть переопределены предоставлением различных значений для этого документа непосредственно.

Действие на этой стадии включают:

Для нашего примера на рисунке ## пользователь выбрал папку ес121е и определил «EC Courier» в качестве метаданных Организации. Кнопки для обновления и удаления метаданных становятся активными в зависимости от того, какой выбор был сделан.

В течение этапа наполнения или в случае необходимости в любое другое время пользователь может захотеть рассмотреть все метаданные, которые были заданы для документов в коллекции. Это делается путем определения набора документов и выбора установки метаданных «Заданные метаданные» в меню, которое приносит всплывающее окно, как на рисунке ## , которое показывает метаданные в форме крупноформатной таблицы. Для больших коллекций полезно иметь возможность просмотра метаданных, связанных только с отдельным типом документа, и если пользователь определил фильтр файла, как было упомянуто выше, то только отобранные документы участвуют в показе метаданных.

Панель на рисунке ## позволяет пользователю редактировать наборы метаданных. Здесь пользователь рассматривает элемент Предмет из DLS. Значения этого элемента формируют иерархию, и пользователь исследует, а возможно и изменяет, список значений, заданных для этого элемента. Та же самая панель также позволяет Вам изменять «профиль» для отображения элементов одного набора метаданных на другой. Этот профиль создается при импортировании документов из коллекций, которые имеют предварительно заданные метаданные.

Array

7: Редактирование набора метаданных

Array

8: Проектирование коллекции

Array

9: Определение, какие плагины используются

Array

10: Конфигурирование параметров для плагинов

Проектирование коллекции

Панель «Проект» (рисунок ## ## ) позволяет определять структуру, организацию и представление создаваемой коллекции. Как отмечалось выше, результат этого процесса записан в конфигурационном файле коллекции, который в Greenstone является способом отображения средств обслуживания, требуемых коллекцией. Этот этап включает серию отдельных экранов взаимодействия, каждый из которых имеет дело с одним аспектом проектирования коллекции. В действительности, он служит графическим эквивалентом обычного процесса ручного редактирования конфигурационного файла.

Действия включают:

На рис.## пользователь щелкнул клавишу «Проект» и рассматривает общую информацию о коллекции, введенную при создании новой коллекции. Слева в список внесены различные аспекты, которые пользователь может формировать: Общее, Плагины документа, Виды поиска, Индексы поиска, Индексы разделения, Пересекающийся поиск, Просмотр классификаторов, Свойства формата, Перевод текста, Наборы метаданных. Вид и функциональные возможности коллекции изменяются в зависимости от них. Например, щелкая кнопку «Плагины документа», можно вызвать экран, показанный на рис.## , который позволяет Вам добавлять, удалять или формировать плагины и изменять порядок, в котором они применены к документам.

Плагины и классификаторы имеют много различных параметров или «вариантов», которые пользователь может использовать. Диалоговое окно на рис.## показывает пользователю заданные параметры для некоторых из плагинов. Серые поля становятся активными, когда пользователь добавляет опции, щелкая около мигающего поля. Поскольку Greenstone является непрерывно развивающейся открытой программной системой, число вариантов имеет тенденцию к увеличению, так как разработчики добавляют новые средства обслуживания. Чтобы помочь справиться с этим, Greenstone имеет плагин «Информация» - сервисную программу, которая вносит в список доступные опции для каждого плагина, а Библиотечный интерфейс автоматически вызывает его, чтобы определить, какие варианты показать. Это позволяет диалоговому пользовательскому интерфейсу автоматически идти в ногу с разработчиками в программном обеспечении.

Array

11: Подготовка к созданию новой коллекции

Array

12: Предварительный просмотр недавно созданной коллекции

Построение коллекции

Панель «Создать» (рис.## ) используется для создания коллекции, основанной на документах и заданных метаданных. Главную нагрузку в этой работе несет непосредственно программа Greenstone. Пользователь управляет этим внешним процессом через последовательный ряд экранов, каждый из которых имеет дело с параметрами, обеспечивающими отдельные этапы процесса создания.

Пользователь наблюдает процесс создания, хотя окно, которое показывает не только текстовую продукцию, созданную Greenstone путем импортирования и скриптов, строящих индекс построения, но также и линейки продвижения, которые показывают степень завершенности каждого скрипта.

На рис.## представлен вид «Создать». Сверху показаны несколько опций, которые могут быть применены в процессе создания. Пользователь выбирает соответствующее значение для выбранного варианта. Этот рисунок иллюстрирует всплывающие «инструменты подсказки», которые являются доступными по всему интерфейсу, чтобы объяснить значение каждого параметра. В рассматриваемом случае пользователь выбирает уровень подробности для процесса создания коллекции, и инструмент подсказки сообщает, что он является числом между 0 и 3, которые информируют о том, как много информации о процессе напечатано в стандартном потоке: «0» означает немного, а «3» - большое количество.

Если пользователь удовлетворен параметрами, он щелкает на «Создать коллекцию». Greenstone непрерывно выдает текст, который показывает продвижение, и он идет наряду с более информативной линейкой продвижения.

Предварительный просмотр

кнопка Предварительного просмотра (рис.## ) используется для просмотра коллекции, которая была создана. При нажатии на эту кнопку открывается веб-браузер с домашней страницей коллекции (Рисунок ## ). Практически, предварительный просмотр часто обнаруживает недостатки в проектировании коллекции или в индивидуальных значениях метаданных, и пользователь часто возвращается к более ранним этапам для исправления их. Эта кнопка становится активной, как только коллекция была создана. Недавно созданная коллекция будет также установлена на Вашей стартовой странице Greenstone как одна из обычных коллекций.

Помощь

Диалоговая помощь всегда доступна. Она запускается при использовании пункта «Помощь» в правой стороне главной линейки меню наверху каждого рисунка. Она открывает иерархически структурированный текстовый файл помощи; объяснение вытекает из текущего контекста пользователя при подсвечивании раздела, который соответствует текущей стадии взаимодействия. Кроме того, как отмечено выше, всякий раз, когда мышь находится над любым диалоговым объектом, всплывает маленькое окно, чтобы дать текст подсказки, как это было иллюстрировано около основания на рис. ## .

Руководство интерфейса библиотекаря

&chap_gli;

Создание тэгов к файлам документам

Если исходные документы коллекции, которую желаете построить, организованы в разделы и подразделы, то вам необходимо указать это в исходном файле (source files), так чтобы Greenstone при создании Оглавления коллекции мог создать ссылки (active links) к каждому документу. Это делается путем обозначения метаданных — заголовка и подзаголовка раздела и подраздела.

Исходные документы - это документы, как правило полученные после процесса ОРС, и являющиеся набором текстовых фалов Word, включая изображения. Если они являются файлами Word, то они могут быть добавлены в Greenstone с помощью Word plugin. Как альтернатива , они так же могут быть преобразованы в формат HTML, используя HTML plugin.

В любом случае, метаданные о заголовках и подзаголовках должны быть указаны тэгами в тексте следующим образом:

<!--
<Section>
<Description>
<!-- id:457 --><Metadata name="Title">Realizing human rights for poor people: Strategies for achieving the international development targets</Metadata>
</Description>
-->

(text of section goes here)

<!--
</Section>
-->

Маркеры <!—…—> используются, так как они указывают комментарии в HTML; таким образом, эти тэги разделов не будут влиять на форматирование документа.

В области Description (между тэгами <Description>, </Description> можно указать другие виды метаданных, но для такого рода коллекций, которые мы описываем, они не используются). Разделы могут иметь и подразделы как продолжение случая, описанного выше.

Если вы When you вставили секцию тегов в ваш документ, запомните что вы создали иерархическую таблицу содержания. Это означает что секции находиться внутри других секций. Фактически, все секции должны быть включены в одну заключительную секцию которая заключает весь документ.

Следующий пример демонстрирует документ с двумя главами, вторая из которых содержит две подсекции. Для реального примера первоисточники оформлены тегами так чтобы они выглядели как документ для Демонстрационной коллекции или коллекция цифровой библиотеки .

<!--
<Section>
<Description>
<Metadata name="Title">My Document</Metadata>
</Description>
<Section>
<Description>
<Metadata name="Title">Chapter 1</Metadata>
</Description>
-->
<!-- id:463 -->(text of chapter 1 goes here)
<!--
</Section>
<Section>
<Description>
<Metadata name="Title">Chapter 2</Metadata>
</Description>
<Section>
<Description>
<Metadata name="Title">Subsection 1</Metadata>
</Description>
-->
<!-- id:464 -->(text of sub-section 1 goes here)
<!--
</Section>
<Section>
<Description>
<Metadata name="Title">Subsection 2</Metadata>
</Description>
-->
<!-- id:465 -->(text of sub-section 2 goes here)
<!--
</Section>
</Section>
</Section>
-->

Имейте ввиду что метаданные назначенные в секции тегов в документе первоисточнике определяют весь документ. Это означает что Вам не следует детально определять метаданные Названия для секции верхнего уровня, если вы не хотите пересоздать метаданные определенные ранее. В вышеуказанном примере как минимум если вы хотите пересоздать заголовок документа вам следует пропустить строку которую вы сейчас читаете

<Metadata name="Title">My Document</Metadata>

Коллектор

Коллектор позволяет вам создавать новые коллекции, а также изменять существующие или удалять. Для этого мы пройдем через ряд веб-страниц, которые рассматривают этот процесс. В качестве альтернатив Коллектору вы также можете создавать коллекции с помощью командной строки - первые страницы Инструкции Разработчика детально рассматривают этот вопрос.

Создание и распространение информации в коллекциях влечет за собой ответственность, которую следует учесть перед созданием. Существуют авторские права: иметь доступ к документам не означает, что вам позволено распространять ее для других. Существуют также вопросы этики: к некоторым вещям просто нужно ограничить доступ. Перо острее меча! Будьте осторожны и умело используйте силу информации.

Нажмите на соответствующую ссылку (Collector) в стартовом окне библиотеки.

В Greenstone структура каждой коллекции определяется в процессе ее создания. Это включает определение формата используемых документов, их вывод на экран, источник метаданных, какие предметные указатели должны быть включены, какие полнотекстовые индексы следует предоставить и как должны быть изображены результаты поиска. После того, как коллекция создана, в нее легко добавить новые документы при условии, что они того же формата, что и существующие документы, и имеют схожие метаданные.

Коллектор выполняет следующие основные функции:

  1. создание новой коллекции, имеющей такую же структуру, как и существующая;
  2. создание новой коллекции, имеющей другую структуру, нежели существующая;
  3. добавить новый материал к коллекции;
  4. изменить структуру коллекции;
  5. удалить коллекцию;
  6. записать коллекцию на самоустанавливающийся CD-ROM

Рисунок ## показывает Коллектор, используемый для создания новой коллекции, в этом случае из набора файлов формата HTML. Прежде всего вам нужно решить, хотите ли вы работать с существующей коллекцией или создавать новую. Первая касается пунктов 3-6, а последняя 1-2.

Array

13: Использование Коллектора для создания новой коллекции (продолжение на следующей странице)

Вход

В любом случае вам прежде всего нужно войти в Коллектор. Заметьте, что обычно, через свои компьютеры люди имеют доступ к специализированному отдаленному компьютеру в сети, имеющему необходимое программное обеспечение для создания коллекций. Конечно же мы не можем позволить каждому иметь доступ к таким серверам и строить коллекции, поэтому Greenstone имеет систему безопасности, где вы должны ввести свой ID и пароль. Так же, если программное обеспечение Greenstone установлено у вас на компьютере, вы можете создавать коллекции на нем. Тем не менее, вы также должны ввести ID и пароль, чтобы оградить посторонних людей от входа в программу без разрешения.

Диалоговая структура

Array

14: Использование Коллектора для создания новой коллекции (Продолж)

После входа на экране появляется страница, изображенная на рисунке ## . На ней показан перечень шагов, используемый для создания коллекции. Это:

  1. Сбор информации
  2. Указание источников
  3. Настройка коллекции
  4. Построение коллекции
  5. Просмотр коллекции

В первом шаге указывается название коллекции и сопутствующая информация. Второй шаг - указать, откуда скачивать и получать информацию. Затем следует настройка конфигураций коллекции. Это шаг, который становится более важным с появлением все большего опыта работы с Greenstone. Четвертый шаг - это там, где происходит сборка и работа. В процессе построения программа создает все индексы и собирает всю информацию, необходимую для функционирования коллекции. Пятый шаг - это просмотр созданной коллекции.

Эти пять шагов изображены в виде линейной последовательности серых кнопок внизу страницы на Рисунке ## и внизу всех страниц, созданных в Коллекторе. Эта панель кнопок поможет вам определить, на какой стадии процесса вы находитесь. Кнопка, на которую нужно нажать для продолжения процесса, изображена зеленым цветом (collection information на рисунке ## ). Кнопки серого цвета (все остальные на Рисунке ## ) являются неактивными. Кнопки меняют цвет на желтый в процессе перехода. Вы можете вернуться к предыдущему шагу, нажав соответствующую желтую кнопку. Этот вид дисплея смоделирован наподобие “путеводителей, мастеров” (wizards) которые используются в других распространенных программных средствах, требуемых для проведения пользователей через процесс инсталляции программы.

Информация о коллекции

Array©

15: Использование Коллектора для создания новой коллекции (Продолж)

Первый шаг в процессе - это информация о коллекции, показанная на рисунке ## . При ее создания необходимо ввести:

Название коллекции - это короткая фраза, повсеместно используемая в цифровой библиотеке для определения содержания коллекции. Типичные названия коллекций: Библиотека пищи и питательных веществ, Мировая библиотека окружающей среды, Библиотека развития и т.д. Электронный адрес предназначен для немедленного контакта с создателем при возникновении проблем с коллекцией. При обнаружении проблем или ошибки, программа Greenstone

может послать отчет о диагностике проблемы на этот адрес. И наконец, краткое описание - это небольшие предложения, описывающие, как устроена коллекция. Оно находится под заголовком About this collection (Об этой коллекции) на первой странице коллекции. Место нахождения пользователя в процессе создания коллекции отображается стрелкой, которая находится на дисплее внизу каждой страницы. На рисунке ## , collection information stage (стадия информации о коллекции). Пользователь продвигается к Рисунку ## , нажав на зеленую кнопку.

Источники информации

Array

16: Использование Коллектора для создания новой коллекции (Продолж)

Начиная с Рисунка ## , пользователь должен указывать текстовые источники, составляющие коллекцию. Вы можете создать вашу коллекцию либо с помощью структуры, установленной по умолчанию программы, либо с помощью структуры, существующей в коллекции.

Если вы выберете структуру по умолчанию, новая коллекция может содержать документы формата HTML (файлы, имеющие расширение .htm, .html) или простые текстовые документы (.txt, .text), документы Microsoft Word (.doc), PDF (.pdf) или документы e-mail (.email). Больше информации о различных форматах документов содержится ниже в части “Форматы документов”.

Если вы создаете новую коллекцию на основе существующей коллекции, то файлы в новой коллекции должны быть обязательно того же самого формата, которые использовались для создания этой коллекции. Заметьте, что некоторые коллекции используют нестандартные форматы исходных файлов, в то время как другие используют метаданные, находящиеся во вспомогательных файлах. Если ваши исходные данные не имеют этой информации, то некоторые поисковые возможности не будут работать нормально. Например, если вы “клонируете” Демо-коллекцию, то заметите, что указатели “названия а-я”, “организации” и “способы” не будут работать. В специальных окнах следует указать местоположение источников документов.

Могут быть указано до трех отдельных исходных источников, изображенных на рисунке ## . Если вам нужно больше, просто нажмите на кнопку “more sources” (больше источников)

Существует три вида указаний:

Если вы используете file:// или ftp:// для указания файла, то будет загружен этот файл.

Если вы используете http://, то результат зависит от того, выдает ли программа обычную интернет страничку на экран или список файлов. Если страничку, то она будет загружена – как и все страницы, на которые существуют ссылки с этой странички и т.д. при условии, что они находятся на одном веб-сайте.

Если вы используете file:// или ftp:// для указания папки или директории или введете http:// адрес, который ведет к списку файлов, то все что находится в папке и все подпапки будут включены в коллекцию.

Вы можете указать источники других видов.

В таком случае (Рисунок ## ) новая коллекция будет содержать документы, взятые как из локальной системы, так и с отдаленного Интернет-ресурса, который будет указан в процессе построения.

Когда вы нажмете на configure collection (конфигурировать коллекцию) для продолжения процесса построения , Коллектор проверит, доступны ли все источники, которые вы указали. Это может занять несколько секунд или даже минут, если вы указали несколько источников. Если один или несколько указанных вами источников недоступны, то появится страница, схожая с Рисунком ## , где указаны недоступные источники (в этом случае оба).

Array

17: Использование Коллектора для создания новой коллекции (Продолж)

Источники могут быть недоступны по следующим причинам:

Последний из случаев самый непонятный. Он случается тогда, когда вы имеете доступ к интернету по телефонной линии (dial-up). Иногда бывает так, что вы видите веб-страницу, набрав адрес в браузере, а Коллектор отвечает, что страница недоступна. Объяснение этого состоит в том, что страница может исходить из locally cashed copy. К сожалению, locally cashed copy являются невидимыми для Коллектора. В этом случае мы рекомендуем сначала загрузить эти страницы из Интернета.

Настройка коллекций

Array

18: Использование Коллектора для создания новой коллекции (Продолж)

На Рисунке ## изображена следующая стадия. Создание и показ всех коллекций контролируется отдельным конфигурационным файлом (смотрите ниже). Более опытные пользователи могут работать с этой страницей для изменения конфигурационных настроек. Однако, большинство пользователей сразу же перейдут к завершающей стадии. На Рисунке ## кнопки configure collection (настроить коллекцию) и build collection (построить коллекцию) изображены зеленым цветом, означая, что третью стадию можно просто пропустить.

В нашем примере пользователь внес небольшие изменения в начальную версию конфигурации, добавив флаг file_is_url с программным дополнением (plugin) HTML. Этот флажок позволяет вставлять метаданные интернет-адресов в каждый документ в соответствии с файловой конвенцией, используемой программой. Эти метаданные позволяют пользователям через ссылку соединяться с оригиналом, который находится в Интернете, а не с копией, находящейся в компьютере.

Построение коллекции

Array

19: Использование Коллектора для создания новой коллекции (Продолж)

Рисунок ## показывает стадию “построения”. На этой стадии происходит само построение коллекции.

Во время этого процесса создаются индексы для просмотра и поиска в соответствии с тем, что вы ввели в конфигурационный файл. Процесс занимает некоторое время: от минут до часов в зависимости от размеров коллекции и быстродействия вашего компьютера. Некоторые объемные коллекции занимают даже целый день.

Когда вы находитесь на этой стадии, внизу страницы специальная панель показывает, как проходит построение, обновляясь через каждые пять секунд.

В случае, когда указаные исходные файлы или интернет-адреса не существуют или они есть, но отсутствует програмное дополнение (plugin), которое могло бы их обработать, или plugin не может найти сопутствующий файл, такой как рисунок, находящийся в документе формата HTML то появляется предупреждающее сообщение. Это сделано с той целью чтобы вы могли наблюдать за процессом. Если произойдут какие-либо сбои или ошибки, которые отменят процесс, они будут выведены в этом окне.

Вы можете прекратить процесс построения в любое время, нажав на кнопку stop building (прекратить построение), изображенной на Рисунке ## . Если вы не вмешаетесь в процесс, то он продолжится, и новая коллекция будет установлена и добавлена после завершения процесса.

Просмотр коллекции

После построения и добавления коллекции в Рисунке ## на нижней панели появляется ряд кнопок, которые были на Рисунках ## ## с активной кнопкой View (Просмотр). Нажав на нее вы сразу попадете в новую коллекцию.

И наконец существует возможность послать электронную почту системному администратору сразу же после создания коллекции (или изменения). Это помогает лицам, ответственным за систему, быть осведомленными о всех изменениях происходящих в системе. Автоматическая отсылка email по умолчанию выключена, но вы можете ее активировать, настроив конфигурационный файл main.cfg (Смотрите руководство разработчика, часть configuring_your_greenstone_site).

Работа с существующими коллекциями

При входе в Коллектор вы должны указать, хотите ли вы создать полностью новую коллекцию или работать с существующей, добавляя или удаляя данные. Создавая всевозможные структуры автоматически, Greenstone позволяет с легкостью добавлять новые данные в существующие коллекции.

Для работы со старой коллекцией вы сначала должны выбрать коллекцию из предоставленного списка. Некоторые коллекциизащищены от изменений: такие не появляются в списке. С коллекцией вы сможете провести следующие действия:

Добавление новых данных

Файлы, указанные вами, будут добавлены в коллекцию. Вам следует убедиться в том, чтобы указанный вами файл не был уже в коллекции, иначе там будут две копии одного и того файла. Файлы нужно указывать по полным названиям (pathname), а вэб-страницы их полными www-адресами. Точно так же вы должны указывать директории и файлы при построении новой коллекции.

Если вы добавляете данные к новой коллекции и по какой-то причине процесс построения останавливается, то старая версия коллекции остается без изменений.

Редактирование конфигурационного файла

Опытные пользователи могут редактировать конфигурационный файл коллекции. В четвертой части описаны конфигурационные установки.

Удаление коллекций

При удалении вас попросят подтвердить удаление коллекции. Запомните, что после удаления коллекции не восстанавливаются.

Перемещение коллекций

Вы можете перенести коллекцию в форму, которая может быть записана на автономный, самозаписывающийся CD-ROM, работающий в Windows. Так как другие программные обеспечения, позволяющие создавать само-устанавливающиеся CD-ROM, дороги, в программе существует инсталляционный модуль.

После того, как вы переместите коллекцию, в диалоговом окне высветится директория, в которую она перенесена. При записи с помощью устройства для записи CD (CD-Writer) нужно убедиться, что вся директория была записана на диск.

Мы не смогли до конца проверить и протестировать Greenstone Installer при всевозможных условиях в связи с очень большим разнообразием различных конфигураций Windows. Хотя инсталлятор может создавать CD-ROMы, работающие в различных конфигурациях Windows, он все еще находится в стадии разработки. Если вы столкнетесь с какими-либо проблемами и будете использовать коммерческие инсталляционные программы (такие, как InstallShield) для создания СD, вы можете использовать информацию, предоставленную Greenstone. Вышеупомянутая директория, куда перемещаются коллекции, содержит четыре файла, относящиеся к инсталляционному процессу, и три поддиректории, которые содержат законченные коллекции и программное обеспечение. Удалите эти четыре файла и используйте InstallShield для инсталляции этих директорий и создания ярлыка к программе gsdl\server.exe.

Форматы документов

При построении коллекций программа обрабатывает каждый формат исходного документа путем использования дополнений к программе (далее именуется - плагин), которые могли бы работать с каждым форматом по отдельности. Плагины указаны в конфигурационном файле коллекции. Greenstone использует название расширений для определения форматов документов, – например, foo.txt обрабатывается как текстовой файл, foo.html как HTML, а foo.doc как документ Word.

Ниже вы увидите список плагинов, доступных для различных видов документов. Более детальное объяснение о них и других видах редко используемых форматов можно найти в Руоводстве Разработчика.

TEXTPlug (*.txt, *.text)

TEXTPlug распознает простой текстовой файл как обычный документ. Он добавляет метаданные название, основываясь на первой строке файла.

HTMLPlug (*.htm, *.html; also .shtml, .shm, .asp, .php, .cgi)

HTMLPlug обрабатывает HTML-файлы. Он получает метаданные название, основываясь на тэге <title> (название), другие метаданные также могут быть получены при помощи синтекса метатэгов HTML (HTML’s metatag syntex) . Существуют различные возможности при использовании этого плагина, описанные в Руководстве Разработчика.

WORDPlug (*.doc)

WORDPlug импортирует документы Microsoft Word. Существует много разных версий формата Word, и даже программы Microsoft часто совершают ошибки при преобразовании. Greenstone использует независимые программы для преобразования файлов Word в формат HTML. Для некоторых старых форматов Word программа использует простой алгоритм извлечения (extraction algorithm), который находит все текстовые строки в исходном файле.

PDFPlug (*.pdf)

PDFPlug импортирует докумены в формате PDF. Так же, как и WORDPlug, он использует независимую программу, в этом случае pdftohtml, для преобразования PDF файлов в HTML.

Как и в случае с WORDPlug, при нажатии на иконку document коллекция по умолчанию будет показывать файл, эквивалентный HTML; тем не менее, строки формата в конфигурационном файле коллекции могут быть настроены так, чтобы позволить пользователю иметь доступ к начальному PDF-файлу, и мы рекомендуем вам сделать именно так. Снова просто замените тэги <link> … </link> на <srclink> … </srclink>.

Программа pdftohtml не работает с некоторыми PDF-файлами. Дело в том, что процесс преобразования занимает очень много времени, и часто появляется сообщения о сбое, связанном с процессом преобразования. Если это так, то единственное решение - это удалить этот документ из коллекции. Так же PDFPlug не может справиться с зашифрованными файлами PDF.

PSPlug (*.ps)

PSPlug импортирует документы формата PostScript. Лучше всего он работает, если на вашем компьютере установлена стандартная программа Linux, которая называется ps2ascii. Она доступна в большинстве Linux-обеспечениях, но не в Windows. Если эта программа недоступна, PSPlug использует простой алгоритм текстового извлечения.

EMAILPlug (*.email)

EMAILPlug импортирует файлы, содержащие электронную почту, и работает с привычными E-mail форматами, используемыми в Netscape, Eudora, Unix. Каждый исходный документ проверяется на наличие одной или нескольких электронных почт, соединенных в одном файле, и преобразовывает содержимое. Плагин извлекает каждый вид метаданных, таких как Тема, Кому, От кого, Дата. Тем не менее, этот плагин еще не может полностью работать с почтой, кодированной в MIME.

ZIPPlug (.gz, .z, .tgz, .taz, .bz, .zip, .tar)

Плагин ZIPPlug работает со сжатыми или заархивированными исходными форматами: gzip(.gz,.z,.tgz,.taz), bzip (.bz), zip (zip, .jar) and tar (.tar). Он базируется на таких программах, как gunzip, bunzip,unzip и bar, которые являются стандартными Linux-утилитами. В Windows ZIPPlug отключен.

1) эта опция повреждается, если элемент с тем же самым именем уже существует

Navigation
Toolbox