Упражнения по использованиию Greenstone
Сложные документы PDF
- Компоновка новой коллекции Greenstone из двух файлов в sample_files\difficult_documents. Используйте конфигурацию коллекции по умолчанию.Т.е. соберите из файлов новую коллекцию и постройте.
Файлы называются: No extractable text.pdf и Weird characters.pdf - имена обозначают вызываемую ими проблему!
- Просмотрите коллекцию. Списки заголовков и наименований файлов показывают только один из документов. После того, как откроется пиктограмма "текст" для просмотра извлечённого из документа текста, там окажется мусор. Во время процесса компоновки появилось сообщение: Один документ был обработан и включён в коллекцию, а другой отклонён.
Режимы Библиотечного интерфейса.
Интерфейс библиотеки может действовать в нескольких режимах. До настоящего времени пользовались режимом по умолчанию-"Библиотекарь".
- Использовуйте пиктограмму Предпочтения в меню Файл для переключения в режим Эксперт и соберите коллекцию снова. Панель Создать выглядит в Эксперте по-другому;так,как дает больше опций: найдите кнопку Собрать коллекцию находящуюся внизу окна, и нажмите на неё. Появившееся сообщение говорит о том, что файл не может быть обработан по определённым причинам
- Рекомендуем вернутся в режим Библиотекарь для последующих упражнений, во избежание путаницы.
Улучшеная конвертивовка PDF с Ghostscript
Если у вас инсталлирован Ghostscript, вы можете использовать новый метод для конвертировки сложных документов PDF. Ghostscript - это программа для конвертировки Postscript и PDF в другие форматы. Ее можно скачать с http://www.cs.wisc.edu/~ghost/ (следуйте линку к более стабильной версии).
- Данные проблемы можно преодолеть с помощью меню PDFPlug. Greenstone может преобразовать файлы PDF в серию изображений с соответствующим файлом, объясняющим способ составления полного документа (называемого item file). На данном этапе упражнения требуется установить ImageMagick (Установите Greenstone).
- В панели Дизайн в меню Плагины документа щёлкните дважды на PDFPlug для вызова окна показывающего установки, и установите опцию convert_to к pagedimg_gif.
-
Постройка коллекции и её предварительный просмотр. Оба документа PDF были обработаны и разбиты на страницы, но при этом каждая страница показывает, что документ не содержит текста, т.к при конвертировании PDF документов в изображения не было извлечено каких-либо текстов.
- В целях соответствующего просмотра документов модифицируйте формат оператора. В панели дизайн есть секция характеристики формата, выберите формат оператора Текст документа.Замените:[Text] with [srcicon]. Далее нажмите на <Заменить формат>.
-
Предварительный просмотр коллекции с панели Создать.(Нет необходимости в построении). Изображения из документа показываются вместо извлечённого текста. Оба файла No extractable text.pdf и Weird characters.pdfтеперь показаны отчетливо..