Сканеры и сканирование

Первый шаг для преобразования бумажных документов в цифровую коллекцию состоит в сканировании всех страниц исходных документов. Следующий шаг - это проведения процесса оптического распознавания символов (ОРС), для чего очень важны высококачественные и четкие исходные документы. Процесс перевода в цифровой формат нуждается в сканере, способном работать при разрешении 300 dpi (точек на дюйм). Большую часть сканирования можно произвести в черно-белом режиме, но при включении цветных иллюстраций их следует отсканировать цветным сканером. В большинстве случаев обложки книг являются красочными и их необходимо сканировать в режиме цветного рисунка.

Сканеры

Сканеры доступны по различным ценам и имеются всевозможных размеров и форм. Их цена находится в пределах от $ 100 за обычный настольный сканер до $50000 за огромные индустриальные сканеры таких производителей как Bell & Howell1). Существует много разных торговых Интернет-страниц, предлагающих всевозможные сканеры. Для поиска сканеров просто используйте такие поисковые системы, как Google, Altavista, Yahoo.

Обычный формат, в котором сохраняется отсканированный документ, это TIFF или BMP (Bitmap image). Сжатая форма TIFF IV является лучшим форматом для использования. Средняя отсканированная страница, переведенная в этот формат, занимает всего 50 килобайт, по сравнению с 2 Mb идентичной страницы, сохраненной в BMP.

Недорогие настольные сканеры (flat-based scanners)

Настольные сканеры являются самыми дешевыми и наиболее доступными сканерами. Существует много торговых марок, таких как HP, Agfa, Acer и т.д. Их цены колеблются от 100 до 300 долларов. С их помощью можно сканировать как черно-белые рисунки, так и цветные. Низкие цены позволяют каждому пользователю иметь один из таких сканнеров.

Их недостатки - это средний уровень качества, медленное сканирование, ненадежность при высоких температурах и относительно частые поломки. Страницы должны сканироваться вручную и каждая из страниц по отдельности. Каждую страницу нужно положить так, чтобы она располагалась правильно. Продуктивность на таких сканерах очень низка. Несмотря на то, что производители утверждают, что одну страницу можно отсканировать меньше, чем за одну минуту, на практике трудно преодолеть границу в 12 страниц за час. К тому же процесс сканирования полностью занимает компьютерные ресурсы.

Следовательно, такие сканеры удобны только для выполнения небольших работ с небольшим набором страниц - не более 200-400 в месяц, если выполнять сканирование регулярно. Те, кто работает со сканером полный день, это составляет 1000-2000 страниц.

Сканеры с автоматической подачей бумаги

Сканеры с автоматической подачей бумаги стоят около 500-1200 долларов. Можно помещать до 10-15 страниц в сканер и сканировать их одновременно: следовательно, оператору не нужно постоянно подходить к аппарату. Это позволяет увеличить производительность до 150-200 страниц в день. Эти сканеры наиболее стойкие и не нуждаются в ремонте в течение долгого времени (после сканирования 30000-50000 страниц).

Их недостаток состоит в том, что сканируется только одна сторона страницы; для того, чтобы отсканировать другую сторону, страницу нужно перевернуть. Это часто создает проблемы, так как автоматическая подача бумаг всегда проблематична и часто страницы застревают.

Эти сканеры удобны для обработки 1500-3000 страниц в месяц.

Цветные сканеры

Любая операция сканирования сталкивается с цветными рисунками, поэтому необходимо наготове иметь цветной сканер. Обычно менее 5% любой публикации содержит какие-либо цветные рисунки, включая обложку. Поэтому рекомендуется иметь дешевый цветной настольный сканер. Рекомендуется иметь сканер с разрешением не менее 600 dpi.

Профессиональные дуплексные сканеры

Профессиональные сканеры надежны, прочны и способны сканировать около 2000-10000 страниц в день. Они имеют автоматическую систему подачи бумаги, которая обрабатывает стопки в 50-200 страниц. Самые лучшие и быстрые сканеры - это дуплексные сканеры, которые сканируют обе стороны документа одновременно.

Эти сканеры нуждаются в мощном компьютере с жестким диском как минимум на 10-20 Gb. Их цены граничат от $5000 до $50000. Например, дуплексный сканнер Canon DR-6020 стоит 5000 долларов и может работать с двухсторонними документами. Он способен сканировать до 2000 в день и находится в рабочем состоянии до 600000-800000 страниц. Сканеры Bell&Howell and Fujitsu стоят от 10000-50000 долларов и могут обработать миллионы документов до первого ремонта.

Сканеры Micro-fische стоят от $15000 за полуавтоматический набор до $80000, работающий полностью в автоматическом режиме.

Программы для сканирования

Каждый сканер имеет свое программное обеспечение, поэтому эту программу необходимо установить на ваш компьютер. Некоторые программы имеют computer card, которую нужно установить для ускорения процесса сканирования.

Подготовка документов

Документы нужно подготовить заранее до их сканирования. С них нужно стряхнуть пыль, высушить мокрые документы, снять скрепки и расправить страницы.

Необходимо аккуратно снять сшивку с каждой книги.

Многие книги, которые вы будете использовать для сканирования, необходимо будет снова сшить, поэтому будьте внимательны при снятии сшивки.

Для документов, имеющих объем более 20 страниц, мы рекомендуем поручить задание на сканирование специализированным организациям, имеющим соответствующее оборудование.

Процесс сканирования

Используя программное обеспечение, приложеное к сканеру, цифровое изображение каждой страницы сканировано и переведено в Bitmap или TIFF формат. Эти изображения могут быть сохранены на хард диске под стандартными названиями. Процесс OCR начинается как только один или группа документов была сканирована. Это может быть проведено человеком, который управляет сканером или любым другим.

Обычно, при сканировании, нужна резолюция в 300 dpi, хотя иногда приемлема резолюция в 200 dpi.

Контроль качества

Конечная цель сканирования - это либо провести отсканированные документы через процесс оптического распознавания символов ОРС (optical character recognition) для получения документа в формате Word или HTML, либо получить изображения документов в формате PDF. В любом случае качество изображения исходного документа очень важно. Если качество изображения ниже стандарта, то они будут выглядеть размыто и занимать больше компьютерной памяти. Качество изображения также очень сильно влияет на процесс оптического распознавания символов (далее ОРС). При качестве ниже нормы его продуктивность падает на 40%. ОРС, как правило, составляет 90% от общей стоимости всего процесса преобразования твердых копий в цифровой формат, поэтому качество сканирования может очень сильно повлиять на конечные затраты.

Качество файлов формата TIFF можно улучшить путем настройки процесса сканирования для каждого типа бумаги, изменяя настройки в программе. Относительно тонкая бумага потребует других настроек, нежели другая: контраст должен быть настроен в зависимости от качества печати документа, который будет отсканирован , и т.д.

Вначале разделите исходный материал на группы со схожим качеством бумаги и схожим качеством печати. Проведите испытание ОРС на нескольких экземплярах бумаг из первой группы для определения оптимальных настроек. Затем можете смело сканировать весь материал из этой группы.

Рекомендуемые правила для обозначения документов

Присвойте каждой книге или документу свой номер или код, который станет названием папки, содержащей все изображения TIFF из этого документа. В зависимости от операционной системы (DOS, Windows, UNIX, LINUX и т.д.) можно использовать от 8 до 128 символов в названии файла. Мы рекомендуем не превышать 8-16 символов. Первые пять букв могут символизировать название документа, следующие буквы языковой код, а остальные цифры -определенную страницу). Например, название u7548el2.tif может означать рисунок TIFF на странице 12, написанной на английском языке под кодом u7548e.

Создайте одну директорию на жестком диске для отсканированных работ, назовите, к примеру, scanjobs. Затем создайте поддиректорию для каждого задания. Внутри поддиректории создайте еще одну поддиректорию для каждой публикации и книги - и7548 в примере, показанном выше. Сохраняйте все изображения TIFF из документа, включая цветные рисунки, в этой папке.

Производительность и ресурсы

Вы не должны недооценивать весь масштаб процедуры сканирования — в особенности процесс ОРС. Лучше всего считать сканирование и ОРС как полностью независимые операции. Оптимальное решение должно быть принято по каждому из них в отдельности.

Вот некоторые вещи, о которых следует подумать перед приобретением сканеров и компьютеров: наличие необходимого помещения и рабочей силы, обучение рабочих; зарплата; минимальное и максимальное число страниц, которые необходимо отсканировать; сроки; можно ли эти документы передавать третьим лицам.

Стоимость сканирования

Важное решение, которое нужно принять, - покупать ли сканирующую аппаратуру и проводить сканирование самим, или поручить это дело компании, специализирующейся на сканировании. Вот главные пункты, над которыми надо подумать:

  • Конечные сроки для завершения сканирования
  • Общее количество страниц
  • Зарплата тех, кто совершает сканирование

Люди, занимающиеся сканированием, должны иметь высокую мотивацию, быть искусными и ответственными за качество работы.

Средняя цена за одну отсканированную страницу у профессиональных компаний составляет $0.06. К этому нужно добавить стоимость доставки, которая может достигать $0.03 за транспортировку страницы из развивающейся страны в развитую, и $0.015 - за страницу в самой стране.

В таблице <tblref table_table_scanning_cost> приведена стоимость выполнения операции сканирования вашими усилиями с использованием разных типов сканеров. Заметьте, что все цифры приблизительны. Они примерны и основываются на опыте авторов. Первые три колонки включают стоимость рабочей силы. Первая из них - это производительность в страницах/месяц при работе на полную ставку. Расчет человеко-часов на страницу производится путем разделения числа рабочих часов в месяце на производительность страница/месяц и представлен во второй колонке. При расчете предполагается 180 рабочих часов в месяц.

<tblcaption table_table_scanning_cost|Стоимость сканирования></tblcaption>

Объем (страниц/месяц) Час/стра ница (180 часов в месяц) Цена/стр (предпо-латая $4/час) Цена сканера Работоспосо бность до первого ремонта (страниц) Объем выполняе­мый професси­ональной компанией (при $0,06 за страницу)
Страничный настольный 2,500 0.072 $0.288 $300 7,000 5,000
сканер Сканер с автоматичес­кой 8,000 0.0225 $0.09 $800 30,000 13,000
подачей страниц Професси­ональный low end duplex 40,000 0.0045 $0.018 $6,000 600,000 100,000
Профессиона­льный: high-end duplex 150,000 0.0012 $0.0048 $50,000 8,000,000 833,000

Чтобы определить стоимость сканирования одной страницы, умножьте полную часовую зарплату на вторую колонку. К примеру, в третьей колонке представлена цена выполнения сканирования при найме труда без учета затрат на сканер - $4/час.

Эти подсчеты подразумевают, что сканер будет использован для достаточно большого количества копий, чтобы окупить свою начальную стоимость. Последние три колонки дают больше информации о стоимости самого сканера. Первая из них показывает стоимость сканера, следующая приблизительную продолжительность работоспособности. Последняя показывает число страниц, которые можно отсканировать, наняв компанию, при цене $0.06/страница.

Конечно же на выбор сканера влияют и другие факторы: наличие денег, необходимость в минимизации зависимости от других, договоренность с библиотекой, разрешающая осуществлять сканирование книг, не вывозя их за пределы библиотеки и т.д.

Таблица приведенная выше, дает примерную оценку количества страниц, которое необходимо отсканировать для окупаемости затрат. Очень редки случаи, когда организация нуждается в сканировании 800000 страниц. При таком масштабе появляются более сложные проблемы, такие как содержание оборудования и окупаемость затрат путем сдачи его в аренду, которые не будут обсуждаться в этой части.

Развитие бизнеса сканирования может показаться очень привлекательной коммерческой возможностью, в особенности в развивающихся странах. Но помните, Что после того, как будут отсканированы документы, ваши клиенты больше никогда не закажут сканирование тех же самых документов - вне зависимости от того, насколько хороши ваши с ними отношения. С коммерческой точки зрения этот бизнес нуждается в интенсивном маркетинговом изучении. Мы не советуем неправительственным организациям и некоммерческим организациям заниматься таким бизнесом без детального исследования рынка и хорошо продуманного бизнес-плана.

В заключение отметим, что если нужно сканировать от 10000 до 50000 страниц, лучше поручить эту работу сканирующей компании. Профессиональный low-end сканер будет окуплен только в том случае, если вы отсканируете более 100000 страниц. Если вы решили приобрести такой сканер, то лучше это сделать совместно с другой неправительственной организацией или библиотекой.

1) Все цены, упомянутые в этом документе, даны в долларах США, 2001 года.