De 1.000 a 100.000 páginas en tres ejemplos

Una colección de pequeñas dimensiones: de 500 a 1.000 páginas

La mayoría de las ONG tienen un volumen de 500 a 1.000 páginas por escanear. Si disponen de voluntarios motivados pueden asumir por cuenta propia el proceso de OCR.

Escaneado

El primer paso consiste en escanear las publicaciones para generar un archivo TIFF de alta calidad para cada página y una imagen bitmap independiente (ya sea de dibujo de líneas simples, escala de grises o color) para cada ilustración. Suponiendo que deban escanearse 1.000 páginas, ello puede equivaler a cerca de un mes de trabajo a tiempo parcial (sólo para el escaneado). Los archivos TIFF ocuparían entre 60 y 80 Mb de espacio en el disco duro, por lo que es aconsejable utilizar un CD-ROM para dar cabida a esos archivos. Un escáner plano de precio reducido (entre 100 y 300 dólares) basta para realizar ese trabajo, del que puede ocuparse un voluntario después de la jornada laboral o durante los fines de semana, ya sea en la oficina o en casa.

OCR

La segunda etapa es la del proceso de OCR, que se encomendará a otro voluntario, o equipo de voluntarios, con buenos conocimientos lingüísticos y de corrección ortográfica. Cabe la posibilidad de repartir los archivos TIFF entre varias computadoras o bien de utilizar una sola máquina para la totalidad del trabajo. Por lo general se requieren entre cinco y seis meses de trabajo a tiempo parcial (a razón de 20 horas semanales, por ejemplo) para convertir 1.000 páginas en documentos impecables en formato Word o HTML.

Subcontratación

Una posibilidad alternativa es la de subcontratar los procesos de escaneado y OCR. La conversión de todos los documentos en archivos Word y HTML impecables costaría probablemente entre 1.500 y 2.000 dólares.

Todas las publicaciones de una organización: 5.000 páginas

Los archivos de muchas organizaciones de mayor tamaño pueden contener unas 5.000 páginas de libros (en catálogo o agotados), revistas, boletines, documentos, etc.

Escaneado

Se trata de un volumen excesivo para un escáner plano, lo que deja dos opciones: subcontratar el trabajo (contando unos 400 dólares por 5.000 páginas) o adquirir un escáner con alimentador de papel (aproximadamente 900 dólares). Otra alternativa es que varias instituciones u ONG adquieran conjuntamente un escáner más caro (6.000 dólares, divididos por el número de participantes). Las 5.000 páginas en formato TIFF ocuparían entre 300 y 400 Mb en el disco duro. Señalemos de nuevo la conveniencia de utilizar un CD-ROM para guardar esos archivos.

OCR

A continuación hay que ocuparse del proceso de OCR, que puede encargarse a otro voluntario, o equipo de voluntarios, diestro en técnicas de OCR y corrección ortográfica. Como en el caso anterior, es posible utilizar varias computadoras o una sola para esta tarea. La conversión de 5.000 páginas en archivos Word o HTML impecables exigiría entre 25 y 30 meses de trabajo a tiempo parcial (a razón de 20 horas semanales), lo que en la práctica descarta el empleo exclusivo de voluntarios porque lleva demasiado tiempo y requiere un uso excesivo de la computadora. Para concluir el trabajo en un plazo razonable y con un buen nivel de calidad habría que pagar a los voluntarios, supervisar su rendimiento y la calidad de su labor, proporcionarles espacio adecuado, etc.

Una posibilidad alternativa es la de crear archivos gráficos PDF, que ocuparían entre 300 y 400 Mb de memoria y resultarían más difíciles de descargar de Internet.

Subcontratación

Otra alternativa es la de subcontratar los procesos de escaneado y OCR, lo que costaría probablemente entre 7.500 y 10.000 dólares.

Una pequeña biblioteca: 100.000 páginas

Otras entidades de mayor envergadura, universidades, gobiernos o bibliotecas especializadas podrían tener una biblioteca entera por digitalizar, algo así como unas 100.000 páginas. Lo primero que se debe tener en cuenta es la situación de las publicaciones en materia de derecho de autor: bien están incluidas en el dominio público o bien hay que obtener permiso explícito de los titulares de los derechos para poder digitalizarlas. Conviene cerciorarse asimismo de que los documentos no existen ya en formato electrónico.

Escaneado

100.000 páginas son demasiadas para un escáner con alimentador de papel, por lo que caben dos opciones: subcontratar el trabajo (a unos 8.000 dólares las 100.000 páginas) o adquirir, conjuntamente con otras instituciones u ONG, un equipo de mayor calidad y precio (6.000 dólares, divididos entre los participantes). 100.000 páginas en formato TIFF ocuparán entre 6 y 8 Gb en el disco duro. Lo ideal es crear copias de esos archivos en discos CD-ROM.

OCR

La segunda etapa es el proceso de OCR (en el caso de documentos menos utilizados, también cabe la posibilidad de crear archivos PDF). Convertir 100.000 páginas en archivos Word o HTML impecables llevaría entre 500 y 700 meses de trabajo a tiempo parcial, lo que a todas luces descarta el uso de voluntarios para esta tarea, más propia de profesionales.

Para ahorrar costos se pueden convertir en PDF algunas de las páginas menos utilizadas (digamos el 80%, u 80.000 páginas), reservando los formatos Word o HTML para las 20.000 páginas restantes. Los archivos PDF ocuparían entre 4 y 6 Gb de espacio y no sería fácil descargarlos de Internet, pero en cambio saldrían baratos si los creara una empresa especializada (sólo 0,2 dólares por página, lo que supone un costo total de 16.000 dólares). Utilizando voluntarios para crear 80.000 archivos PDF a partir de archivos TIFF mediante programas de conversión como Acrobat de Adobe se precisarían 10 a 20 meses de trabajo a tiempo parcial con una computadora de gran potencia.

Subcontratación

Una posible alternativa es la de subcontratar el trabajo. Suponiendo que se mantuviera la mencionada proporción del 80% en PDF y el 20% en HTML, los archivos PDF costarían unos 16.000 dólares y los archivos HTML entre 30.000 y 40.000 dólares, con lo que el presupuesto total ascendería a unos 50.000 dólares. Si se sometieran todos los documentos a un proceso de OCR, convertir toda la colección en archivos Word y HTML impecables costaría entre 150.000 y 200.000 dólares.