Escáneres y escaneado

En el proceso de conversión de documentos impresos en una colección de biblioteca digital, el primer paso consiste en obtener imágenes digitales de todas las páginas de todas las publicaciones. La siguiente etapa es la del reconocimiento óptico de caracteres (OCR), proceso que requiere, para un resultado óptimo, imágenes de partida limpias y de buena calidad. Para el proceso de digitalización se necesita un escáner que pueda trabajar a una resolución de 300 ppp (puntos por pulgada). Gran parte del trabajo puede hacerse en blanco y negro, aunque deberá utilizarse un escáner capaz de obtener imágenes en color cuando el documento las contenga. La mayoría de las cubiertas de libro son en color, por lo que hay que escanearlas en forma de imagen fotográfica en color.

Escáneres

Existen escáneres de todos los precios, formas y tamaños, que pueden costar desde 100 dólares (un escáner plano) hasta más de 50.000 dólares (los grandes escáneres industriales de fabricantes como Bell & Howell1)). Hay muchos sitios Web en los que se ofrece a la venta un amplio surtido de escáneres. Para encontrarlos basta con introducir la palabra “scanner” (escáner) en buscadores como Google, Altavista o Yahoo.

El formato de salida de una página escaneada es un archivo informático, por lo general en formato TIFF o Bitmap. El mejor formato es el TIFF IV comprimido. Una página normal, escaneada y convertida en este formato, ocupa sólo 50 Kb de memoria, mientras que una página equivalente en formato Bitmap no comprimido puede llegar a los 2 Mb.

Escáneres planos (o de sobremesa) de gama baja

Los escáneres de este tipo son los más económicos y difundidos. Existen muchas marcas: HP, Agfa, Acer, etc., con precios que van de los 100 a los 300 dólares. Con ellos pueden obtenerse imágenes tanto en blanco y negro como en color. <b/> El bajo precio de estas máquinas permite conectar cada computadora a su propio escáner.

Entre sus inconvenientes cabe citar la mediocre calidad del resultado, la lentitud con que trabajan, su escasa fiabilidad a temperaturas altas y la relativa frecuencia con que se averían. Es preciso escanear las páginas manualmente, una por una, colocándolas cuidadosamente en la placa de escaneado para que queden correctamente alineadas. De ahí que su productividad resulte baja. Aunque los fabricantes aseguran que se puede escanear una página en menos de un minuto, en la práctica rara vez se consiguen resultados superiores a las doce páginas por hora. Además, el proceso de escaneado monopoliza la computadora con la que se está realizando el trabajo.

Por todo lo dicho, estos escáneres sólo son útiles para realizar trabajos de escasa envergadura y pocas páginas: no más de 200 a 400 páginas al mes cuando se trate de un trabajo sistemático, y de 1.000 a 2.000 páginas para operaciones de carácter esporádico.

Escáneres de gama baja con alimentador de papel

Los escáneres de este tipo suelen costar entre 500 y 1.200 dólares. Ofrecen la posibilidad de escanear y procesar de 10 a 50 páginas de una vez, lo que evita que el operador tenga que estar continuamente pendiente de la máquina y aumenta la productividad hasta unas 150 a 200 páginas diarias. Estos escáneres son más robustos y gozan de una vida útil más larga antes de necesitar reparaciones (lo que suele ocurrir al cabo de 30.000 a 50.000 páginas).

Una de sus desventajas es que sólo pueden escanear una cara a la vez, lo que obliga a invertir el paquete de páginas y escanearlas de nuevo para obtener imágenes por ambas caras. Ello da lugar a frecuentes problemas, pues los alimentadores nunca funcionan a la perfección y a veces las páginas se atascan.

Estos escáneres son útiles para trabajos de 1.500 a 3.000 páginas mensuales.

Escáneres en color

Toda operación de escaneado conlleva siempre imágenes en color, lo que hace imprescindible un escáner capaz de procesarlas. Por regla general, menos del 5% de una publicación contiene imágenes en color, sin contar la cubierta. En consecuencia, será suficiente un escáner plano de gama baja como los mencionados más arriba. Es aconsejable elegir una máquina que pueda trabajar a una resolución de hasta 600 ppp.

Escáneres dúplex profesionales

Los escáneres profesionales son máquinas fiables y resistentes, capaces de tratar un gran número de páginas (normalmente entre 2.000 y 10.000 páginas diarias). Están provistos de una bandeja de alimentación automática con capacidad para 50 a 200 páginas. Los mejores y más rápidos son los dúplex, es decir, capaces de escanear simultáneamente las dos caras de una hoja.

Para utilizar un escáner dúplex profesional se requiere una computadora potente, dotada de un disco duro de 10 a 20 Gb de capacidad como mínimo. El precio de estos escáneres oscila entre los 5.000 y los 50.000 dólares. El escáner dúplex Canon DR-6020, por ejemplo, cuesta 5.000 dólares y puede trabajar con documentos impresos por ambas caras. Ofrece un rendimiento de unas 2.000 páginas diarias y un periodo de vida útil de 600.000 a 800.000 páginas. Los escáneres Bell & Howell y Fujitsu cuestan entre 10.000 y 50.000 dólares y gozan de un periodo de vida útil de muchos millones de páginas.

Los escáneres para microfichas cuestan entre 15.000 (por una unidad semimanual) y 80.000 dólares (por un escáner completamente automático).

Programas de escaneado

Cada escáner viene acompañado de su propio programa informático, que es necesario instalar en la computadora desde la que vaya a controlarse el escaneado. Algunos traen consigo una tarjeta controladora que se instala en la computadora para acelerar la digitalización.

Preparación de los documentos

Antes de escanear los documentos hay que prepararlos adecuadamente, eliminando posibles motas de polvo, secándolos si están húmedos, extrayendo clips y grapas y alisando las páginas dobladas o arrugadas.

Es preciso desmontar el lomo de los libros, cortándolo en línea recta y desprendiéndolo con precisión. A menudo habrán de encuadernarse de nuevo los libros procedentes de bibliotecas, en cuyo caso conviene extremar las precauciones al desmontar el lomo para facilitar la posterior encuadernación.

Cuando se trabaje con pocos documentos se puede retirar el lomo manualmente, con ayuda de una regla y una cuchilla. ¡Pero cuidado con los dedos! Para un mayor número de documentos merece la pena recurrir a guillotinas manuales especiales

Para grandes volúmenes, por ejemplo más de 20 documentos, recomendamos pedir permiso a una imprenta o copistería para utilizar su guillotina profesional. Recuérdese que es preciso extraer los clips y las grapas para no dañar las cuchillas.

El proceso de escaneado

Con el programa informático suministrado con el escáner se genera a partir de cada página una imagen electrónica, que se transforma en una imagen Bitmap o TIFF y se memoriza acto seguido en el disco duro, asignando a cada archivo un nombre normalizado. Una vez escaneados todos o una parte de los documentos de un lote empieza el proceso de OCR, del que puede ocuparse el operador del escáner o cualquier otra persona.

En general se necesita una resolución de 300 ppp, aunque a veces también resulte aceptable un valor de 200 ppp.

Control de calidad

La digitalización sirve para obtener una versión perfecta de las publicaciones en formato de texto o HTML mediante el proceso de OCR, o bien para crear archivos gráficos mejorados como los PDF. En ambos casos es de suma importancia que la imagen sea de buena calidad. En caso contrario los archivos gráficos resultan poco nítidos y consumen más memoria. La calidad influye sobremanera en el proceso de OCR: con imágenes de calidad mediocre la productividad puede caer hasta en un 40%. Sabiendo que el OCR suele representar más del 90% del costo total, se deduce que la calidad del escaneado es determinante para el costo final del proceso.

Es posible mejorar la calidad de un archivo TIFF adaptando el proceso de escaneado a cada tipo de papel mediante las opciones de ajuste que ofrece el programa del escáner. Un tipo de papel relativamente transparente requerirá parámetros más claros, el contraste deberá ajustarse en función de la calidad de la impresión, etc.

Ante todo conviene dividir el material en lotes de documentos que presenten similar calidad de papel e impresión, y después realizar pruebas de OCR con una muestra del primer lote para determinar los parámetros de ajuste idóneos. A continuación se escanearán todos los documentos de ese primer lote antes de continuar con el siguiente.

Convenciones para designar los archivos

Es preciso asignar a cada libro o documento un número de trabajo o código único, que a su vez dará nombre a la carpeta en la que se archiven todas las imágenes TIFF correspondientes a ese documento. Según el sistema operativo del que se trate (DOS, Windows, UNIX, LINUX, etc.), el nombre de un archivo puede comprender entre 8 y 128 caracteres, aunque es aconsejable limitarse a un máximo de 16 caracteres. Si se utilizan 8 caracteres, los cinco primeros servirían para identificar el documento, el siguiente sería una letra indicativa del código de idioma y los dos restantes caracteres indicarían el número de página. Por ejemplo: el identificador u7548e12.tif correspondería a la imagen TIFF de la página 12 de un libro escrito en inglés que tuviera por código u7548e.

Conviene asignar un directorio del disco duro a los trabajos de escaneado (por ejemplo con el nombre de scanjobs). Después se puede crear un subdirectorio para cada uno de los trabajos, en cuyo interior se creará un nuevo subdirectorio para cada publicación (en el ejemplo anterior, u7548e), donde se guardan todas las imágenes TIFF correspondientes a esa publicación, incluidas las imágenes en color.

Productividad y recursos necesarios

No hay que subestimar la carga de trabajo que suponen los procesos de escaneado y, sobre todo, de OCR. Es preferible considerar que ambos procesos son completamente independientes y elegir el procedimiento idóneo (desde el punto de vista económico y también práctico) para cada uno de ellos por separado.

Entre los aspectos que conviene tener en cuenta cabe señalar: la inversión necesaria en escáneres y computadoras, la existencia de los recursos humanos y el espacio necesarios, la formación del personal, los gastos salariales, el número inicial y total de páginas por escanear, los plazos en que ha de realizarse el trabajo y la posibilidad de subcontratarlo a terceros.

Costos del proceso de escaneado

Es importante decidir si se ha de invertir en un equipo de escaneado y asumir internamente esa labor o bien subcontratarla a una empresa especializada. Las principales consideraciones que deben tenerse en cuenta son:

  • los plazos en que ha de realizarse el trabajo;
  • el número total de páginas;
  • los costos salariales correspondientes a las personas encargadas del escaneado.

Las personas a quienes se encomiende el escaneado deben estar muy motivadas y preparadas técnicamente, y tener muy clara la importancia de cumplir los criterios de calidad.

Una empresa especializada suele cobrar 0,06 dólares por página, a lo que hay que añadir los gastos de envío, que pueden ser de hasta 0,03 dólares por página cuando se remite el material de un país en desarrollo a un país desarrollado y de 0,015 dólares por página cuando se trata de un envío nacional.

En el Cuadro <tblref table_table_scanning_cost> se ofrecen estimaciones de los costos de escaneado por cuenta propia según el tipo de escáner que se utilice. Conviene tener en cuenta que estas cifras son aproximadas y corresponden más bien a órdenes generales de magnitud, basados en la experiencia de los autores. En las tres primeras columnas se presentan los costos laborales. En la primera se indica la productividad (en páginas mensuales) suponiendo que se trabaje a jornada completa. Dividiendo las horas mensuales de trabajo por la productividad en páginas/mes se obtienen los recursos necesarios en términos de horas de trabajo/página, guarismo que figura en la segunda columna (suponiendo que se trabajen 180 horas al mes).

<tblcaption table_table_scanning_cost|Costos del proceso de escaneado></tblcaption>

Rendimiento (páginas/mes) Horas/página (180 horas/mes) Costo/página (suponiendo 4 dólares/hora) Adquisición del escáner (dólares) Vida útil del escáner (páginas) Páginas que se podrían subcontratar por el precio del escáner (a 0,06 dólares c/u)
Escáner plano 2.500 0,072 0,288 300 7.000 5.000
Escáner con alimentador de papel 8.000 0,0225 0,09 800 30.000 13.000
Profesional: dúplex de gama baja 40.000 0,0045 0,018 6.000 600.000 100.000
Profesional: dúplex de gama alta 150.000 0,0012 0,0048 50.000 8.000.000 833.000

Para determinar el precio por página se multiplican los costos salariales por hora totales (que dependerán de cada caso) por la segunda columna del Cuadro <tblref table_table_scanning_cost>. En la tercera columna se indica, a título de ejemplo, el precio de escanear por cuenta propia suponiendo que se pague un sueldo de 4 dólares/hora, excluidos los gastos de inversión.

Estos cálculos presuponen que se procesa un número de páginas suficiente para justificar la adquisición de un escáner. En las tres últimas columnas del Cuadro <tblref table_table_scanning_cost> se ofrece información sobre los costos derivados del propio escáner. En la primera de ellas se indica el precio de adquisición de la máquina, en la siguiente el tiempo de vida útil que se le supone y en la última el número de páginas que podrían subcontratarse por el precio del escáner, contando una tarifa de 0,06 dólares/página.

Hay, desde luego, muchos otros factores que influyen en la decisión de adquirir o no un escáner: la disponibilidad de fondos suficientes, la necesidad de reducir al mínimo la dependencia para con terceras partes, el deseo de crear capacidades a escala local, la obligación que imponen las bibliotecas de escanear los libros en la propia localidad y no transportarlos, etc.

Las cifras del Cuadro 1 dan una idea aproximada del número de páginas necesario para justificar distintos niveles de inversión. No es frecuente que una institución u otra entidad necesite escanear 800.000 páginas. Con tales niveles de trabajo se plantean cuestiones más complejas que no vamos a tratar en estas líneas, como el mantenimiento del equipo o la posibilidad de recuperar gastos ofreciendo a terceros el servicio de escaneado.

Es tentador contemplar el desarrollo de la capacidad de escaneado como una actividad comercial, sobre todo en los países en desarrollo. Pero conviene tener muy en cuenta que no se trata de un proceso repetitivo. Una vez escaneado un documento, el cliente nunca cursará un nuevo pedido para repetir la operación, por muy buena que haya sido su relación de trabajo con la empresa. Desde un punto de vista comercial, se requiere un enorme trabajo de publicidad y comercialización. Desaconsejamos a cualquier ONG u otras organizaciones sin fines de lucro que se aventuren en este terreno sin haber procedido a ensayos exhaustivos y elaborado un minucioso plan comercial.

En conclusión, para escanear entre 10.000 y 50.000 páginas conviene plantearse la posibilidad de subcontratar el trabajo. Los cerca de 6.000 dólares que cuesta un escáner profesional de gama baja sólo se amortizan a partir de un volumen superior a las 100.000 páginas. Otra posible solución consiste en asociarse con otras instituciones (ONG o bibliotecas, por ejemplo) para adquirir colectivamente un escáner de ese tipo.

1) Todos los importes indicados en este documento se expresan en dólares estadounidenses y corresponden a las tarifas vigentes en 2001.