Les scanners et la numérisation

La première étape dans la conversion de documents papier en une collection pour bibliothèque numérique est d'obtenir des images de toutes les pages de toutes les publications sous forme numérique. L'étape suivante consiste à appliquer une reconnaissance optique de caractères (ROC, ou OCR), pour la réussite de laquelle il est essentiel de disposer d'images propres et de bonne qualité. Le processus de numérisation utilise un scanner qui travaille à une résolution minimale de 300 dpi (points par pouce, ou dots per inch). La plupart des numérisations peuvent se faire en noir et blanc, mais en présence d'illustrations en couleurs il faut utiliser un scanner couleur. Dans la plupart des cas les couvertures des livres sont en couleurs et il faudra les numériser en tant que photographie couleur.

Les scanners

On trouve des scanners à tous les prix, de toutes tailles et de toutes formes. Ils coûtent de 100$ pour les scanners à plat à 50 000$ pour de gros scanners industriels de fabricants tels que Bell & Howell1). On trouve de nombreux sites web qui proposent de nombreux scanners à vendre. Vous les trouverez facilement en tapant le mot-clef «scanner» dans des moteurs de recherche tels que Google, Altavista, ou Yahoo.

Le format de sortie des scanners est un fichier informatique dont le format est souvent TIFF ou bitmap. Le meilleur format est le TIFF IV compressé: une page numérisée et convertie en ce format n'occupe en moyenne que 50 kilo-octets, à comparer aux 2 méga-octets qu'elle occuperait sous forme bitmap non compressée.

Scanners à plat de bas de gamme

Les scanners à plat sont les moins onéreux et les plus communs. De nombreuses marques en proposent: HP, Agfa, Acer, etc. Les prix s'étalent de 100 à 300$. On peut numériser à la fois des images en noir et blanc ou en couleurs. Le faible prix permet d'équiper chaque ordinateur de son propre scanner.

Ces scanners ont pour inconvénients une qualité moyenne du résultat, une faible vitesse de numérisation, une fiabilité réduite quand la température s'élève, et des pannes fréquentes. Il faut numériser les pages manuellement, une à une. Chaque page doit être placée avec attention sur la vitre de numérisation de manière à obtenir un alignement correct. Ces scanners ont une faible productivité. Bien que les fabricants prétendent qu'on peut scanner une page en moins d'une minute, il est rare dans la pratique de pouvoir scanner plus de douze pages en une heure. Le processus de numérisation monopolise l'ordinateur utilisé.

C'est pourquoi de tels scanners ne sont utiles que pour des petits travaux de numérisation, avec de 200 à 400 pages par mois de manière régulière, ou de 1000 à 2000 pages de manière exceptionnelle.

Scanners de bas de gamme avec chargeur

Ces scanners coûtent de 500 à 1200$. On peut insérer, scanner et traiter de 10 à 50 pages d'un coup: l'opérateur ne doit pas rester constamment aux côtés de la machine. Cela permet d'atteindre une productivité de 150 à 200 pages par jour. Ces scanners sont plus robustes et tombent en panne moins souvent – ils permettent généralement de traiter de 30 à 50 000 pages avant de nécessiter une réparation.

Ils ont pour inconvénient de ne numériser qu'une face de chaque feuille à la fois – il faut retourner la pile de feuilles et la numériser de nouveau pour obtenir les versos. Ceci crée des problèmes car les chargeurs causent souvent des ennuis des bourrages papier.

Ces scanners sont utiles pour des volumes de 1500 à 3000 pages par mois.

Scanners couleur

Toute opération de numérisation se heurte tôt ou tard au problème des images couleur, c'est pourquoi il faudra toujours disposer d'un scanner couleur. De manière générale, moins de 5% de toute publication contient des images couleur, sans compter la couverture. C'est pourquoi un scanner à plat tel que décrit ci-dessus suffira. Nous conseillons de choisir un scanner capable d'une résolution de 600 dpi.

Scanners professionnels bi-faces

Les scanners professionnels sont des machines fiables et industrielles, capables de traiter un grand volume – de 2 à 10 000 pages par jour. Ils disposent d'un système de chargeur automatique à plateau qui peut recevoir des paquets de 50 à 200 pages. Les meilleurs et les plus rapides sont des machines duplex qui peuvent numériser les deux faces d'une feuille d'un coup.

Les scanners professionnels duplex ont besoin d'un ordinateur puissant équipé d'un disque dur de 10 à 20 giga-octets. Les prix s'étalent de 5 à 50 000$. Par exemple, le scanner duplex Canon DR-6020 coûte 5000$ et peut traiter des documents recto-verso. Il a une capacité d'environ 2000 pages par jour et une durée de vie de 600 à 800 000 pages. Les scanners Bell & Howell et Fujitsu coûtent de 10 à 50 000$ et ont une durée de vie de plusieurs millions de pages.

Les scanners à micro-fiches coûtent de 15 000$ pour une unité semi-automatique à 80 000$ pour une unité entièrement automatisée.

Logiciels de numérisation

Tous les scanners sont fournis avec leur propre logiciel, qui doit donc être installé sur l'ordinateur qui pilote le scanner. Certains scanners disposent d'une carte à enficher sur l'ordinateur pour accélérer l'opération de numérisation.

La préparation des documents

Avant d'être numérisés, les documents doivent être correctement préparés. Il faut dépoussiérer, sécher, enlever les agrafes, et aplanir les pages pliées.

Il faut ôter la reliure des livres par une coupure nette, droite et précise. Les livres des bibliothèques devront souvent être reliés à nouveau, auquel cas la plus grande attention est nécessaire lors de cette opération, ce qui facilitera la mise en place de la nouvelle reliure.

Pour un nombre limité de documents, la coupe peut se faire à la règle et au cutter. Faites attention à vos mains! Pour des plus gros volumes, il existe des machines à couper faites pour.

Pour des gros volumes (à partir de 20 documents) nous recommandons de demander à un imprimeur ou une boîte à copies l'autorisation d'utiliser leur massicot professionnel. N'oubliez pas d'ôter toute agrafe ou trombone; ils pourraient endommager les lames.

L'opération de numérisation

Quand on utilise le logiciel fourni avec le scanner, chaque page est numérisée et transformée en image numérique au format TIFF ou bitmap. Ces images doivent alors être stockées sur le disque dur sous des noms de fichiers habituels. La reconnaissance optique de caractères débute à la fin de la numérisation de tout ou partie d'un lot de documents.

Il faudra une résolution de 300 dpi pour la numérisation, même si parfois 200 dpi peuvent suffire.

Contrôle qualité

La numérisation a pour but de passer les pages à la ROC pour produire des versions traitement de texte ou HTML des publications, ou de produire des fichiers image de bonne qualité tels que des fichiers image PDF. Dans tous les cas, la qualité de la numérisation est cruciale: une mauvaise qualité produira des images peu jolies, qui occuperont plus de mémoire. La netteté des images affecte énormément le processus de ROC: la productivité peut chuter jusqu'à 40% si la qualité n'est pas au rendez-vous. Sachant que l'opération de ROC représente plus de 90% du coût total de la transformation du papier en collection, on constate que la qualité de la numérisation peut avoir des effets très marqués sur le coût global.

On peut améliorer la qualité du fichier TIFF en ajustant le processus de numérisation à chaque type de papier, en utilisant les réglages fournis par le logiciel de numérisation. Les papiers relativement transparents requerront des réglages plus clairs; il faut ajuster le contraste en fonction de la qualité d'impression, etc.

Commencez par diviser les feuilles en lots de texture de papier et de qualité d'impression comparables. Faites des tests de ROC sur un échantillon du premier lot pour déterminer les réglages optimaux. Numérisez ensuite tout ce lot avant de passer au suivant.

Conventions sur les noms de fichier

Attribuez à chaque livre ou document un numéro de traitement ou un code unique, qui sera utilisé en tant que nom du répertoire contenant tous les fichiers TIFF relatifs au document. Selon votre système d'exploitation (DOS, Windows, Unix, Linux, etc.), vous pourrez utiliser de 8 à 128 caractères pour les noms de fichiers. Nous vous recommandons de vous limiter à 8 ou 16 caractères pour cet identifiant de document. Les 5 premiers caractères pourront par exemple identifier le document, la lettre suivante pourra contenir un code de langue de rédaction du document, et les caractères restants pourront identifier la page. Par exemple, l'identifiant u7548f12.tif pourra représenter l'image TIFF de la page 12 d'un livre écrit en français, de code u7548.

Réservez un répertoire du disque dur aux opérations de numérisation (appelons-le par exemple scanjobs). Puis créez un sous-répertoire pour chaque lot. Créez à nouveau un sous-répertoire pour chaque publication, comme par exemple u7548f pour le document ci-dessus évoqué. Stockez toutes les images TIFF de la publication, y compris les images couleur, dans ce répertoire.

De la productivité et des ressources nécessaires

Ne sous-estimez pas l'ampleur de l'opération de numérisation – et en particulier celle de la ROC qui la suivra. Il vaut mieux considérer la numérisation et la ROC comme deux activités complètement séparées. Les choix optimaux, tant économiques que pratiques, seront faits indépendamment.

Les aspects auxquels réfléchir incluent les investissements nécessaires en matériel (scanners et ordinateurs); la disponibilité d'un espace disque suffisant ainsi que d'assez de ressources humaines; la formation des agents; les coûts salariaux; les nombres de pages initial et final à numériser, les dates maximales de fin de travaux; et les possibilités de sous-traitance.

Coûts de numérisation

Une décision importante consiste à trancher entre investir en achat d'équipement de numérisation et effectuer toute la numérisation soi-même, ou sous-traiter cette tâche à une société spécialisée. Les critères principaux sont:

  • urgence du travail de numérisation;
  • nombre total de pages;
  • coûts salariaux des opérateurs de numérisation.

Les opérateurs doivent être extrêmement motivés, doués techniquement, et soucieux de qualité.

Une société spécialisée réclamera en moyenne 0.06$ par page. Il faut ajouter à cela le coût du transfert des documents, qui peut s'élever à 0.03$ pour un envoi d'un pays en voie de développement vers un pays développé, et 0.015$ pour un envoi entre pays développés.

Le tableau <tblref table_table_scanning_cost> donne une estimation du coût du processus de numérisation s'il est effectué par vos soins, en utilisant différents types de scanners. Vous remarquerez que ces chiffres sont des estimations, et ne sont fournis qu'en tant que référence approximative en se fondant sur l'expérience des auteurs. Les trois premières colonnes traitent des coûts salariaux. La première présente la capacité en pages par mois, sur la base d'un temps plein. On trouve les ressources nécessaires en homme-mois par page en divisant le nombre mensuel d'heures travaillées par la capacité en pages par mois de la deuxième colonne. Il est présenté dans la troisième colonne, sur la base de 180 heures travaillées par mois.

<tblcaption table_table_scanning_cost|Coût de la numérisation></tblcaption>

Capacité (pages/mois) Heures/page (180 h/mois) Coût/page (4$/h) Achat du scanner Durée de vie du scanner (en pages) Coût du scanner (0.06$/p.)
Scanner à plat 2 500 0.072 0.288$ 300$ 7 000 5 000
Scanner à chargeur 8 000 0.0225 0.09$ 800$ 30 000 13 000
Scanner pro. bas de gamme 40 000 0.0045 0.018$ 6 000$ 600 000 100 000
Scanner pro. haut de gamme 150 000 0.0012 0.0048$ 50 000$ 8 000 000 833 000

\\Le prix par page s'obtient en multipliant le coût salarial horaire global dans votre cas par la deuxième colonne du tableau <tblref table_table_scanning_cost>. Nous avons donné en exemple, dans la troisième colonne, le prix d'une numérisation faite sur place avec un coût salarial de 4$ par heure – ce qui ne comprend pas le coût des investissements.

Ces calculs supposent que le scanner est utilisé pour un volume suffisant, justifiant l'investissement. Les trois dernières colonnes du tableau <tblref table_table_scanning_cost> fournissent plus d'informations sur le coût du scanner à proprement parler. La première montre le coût d'achat du scanner, et la deuxième fournit sa durée de vie moyenne. La dernière colonne montre le nombre de pages qu'on pourrait faire numériser par un sous-traitant, au prix de 0.06$ par page, pour le prix du scanner seul.

Bien sûr, de nombreux autres facteurs guident le choix du scanner: disponibilité des fonds, souhait d'indépendance, volonté de développer un pôle de compétences local, règles des bibliothèques imposant une numérisation locale sans possibilité de transport des livres, etc.

Ces chiffres donnent une idée du volume de pages à traiter pour justifier différents niveaux d'investissement. Un institut ou une organisation aura rarement besoin de numériser plus de 800 000 pages. À de tels niveaux, des paramètres plus complexes entrent en ligne de compte – tels que la maintenance et la possibilité de rentabiliser l'investissement en revendant des services de numérisation – paramètres dont nous ne traiterons pas ici.

On peut être séduit par l'idée de développer une activité commerciale de numérisation, surtout dans les pays en voie de développement. Mais gardez à l'esprit que la numérisation est une activité non récurrente: une fois les documents numérisés, les clients ne passeront jamais une autre commande pour la numérisation des mêmes documents, même si les relations sont excellentes. D'un point de vue commercial, il faut prévoir d'intenses efforts de mercatique. Nous déconseillons aux ONG et aux autres organisations à but non lucratif de s'aventurer dans un tel projet sans essais liminaires très complets et un projet financier extrêmement réfléchi.

En conclusion, on peut dire qu'il vaut mieux sous-traiter si la quantité de pages à numériser s'étale de 10 à 50 000 pages. Un scanner professionnel de bas de gamme, coûtant environ 6000$, ne se justifie que s'il faut numériser plus de 100 000 pages. On peut aussi envisager une association de plusieurs institutions (telles que des ONG ou des bibliothèques) pour l'achat groupé d'une telle machine.

1) Tous les prix mentionnés représentent des dollars américains (USD) et sont donnés sur la base du marché en 2001.