ROC: reconnaissance optique de caractères

Un système de reconnaissance optique de caractères, ou ROC, transforme une image numérisée en texte. Il accepte en entrée une image numérique au format TIFF ou bitmap, de préférence propre et de bonne qualité. Il fournit en sortie un fichier de traitement de texte ou pour le web, aux formats RTF, Word, ou HTML.

La conversion de documents papier sous forme électronique est un processus en quatre étapes:

  • numérisation;
  • analyse de la mise en page;
  • reconnaissance;
  • numérisation des images et des tableaux.

En suivant ces étapes, il faut effectuer des contrôles qualité sur les fichiers produits, et les sauvegarder dans le format approprié.

On trouve beaucoup de bons programmes de ROC sur le marché, et leurs prix varient de 100 à 400$1). On trouve par exemple, entre (nombreux) autres:

Les sites web des éditeurs vous fourniront toutes les informations nécessaires, y compris la liste des revendeurs dans votre région. L'expérience des auteurs les amène à recommander pour leur bonne ergonomie les programmes Fine-Reader et Omnipage. Fine-Reader est le moins cher, à environ 100$. Il est très souple, et a les options de langue les plus variées.

Il faut choisir entre effectuer la numérisation et la ROC sur place, ou sous-traiter ces opérations à une organisation spécialisée. Un travail sur place nécessite un scanner, un logiciel de ROC, des compétences en ROC (donc des formations), et des opérateurs soucieux de qualité et extrêmement motivés.

Le processus de ROC

Le processus de ROC change d'un programme à l'autre, et chacun est très long à apprendre et à maîtriser. Le manuel du logiciel expliquera ce processus en détail. Quatre aspects méritent qu'on leur accorde une attention particulière: le contrôle qualité, les tableaux, les images, et les contenus spécialisés tels que formules, caractères d'autres alphabets ou langues, etc.

Contrôle qualité

On n'insistera jamais assez sur ce point. Il vaut mieux faire mener ces contrôles qualité par des locuteurs dont la langue traitée est la langue maternelle, ou des gens maîtrisant parfaitement cette langue. Les meilleurs candidats se recruteront à l'université ou au lycée. Remarquons que des relecteurs plus jeunes seront capables d'une concentration plus soutenue pour ce type de travail.

On compte normalement quatre contrôles qualité.

Le premier est effectué au moment de la ROC. Tout programme de ROC dispose d'un vérificateur orthographique intégré qui met en valeur toutes les lettres suspectes. Il affiche en même temps l'image du mot concerné, ce qui facilite le travail de vérification et de correction de l'erreur.

Le deuxième est une vérification globale du texte à la fin du processus de ROC. Il arrive souvent d'oublier une page, un paragraphe, un titre de chapitre, etc. Un examen global est nécessaire pour détecter d'éventuelles pages manquantes. Il est essentiel de vérifier les titres, les en-têtes de chapitres, les paragraphes, et les tableaux.

Le troisième est une vérification orthographique utilisant Microsoft Word: ce programme dispose en effet d'un dictionnaire souvent plus sophistiqué que ceux qui sont embarqués dans les programmes de ROC. En important le livre dans Word et en y effectuant une vérification orthographique, on peut trouver et corriger des erreurs supplémentaires. Veillez à enseigner au vérificateur orthographique tous les mots particulièrement difficiles ou sujets à erreurs, ou encore les termes scientifiques et techniques communs dans le type de publication considéré.

Enfin, le document complet devrait être vérifié par un relecteur indépendant, qui en extrait des échantillons et contrôle l'absence d'erreurs, de problèmes avec les tableaux et les images, la typographie, et l'aspect général du texte résultant. Ce n'est qu'après cette étape qu'un livre peut être déclaré apte à la dissémination numérique.

Tableaux

Les programmes de ROC peinent à traiter les tableaux. De plus, il est difficile de les vérifier: ils contiennent de nombreux chiffres, souvent avec des espaces, points ou virgules, et il est aisé de décaler des cellules d'une ligne ou d'une colonne. Il leur faut un effort de concentration particulier et une relecture obstinée et intense, une vérification soigneuse, et un bon contrôle qualité. On peut les traiter de trois manières extrêmement différentes.

D'abord, les tableaux peuvent être traités en tant qu'images. Cela implique de les numériser sous forme d'image noir et blanc et de les placer au bon endroit dans le document résultant. C'est la solution la plus facile: aucun risque d'erreur, et le temps nécessaire est uniquement celui de la création de l'image. Cependant, cette solution est plus gourmande en mémoire. Un autre problème concerne la résolution, pas toujours suffisante lorsqu'il faut afficher de grands tableaux sur un écran d'ordinateur: si on affiche tout le tableau, il est illisible, et si on agrandit l'image (en la faisant sortir de l'écran) pour la rendre lisible, l'utilisateur doit s'y déplacer pour pouvoir en lire toutes les lignes et colonnes, et manque d'une vue d'ensemble.

Ensuite, les tableaux peuvent être recréés manuellement en créant une table comptant le même nombre de lignes et de colonnes et en tapant les cellules une à une, caractère par caractère.

Enfin, le tableau peut passer à la ROC. C'est plus rapide que la saisie manuelle, mais présente un plus grand risque d'erreurs. Les colonnes sont parfois fusionnées, et les points et les virgules ne sont pas bien reconnus.

Images

Les publications contiennent trois grands types d'images différents:

  • croquis en noir et blanc;
  • photographies en noir et blanc;
  • photographies en couleurs.

Les croquis noir et blanc se numérisent en mode «croquis» et seront sauvegardés au format GIF ou PNG. Les photographies noir et blanc se numérisent en mode «niveaux de gris» et seront sauvegardées au format GIF ou JPEG. Les photographies couleur se numérisent en mode «couleur» et seront sauvegardées au format JPEG. Dans la plupart des cas, le JPEG de qualité moyenne fournit une résolution suffisante.

Pour la plupart des collections, ce sont les images qui consomment le plus de place sur le disque dur ou sur le cédérom. C'est pourquoi il est important d'optimiser chaque image du point de vue de la clarté et de la lisibilité, tout en minimisant sa taille. Vous économiserez de l'espace disque en négligeant de reprendre tout ou partie des images, de préférence celles qui ne sont pas pertinentes par rapport au texte.

Il faut numériser les images séparément, une à une. Nous vous recommandons de donner aux fichiers image un nom consistant en les 5 ou 6 premiers caractères utilisés pour identifier le document, suivis du numéro de page où apparaît l'image. Une autre solution, dans l'hypothèse où chaque document dispose de son propre répertoire, est de se contenter d'utiliser la lettre p, suivie du numéro de page de l'image. Si plusieurs images apparaissent sur la même page, on ajoutera au nom de fichier une lettre supplémentaire: a, b, c… Si par exemple une image JPEG apparaît page 36 de la publication u7548f ci-dessus évoquée, elle sera placée dans un fichier appelé u7548e36.jpg ou p36.jpg.

Après la numérisation des images, on peut mettre au travail les programmes de traitement par lots (batch), afin de changer les tailles ou d'améliorer la qualité de toutes les images en une seule passe.

Contenus spécialisés

De nombreux documents renferment des contenus spécialisés tels que des caractères spéciaux, des formules, ou des pages difficiles. Les caractères spéciaux sont souvent issus de langues étrangères ou pourvus de signes diacritiques. Il faut alors utiliser l'option de langue du programme de ROC utilisé et lui indiquer la langue à reconnaître. Les formules devront être recréées manuellement. Parfois cette opération n'est pas possible dans le programme de ROC, et uniquement faisable dans un traitement de texte tel que Microsoft Word. Les pages difficiles, au contenu complexe ou si endommagées qu'on n'a pas pu en obtenir une image nette lors du processus de numérisation, devront parfois être retapées.

De la productivité et des ressources nécessaires

Comme on l'a déjà signalé, il ne faut pas sous-estimer la difficulté du processus de ROC. Même si ses aspects économiques et pratiques doivent être traités indépendamment de ceux relevant de la numérisation, on trouve des points communs: le nécessaire investissement en ordinateurs; la disponibilité en ressources humaines et leur encadrement; la formation des opérateurs; les coûts salariaux; le nombre total de pages à traiter; et la possibilité de sous-traiter des documents.

Dans cette section, nous faisons partager notre expérience d'opérations de ROC en Belgique, en Roumanie et en Inde. Toutes les études de cas, les calculs et les chiffres présentés font les hypothèses implicites de situations moyennes et de documents de difficulté standard (incluant images et tableaux) tels qu'on en trouve dans la plupart des archives et des bibliothèques, des résultats de très bonne qualité, et une opération à moyen ou long terme.

La ROC intensive

La ROC est une activité difficile, qui requiert une grande concentration et beaucoup de compétences. Avant d'atteindre une productivité et une qualité de croisière, il faut prévoir une période d'apprentissage d'environ six semaines.

Les premières heures de chaque jour sont souvent les plus fructueuses en matière de résultats et de productivité. Après trois heures de travail de ROC, la productivité décroît très rapidement, jusqu'à 50% du niveau initial. Après six heures de travail, la plupart des gens sont très fatigués.

La même courbe se dessine au niveau supérieur, celui des semaines. Les premières semaines, tout le monde travaille vite et bien, mais vient un moment où les deux tiers des agents s'ennuient et deviennent frustrés. Ces personnes abandonnent le projet ou se mettent à travailler de façon médiocre, en quantité comme en qualité. Même ceux qui passent le cap critique des 3 ou 5 semaines de travail et intègrent l'équipe, partent souvent après 6 à 12 mois, à la recherche d'un meilleur poste.

Les remarques de la section Section the_ocr_process concernant le personnel sont particulièrement avérées dans le cadre d'un travail de ROC intensif. Il vaut mieux faire mener les contrôles qualité par des locuteurs dont la langue traitée est la langue maternelle, ou des gens maîtrisant parfaitement cette langue. Des relecteurs plus jeunes seront capables d'une concentration plus soutenue pour des tâches de ROC. Empiriquement, on a constaté que des personnes âgées de 18 à 23 ans convenaient mieux que des personnes de plus de 25 ans.

Enfin, la ROC peut être un travail fastidieux, ce qui donne une importance exceptionnelle aux questions de motivation et de goût du travail bien fait.

Ces remarques sur la ROC mènent aux préceptes suivants:

  • Les jeunes gens âgés de 18 à 25 ans sont les plus indiqués pour ce travail.
  • Les premières heures étant toujours les plus productives, il faut organiser le travail à temps partiel ou ne retenir que les gens les plus motivés et concentrés pour un travail à temps plein.
  • Les deux tiers des gens abandonnent ou s'ennuient après trois à cinq semaines, ce qui se traduit par une qualité et une productivité en baisse les dernières semaines.
  • Il faut veiller à fournir un travail régulier pour justifier la formation nécessaire, pour maintenir la concentration, et pour que restent hauts les c3#3urs.

Productivité possible

<tblcaption table_table_ocr_productivity|Productivité de l'OCR></tblcaption>

Heures travaillées par jour Pages par jour Pages par mois
Formation initiale (6 semaines) 3 6 120
Niveau de productivité optimale 3 9 150 à 200
7 28 500 à 600

Le tableau <tblref table_table_ocr_productivity> donne les statistiques moyennes de productivité pour la ROC. Les documents sont de toutes tailles et de toutes qualités, et ces chiffres supposent que le lot de documents contient un nombre moyen d'images et de tableaux – disons une image et une tableau de 5 lignes par 5 colonnes toutes les 8 pages. Ils supposent aussi que les images des pages sont de qualité moyenne à bonne (comme on l'a déjà signalé, ceci dépend de la numérisation) et que les opérateurs maîtrisent bien la langue.

Le tableau <tblref table_table_ocr_productivity> distingue les cas des opérateurs en formation et celui des opérateurs ayant atteint leur niveau de productivité optimal. Si un agent administratif devait passer 3 heures par jour à des activités de ROC, il pourrait produire 180 à 200 pages par mois. Dans le cas de personnel employé à temps plein, ayant reçu une formation adéquate, avec une concentration élevée et un goût du travail bien fait, on peut obtenir de 500 à 600 pages par mois.

Cependant, les taux obtenus sur des pages difficiles, de qualité médiocre, contenant beaucoup d'images ou de tableaux, sont bien plus faibles – peut-être de 300 à 400 pages par mois pour un travail à temps plein.

Supposons que les coûts salariaux d'opérateurs de ROC motivés et soucieux de qualité travaillant à temps plein s'élèvent à 400$ par mois, et que les frais d'infrastructure (comprenant les coûts d'encadrement, les ordinateurs, les bureaux, les fournitures, etc.) s'élèvent à 300 à 400$ par personne et par mois. Alors le coût de la ROC est de 1.2$ à 1.6$ par page. Si on prend en compte le temps de formation, le volume total, la durée de l'opération, et les coûts de licenciement si l'opération devait prendre fin par manque de travail, ces coûts atteignent 1.5$ à 2.5$ par page.

Il faut comparer le coût d'une ROC menée sur place à celui d'une ROC sous-traitée à un professionnel. De telles sociétés demandent en général de 1.5$ à 4$ par page, en comptant les images et les tableaux. L'ONG Human Info/Simple Words dispose d'une telle unité en Roumanie, et pratique un tarif spécial pour les organisations humanitaires ou à but non lucratifs: de 1.2$ à 2$ par page. Contactez-nous à l'adresse électronique si vous souhaitez obtenir des informations ou des conseils complémentaires.

Pour éviter la ROC

Il existe deux solutions qui permettent d'éviter la ROC, et nous les présentons toutes deux ici.

Saisie manuelle

La première, qui élimine également la plupart des opérations de numérisation, consiste à retaper les documents à la main, en utilisant un traitement de texte. Il faut quand même numériser la couverture et les images, mais les autres pages n'ont pas besoin d'être numérisées, ce qui évite l'achat d'un scanner puissant et de logiciels de ROC.

Les opérateurs n'ont pas besoin de comprendre le texte: il leur suffit d'être des dactylographes précis, qui tapent exactement ce qu'ils voient. La saisie génère des erreurs, qu'on trouve et détecte par la méthode dite de double saisie. Elle consiste à demander à deux personnes de saisir le même document indépendamment, suite à quoi on comparer les deux versions numériques mot à mot à l'aide d'un logiciel spécial manipulé par un opérateur disposant du document original. On suppose implicitement qu'un mot tapé indépendamment deux fois de la même manière est nécessairement correct. Mais cela ne suffit pas toujours, et on peut avoir recours à de la triple saisie pour obtenir une précision extrêmement élevée.

L'avantage de la saisie est l'économie effectuée: nul besoin d'un programme de ROC (qui nécessite des ordinateurs puissants), aussi des ordinateurs plus anciens, ou d'occasion peuvent suffire. De plus, ce travail peut être mené par des personnes moins qualifiées. L'inconvénient est la durée de la période de formation (d'un minimum de deux mois). Une simple saisie induisant souvent trop d'erreurs, il faut procéder à une double ou à une triple saisie.

Le coût dépend entièrement du salaire. Les dactylos sont généralement payées environ 150$ par mois dans les pays en voie de développement. La productivité est de 20 à 30 pages par jour, pour un total de 400 pages par mois, en comptant les images. Avec une double saisie, cela donne un coût de revient salarial d'environ 300$ par mois, plus les à côtés.

Fichiers image

Une solution de remplacement à la ROC très peu onéreuse est de se contenter d'utiliser une version image PDF des pages du document. Le coût est négligeable devant celui de la ROC – environ 0.1$ par page.

À l'issue du processus de numérisation et une fois que les fichiers TIFF sont disponibles, un convertisseur automatique (on utilise en général Adobe Acrobat ou Adobe Photoshop) transforme tous les fichiers TIFF des pages du livre en fichiers PDF.

Le revers de la médaille est l'impossibilité de mener des recherches textuelles dans de tels fichiers. De plus, ils sont très lourds: environ 50 kilo-octets par page, plus ou moins 20% selon la qualité du fichier TIFF original.

Les fichiers image PDF sont lents à télécharger (parfois, dans les pays en voie de développement, cette opération est impossible ou a un coût prohibitif). Ils tiennent rarement sur une disquette, et il est impossible de manipuler leur texte, ne serait-ce que pour effectuer des copier-coller.

Il faut réserver cette méthode aux situations où aucun budget ne peut être débloqué pour la ROC, et pour les documents susceptibles d'être utilisés par un petit nombre de personnes, disposant d'une connexion Internet à haut débit.

Mettre bout à bout numérisation et ROC

Si un scanner est directement relié à l'ordinateur qui héberge le logiciel de ROC, la plupart des programmes de ROC peuvent numériser une page et effectuer immédiatement la reconnaissance de caractères. Procéder une page à la fois, en enchaînant numérisation puis ROC, est une stratégie raisonnable pour des petits volumes, mais s'avérera coûteux en temps pour des tâches plus importantes et plus continues.

Cette solution peut suffire pour 100 à 150 pages par mois. Pour des volumes plus élevés il est plus rapide et plus efficace de commencer par numériser le document, puis de démarrer en deuxième lieu une opération de ROC sur toutes ses pages à la fois.

1) Rappel: tous les prix mentionnés représentent des dollars américains (USD) et sont donnés sur la base du marché en 2001.