Reconnaissance optique de caractères

La reconnaissance optique de caractères, ou encore nommé vidéocodage sert à désigner les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte.



Catégories :

Imprimerie - Vision artificielle - Reconnaissance optique de caractères

Recherche sur Google Images :


Source image : hellopro.fr
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Page(s) en rapport avec ce sujet :

  • Dans un logiciel de traitement de texte, on peut constater des .... Système d'extension connecté à la carte mère de l'ordinateur et dont le rôle est ...... En français, la reconnaissance optique de caractères est une fonctionnalité... (source : knol.google)
  • Encodage des caractères Le texte que vous saisissez dans un logiciel est .... En informatique, sert à désigner un système qui permet une interconnexion dans un réseau...... la reconnaissance optique de caractères est une fonctionnalité... (source : scribd)
  • La reconnaissance optique de caractères est une opération qui consiste à ... Une balise sert à désigner une marque spécifique ajoutée à un texte pour déduire sa...... place un système de conversion afin d'intégrer ce fond dans la... (source : share.esi)

La reconnaissance optique de caractères (ROC), ou encore nommé vidéocodage (traitement postal, chèque bancaire) sert à désigner les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte. Elle réalise nettement moins que l'être humain qui, lui, exécute, en plus de la reconnaissance, la compréhension du message, sa mémorisation, ou alors son analyse critique dans un seul temps.
Un ordinateur réclame pour l'exécution de cette tâche un logiciel de reconnaissance optique de caractères, ROC ou OCR (abréviation du terme anglais optical character recognition), Ce dernier sert à récupérer le texte dans l'image d'un texte imprimé et de le sauvegarder dans un fichier pouvant être exploité dans un traitement de texte pour enrichissement, et stocké dans une base de données ou du moins, sur un support sûr et exploitable par un dispositif informatique.

Brève histoire de la ROC

La première machine de ROC fut créée par Gustav Tauschek, un ingénieur allemand, en 1929. Elle contenait un détecteur photosensible qui pointait une lumière sur un mot quand il correspondait à un gabarit contenu dans sa mémoire.

En 1950, Frank Rowlett, qui avait cassé le code diplomatique japonais PURPLE, demanda à David Shepard, un cryptanalyste de l'AFSA (prédécesseur de la NSA américaine), de travailler avec Louis Tordella pour faire à l'agence des propositions de procédures d'automatisation des données. La question incluait le problème de la conversion de messages imprimés en langage machine pour le traitement informatique. Shepard décida qu'il devait être envisageable de construire une machine pour le faire, et , avec l'aide de Harvey Cook, un ami, construisit «Gismo» dans son grenier pendant ses soirées et ses week-ends. Le fait fut rapporté dans le Washington Daily News du 27 avril 1951 et dans le New York Times du 26 décembre 1953 après le dépôt du brevet numéro 2 663 758. Shepard fonda alors Intelligent Machines Research Corporation (IMR), qui livra les premiers dispositifs de ROC au monde exploités par des sociétés privées. Le premier dispositif privé fut installé au Reader's Digest en 1955, et , de nombreuses années plus tard, fut offert par le Readers Digest au Smithsonian, où il fut mis en exposition. Les autres dispositifs vendus par IMR à la fin des années 1950 comprenaient un lecteur de bordereau de facturation à l'Ohio Bell Telephone Company et un numériseur (scanner de documents) à l'US Air Force pour la lecture et la transmission par télex de messages dactylographiés. IBM et d'autres utilisèrent plus tard les brevets de Shepard.

Depuis 1965, la Poste des États-Unis utilise pour trier le courrier des machines ROC dont le principe de fonctionnement a été imaginé par Jacob Rabinow, un inventeur prolifique. La Poste canadienne utilise des dispositifs ROC depuis 1971. Les dispositifs ROC lisent le nom et l'adresse du destinataire au premier centre de tri automatisé, et impriment sur l'enveloppe un code-barres fondé sur le code postal. Les lettres n'ont plus qu'à être triées dans les centres suivants par des trieuses moins coûteuses qui n'ont qu'à lire le code-barres. Pour éviter toute interférence avec l'adresse lisible qui peut se trouver n'importe où sur la lettre, une encre spéciale est utilisée, qui est clairement visible sous une lumière UV. Cette encre semble orange dans des conditions d'éclairage normales.

Il fallut attendre 1974 pour qu'un scientifique rassemble ces nouvelles connaissances dans une technologie qui permettrait aux aveugles de lire des documents enregistrés sur un support informatique. On sort du domaine précis de la reconnaissance optique de caractère pour l'appliquer en utilisant de nouvelles technologies. Pour cela, ce scientifique, du nom de Ray Kurzweil, créa un synthétiseur vocal pour «dire» le texte et perfectionna les procédés de numérisation. En 1976, le prototype fut fini, et pour l'anecdote, c'est Stevie Wonder qui finança le projet. Le début de la commercialisation de la «reading machine» eu lieu en 1978, deux ans plus tard, Xerox acheta la société.

Apprentissage

Les premiers dispositifs avaient besoin d'un «apprentissage» (la collecte d'échantillons connus pour chaque caractère) pour lire une police de caractères donnée. Mais actuellement, il est courant de trouver des dispositifs «intelligents» qui peuvent reconnaître la majorité des polices avec un haut niveau de précision.

Fonctionnement

Un dispositif ROC part de l'image numérique réalisée par un scanner optique d'une page (document imprimé, feuillet dactylographié, etc. ), ou une caméra numérique, et produit en sortie un fichier texte en divers formats (texte simple, formats de traitements de texte, XML... ).

Certains logiciels tentent de conserver l'enrichissement du texte (corps, graisse et police) mais aussi la mise en page, ou alors de rebâtir les tableaux et d'extraire les images.

Certains logiciels comportent, en outre, une interface pour l'acquisition numérique de l'image.

Jusqu'à une date récente, le fonctionnement des dispositifs ROC performants était peu connu car protégé par le secret industriel; les logiciels open-source disponibles (ex : GOcr) étant plutôt l'œuvre d'amateurs. La publication en open-source de dispositifs performants (en particulier Tesseract en 2006) a quelque peu changé cette situation.

Les étapes de traitement peuvent être schématisées ainsi :

  1. Pré-analyse de l'image : l'objectif est de perfectionner peut-être la qualité de l'image. Ceci peut inclure le redressement d'images inclinées ou déformées, des corrections de contraste, le passage en mode bicolore ("noir et blanc" ou plutôt papier et encre), la détection de contours.
  2. Segmentation en lignes et en caractères (ou Analyse de page)  : vise à isoler dans l'image les lignes de texte et les caractères au sein des lignes. Cette phase peut aussi détecter le texte souligné, les cadres, les images.
  3. Reconnaissance elle-même des caractères : après normalisation (échelle, inclinaison), une instance à reconnaitre est comparée à une bibliothèque de formes connues, et on retient pour l'étape suivante la forme la plus "proche" (ou les N formes les plus proches), avec un score ou une distance. Les techniques de reconnaissance se classent en quelques grands types[1] :
    1. Classification par Caractéristiques (Features)  : une forme à reconnaitre est représentée par un vecteur de valeurs numériques - nommées Features en anglais - calculées â partir de cette forme. Le nombre de Features est de l'ordre de 100 à 300. Si les Features sont bien choisies, une classe de caractères (par exemple la totalité des A majuscule) sera représentée par un "nuage" contigu de points dans l'espace vectoriel des Features. Le rôle du classificateur est de déterminer à quel nuage (donc à quelle classe de caractères) la forme à reconnaitre appartient le plus probablement. La classification fait le plus souvent appel à divers types de réseaux de neurones artificiels entrainés sur de vastes bases de formes envisageables.
    2. Méthodes métriques : consistent à comparer directement la forme à reconnaitre, au moyen d'algorithmes de distance, avec un ensemble de modèles appris. Ce type de méthode est peu utilisé et peu valorisé par les chercheurs, car fréquemment plus naïf et probablement moins efficace que les méthodes à base de Features.
    3. Méthodes statistiques : dans le domaine de la reconnaissance d'écriture manuscrite, il est souvent fait appel aux méthodes probabilistes/statistiques comme les Chaînes de Markov.
  4. Post-traitement utilisant des règles linguistiques et contextuelles pour diminuer le nombre d'erreurs de reconnaissance : dictionnaires de mots, de syllabes, de trigrammes. Dans les dispositifs industriels, des techniques spécialisées pour certaines zones de texte (noms, adresses postales) peuvent utiliser des bases de données pour éliminer les solutions incorrectes.
  5. Génération du format de sortie.

Domaine de recherche

Un problème spécifiquement ardu pour les ordinateurs et les humains est celui des anciens registres religieux des baptêmes et des mariages, qui contiennent en particulier des noms, où les pages peuvent être endommagées par le temps, l'eau ou le feu, et les noms peuvent être obsolètes ou écrits selon d'anciennes graphies. Les techniques informatiques de traitement de l'image peuvent aider les humains dans la lecture de textes extrêmement complexes, comme le palimpseste d'Archimède ou les manuscrits de Qumrân. Des approches coopératives où les ordinateurs assistent les humains et vice-versa forment un domaine de recherche intéressant.

La reconnaissance de caractère est un domaine actif de recherche pour la science informatique depuis la fin des années 1950. Au début, on pensait qu'il s'agissait d'un problème facile, mais il apparut qu'il s'agissait d'un sujet bien plus intéressant. Il faudra toujours de nombreuses décennies aux ordinateurs, s'ils y parviennent un jour, pour lire l'ensemble des documents avec la même précision que les êtres humains.

Principaux logiciels de reconnaissance optique de caractères

Logiciels libres[2]

Logiciels freeware

Moredata a freeware logiciel qui utilise tessnet, languages supportées français, anglais, italien (Windows)

Logiciels propriétaires

  • Readiris (Unix, Windows, Macintosh)
  • FineReader (Unix, Windows)
  • Scansoft Omnipage (Windows)
  • BIT-Alpha (Windows)
  • Neoptec (Windows, Macintosh, Unix)
  • Adobe Acrobat Professional (Windows, Macintosh)

Notes et références

  1. Principles of Pattern Classification : Statistical, Neural Net and Syntactic methods of getting robots to see and hear - Lecture Notes by Dr. Michæl D. Alder, University of Western Australia, 1994
  2. libres, sous licences GNU GPL ou Apache.

Voir aussi

Liens externes

Recherche sur Amazone (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Reconnaissance_optique_de_caract%C3%A8res.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu