Tesseract : la reconnaissance de caractères pour tous

Depuis des décennies, on nous promet un avenir sans papier, où tout serait numérique. Pourtant les courriers s’accumulent chez nous, et les administrations (en France et un peu partout en Europe) continuent de ne jurer que par le papier. Factures, attestations, chèques, journaux, bulletins de paie, carnets scolaires, procès verbaux, comptes-rendus médicaux… Ces documents s’entassent, se froissent, s’oublient, puis se perdent.

Foutu karma

Puis un jour, vous en avez besoin. Seulement d’un. Celui que vous aviez reçu il y a quelques mois en vous disant «Ah oui, ce papier, il est important lui !», vous l’aviez mis sur la pile «IMPORTANT» comme les quarante-sept autres avant lui. Vous fouillez cette pile, pleine de pub, enveloppes, factures téléphoniques,… Aucune trace du sésame. La pile du dessous ? Pas plus de résultat. Celle derrière l’imprimante alors ? Cherchez encore.

Vous finissez par retourner votre bureau, puis votre chambre, et ensuite le salon. Le meuble de l’entrée y passe aussi. D’autres papiers s’échouent entre vos mains, et vous soupirez «Celui là est important aussi, je le met de coté».

Soit, après deux heures de recherche vous abandonnez, avant de le retrouver plié en-dessous d’une ramette de papier éventrée. Bilan, votre bureau semble avoir été traversé par une tornade. Dans le salon, des tas de feuilles occupent le canapé, la table basse ainsi qu’une partie du sol. Mais vous l’avez.

Ouf, jusqu’à la prochaine…

Combien sommes-nous, a souhaité disposer d’une fonction de recherche dans nos appartements ? Dans nos rangements ? Dans nos vies ?

Comme vous pouvez le deviner, je n’ai pas la fibre du rangement, que mes parents semblent pourtant avoir. J’entasse. Et je pousse plus loin tant que j’en ai pas besoin.

Aujourd’hui, il y a pourtant des solutions permettant de scanner vos documents, afin de les trier. Mais c’est fastidieux. Au-delà de l’acquisition en une image, il faut ensuite les nommer, les trier, les classer par date, etc. On passe au moins quelques minutes par document, et c’est inenvisageable de vouloir rattraper un arriéré de plusieurs centaines de courriers.

Les logiciels OCR (Reconnaissance optique des caractères) permettent de transformer une image, comme un courrier scanné, en texte. Il en existe depuis les années 80, mais outre les solutions industriels, hors de portée pour un particulier, le grand public a longtemps dû se contenter de programmes de mauvaise qualité qui frôlaient l’arnaque.

Jusqu’à la publication de Tesseract.

Merci Google, HP (et les autres)

Tesseract est une solution mise au point par HP puis abandonnée dans les années 90. En 2005, le code source a été placé sous licence libre Apache, et Google sponsorise son développement depuis. La solution consiste en une simple commande, que l’on peut enrichir de greffons et de distribution de langue. En effet, donner la langue d’un texte à un logiciel de reconnaissance permet d’améliorer grandement la qualité, celui-ci pouvant comparer les résultats plausibles avec des dictionnaires.

Il devient possible de produire un fichier texte, un fichier HTML ou un fichier PDF depuis une image. La qualité est très bonne, et la légèreté de la solution permet de l’embarquer dans une suite plus complète.

L’installation

Les distributions Linux proposent Tesseract dans leur dépôts par défaut, pour Fedora :

ou Ubuntu :

Il est également nécessaire d’installer des distributions de langues pour profiter au mieux de la solution :
Fedora :

Ubuntu :

Il existe des Ports pour Mac OS, et des paquets non-officiels pour Windows, vous pourrez les trouver sur le Wiki GitHub du projet.

L’utilisation

Une fois le document acquis au format TIF, PNG, GIF, BMP ou JPG, il suffit d’appeler la commande de la façon suivante :

Le texte s’affichera sur la sortie standard. Pour avoir un résultat optimal, il est recommandé de scanner à au moins 300ppp (point par pource, soit dpi).

Il est possible de créer un PDF à partir de cette image, afin d’y superposer le texte reconnu:

Vous trouverez un fichier PDF où le texte peut être sélectionné et copié.

Au boulot !

Des solutions, comme Mayan EDMS, intègrent Tesseract et construisent un moteur de recherche sur les termes issus de la reconnaissance. Ainsi, il suffit d’alimenter une boite aux lettres avec les documents fraîchement scannés, pour les voir être automatiquement trier et classer. Puis mettre le papier dans une archive, et ne plus jamais l’ouvrir !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *