La reconnaissance optique de caractères sous Linux

De Wiki Linux62.

La Reconnaissance Optique de Caractères ( ou OCR ) bien entendu vous connaissez ? (pour la petite histoire, j'avais tenté l'OCR via un site, gratuit, annoncé comme rendant un résultat très "pro" et en définitive, le texte était indéchiffrable et c'était à se rouler par terre :-)

Mais cette OCR fonctionne-t'elle sous Linux ? Eh bien cela fonctionne même plutôt très bien. Il vous suffit de 2/3 petits programmes et d'un petit script pour finaliser le tout.

Tout d'abord, assurez-vous que les programmes xsane et imagemagick sont bien installés dans votre système. Si tel n'est pas le cas, alors installez les, par exemple pour un système basé Debian et en console:

sudo apt-get install xsane imagemagick 

Il vous faut ensuite installer tesseract, qui existe dans votre gestionnaire de paquets, mais surtout, n'installez pas celui-là!!! ( j'avais essayé avec le paquet natif du système, mais au final, le fichier scanné est vide :-(

Récupérez le ici : http://doc.ubuntu-fr.org/tesseract-ocr.


Dans le paragraphe Par les deb de « b52 » (32 et 64 bits), récupérez la version 2.04 pour votre architecture de processeur ( tesseract 2.04 pour les architectures 64 bits. en ce qui me concerne ). Rendez-vous dans votre dossier où il a été téléchargé et installez le. Pour ce faire, ouvrez un terminal et tapez:

sudo dpkg -i tesseract........deb 

Il vous faut maintenant récupérer et installer un petit script dans /usr/bin qui se nomme xsane2tess.pl, script qui se charge de l'interface entre tesseract et xsane.

Ouvrez un terminal et tapez :

 cd /usr/bin

( pour se rendre dans le dossier désiré )

/usr/bin$sudo wget http://www.equinoxefr.org/wp-content/uploads/2008/07/xsane2tess.pl

( pour récupérer et installer le script )

 sudo chmod +x xsane2tess.pl

( pour accorder le droit d'éxécuter à l'utilisateur )

Vous en avez terminé avec les "tortures"  :-) et la reconnaissance optique de caractères est fonctionnelle.

La pratique:

Vous scannez une feuille écrite pour en récupérer le texte, texte qui s'ouvrira dans votre logiciel de bureautique favori ( Open Office par exemple ;-)

Lancez donc xsane. Choisissez Enregistrer, à Type choisissez TEXT puis donnez un titre à votre document. Mode de scan: Gris et mettez la résolution à 300 dpi, ce qui vous donnera déjà un très bon résultat. Cliquez ensuite sur "Préférences" >> "Configuration" >> "OCR" La première ligne Commande OCR doit être la suivante: xsane2tess.pl -l fra -log /tmp/tesseract.log

Créez d'abord l'aperçu et ensuite sélectionnez tout ou partie du texte, selon vos besoins. Faites la numérisation finale. Laissez enregistrer et c'est tout.

Rendez-vous dans votre Home et retrouvez votre scan. Un clic dessus et le texte sera ouvert par Open Office.


Méthode réalisée sous Ubuntu 10.10 version 64 bits. J'utilise cette méthode depuis déjà la version 9.10 ( que j'utilisais en 32 bits ). Notre amie Françoise a obtenu un très bon résultat également, sous Debian Squeeze  ;-)

@lain

Outils personnels
Équipes