OCR

Présentation de différents OCR - Abbyy FineReader Express - PDFpen

Optical character recognition (OCR)

(logiciels de reconnaissance de caractères)

Adobe Acrobat ProfessionalPDFpenPDFpenDevonThink Pro Office

A. Introduction :

Le PDF est omniprésent sur le Mac, par le biais notamment du menu d’impression. Néanmoins, si les PDF ainsi produits sont « indexables », c'est-à-dire que l’on peut y effectuer une sélection de texte et donc une recherche, ce n’est pas le cas des PDF obtenus par le biais de Transfert d’image ou plus généralement des PDF produits par un Scanner.

Un PDF indexable sera directement annoté dans Aperçu, le copier-coller de texte sera possible (on peut recopier le texte du PDF) et donc l’indexation du contenu par Spotlight est active.

PDF indexable (image ci-dessus)

PDF image (image ci-dessus)

Ceci n’est pas un fait absolu. Certains scanners viennent avec un logiciel de reconnaissance de caractères (OCR) intégrés à leur driver : c’est alors souvent une version allégée d’un logiciel commercial, venant en version « lite ».
Néanmoins, ce n’est pas si fréquent, et si jamais vous passez par Transfert d’images plutôt que par le logiciel « maison » de votre scanner, vous ne pourrez bénéficier de cet OCR.
Vous obtenez alors un PDF de type image, dans lequel aucune sélection ou recherche ne pourra être effectuée. Pour remédier à ce problème, il vous faut donc faire un traitement de reconnaissance. L’OCR est le parent pauvre sur Mac, par rapport à l’énorme choix sur PC. Heureusement, il existe des logiciels de qualité et je vous propose de faire un petit récapitulatif des solutions existantes qui ne sera volontairement pas exhaustif. J’ai réalisé ce petit tour d’horizon avec le même PDF image, en résolution 600 dpi (donc pas extraordinaire), capturé avec Transfert d’images. Le résultat image pèse 56 Mo, et n’est pas d’une grande qualité. Comme vous pourrez le constater, certains logiciels s’en sortent mieux que d’autres, mais il est évident qu’en améliorant le fichier image (plus de contraste et meilleure résolution) on obtient de meilleurs résultats.

B. Les logiciels autres contenant un OCR :

Adobe acrobat Pro - PDFpen - DEVONthink Pro

1. Adobe Acrobat Pro

Adobe Acrobat Professional

Présentation rapide :

La version professionnelle de ce logiciel intègre effectivement un moteur d’OCR extrêmement puissant. Il suffit de charger le PDF et d’utiliser la commande de menu Document > OCR

On peut alors choisir la langue du document.


Acrobat redresse l’image et corrige l’exposition, ce qui améliore encore la reconnaissance.

Le résultat est excellent. Mais le logiciel est probablement trop cher pour un usage limité (mais vaut le coup par rapport aux autres fonctionnalités de retouches que nous ne détaillerons pas ici.). Non seulement les accents sont respectés, mais aussi la casse. Certains scanners offrent Acrobat en « bundle ». C’est d’ailleurs comme cela que j’ai pu avoir la version 7 (upgradée en 8 secondairement)

2. PDFpen - PDFpenPro

PDFpen est plus loguement expliqué sur sa page dédiée : PDFpen

PDFpen

Prrésentation rapide :

Smile on my mac (l’éditeur de TextExpander) a également un logiciel de traitement et d’annotation de PDF. Celui-ci intègre désormais un moteur d’OCR qui ne fonctionne que sur un PDF.


Le logiciel permet d’annoter, de modifier à la volée des images d’un PDF, mais aussi de modifier le texte (ce que seul Acrobat est capable de faire). Ce peut donc être un complément intéressant, sous réserve de disposer de PDF bien contrastés, car vous le voyez sur cet exemple, la reconnaissance a un peu souffert.

3. DevonThinkPro Office.

DevonThink Pro Office

Présentation rapide :

La version 1 de DTPO intégrait le moteur de Readiris pour sa reconnaissance. La version 2, elle, intègre Abbyy Fine Reader (et je trouve le résultat meilleur).


Il suffit de glisser une image ou du PDF, et d’utiliser la fonction convertir en PDF pouvant être indexé.

Le même PDF :

Le résultat est correct, malgré une perte des accents. Les fonctionnalités de DTPO (archivage de mail, serveur Web, prise de note, aspirateur de site) feront éventuellement pencher la balance. Ce qui fait que pour le prix vous avez en plus l’OCR.

 

C. 3 logiciels d'OCR « pure » :

1.Introduction

Dans le domaine des logiciels d’OCR « pure », on trouve Readiris et Abbyy FineReader (dont la version Mac est très récente).Chacun de ces deux logiciels a une version démo sur formulaire uniquement . Quant à Omnipage (pas de version démo) , la version Mac est bien loin derrière les versions PC, le prix sera probablement un frein.

Pour avoir une version fournie avec un de mes scanners, j’ai pu utiliser la version 11 de Readiris (qui est encore PPC!). Le traitement est laborieux, car le logiciel va analyser toute la page pour la reconstruire en version texte. Si vous avez besoin de transformer un fichier dans le but de l’utiliser dans Word ou Pages par exemple, c’est par là qu’il faudra passer. Pour un traitement rapide de quelques PDF, ce n’est probablement pas la meilleure solution.

Readiris

Présentation rapide :

Abbyy :

Présentation rapide :

Ce logiciel est traité plus largement sur sa page dédiée : Abbyy FineReader Express

Omnipage.

Présentation rapide :

D. Services en ligne

1. Evernote (version payante)

PDFpen

a. Présentation rapide :

La version payante d’Evernote comprend désormais l’indexation des PDF. Il suffit donc de glisser le PDF image dans la bibliothèque d’Evernote, et de patienter.
En affichant les informations complètes, vous saurez si le processus est effectif ou non.


Dès lors, un clic droit sur le PDF vous donne l’option de l’enregistrer sous la forme indexable. La reconnaissance est fonction de la qualité originelle du fichier, mais le résultat est plutôt bon.

Voici le résultat (copier-coller du texte dans TextEdit). Remarquez la perte totale d’accents.

 

2. Free online OCR

a. Présentation rapide :

Free OCR est un service en ligne gratuit. Vous allez envoyer votre image à analyser et la récupérer. Ceci suppose donc que le document va transiter via le net.
On sélectionne le fichier, la langue de reconnaissance et on envoie. Attention, les fichiers doivent peser moins de 2 Mo, ça limite sérieusement l’intérêt.

 

Commentaires :

Laisser un commentaire à propos de cette page en cliquant ici

 

Bookmark and Share

Publicité :

Apple store :

MacWay :

RSS des offres de réductions MacWay

 

Twitter :

retrouvez aussi debutersurmac sur Twitter

twitter