
OCR
Présentation de différents OCR - Abbyy FineReader Express - PDFpen
(logiciels de reconnaissance de caractères)




Le PDF est omniprésent sur le Mac, par le biais notamment du menu d’impression. Néanmoins, si les PDF ainsi produits sont « indexables », c'est-à-dire que l’on peut y effectuer une sélection de texte et donc une recherche, ce n’est pas le cas des PDF obtenus par le biais de Transfert d’image ou plus généralement des PDF produits par un Scanner.

Un PDF indexable sera directement annoté dans Aperçu, le copier-coller de texte sera possible (on peut recopier le texte du PDF) et donc l’indexation du contenu par Spotlight est active.

PDF indexable (image ci-dessus)

PDF image (image ci-dessus)
Ceci n’est pas un fait absolu. Certains scanners viennent avec un logiciel de reconnaissance de caractères (OCR) intégrés à leur driver : c’est alors souvent une version allégée d’un logiciel commercial, venant en version « lite ».
Néanmoins, ce n’est pas si fréquent, et si jamais vous passez par Transfert d’images plutôt que par le logiciel « maison » de votre scanner, vous ne pourrez bénéficier de cet OCR.
Vous obtenez alors un PDF de type image, dans lequel aucune sélection ou recherche ne pourra être effectuée. Pour remédier à ce problème, il vous faut donc faire un traitement de reconnaissance. L’OCR est le parent pauvre sur Mac, par rapport à l’énorme choix sur PC. Heureusement, il existe des logiciels de qualité et je vous propose de faire un petit récapitulatif des solutions existantes qui ne sera volontairement pas exhaustif. J’ai réalisé ce petit tour d’horizon avec le même PDF image, en résolution 600 dpi (donc pas extraordinaire), capturé avec Transfert d’images. Le résultat image pèse 56 Mo, et n’est pas d’une grande qualité. Comme vous pourrez le constater, certains logiciels s’en sortent mieux que d’autres, mais il est évident qu’en améliorant le fichier image (plus de contraste et meilleure résolution) on obtient de meilleurs résultats.
Adobe acrobat Pro - PDFpen - DEVONthink Pro

La version professionnelle de ce logiciel intègre effectivement un moteur d’OCR extrêmement puissant. Il suffit de charger le PDF et d’utiliser la commande de menu Document > OCR
On peut alors choisir la langue du document.

Acrobat redresse l’image et corrige l’exposition, ce qui améliore encore la reconnaissance.
Le résultat est excellent. Mais le logiciel est probablement trop cher pour un usage limité (mais vaut le coup par rapport aux autres fonctionnalités de retouches que nous ne détaillerons pas ici.). Non seulement les accents sont respectés, mais aussi la casse. Certains scanners offrent Acrobat en « bundle ». C’est d’ailleurs comme cela que j’ai pu avoir la version 7 (upgradée en 8 secondairement)

PDFpen est plus loguement expliqué sur sa page dédiée : PDFpen

Smile on my mac (l’éditeur de TextExpander) a également un logiciel de traitement et d’annotation de PDF. Celui-ci intègre désormais un moteur d’OCR qui ne fonctionne que sur un PDF.

Le logiciel permet d’annoter, de modifier à la volée des images d’un PDF, mais aussi de modifier le texte (ce que seul Acrobat est capable de faire). Ce peut donc être un complément intéressant, sous réserve de disposer de PDF bien contrastés, car vous le voyez sur cet exemple, la reconnaissance a un peu souffert.


La version 1 de DTPO intégrait le moteur de Readiris pour sa reconnaissance. La version 2, elle, intègre Abbyy Fine Reader (et je trouve le résultat meilleur).

Il suffit de glisser une image ou du PDF, et d’utiliser la fonction convertir en PDF pouvant être indexé.

Le même PDF :

Le résultat est correct, malgré une perte des accents. Les fonctionnalités de DTPO (archivage de mail, serveur Web, prise de note, aspirateur de site) feront éventuellement pencher la balance. Ce qui fait que pour le prix vous avez en plus l’OCR.
Dans le domaine des logiciels d’OCR « pure », on trouve Readiris et Abbyy FineReader (dont la version Mac est très récente).Chacun de ces deux logiciels a une version démo sur formulaire uniquement . Quant à Omnipage (pas de version démo) , la version Mac est bien loin derrière les versions PC, le prix sera probablement un frein.
Pour avoir une version fournie avec un de mes scanners, j’ai pu utiliser la version 11 de Readiris (qui est encore PPC!). Le traitement est laborieux, car le logiciel va analyser toute la page pour la reconstruire en version texte. Si vous avez besoin de transformer un fichier dans le but de l’utiliser dans Word ou Pages par exemple, c’est par là qu’il faudra passer. Pour un traitement rapide de quelques PDF, ce n’est probablement pas la meilleure solution.
Ce logiciel est traité plus largement sur sa page dédiée : Abbyy FineReader Express

La version payante d’Evernote comprend désormais l’indexation des PDF. Il suffit donc de glisser le PDF image dans la bibliothèque d’Evernote, et de patienter.
En affichant les informations complètes, vous saurez si le processus est effectif ou non.

Dès lors, un clic droit sur le PDF vous donne l’option de l’enregistrer sous la forme indexable. La reconnaissance est fonction de la qualité originelle du fichier, mais le résultat est plutôt bon.

Voici le résultat (copier-coller du texte dans TextEdit). Remarquez la perte totale d’accents.


Free OCR est un service en ligne gratuit. Vous allez envoyer votre image à analyser et la récupérer. Ceci suppose donc que le document va transiter via le net.
On sélectionne le fichier, la langue de reconnaissance et on envoie. Attention, les fichiers doivent peser moins de 2 Mo, ça limite sérieusement l’intérêt.

Laisser un commentaire à propos de cette page en cliquant ici
RSS des offres de réductions MacWay
retrouvez aussi debutersurmac sur Twitter
| retour à l'index | 2007-2012©www.debutersurmac.com | haut de la page |
debutersurmac.com est un site indépendant de la société Apple Inc. , animé par des bénévoles souhaitant partager leur passion.