OCR : quel logiciel et quel paramétrage ?

OCR : quel logiciel et quel paramétrage ? - Scanner - Hardware - Périphériques

Marsh Posté le 04-06-2005 à 12:31:51    

:hello:  
 
J'ai pas mal de docs à scanner et à mettre au format PDF. (j'ai fait une compil de ce que j'avais déjà dit dans le topic scanner à 100€)
La finalité est soit un fichier PDF image (ce qui n'est ni plus ni moins un paquetage de plusieurs JPG), soit un fichier PDF image avec recherche (un texte invisible est caché et permet d'utiliser un moteur de recherche), soit un fichier PDF totalement texte.
 
Bizarrement, je n'ai trouvé nulle part de test de logiciel OCR. Les autres topics d'HFR sont un peu anciens.
 
Je fais essentiellement des scans de documents pour archivage et envoi par ftp de documents juridiques.  
 
J'ai essayé de faire des OCR avec Adobe Acrobat 7 et mes scanners (un vieil Agfa 1212 et un récent Epson 2480) et je ne suis pas vraiment satisfait des résultats. Je recherche le meilleur compromis "respect du document original/taille du fichier".
 
J'ai fait des essais à différentes résolutions et c'est toujours dégueulasse (même en augmentant beaucoup la résolution, j'ai parfois des effets bizarres), c'est-à-dire que je me retrouve souvent avec la moitiée d'une phrase qui reste en bitmap, l'aute moitiée en texte mais avec différentes fontes, etc...  
Je me suis dit que le logiciel Acrobat (même la version full) devait être trop juste...
 
J'ai essayé 5 logiciels : Adobe Acrobat 7, Adobe Paper Capture 3, Scansoft Omnipage 14 pro, Abby Finereader 7 Office et ReadIris 10.  
J'ai fait les essais avec mes docs et chacun des exemples de ces logiciels, en les croisant (Iris a des exemples bien vicieux  :bounce: ).
 

  • Adobe Acrobat 7...  :cry:  

C'est le premier essayé, pas terrible. Acrobat 7 a le défaut que l'on connait (lissage étrange des caractères, etc...). Par contre, l'exportation finale des fichiers se fait en Pdf 1.6, assez compact.  
 

  • Adobe Paper Capture...  :whistle:  

est technologiquement complètement dépassé (le noyau date de 2000) et ça se voit dans l'interface. L'export se fait à d'anciens formats. Berk.
 

  • Omnipage 14 Pro...  :kaola:  

demande des dizaines de confirmations par page, beaucoup de phrases gardent des mots en mode graphique (comme Acrobat), il y a des paragraphes qui deviennent non homogènes (en fontes, taille de fontes, alignement). Le plus drôle, ces mauvais résultats sont valables sur leurs propres exemples.  
Pour le prix, je le trouve assez catastrophique, et l'interface est très lourde  :??:  
 

  • FineReader  :sol:  

... je ne le connais que depuis peu et j'ai été très agréablement surpris. Il n'est pas cher (100€ en version pro) et fonctionne super bien. Les paragraphes sont homogènes, l'OCR est rapide, il n'y a pas de confirmations abusives, et le comble : les exemples d'Omnipages sont mieux reconnus avec FineReader !!!! Et les exportations (en PDF 1.2) sont deux fois plus petites que celle d'Omnipage (en pdf 1.4) alors que les résolutions sont les mêmes.
Est-ce que ce sont vraiment les mêmes résolutions ? Il doit y avoir un truc.
 

  • ReadIris Pro 10  :p  

Celui-là a été descendu par le mini comparatif de 01net ( http://www.01net.com/article/277943.html?d=origine ) alors qu'il donne d'assez bons résultats (bien meilleurs qu'Omnipage en tous cas). Il est peu cher et son interface est assez light et bien foutue. En reconnaissance pure, il est un petit peu moins bon que FineReader (il a des difficultés avec des documents en plusieurs langues).
 
 
En résumé, dans mes comparatifs, FineReader s'en était bien sorti (pour un soft à 120€ par rapport à un Omnipage à 700€...) même avec les mises en page tordue. En particulier, j'ai essayé les exemples livré avec Omnipage sur FineReader et c'est ce dernier qui s'en sortait le mieux (l'exemple le plus flagrant est opsample5_ENG_FRE_GER.tif qui comporte des images en insert, plusieurs colonnes, des titres en rouges et paragraphes en noirs, 3 langues dans le même document allemand-français-anglais, etc...).  
 
Cependant, je n'ai pas encore de réponse à toutes mes questions malgré de nombreux tests.
 
Quelle est la meilleure résolution et le choix NB / Gris 8 bit / Gris 16 bit / Couleur 24 bit pour :
 

  • Un texte qui doît être reconnu et dont on ne garde pas la mise en page (un fichier dont le contenu sera modifié sous Word) ?


  • Un fichier d'archivage conforme à l'original (qui doit avoir une valeur juridique et respecter la mise en page et l'aspect du document) quitte à détruire l'original (ou original qui pourrait être détruit ou volé)...


  • Un fichier duplicata qui sera imprimé sur un site distant (contrainte de taille de fichier car envoi par FTP) donc  

   - soit image pure pour être le plus fidèle possible
    - soit texte pour le gain de taille sur le fichier
    - soit un compromis (cas FineReader) où une image basse résolution est gardée pour l'aspect du document et les graphes, et un texte reconnu est placé en surimpression (par contre, je ne suis pas certain de la validité juridique du document  
 
Merci de donner vos avis, pour ceux qui ont déjà fait de l'OCR :hello:  
 
Quel beau pavé   [:_moebius_]  [:_moebius_]  [:_moebius_]


---------------
The Magic Words are Squeamish Ossifrage.
Reply

Marsh Posté le 04-06-2005 à 12:31:51   

Reply

Marsh Posté le 14-06-2005 à 23:28:13    

J'utilise de temps en temps FineReader, et je le trouve aussi vraiment bien.

Reply

Marsh Posté le 20-06-2005 à 18:54:26    

Salut Moebius,
 
Je suis aussi dans la même config. Je suis novice en OCR mais j'ai pas mal de doc juridique à scanner pour archive.  
 
Concernant les softs, je suis d'accord: Acrobat 7 est déplorable, je n'aime pas trop Omnipage, mon préféré reste ReadIris (moi j'ai la version 8 mais ce n'est pas très différent).
 
Ma solution dépend de la qualité du doc original: il n'y a pas le même traitement si c'est un vieux fax  ou un original tout neuf largement aéré. Je trouve le meilleur rapport qualité poids avec "gris 8 bit" et 150ppp: OK pour le print, bon pour l'écran, acceptable pour l'OCR. Toutefois, il faut parfois repasser par un logiciel de traitement d'image (genre photoshop) pour améliorer le contraste et augmenter un peu la luminosité (histoire de ne pas avoir en transparence le contenu du verso de la page).
 
Pour ce qui est de la recherche, deux solutions existent: tu peux créer un pdf "image" puis utiliser les propriétés du document et faire un résumé du texte dans la case "sujet" ou "mot clefs": cela te permet de faire des copies de l'original (à savoir si cela à une valeur légale te permettant de détruire l'original papier) et de garder des possiblités d'accéder à l'essentiel du contenu.
 
Maintenant si tu as besoin d'une possibilité de recherche intégrale dans le texte du document, il te faut les deux: ie créér un fichier acrobat contenant d'abord le texte récupéré d'après ReadIris, puis en annexe le fichier image aux valeurs ci-dessus. N'oublie pas que ReadIris te permet de sauvegarder les pages scannées au format TIF, que tu peux récupérer sous photoshop pour les transformer en GIF sans fond, puis que tu importera dans Acrobat (je veux dire pas besoin de scanner deux fois: une pour l'OCR et une pour l'image). Maintenant c'est quand même un peu long (je descend rarement à moins de 10 minutes la page toutes opérations comprises).
 
Autre info, préfère le GIF sans fond au JPEG: meilleur au niveau de la définition des caractères.
N'oublie pas la merveilleuse fonction bookmark qui permet d'organiser et de mettre plein de choses (genre titre de paragraphe).
 
Voilà c'est tout pour l'instant,
Un beau pavé que je viens de pondre là  :hello:
Si tu as besoin de nouvelles explications, pas de problème
Cordialement

Reply

Marsh Posté le 20-06-2005 à 19:13:43    

:hello:
 
:jap: Ca va être le topic des beaux pavés :D
Merci pour tes expériences.
 
Le gif avec le fond alpha, tu le choisis dès le début au moment du scan ?
Est-ce que tu fais toutes les pages à la suite avec l'interface de ton scanner qui te sauvegarde chaque page dans un fichier
 
* ou *
 
Est-ce que tu es dans ton logiciel de destination (ReadIris par exemple) et tu passes par le Twain ?
 
 
 
J'ai remarqué qu'Acrobat a des formats moins destructifs en interne pour stocker les images (JPEG 2000, CCITT groupe 4), je ne sais pas s'il faut passer par là ou non.


---------------
The Magic Words are Squeamish Ossifrage.
Reply

Marsh Posté le 21-06-2005 à 17:09:28    

Salut,
 
Le choix en GIF sans fond c'est à la fin , au moment de l'export final. Actuellement j'ai tendance à faire le scan depuis ReadIris via TWAIN gris 300ppp et scanner toutes les pages les unes après les autres; puis sauvegarde du fichier TIF (contenant toutes les pages), éventuellement retouche luminosité contraste avant réimport dans Readiris. Là, je procède à la  reconnaissance du document, puis export vers word xp, légère mise en page (on affecte les titre 1, titre 2 et titre 3 standard au doc) puis impression directe vers Acrobat 7. Ici je récupère le fichier texte avec les bookmarks intégraux (titre 1, titre 2, titre 3...) en arborescence. Je reprend le fichier TIF contenant les images sous photoshop, dégradation en gif 150ppp, et sauvegarde. Dans Acrobat , insertion page après la page courante, fichier gif. Il ne reste plus qu'à effacer les fichiers temporaires, terminé.
 
J'ai remarqué aussi les autres formats, mais je ne les ai pas encore essayés (le rapport poids qualité du GIF est OK pour moi) mais avis à ceux qui ont essayé de nous dire comment ça fonctionne.
 
Cordialement,
 :hello:  :hello:

Reply

Marsh Posté le 22-06-2005 à 09:22:11    

:fou: Eh dis donc, Faudrait peut être arrêter d'élucubrer là, peuchèreeeeuh !  :fou:  
 
 :( Sorry.
 
En fait on ne peut pas sauvegarder sous un fichier unique plusieurs pages et les faire reconnaitre par photoshop. Il faut donc sauvegarder chaque page du document sous un fichier individuel. Par contre rien n'empêche d'utiliser ensuite la fonction batch de photoshop pour appliquer un même traitement à tous les fichiers.

Reply

Marsh Posté le 22-06-2005 à 09:23:21    

:fou: Eh dis donc, Faudrait peut être arrêter d'élucubrer là, peuchèreeeeuh !  :fou:  
 
 :( Sorry.
 
En fait on ne peut pas sauvegarder sous un fichier unique plusieurs pages et les faire reconnaitre par photoshop. Il faut donc sauvegarder chaque page du document sous un fichier individuel. Par contre rien n'empêche d'utiliser ensuite la fonction batch de photoshop pour appliquer un même traitement à tous les fichiers.
 
Pour CCIT, Acrobat l'utilise automatiquement dans l'importation des fichiers.

Reply

Marsh Posté le 19-09-2006 à 00:25:39    

alors d'autre avis ?

Reply

Marsh Posté le 24-09-2006 à 16:02:09    

J'aimerais bien  [:airforceone]   [:_moebius_]

Reply

Marsh Posté le 24-11-2006 à 13:47:25    

Bonjour à tous,

 

J'aurais besoin de créer un batch qui se lancerai la nuit sur un serveur pour une application en java pour transformer un PDF "image" en un PDF "texte". Etant donnée que je ne dispose pas de version "full" des logiciels ci dessus, est ce que quelqu'un peu me dire si c'est possible avec l'un d'entre eux. Je connais assez bien FineReader mais je n'ai testé qu'une version "light" et non pro.

 

Le principe est:
Je doit charger dans des blobs oracle des fichiers pdf à partir de documents scannés par des utilisateurs afin d'y faire des recherche textuelles. Mais chaque utilisateur n'utilise pas forcement le même logiciel avec leur scanner  :non: , donc n'obtient pas forcement un pdf avec la possibilité de faire une recherche.
Je dois donc retransformer ces fichiers pdf (d'après moi), en repassant un OCR dessu et en regénérant un autre fichier pdf conforme au besoin. Mais quel logiciels utiliser???

 

Merci

 

Je suis prenneur que cela soit un soft gratuit ou non.

 



---------------
Thzith
Reply

Marsh Posté le 24-11-2006 à 13:47:25   

Reply

Marsh Posté le 06-06-2008 à 22:25:23    

Je suis actuellement en recherche d'un logiciel d'OCR performant et non limité en nombre de pages (cas d'Abby FineReader).
 
Omnipage, Autobahn sont pas mal mais loin, très loin d'être parfait en terme de reconnaissance (malgré un TIFF 600ppp, 256 niveaux de gris en entrée).
 
Est-ce que vous avez des retours sur des logiciels efficaces ?  

Reply

Marsh Posté le 10-04-2009 à 18:06:07    

_MoebiuS_ a écrit :

:hello:  
J'ai pas mal de docs à scanner et à mettre au format PDF. (j'ai fait une compil de ce que j'avais déjà dit dans le topic scanner à 100€)
La finalité est soit un fichier PDF image (ce qui n'est ni plus ni moins un paquetage de plusieurs JPG), soit un fichier PDF image avec recherche (un texte invisible est caché et permet d'utiliser un moteur de recherche), soit un fichier PDF totalement texte.
[...]
Quel beau pavé   [:_moebius_]  [:_moebius_]  [:_moebius_]


 
Salut,
Tout d'abord merci beaucoup pour ton test car tu as fait un sacré boulot. Moi aussi je cherchais des tests comparatif et je n'ai trouvé que ton post dans différent forum ;-)
Je vais donc testé Finereader puisque c'est celui que tu as trouvé le plus performant. Mais dis moi, depuis plus de 4 ans, utilise tu un meilleur logiciel OCR depuis ? Si oui, pourrais tu nous en faire part ?
 
Merci pour ton test, cordialement

Reply

Marsh Posté le 12-07-2009 à 03:04:06    

Up
 
car je suis aussi à la recherche du meilleur logiciel OCR


---------------
MG4 (standard, phase 1) / Volkswagen e-Up (phase 2)
Reply

Marsh Posté le 25-09-2010 à 10:57:25    


Up, moi aussi
 
finereader est toujours au top en 2010 ?

Reply

Marsh Posté le 29-09-2010 à 10:08:12    

up moi aussi!

Reply

Marsh Posté le 16-08-2011 à 15:49:16    

wyzer a écrit :

Up
 
car je suis aussi à la recherche du meilleur logiciel OCR


 
Up... moi aussi! les logiciels gratuits que j'ai essayés sont minables :)

Reply

Marsh Posté le 17-10-2011 à 13:35:41    

Bonjour A tous,
Je travaille chez http://zeendoc.com qui est un logiciel de Gestion electronique de documents ( GED) qui intègré un OCR et un RAD qui semble correspondre à vos besoins. Les premiers forfaits sont à 5 euros.
 
Dites que vous venez de Hardware et je vous lancerai une démo de 3 mois gratuite, si ca vous tente :)
A bientôt


---------------
Zeendoc la GED, La Gestion Documentaire en Ligne
Reply

Marsh Posté le 17-10-2011 à 13:55:12    

perso j'ai trouvé le logiciel AABBYY qui est parfait pour mes besoins

Reply

Marsh Posté le 10-12-2011 à 11:35:38    

Pareil, j'ai du acquérir une licence ABBYY pour un usager au travail et le niveau de reconnaissance et la rapidité de traitement est impressionnante...


---------------
Hebergement d'images | Le topic de la VR standalone
Reply

Marsh Posté le 26-02-2019 à 15:48:39    

Hello, je me fais un auto up archéologique :D
 
Je dois me relancer dans une session dématérialisation (factures, ordonnances, et autres paperasses encombrantes).
Est-ce que Abbyy est toujours d'actualité ? Dans mon cas l'OCR est plus pour l'indexation du texte que pour l'affichage en overlay.


---------------
The Magic Words are Squeamish Ossifrage.
Reply

Marsh Posté le 27-02-2019 à 09:20:48    

_MoebiuS_ a écrit :

Hello, je me fais un auto up archéologique :D
 
Je dois me relancer dans une session dématérialisation (factures, ordonnances, et autres paperasses encombrantes).
Est-ce que Abbyy est toujours d'actualité ? Dans mon cas l'OCR est plus pour l'indexation du texte que pour l'affichage en overlay.


Salut,
 
Il y a l'application mobile "Adobe Scan" qui fait de l'OCR.
 
https://acrobat.adobe.com/fr/fr/mobile/scanner-app.html

Reply

Marsh Posté le    

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed