L'OCR sous GNU/Linux parlons-en ! - Logiciels - Linux et OS Alternatifs
Marsh Posté le 09-01-2005 à 16:58:57
J'avais essayé gocr pour convertir les sous titres de DVD, et c'etait vraiment pas fameux, même en utilisant le mode d'apprentissage. Parmis les problèmes les plus troublants, il avait tendance à rajouter plein d'espaces entre les lettres, sans que je comprenne pourquoi, et ce malgré l'essai de plusieurs valeurs dans le fichier de conf. De mémoire, malgré l'utilisation d'un doci français, il était très affecté par le grand classique L minuscule = I majuscule
Marsh Posté le 09-01-2005 à 17:02:11
Je n'ai pas trop remarqué le problème d'espaces ajoutés mais la confusion I=L est courante.
Marsh Posté le 09-01-2005 à 17:27:17
1 seul logiciel d 'OCR est performant sous linux,(du niveau de finereader)
il s'agit d'OCR XTR de vividata:
http://www.vividata.com/ds_xtrapi_overview.html
malheureusement il n'est pas OPEN ,et sa licence coute plus que trés cher (dans les 2475 $)
on peut cependant obtenir une licence d'essai valable 1 mois sur leur site
Marsh Posté le 09-01-2005 à 17:31:37
Noté !
Marsh Posté le 10-01-2005 à 15:40:54
UP !
Marsh Posté le 13-01-2005 à 21:26:52
Est-ce réservé à l'31337 ?
Marsh Posté le 13-01-2005 à 21:32:34
j_c_p a écrit : tiens, ça m'interesse, mais je n'ai pas encore essayé . |
Si tu pouvais me payer une license XTR OCR par la même occasion...
Marsh Posté le 13-01-2005 à 21:36:09
mirtouf a écrit : Si tu pouvais me payer une license XTR OCR par la même occasion... |
Pour arriver, il faut mettre de l'eau dans son vin |
édit : remarque que
Le plus court chemin entre deux vérités dans le domaine réel passe par |
Marsh Posté le 16-01-2005 à 22:33:14
Un ptit up pour le dimanche soir ?
Marsh Posté le 18-01-2005 à 08:58:40
mirtouf a écrit : Si tu pouvais me payer une license XTR OCR par la même occasion... |
tu peux aussi fonctionner ad vitam eternam avec la licence d'évaluation
grace à un script du type
date mmjjaa , mettre à une date ancienne
ocrxtr , commande d'OCR
date mmjja , remetrre la bonne date du jour
Marsh Posté le 21-01-2005 à 16:42:05
Certes...
Marsh Posté le 07-10-2006 à 13:30:05
UP !
Marsh Posté le 07-10-2006 à 13:45:23
Il y a tesseract OCR qui a été libéré cet été et qui semble pas mal bien qu'encore limité :
http://applications.linux.com/arti [...] 251&tid=47
Marsh Posté le 22-12-2007 à 13:34:56
"Tesseract est un moteur de reconnaissance simple, dans le sens où il ne fournit pas d'interface utilisateur, n'effectue pas d'analyse de la mise en page et ne formate pas les résultats qu'il produit.
Une autre de ses limitations est qu'il reconnait uniquement les caractères US-ASCII et donc ne fonctionne correctement qu'avec des documents rédigés en langue anglaise. Enfin, l'acquisition de documents en niveaux de gris ou en couleurs reste difficile."
bon il existe les rpm pour mandriva, mais vu la limitation ... (mes scans sont en français)
En attendant mieux, je me sers de SimpleOCR (pas libre bien sur) mais gratuit pour la partie texte "machine".
Il tourne "correctement" avec wine, il inclus un correcteur orthographique (avec suggestion) met en sur brillance le texte à corriger dans le document scanné comme dans le document txt.
ça peut dépanner celui qui n'a vraiment plus de windows sous la main et qui ne fait pas d'OCR trop souvent.
Marsh Posté le 22-12-2007 à 15:13:35
Quelqu'un a testé ocropus ( http://code.google.com/p/ocropus/ ) ?
Marsh Posté le 23-12-2007 à 12:15:06
noté, c'est encore un logiciel alpha ?
Marsh Posté le 26-01-2008 à 15:09:29
Bonjour les amis,
Un petit tour par ici, parce que nous nous intéressons aux mêmes choses.
Ocropus, oui, je crois que c'est encore alpha... Mais ça devrait évoluer assez vite... sans doute. Ce n'est pas à proprement parler un logiciel, mais un système complet, utilisant plusieurs ressources... dont pour l'instant le logiciel de reconnaissance optique de caractère tesseract.
Au sujet de l'ocr sous Linux et des évolutions les plus récentes, je mets ici quelques liens utiles :
tesseract, gscan2pdf,
sur le forum Ubuntu et sur Linux on the root
... ceci pour continuer à nous informer de temps en temps de nos découvertes et de nos tests.
Marsh Posté le 26-01-2008 à 20:49:04
ajouté
Marsh Posté le 27-01-2008 à 12:17:48
J'ai découvert unpaper pour améliorer les résultat des progs d'ocr ( http://unpaper.berlios.de/ ).
Marsh Posté le 27-01-2008 à 14:22:00
done
Marsh Posté le 27-01-2008 à 17:30:02
Et unpaper, comme tesseract, sont utilisés et disponibles dans l'interface graphique gscan2pdf. On peut donc scanner un document avec gscan2pdf, le traiter par unpaper et effectuer la ROC avec tesseract d'un seul mouvement. Il ne nous manque qu'un bon mode d'emploi en français pour utiliser au mieux ces outils.
Marsh Posté le 28-01-2008 à 14:21:45
Bonjour tous le monde, je vais bientôt commencer mon PFE (Projet de Fin d'Etude) et ma tache consiste à réaliser une application embarquée pour une caméraIP, parmi les modules qui existent, il y en a un qui réalise la lecture de plaque d'immatriculation, donc j'ai bien besoin d'un lecteur OCR pour linux dont je peux l'intégrer dans mon code. Je suis encore en recherche, donc s'il y en a quelqu'un qui déjà travailler ça ???
Marsh Posté le 29-01-2008 à 19:34:40
@Ghost_mh
Voici juste quelques pistes
@tous : xsane2tess pour disposer de tesseract dans XSane.
Marsh Posté le 10-01-2009 à 11:47:47
Bon, tesseract, c'est pas mal du tout. Par contre, ça manque d'interface graphique
xsane + sane2tesseract + tesseract, ça fonctionne mais ça reste un peu gruik.
Marsh Posté le 12-01-2009 à 15:03:19
c'est mieux qu'il y a 4 ans je te le dis...
Marsh Posté le 12-07-2016 à 13:49:24
Y'a une dépêche sur un logiciel à 150 boules sur DLFP:
http://linuxfr.org/news/gnu-linux-a-son-ocr-de-qualite
La dépêche fait un peu publi-reportage mais je note on ne sait jamais.
Marsh Posté le 13-10-2016 à 09:14:00
On n'arrête pas le progrès:
http://tesseract.projectnaptha.com/
ou pas
Marsh Posté le 09-01-2005 à 16:34:28
Voilà le sujet que je compte aborder : les logiciels de reconnaissance de caractères, disponibles sous GNU/Linux.
Commençons par les forces en présence :
GOCR
OCRAD
Clara OCR
Un des derniers qui vient d'être libéré :
Tesseract-OCR
En fait il s'agit d'une technologie vieille de 10 ans de la part de HP (voir DLFP : http://linuxfr.org/2006/10/07/21437.html ) mais il reste la version libre (depuis la disparition de la bibliothèque Migraine) la plus aboutie à ce jour.
97% de reconnaissance sur la page de teste de linux.com
Tesseract a été porté en bibliothèque javascript (pour le lulz ?):
Les 3 premiers sont libres, les derniers sont des applications commerciales :
Kadmos
macomboh nous informe que pour OCR XTR
1 seul logiciel d 'OCR est performant sous linux,(du niveau de finereader)
il s'agit d'OCR XTR de vividata
malheureusement il n'est pas OPEN ,et sa licence coute plus que trés cher (dans les 2475 $)
on peut cependant obtenir une licence d'essai valable 1 mois sur leur site
Le petit dernier :
Ocropy, feu Ocropus écrit en python
ou en C++
Libre, licence Apache 2.0
Encore en développement.
Maintenant, parlons des logiciels en eux-mêmes :
GOCR : Ne nécessite pas de phase d'apprentissage mais conserve la mise en forme. Les résultats sont corrects mais les caractères accentués semblent poser problème.
OCRAD : Ne nécessite pas de phase d'apprentissage, la disposition saute et les caractères accentués posent des difficultés. Ou alors j'ai loupé un truc.
Clara OCR : Bien qu'il nécessite une phase d'apprentissage, les résultas obtenus sont les meilleurs obtenus parmi ces 3 logiciels. Toutefois, après l'analyse certains caractères nécessitent d'être repris.
Kadmos : Pas testé.
Ocropus : Pas testé.
Des liens instructifs (merci Sorbus_)
tesseract, gscan2pdf,
sur le forum Ubuntu et sur Linux on the root
Logiciels complémentaires :
Unpaper
Il permet de s'affranchir des problèmes liés à une mauvaise photocopie et qui a pour conséquence de rendre les textes difficilement traitables par un logiciel d'OCR.
Mes questions :
1 - Quels sont vos astuces pour améliorer vos résultats ?
2 - D'autres viendront !
Message édité par mirtouf le 13-10-2016 à 09:17:21
---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE