Lire les données d'1 PDF

Lire les données d'1 PDF - Divers - Programmation

Marsh Posté le 09-09-2002 à 14:07:43    

Bonjour, je me demandais s'il était possible de lire le contenu d'un PDF afin de mettre les données soit dans une BDD soit dans une page Word .
Qu'en pensez-vous ?


---------------
http://www.arome.org/
Reply

Marsh Posté le 09-09-2002 à 14:07:43   

Reply

Marsh Posté le 09-09-2002 à 14:49:40    

nanebac a écrit a écrit :

Bonjour, je me demandais s'il était possible de lire le contenu d'un PDF afin de mettre les données soit dans une BDD soit dans une page Word .
Qu'en pensez-vous ?




 
C'est possible. Peut-être un peu sportif pour les PDF protégés mais c'est possible.

Reply

Marsh Posté le 09-09-2002 à 14:51:46    

Et as tu une piste à me donner ? ici ou par mail si tu préfères...  
Merci d'avance.


---------------
http://www.arome.org/
Reply

Marsh Posté le 09-09-2002 à 14:57:34    

nanebac a écrit a écrit :

Et as tu une piste à me donner ?




 
-> La spec PDF chez Adobe (gratis, faut juste chercher un peu).
-> le code source d'xpdf.
-> Le code source d'Aladdin Ghostscript.
 
Accessoirement il existe des scripts pdf->ps, pdf->txt et ps->txt sous Unix, je suppose que ça doit exister sous win aussi.
 
Google est ton ami.

Reply

Marsh Posté le 09-09-2002 à 14:57:41    

JyB a écrit a écrit :

 
C'est possible. Peut-être un peu sportif pour les PDF protégés mais c'est possible.




 
Même pour les non protégé c'est relativement chaud il me semble. Y'a pas moyen de le parser pour récuperer tout ca facilement. Le format n'a pas de structure pour recuperer une phrase par exemple. Par contre il est documenté, donc il doit y'avoir moyen de recuperer des choses quand même.

Reply

Marsh Posté le 09-09-2002 à 15:03:44    

Super, et merci,
me voilà nourrit pour une piste de recherche.
Bonne continuation.
Marc


---------------
http://www.arome.org/
Reply

Marsh Posté le 09-09-2002 à 15:20:00    

Le pb qu'il peut y avoir est quand on met du texte scanné en tant que bitmap dans un PDF. Tintin pour extraire le texte : y en a pas. Faut alors faire de l'OCR sur le fichier image.
 :(  

Reply

Marsh Posté le 09-09-2002 à 15:22:28    

carbon_14 a écrit a écrit :

Le pb qu'il peut y avoir est quand on met du texte scanné en tant que bitmap dans un PDF. Tintin pour extraire le texte : y en a pas. Faut alors faire de l'OCR sur le fichier image.
 :(  
 




 
Effectivement, c'est encore le meilleur moyen de protection contre une vampirisation numérique. Mais bon, ce n'est pas la majorité des PDF (malheureusement c'est la majorité des PDF de manuels de matos)

Reply

Marsh Posté le 09-09-2002 à 15:32:00    

Effectivement je n'avais pas pensé à cette possibilité. Mais pour savoir si le doc contient cela je vais devoir déjà regarder ce qu'il y a dedans...


---------------
http://www.arome.org/
Reply

Marsh Posté le 09-09-2002 à 16:04:57    

C'est une solution de rapidité (facilité :ange:) quand le manuel existe déjà.
 
Y en a qui vendent des BDD de composants en scannant les Data books. Ca prend une place (numérique :)) folle !! Mais s'il fallait tout redessiner, OCR_iser le texte, remettre en forme, ...

Reply

Marsh Posté le 09-09-2002 à 16:04:57   

Reply

Marsh Posté le 09-09-2002 à 16:22:12    

carbon_14 a écrit a écrit :

C'est une solution de rapidité (facilité :ange:) quand le manuel existe déjà.
 
Y en a qui vendent des BDD de composants en scannant les Data books. Ca prend une place (numérique :)) folle !! Mais s'il fallait tout redessiner, OCR_iser le texte, remettre en forme, ...




Ouais, mais les manuels sont pas forcément faits à la main par des scribes ou des moines, hein !
 
La source pourrait être éventuellement déjà dans un format informatique quelconque.
 
Et créer des pdf à partir de là, ça me semble pas si compliqué que ça (plutôt que tout scanner).
 
Non ?


Message édité par deliriumtremens le 09-09-2002 à 16:28:39
Reply

Marsh Posté le 09-09-2002 à 16:27:52    

Je parle de sociétés indépendantes des fabricants qui "recyclent" les vieilles DOCs faites à une époque où l'informatique était débutante et mystérieuse, gérée par les moines_systèmes :lol:, dans des monastères climatisés :lol:.  
 
Quand c'est le fabricant qui les diffuse, c'est beaucoup plus "léger" car pensé dès le début. Mais cela ne concerne que les circuits électroniques nouveaux, pas les vieux trucs qui figurent sur des grimoires en papier.

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed