[php] Recherche dans un fichier doc

Recherche dans un fichier doc [php] - PHP - Programmation

Marsh Posté le 07-05-2004 à 14:52:20    

Bonjour,
 
j'aurais voulu savoir si il était possible de faire une recherche de chaine de caracteres dans un fichier .doc (en php de préférence mais si vous avez autre chose je prend quand meme)
 
Merci

Reply

Marsh Posté le 07-05-2004 à 14:52:20   

Reply

Marsh Posté le 08-05-2004 à 16:13:52    

Ben tu ouvres le fichier avec fopen() et tu y cherches ton texte…

Reply

Marsh Posté le 08-05-2004 à 16:30:35    

un doc c'est pas un flat text file non plus...


---------------
http://www.boincstats.com/signature/user_664861.gif
Reply

Marsh Posté le 08-05-2004 à 17:01:38    

Le texte est toujours en clair non ?

Reply

Marsh Posté le 08-05-2004 à 18:31:13    

Freekill a écrit :

Le texte est toujours en clair non ?


non pas du tout

Reply

Marsh Posté le 08-05-2004 à 19:37:09    

Bizarre, dans tous les .doc que j'ai essayé si…

Reply

Marsh Posté le 09-05-2004 à 16:14:06    

Freekill a écrit :

Bizarre, dans tous les .doc que j'ai essayé si…


bizzare, dans le seul doc que j'ai essayé non

Reply

Marsh Posté le 09-05-2004 à 16:35:33    

Freekill a écrit :

Bizarre, dans tous les .doc que j'ai essayé si…


 
impossible, sinon ou est-ce que tu veux qu'il conserve ton formattage et tout? dans son cul? :D


---------------
http://www.boincstats.com/signature/user_664861.gif
Reply

Marsh Posté le 09-05-2004 à 19:26:23    

Je n'ai pas dit qu'il n'y avait QUE du contenu texte brut…

Reply

Marsh Posté le 09-05-2004 à 19:44:43    

Freekill a écrit :

Je n'ai pas dit qu'il n'y avait QUE du contenu texte brut…


 
word2k3 enregistre en xml je croit
 
tout les autre word c en binaire  ;)

Reply

Marsh Posté le 09-05-2004 à 19:44:43   

Reply

Marsh Posté le 10-05-2004 à 09:28:36    

Ce serait peut etre une solution de stocker les résultats en xml car du coup les recherches seraient asse facile mais cela prendrait une place assez importante.
Je vais étudier ce cas.
Sinon oui on peut retrouver le texte dans un fichier doc mais je ne pense pas qu on puisse faire des recherches de manière automatique (cad ne jamais tenir compte des infos propres aux fichiers word et puis il y a aussi les images qui pourraient poser problème). Je ne pense donc pas que la recherche comme si c'étaient un fichier texte fonctionne correctement.
Si qqun a une autre idée je suis toujours preneur.
Merci

Reply

Marsh Posté le 10-05-2004 à 10:54:08    

J'ai été exposé à cette question cette année pour un projet (l'idée était d'extraire les données d'un document word dans une appli java), la solution retenue était de se limiter à Word 2003 et à son format XML dont Microsoft à fourni le schema.
 
CF : http://www.microsoft.com/office/xml/default.mspx

Reply

Marsh Posté le 12-05-2004 à 17:44:15    

Peut etre trouvé une piste : Lucene
http://jakarta.apache.org/lucene/docs/index.html
Ca a l'air assez lourd mais je vais essayer de voir ca d'un peu plus pres...
Si qqun a déja essayé ca et a des conseils à donner ou alors une autre solution à proposer, je suis toujours preneur.

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed