Indéxer un .doc en PHP

Indéxer un .doc en PHP - PHP - Programmation

Marsh Posté le 27-05-2008 à 20:30:41    

Bonjour,
Voila je souhaite pouvoir indexer des fichiers .doc que j'upload sur mon site afin de créer une mini base de donnée pour un moteur de recherche interne.
 
Je ne souhaite en résumé vouloir récuperer que les chaines de caractères >4 et ne contenant que de l'alpha (abcd...z limite meme sans accents pour simplifier ...)
 
Seulement voilà, la première solution qui était d'utiliser "COM" me fait planter APACHE ...

Citation :

$word = new COM("word.application" ) or die("Unable to instantiate Word" );  
if(!($fp= fopen ("../documents/Back-Up_Procedure.doc", "r" ))) die ("Can't open" );  
$saveFile = "./temp.txt";


Cela aurait eu pour but d'enregistrer le fichier donc d'une manière temporaire afin de nerécupérer que le texte brut ...  
 
J'ai ensuite tenté un système D :p, a savoir avec des manipulation sur les chaines de caractères (ereg, explode) etc, ne récupérer que les chaines > 4 et ne contenant que abcdef...xyz (au plus simple donc sans les accents et tt le toutim ...)
 
Et bien sur ca marche pas trop ...
 
Si qq'un a une solution de paramétrage d'Apache ou PHP ? ou bien qqchose qui marcherait ...
 
Merci d'avance

Reply

Marsh Posté le 27-05-2008 à 20:30:41   

Reply

Marsh Posté le 28-05-2008 à 09:48:42    

personnellement, ju'tilise antiword pour passer de doc /xls/ppt vers txt et je lis le contenu du fichier txt généré


---------------

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed