Bonjour, Voila je souhaite pouvoir indexer des fichiers .doc que j'upload sur mon site afin de créer une mini base de donnée pour un moteur de recherche interne.
Je ne souhaite en résumé vouloir récuperer que les chaines de caractères >4 et ne contenant que de l'alpha (abcd...z limite meme sans accents pour simplifier ...)
Seulement voilà, la première solution qui était d'utiliser "COM" me fait planter APACHE ...
Citation :
$word = new COM("word.application" ) or die("Unable to instantiate Word" ); if(!($fp= fopen ("../documents/Back-Up_Procedure.doc", "r" ))) die ("Can't open" ); $saveFile = "./temp.txt";
Cela aurait eu pour but d'enregistrer le fichier donc d'une manière temporaire afin de nerécupérer que le texte brut ...
J'ai ensuite tenté un système D , a savoir avec des manipulation sur les chaines de caractères (ereg, explode) etc, ne récupérer que les chaines > 4 et ne contenant que abcdef...xyz (au plus simple donc sans les accents et tt le toutim ...)
Et bien sur ca marche pas trop ...
Si qq'un a une solution de paramétrage d'Apache ou PHP ? ou bien qqchose qui marcherait ...
Marsh Posté le 27-05-2008 à 20:30:41
Bonjour,
Voila je souhaite pouvoir indexer des fichiers .doc que j'upload sur mon site afin de créer une mini base de donnée pour un moteur de recherche interne.
Je ne souhaite en résumé vouloir récuperer que les chaines de caractères >4 et ne contenant que de l'alpha (abcd...z limite meme sans accents pour simplifier ...)
Seulement voilà, la première solution qui était d'utiliser "COM" me fait planter APACHE ...
$word = new COM("word.application" ) or die("Unable to instantiate Word" );
if(!($fp= fopen ("../documents/Back-Up_Procedure.doc", "r" ))) die ("Can't open" );
$saveFile = "./temp.txt";
Cela aurait eu pour but d'enregistrer le fichier donc d'une manière temporaire afin de nerécupérer que le texte brut ...
J'ai ensuite tenté un système D , a savoir avec des manipulation sur les chaines de caractères (ereg, explode) etc, ne récupérer que les chaines > 4 et ne contenant que abcdef...xyz (au plus simple donc sans les accents et tt le toutim ...)
Et bien sur ca marche pas trop ...
Si qq'un a une solution de paramétrage d'Apache ou PHP ? ou bien qqchose qui marcherait ...
Merci d'avance