[Perl] Débutant : Rechercher mot-clé et extraire paragraphe

Débutant : Rechercher mot-clé et extraire paragraphe [Perl] - Perl - Programmation

Marsh Posté le 05-05-2006 à 11:00:30    

Bonjour   :hello:  
 
Voila mon petit souci :
Je voudrais rechercher dans un texte une liste de mot-clé, en extraire les paragraphes correspondant au mot-clé trouvé et copier ces paragraphes dans un autre fichier.
 
Après des essais plus ou moins réussis sous VBA, on m'a dit que Perl était bcp plus approprié à ce type de manip.
 
Je me mets donc à Perl pour manipuler du texte..
 
Etant une merde en programmation, avez-vous des conseils ou des liens pour que je réussisse à faire mon prog de recherche et d'extraction.
 
Merci bien
 
:jap:

Reply

Marsh Posté le 05-05-2006 à 11:00:30   

Reply

Marsh Posté le 05-05-2006 à 11:10:38    

D'abord, plutôt que de rechercher un mot, et en extraire le paragraphe correspondant, je te propose de faire l'inverse : séparer les paragraphes, puis y rechercher ta liste de mots.
 
Séparer un paragraphe, c'est facile. Mettons qu'on travaille avec un fichier texte tout à fait banal, les paragraphes y sont séparés par au moins une ligne vide.
Si tu travailles sur d'autres types de textes, à toi de concevoir la manière de les extraire. Quoi qu'il en soit, tu peux tout simplement lire ton fichier, et le stocker dans un tableau de paragraphes.
 
Ensuite, il te suffit de parcourir ton tableau, avec grep(), et de ne retenir que les paragraphes contenant au moins l'un, voire tous les mots recherchés.
 
Lien à connaître :
http://perldoc.perl.org
 
Tu y trouveras toute la documentation PERL dont tu as besoin. Et si tu as des questions plus spécifiques, tu peux les poser ici bien évidemment.

Reply

Marsh Posté le 05-05-2006 à 11:16:31    

Merci bien !
Je m'y penche de suite !

Reply

Marsh Posté le 05-05-2006 à 14:03:13    

pour extraire le smots clé il y a beaucoup de techniques possibles, plus ou moins complexe
sur CPAN (search.cpan.org) tu trouvera quelques modules pour le faire, mais qui marchent surtout pour l'anglais:
http://search.cpan.org/search?quer [...] s&mode=all
 
sinon tu a l'API yahoo (que tu peux utiliser avec certains de ces modules d'ailleurs) qui marche tres bien, mais qui est forcement limitée (et lente)

Reply

Marsh Posté le 05-05-2006 à 14:10:41    

C quoi l'API yahoo ?

Reply

Marsh Posté le 05-05-2006 à 15:01:44    

c'est le webservice de yahoo
en gros il rendent disponible une partie de leurs outils en ligne, à travers internet.
Tu peux par exempel faire des recherches web à partir de ton application au lieu de le faire sur leur page web, et dans l'exemple qui t'interesse tu peux demander à yahoo de trouve rles mots clé dans un extrait que tu leur fourni.
Google a le meme genre d'API (mais dans les mots clés)

Reply

Marsh Posté le 05-05-2006 à 15:58:30    

OK  
mais moi je veux en fait extraire tout le paragraphe ou j'ai trouvé le mot clé. et d'autrs manips de fichiers textes (qui font bien 700pages)
 
merci !

Reply

Marsh Posté le 05-05-2006 à 16:53:57    

ok excuse, j'ai mal lu ton post initial !!
je pensais que tu voulais extraire des mots clés nouveaux, et non chercher une liste de mots clé deja connue!
au temps pour moi

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed