Extraction de l'information [all] - Divers - Programmation
Marsh Posté le 13-09-2007 à 11:37:35
perl me parait pas mal.
sino en C++ ou enC doit y avoir des bibliothèques de parsing HTML qui ferait ça.
Mais bon, ca rete de la manip de etxte, donc je prefererais perl.
Marsh Posté le 13-09-2007 à 11:41:51
minc alors c'est bien sur PERL que j'en connais le moins
est ce que le fichier.pl pourra être converti facilement en .exe ?
est ce que ca me force à avoir un interpreteur perl sur mon windows ?
Marsh Posté le 13-09-2007 à 11:43:25
+1 pour perl
Après tu pourra facilement convertir tes programmes perl en exécutables indépendants à l'aide de PAR::Packer
Marsh Posté le 13-09-2007 à 11:46:56
ProjetGTR a écrit : minc alors c'est bien sur PERL que j'en connais le moins |
Ca s'apprend vite... (même si c'est un peu déroutant au début quand on est habitué à d'autres langages comme le C)
ProjetGTR a écrit : est ce que le fichier.pl pourra être converti facilement en .exe ? |
Cf mon post du dessus qui a croisé le tien.
ProjetGTR a écrit : est ce que ca me force à avoir un interpreteur perl sur mon windows ? |
Oui pour développer ton programme. Ensuite, une fois que tu as généré un binaire exécutable, tu peux le faire tourner sur n'importe quelle machine.
C'est un peu comme en C : tu as besoin du compilateur pour développer. Ensuite tu peux distribuer l'exécutable et l'exéctuer sans avoir besoin de compilateur.
Marsh Posté le 13-09-2007 à 12:54:43
Merci de vos réponses , j'ai suivi vos conseils et je me lance dans l'apprentissage de PERL... ce qui m'amene à un autre souci
Code :
|
voila le code que j'ai maintenant, j'ai utilisé le parsing du module HTML ::Parser et tente de recuperer uniquement mon txt mais apparement ce code ne marche pas si vous voyez l'erreur n'hésiter pas
Marsh Posté le 13-09-2007 à 13:55:51
si il ne marche pas, c'est surement que tu ne lui a pas donnr de jambes
Si par contre, il ne fonctionne pas, pourrais tu nous dire si il s'agit d'une erreur d'interpretation ou d'execution ?
Marsh Posté le 13-09-2007 à 14:06:34
Enfait ce programme ne retourne rien,
Je tappe dans ma console cmd (je suis sous windows) :
Code :
|
Il me rend absolument rien donc apparement aucune erreur :s
Marsh Posté le 13-09-2007 à 14:08:33
commence par faire afficher des trucs à tes fonctions start, end, text pour voir ce qui se passe et isoler un peu plus le problème.
Marsh Posté le 14-09-2007 à 11:43:46
Hum, après pas mal de test :s, j'arrive à extraire mon texte mais j'ai toujours plien d'erreurs lors de l'excution ... si quelqu'un à une idée, je pense que ca doit vraiment être rien :s
à chaque test, voila ce qui en sort :
Citation : Use of uninitialized value in string eq at test2.pl line 31. |
voici le code (J'ai finalement opté pour un accés directe à internet) :
Code :
|
Marsh Posté le 17-09-2007 à 09:07:00
ah ! biensur, C'est parce que tous tes td n'ont pas une classe !!!!
[edit]
erf c'etait de courte durée
maintenant j'ai mon fichier.pl qui marche impeccable, je me suis intéressé à la création de mon .exe
donc voila les manips que j'ai faite :
Code :
|
Code :
|
:s une petite idée ?
Marsh Posté le 17-09-2007 à 14:28:20
Apparement ma version de PAR est la 0.63, il me faut passer en 0.85...
Comment puisse je faire pour passer dans cette version alors que ppm me propose uniquement la vieille version ??
Marsh Posté le 13-09-2007 à 11:28:44
Bonjour à tous,
Voila je commencerai pas dire que je suis débutante....
voila j'ai un logiciel qui me recupere des pages internets d'un site en particulier (donc toujorus au meme format) avec ce logiciel j'ai la possibilité de lancer un programme à chaque page découverte (à la condition que ce programme finit par un .EXE ). Donc mon problème est que j'aimerai recuperer uniquement l'information textuelle de ces articles mais quel languages utiliser ? C, Batch(très limiter pour extraction de donnée)?,Bash(ca serait super facile à faire...), perl ? sachant que ce petit programme doit pouvoir etre à la fin convertir en .exe
voila je tourne en bourrique si qqun à une idée, je vous en serai reconnaissante
ps : voici le format du fichier .html :
<td class="avistxt" width="290">On pourrait dire qu'on trouve ....... ....un magazin de mec...</td>
j'aimerais juste recuperer : On pourrait dire qu'on trouve ....... ....un magazin de mec...
merci d'avance à vous
Message édité par ProjetGTR le 13-09-2007 à 11:37:23