Parsage de forum en ligne :: acceptable ? - PHP - Programmation
Marsh Posté le 10-04-2006 à 14:03:36
A ouais sans acces directement à la base et au serveur ca peut faire un peu mal, mais rien de mechant, essaye de lancer ta procedure le matin ou la nuit et de pas la lancer 20x de suite, mais sinon non c'est pas trop genant
Marsh Posté le 10-04-2006 à 14:52:10
Vu la quantité de donnée que tu récupéres, vérifie d'abord si le webmaster est d'accord pour t'autoriser à copier tout ça, par ce que là, c'est quand même vraiment limite comme façon de faire et personellement, ca me ferait vraiment chier qu'un inconu (ou même quelqu'un que je conais) fasse ça sur un de mes sites sans mon autorisation.
En fait, je me demande même si je n'irais pas prévenir imédiatement le FAI de celui qui pompe chez moi afin qu'ils l'empéchent de recommencer.
PS : Même si une info est gratuitement "accessible pour tous", ca ne veut pas dire pour autant qu'elle est librement copiable.
PS2 : 90 000 pages pour 170 ko, tu veux dire par là que tu récupéres des pages qui font en moyenne 1.88 octets html compris? Rien qu'avec le pseudo, ca ferait bien plus, alors avec en plus l'html et les autres éléments classiques d'un compte, je te dis pas la quantité de données qui vont transiter sur le réseaux. Ca montera surement à plusieurs disaines ou centaines de Mo si ce n'est encore plus. Le webmaster qu'est en face, il va surement pas aimer que tu fasses ça comme ça.
Marsh Posté le 10-04-2006 à 15:33:42
ouais, j'ai oublié de préciser que mes tailles de fichiers valent pour 50 utilisateurs seulement
Faut encore les multiplier par 1800+ après
C'est justement pour ça que j'ai posté, mon test s'est limité à 1 page de 50 utilisateurs listés,
et ça se sent bien que ça s'ra po évident pour 90.000 ...
En plus je suis bien d'accord que c'est pas acceptable tel quel, jpense pas qu'on ait le droit de bouffer du temps serveur et dla bande passante comme ça...
Comment qu'ils font les bots ?
Marsh Posté le 10-04-2006 à 16:16:41
ben ils se genent pas.
j'avais fait un truc du genre pour recuperer quelques 20.000 mails
un petit script qui en prenait une centaine par heure, et en une semaine en gros c'etait reglé sans que ca soit trop lourd pour le site [enfin c'était yahoogroupes ils ont les moyens eux ]
Marsh Posté le 10-04-2006 à 13:55:14
'jour tlm
vala je veux extraire des données d'un forum pour les passer dans ma moulinette (rien de sale je vous rassure )
Je parcours donc le forum en question, en 2 étapes :
- je récup la liste triée des utilisateurs enregistrés (1 page appelée pour 50 utilisateurs) dans un premier fichier
- après avoir extrait les ID du fichier, je récup la page d'identité de chaque utilisateur listé (1 page appelée par utilisateur) dans un second fichier
Le problème c'est que les ID montent à 150.000 et des...
Ya moins de comptes que ça mais quand même, en gros ça fait que :
- je dois appeler 1.800+ pages pour l'étape 1 (donne un premier fichier ~ 56 Ko)
- un peu plus de 90.000 pour la 2 (le second ~ 170 Ko)
Ya po grand-chose de téléchargé/uploadé, mais ça fait quand même po mal d'appels au serveur... nan ?
PS: Je précise que ya rien d'illégal là-dedans, c'est juste de la lecture d'infos accessibles par tous (sans même être enregistré sur le forum) et dont le contenu est relatif à un jeu en ligne (c po du vol d'@ mail en gros ).
MERCI D'AVANCE pour les conseils/retours d'xp