Crawler

Crawler - HTML/CSS - Programmation

Marsh Posté le 11-08-2008 à 15:54:10    

Bonjour,
Je réalise actuellement un crawler, et j'ai comme objectif de récupérer les URL externes issues des billets d'une liste de blogs.
J'aimerais savoir si vous aviez une idée pour extraire facilement ces URL.
 
Actuellement, ma méthode consiste à 'filtrer' les URL issues du code source des pages de chaque blogs, car beaucoup de liens externes sont récurrents entre les blogs. J'ai déjà bien sur retirer tous les liens internes aux blogs.
Mais cela n'est pas suffisant pour obtenir une liste 'propre'.
 
Merci d'avance pour votre aide.

Reply

Marsh Posté le 11-08-2008 à 15:54:10   

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed