Crawler

Marsh Posté le 11-08-2008 à 15:54:10

Bonjour,
Je réalise actuellement un crawler, et j'ai comme objectif de récupérer les URL externes issues des billets d'une liste de blogs.
J'aimerais savoir si vous aviez une idée pour extraire facilement ces URL.

Actuellement, ma méthode consiste à 'filtrer' les URL issues du code source des pages de chaque blogs, car beaucoup de liens externes sont récurrents entre les blogs. J'ai déjà bien sur retirer tous les liens internes aux blogs.
Mais cela n'est pas suffisant pour obtenir une liste 'propre'.

Merci d'avance pour votre aide.

Marsh Posté le 11-08-2008 à 15:54:10

Sujets relatifs:

Recherche d'informations dans html + crawler
'web crawler' (suite) : quel langage choisir ?

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed

Name *

Email *

URL

Message *