aspirateur de liens de site - PHP - Programmation
Marsh Posté le 13-06-2006 à 10:35:48
Regarde conmment les autres aspirateurs sont fait (si Free software ils sont)
exemple : http://www.httrack.com/page/2/fr/index.html?pat (ecrit en C)
Sinon etant donne que tu recupere le domaine, si tu vois que le liens n'est pas absolu, tu prend le relatif et tu rajoute le domaine devant et pouf, ca devient un chemin absolu. Enfin je crois
Marsh Posté le 13-06-2006 à 12:10:57
en fait je cherche une version web ou un module executable depuis Cron
Marsh Posté le 12-06-2006 à 12:59:27
Salut tout le monde
j'essaye de faire un aspirateur de site en PHP. ( Ceux existants ne proposant pas de modules de base de donnée ).
J'ai donc fait une petite classe pour capturer tous les liens de la page dans le but de les explorer par la suite
Voici la class en question :
Le probleme que je rencontre se situe par exemple avec le site http://www.overgame.com/
Ce site effectue en fait une redirection vers http://www.overgame.com/page/
or les liens capturés dans les propriétés href des balises <a> sont souvent des chemins relatifs... ( du genre <a href="./rubrique/page.php">lien</a> ).
et pour les explorer par la suite je reconstitue le chemin absolu en collant le chemin relatif avec l'url de la page que je suis en train d'explorer...
j'obtiens donc http://www.overgame.com/page8212.htm au lien de http://www.overgame.com/page/page8212.htm
et je planche un peu la dessus...
Donc si vous avez des idées je suis preneur !