Moteur de recherche ou robot

Moteur de recherche ou robot - PHP - Programmation

Marsh Posté le 05-10-2005 à 15:32:01    

existe-t-il un moyen avec PHP de "butiner" des sites internet.. et d'en analyser le contenu ? existe-t-il deja des robots efficaces pour ça ? je veux dire un truc qui va fouiller tout seul sur internet et recuperer des informations sur un site (recuperer des liens ou de images ou des swf ou n'importe quoi !) ?


---------------
Freed102
Reply

Marsh Posté le 05-10-2005 à 15:32:01   

Reply

Marsh Posté le 05-10-2005 à 15:40:09    

Si yavais pas de timeout je dis pas mais....


---------------
-- Debian -- Le système d'exploitation universel | Le gras c'est la vie! | /(bb|[^b]{2})/
Reply

Marsh Posté le 05-10-2005 à 15:41:19    

freed102 a écrit :

existe-t-il un moyen avec PHP de "butiner" des sites internet.. et d'en analyser le contenu ?

oui mais c'est pas le meilleur langage pour le faire...  

Reply

Marsh Posté le 05-10-2005 à 15:45:32    

alors existe-t-il tout simplement un programme tout fait.. bien construit et parametrable pour faire ça ? (je pense que c inutile de reinventer la roue !!!)
sinon quel est le langage le plus adapté ?


---------------
Freed102
Reply

Marsh Posté le 05-10-2005 à 15:48:43    

freed102 a écrit :

sinon quel est le langage le plus adapté ?

ça dépend de tes besoins exacts, un peu plus d'infos sur ton projet ?

Reply

Marsh Posté le 05-10-2005 à 15:49:46    

et bien recuperer des liens vers des videos par exemple et les enregistrer dans une bdd afin d'en construire un portail


---------------
Freed102
Reply

Marsh Posté le 05-10-2005 à 16:03:19    

freed102 a écrit :

et bien recuperer des liens vers des videos par exemple et les enregistrer dans une bdd afin d'en construire un portail

si c'est juste pour un besoin ponctuel dans ce genre tu peux effectivement utiliser php en virant le timeout
sinon : http://www.google.fr/search?q=open+source+web+crawler

Reply

Marsh Posté le 05-10-2005 à 16:10:19    

freed102 a écrit :

alors existe-t-il tout simplement un programme tout fait.. bien construit et parametrable pour faire ça ? (je pense que c inutile de reinventer la roue !!!)
sinon quel est le langage le plus adapté ?

Celui de google? :D
Il me semble qu'ils proposent carément des serveurs avec le moteur de recherche et le robo du moteur de recherche installé dessus.
 
Sinon, je conais pas de programme tout fait, qui permette de récupérer juste des infos précises dans des pages non déterminé à l'avance d'un site web. Le Java serait pour moi un bon langage (mais c'est pas le plus simple) pour un tel développement.

Reply

Marsh Posté le 05-10-2005 à 16:11:19    

non c pas ponctuel justement.. c'est un truc qui doit presque tourner tout le temps qu'il nous faut ! un truc qui va chercher tout seul... apres on controle à la main à la limite !


---------------
Freed102
Reply

Marsh Posté le 05-10-2005 à 16:47:26    

Y'a PhpDig : http://www.phpdig.net/
 
Ca marche très bien, mais il faut que les scripts puissent travailler assez longtemps, donc ça va pas marcher sur bcp d'hébergeurs.

Reply

Marsh Posté le 05-10-2005 à 16:47:26   

Reply

Marsh Posté le 05-10-2005 à 17:25:44    

est ce que ce programme serait capable, si on lui donne par exemple une liste de sites.. de les butiner et d'afficher en temps reel une eventuelle mise à jour ? (en gros est-ce que c'est assez rapide pour ça !)


---------------
Freed102
Reply

Marsh Posté le 05-10-2005 à 17:28:11    

Pour des soucis de bande passante, est ce qu'il serait pas possible de prendre contact avec les webmaster pour disposer d'un fichier constament mise à jour et qui récapitule les changements?
Un systéme équivalent aux css des sites de news et de certains forums en quelques sortes.
 
Ca sera beaucoup plus simple, rapide et économique.

Reply

Marsh Posté le 05-10-2005 à 17:30:40    

c ce que j'ai proposé à mon boss.. Mais visiblement... c pas dans son objectif.. il a ses raisons... c pour ça que c plus compliqué !


---------------
Freed102
Reply

Marsh Posté le 05-10-2005 à 18:03:59    

freed102 a écrit :

est ce que ce programme serait capable, si on lui donne par exemple une liste de sites.. de les butiner et d'afficher en temps reel une eventuelle mise à jour ? (en gros est-ce que c'est assez rapide pour ça !)


 
Oui je crois bien que c'est possible. Pour la rapidité, tout dépend du CPU du serveur (pour le moteur d'indexation) et de la bande passante ;)

Reply

Marsh Posté le 05-10-2005 à 18:05:48    

bien bien bien !! il va falloir que je me penche plus serieusement sur tout ça prochainement... en tous cas merci à tous pour votre aide !


---------------
Freed102
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed