Moteur de recherche ou robot - PHP - Programmation
Marsh Posté le 05-10-2005 à 15:41:19
freed102 a écrit : existe-t-il un moyen avec PHP de "butiner" des sites internet.. et d'en analyser le contenu ? |
oui mais c'est pas le meilleur langage pour le faire...
Marsh Posté le 05-10-2005 à 15:45:32
alors existe-t-il tout simplement un programme tout fait.. bien construit et parametrable pour faire ça ? (je pense que c inutile de reinventer la roue !!!)
sinon quel est le langage le plus adapté ?
Marsh Posté le 05-10-2005 à 15:48:43
freed102 a écrit : sinon quel est le langage le plus adapté ? |
ça dépend de tes besoins exacts, un peu plus d'infos sur ton projet ?
Marsh Posté le 05-10-2005 à 15:49:46
et bien recuperer des liens vers des videos par exemple et les enregistrer dans une bdd afin d'en construire un portail
Marsh Posté le 05-10-2005 à 16:03:19
freed102 a écrit : et bien recuperer des liens vers des videos par exemple et les enregistrer dans une bdd afin d'en construire un portail |
si c'est juste pour un besoin ponctuel dans ce genre tu peux effectivement utiliser php en virant le timeout
sinon : http://www.google.fr/search?q=open+source+web+crawler
Marsh Posté le 05-10-2005 à 16:10:19
freed102 a écrit : alors existe-t-il tout simplement un programme tout fait.. bien construit et parametrable pour faire ça ? (je pense que c inutile de reinventer la roue !!!) |
Celui de google?
Il me semble qu'ils proposent carément des serveurs avec le moteur de recherche et le robo du moteur de recherche installé dessus.
Sinon, je conais pas de programme tout fait, qui permette de récupérer juste des infos précises dans des pages non déterminé à l'avance d'un site web. Le Java serait pour moi un bon langage (mais c'est pas le plus simple) pour un tel développement.
Marsh Posté le 05-10-2005 à 16:11:19
non c pas ponctuel justement.. c'est un truc qui doit presque tourner tout le temps qu'il nous faut ! un truc qui va chercher tout seul... apres on controle à la main à la limite !
Marsh Posté le 05-10-2005 à 16:47:26
Y'a PhpDig : http://www.phpdig.net/
Ca marche très bien, mais il faut que les scripts puissent travailler assez longtemps, donc ça va pas marcher sur bcp d'hébergeurs.
Marsh Posté le 05-10-2005 à 17:25:44
est ce que ce programme serait capable, si on lui donne par exemple une liste de sites.. de les butiner et d'afficher en temps reel une eventuelle mise à jour ? (en gros est-ce que c'est assez rapide pour ça !)
Marsh Posté le 05-10-2005 à 17:28:11
Pour des soucis de bande passante, est ce qu'il serait pas possible de prendre contact avec les webmaster pour disposer d'un fichier constament mise à jour et qui récapitule les changements?
Un systéme équivalent aux css des sites de news et de certains forums en quelques sortes.
Ca sera beaucoup plus simple, rapide et économique.
Marsh Posté le 05-10-2005 à 17:30:40
c ce que j'ai proposé à mon boss.. Mais visiblement... c pas dans son objectif.. il a ses raisons... c pour ça que c plus compliqué !
Marsh Posté le 05-10-2005 à 18:03:59
freed102 a écrit : est ce que ce programme serait capable, si on lui donne par exemple une liste de sites.. de les butiner et d'afficher en temps reel une eventuelle mise à jour ? (en gros est-ce que c'est assez rapide pour ça !) |
Oui je crois bien que c'est possible. Pour la rapidité, tout dépend du CPU du serveur (pour le moteur d'indexation) et de la bande passante
Marsh Posté le 05-10-2005 à 18:05:48
bien bien bien !! il va falloir que je me penche plus serieusement sur tout ça prochainement... en tous cas merci à tous pour votre aide !
Marsh Posté le 05-10-2005 à 15:32:01
existe-t-il un moyen avec PHP de "butiner" des sites internet.. et d'en analyser le contenu ? existe-t-il deja des robots efficaces pour ça ? je veux dire un truc qui va fouiller tout seul sur internet et recuperer des informations sur un site (recuperer des liens ou de images ou des swf ou n'importe quoi !) ?
---------------
Freed102