Besoin d'aide pour creation de moteur de recherche

Besoin d'aide pour creation de moteur de recherche - Algo - Programmation

Marsh Posté le 21-09-2002 à 00:44:51    

Salut,  
 
on cherche a faire un gros moteur de recherche alors on voulait savoir si vous pouviez nous donnez des conseils et nous faire part de vous connaissances sur ce sujet.  :??:
 
est-ce que vous pouvez nous donner des idees pour nous expliquer comment le robot (car il va y avoir un robot qui parcourt le net en permanence) parcourt le net ? Faut-il le faire travailler sur les IP ?(ndlr : plusieurs sites ont parfois sur la meme IP) :eek2:  
 
merci d'avance de votre aide éclairé.
 
a bientot !!!
 


---------------
http://R0ll4nd.free.fr
Reply

Marsh Posté le 21-09-2002 à 00:44:51   

Reply

Marsh Posté le 21-09-2002 à 11:06:03    

:heink: Vous avez pas plus d'idees que nous ???  :heink:


---------------
http://R0ll4nd.free.fr
Reply

Marsh Posté le 21-09-2002 à 11:12:50    

faut dire que tu es ... vague.
 
tu démarres d'une page html, tu récupères les liens dedans, et tu recommences avec ces liens. et hop :D
 
plusieurs sites ont la même ip -> oui, et alors ? tu explores des url, pas des ips.

Reply

Marsh Posté le 21-09-2002 à 14:21:33    

tiens, en lisant il me vient à l'idée une question, comment on fait pour explorer des urls?
 
La je vois pas comment on fait pour parcourir tous les url du net.. Quelqu'un peut m'éclairer? :)


---------------
CGP Kingmax PC3700/PC4000 - DFI Lanparty UT nF3 250Gb
Reply

Marsh Posté le 21-09-2002 à 14:42:19    

1 tu récupères une page html
2 tu sors les liens de cette page
3 pour chaque lien de 2 goto 1

Reply

Marsh Posté le 21-09-2002 à 15:18:17    

tu veux dire que tu démarres d'un seul site pour parcourir le web?


---------------
CGP Kingmax PC3700/PC4000 - DFI Lanparty UT nF3 250Gb
Reply

Marsh Posté le 21-09-2002 à 15:36:22    

methodlol a écrit a écrit :

tu veux dire que tu démarres d'un seul site pour parcourir le web?


j'en sais rien, je n'ai jamais écrit de google. tu pars d'un bon site de news (le monde, cnn, etc.) tu vas vite te retrouver partout.

Reply

Marsh Posté le 21-09-2002 à 16:11:17    

ouais, c'est pas con
Slmt en théorie tu risques de louper pas mal de sites :/


---------------
CGP Kingmax PC3700/PC4000 - DFI Lanparty UT nF3 250Gb
Reply

Marsh Posté le 22-09-2002 à 10:47:39    

Merci method de m'aider pour notre projet. Bien cool !!!
 
Sinan c vrai ke pour les URL c cho ce ke tu propose. Ya vraiment bocou de chances de louper pas mal d'URL ! Mais sinan l'idee pouvait etre pas tro mal. Il va kan meme falloir ke je me creuse les meninges un peu plus sur ce sujet.
 
Si vous avez d'otres idees merci de nous en faire part.
 
 


---------------
http://R0ll4nd.free.fr
Reply

Marsh Posté le 22-09-2002 à 11:56:14    

Tu peux commencer par une page, mais tu as de fortes chance pour tourner en rond ...
A mon avis, tu peux scnner les pages perso, ça t'en fera en plus.
 
Sinon, après pour rendre ton moteur "intelligent", tu peux construire un graphe qui contient les liens entre les sites.
 
Comme ça plus un site est repertorié dans d'autres sites, et plus il doit être interressant ... pas toujours, mais bon ...
 
Je dois avoir un article là-dessus, si je le retrouve ...

Reply

Marsh Posté le 22-09-2002 à 11:56:14   

Reply

Marsh Posté le 22-09-2002 à 14:19:07    

Citation :

Je dois avoir un article là-dessus, si je le retrouve ...


 
C'est vrai que si t'as écrit un article ca peut être intéressant. La moindre info ki pourrait nous aider est bonne a prendre.
 
De notre cote on cherche tjrs une bonne facon d'optimiser la visite des sites.


---------------
http://R0ll4nd.free.fr
Reply

Marsh Posté le 22-09-2002 à 17:24:36    

djoffr a écrit a écrit :

Citation :

Je dois avoir un article là-dessus, si je le retrouve ...


 
C'est vrai que si t'as écrit un article ca peut être intéressant. La moindre info ki pourrait nous aider est bonne a prendre.
 
De notre cote on cherche tjrs une bonne facon d'optimiser la visite des sites.
 




Heu ... kan je dis je dois avoir un article, c'est que j'ai acheté un magazine ou il y avait un article dedans.
Loin de moi l'idée d'écrire un article sur un sujet que je ne maîtrise pas.
 
A+

Reply

Marsh Posté le 22-09-2002 à 22:13:56    

bobuse a écrit a écrit :

 
Heu ... kan je dis je dois avoir un article, c'est que j'ai acheté un magazine ou il y avait un article dedans.
Loin de moi l'idée d'écrire un article sur un sujet que je ne maîtrise pas.
 
A+




 
 
lol, je pense que si tu lui donnes juste le référence su mag, il sera déjà content :D


---------------
CGP Kingmax PC3700/PC4000 - DFI Lanparty UT nF3 250Gb
Reply

Marsh Posté le 22-09-2002 à 22:46:31    

C'était dans un science&Vie paru cet été ... une interview des développeur de google

Reply

Marsh Posté le 23-09-2002 à 12:42:40    

Dites, le propre d'un moteur de recherche, ce n'est pas de parcourir les sites -- bien sûr, c'est nécessaire :D -- mais de permettre des recherches !
 
Requête-type : "donne-moi toutes les pages qui contiennent le mot "xxxxx"". Et pour traiter ce genre de requêtes, il te faut un index très particulier : un index plein-texte.
 
Alors avant de te demander comment on peut parcourir les pages Web, demande-toi comment on peut retrouver un document à partir d'un des mots qu'il contient. Et pour alimenter ton index, tu peux déjà utiliser des fichiers texte tout bêtes !
 
Une fois que tu sauras faire ça, tu pourras ajouter un outil de filtrage des balises dans le cas des fichiers HTML. Et après seulement, tu pourras réfléchir à comment on peut parcourir le Web.


Message édité par BifaceMcLeOD le 23-09-2002 à 12:43:52
Reply

Marsh Posté le 23-09-2002 à 13:25:44    

c'est vrai qu'à la base un moteur de recherche... retrouve des documents correspondant à une requete et puis les arrange selon leur importance... Un chouet bouquin sur le sujet (en anglais) -> "Modern Information Retrieval" chez Addison Wesley -> explications à propos des diffèrents type d'indexes, les diffèrents type de requetes, les modèles pour arranger les résultats d'une recherche, etc.

Reply

Marsh Posté le 23-09-2002 à 13:52:29    

en référence, le papier à l'origine de google est ici http://citeseer.nj.nec.com/page98pagerank.html

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed