[JAVA] programmation d'un bot de moteur de recherche

programmation d'un bot de moteur de recherche [JAVA] - Java - Programmation

Marsh Posté le 30-01-2003 à 18:12:29    

Salut
 
Je cherche a réaliser en java un bot de moteur de recherche.
Malgré de nombreux essais, j'ai du mal à récuperer TOUS les liens présents dans les pages (<a href=... ; <area href=... ; <frame src=...)
Ce que je comptais faire, c'est lire ligne à ligne la page html, avec un BufferedReader (méthode .readline() ); et pour chaque ligne, chercher les "<a", puis "href=", et enfin, lire la chaine qui suit entre guillemets ou ', en utilisant la méthode .indexOf.
 
Avez vous une meilleure idée ?
Mon code marche a peu près, mais je suis a la recherche d'autres moyens de proceder. Si vous avez des idées.
D'avance, merci
 
Edit : En fait, je crois que mon problème, c'est de récuperer la chaine entre guillemets...


Message édité par jkay le 30-01-2003 à 18:26:13
Reply

Marsh Posté le 30-01-2003 à 18:12:29   

Reply

Marsh Posté le 30-01-2003 à 22:25:01    

avec des regex... sans promesse de performances;)


---------------
#19b | Mardi 18 Février 2003 - nous fêtons les Bernadette | contre le fleur icq!
Reply

Marsh Posté le 31-01-2003 à 01:56:11    

ben ce que tu peux faire c'est utiliser un generateur de parser, genre CUP et tu le couple a un analyseur syntaxique genre JFlex...ca sonne complique, mais en fait c'est tout simple, tu n'a qu'un seul truc a faire c'est ecrire ta grammaire, dant ton cas ce sera simple.
 
  http://www.cs.princeton.edu/~appel/modern/java/CUP/
 
http://www.jflex.de/  
 
voila,c'est un peu tuer des mouches au au gourdin mais bon...c'est simple et ca marchera
 
Souk :jap:

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed