Création d'un moteur de recherche axé informatique/multimédia - Logiciels - Windows & Software
Marsh Posté le 07-08-2006 à 20:24:30
Je note le site.
Le probleme etant qu'il doit y avoir des 100aines de site de news et d'articles.
Je pense aussi m'attaquer aux sites US les plus connues
Marsh Posté le 20-08-2006 à 20:00:28
Et voila en plus de ceux cité precedemment j'ai rajouté :
-Overclex
-Linux Fr
-Les Numeriques
-JeuxVideo.fr
-JeuxVdeo.com
-InpactVirtuel
-Silicon (fr)
-The Inquirer (fr)
-Le Monde Informatique
-Vnu
La base est doucement en cours de remplissage. Pour l'instant il y a 120.000 entrées (dont quelque doublon apparu apres bug )
Marsh Posté le 20-08-2006 à 20:07:16
Pourquoi ce deplacement de Materiel/Divers vers Windows/Tutoriels?
Marsh Posté le 20-08-2006 à 20:34:36
Intéressant mais pour apporter un plus par rapport à Google d'une part, aux moteurs de chaque site d'autre part, ce serait intéressant de disposer d'une recherche avancée (faut s'attendre à une telle demande vu le domaine ).
Exemples:
- tri par date,
- restreindre à un intervalle de temps, (les dates des news, c'est un gros plus quand elles sont dispos)
- exclure certains sites de la recherche
Pour une v2 ou v5
Une ligne de temps de la 1ère fois qu'apparait un terme comme 'fx-850' à la dernière fois (encore en cours pour celui-là). Entre l'annonce 3 mois avant, les 1ers tests, le comparatif des 16 marques et le comparatif avec la génération d'après c'est toujours le même schéma. Si on sait ce que l'on cherche, ça peut être un plus et être plus ergonomique
Marsh Posté le 20-08-2006 à 21:19:36
phosphoreloaded a écrit : Intéressant mais pour apporter un plus par rapport à Google d'une part, aux moteurs de chaque site d'autre part, ce serait intéressant de disposer d'une recherche avancée (faut s'attendre à une telle demande vu le domaine ). |
Oui tu as raisons il faut que je fasse l'extraction de la date des news pour permettre des recherches plus poussé et interessante.
Pour la recherche avancé <basique> il faut que je fasse une page d'aide, mais en substance tu peux utiliser les champs indexés qui sont : URI,HOSTID,TITLE,CONTENT. Par exemple < HOSTID:HARDWAREFR TITLE:"amd" > avec les operateurs d'inclusions et d'exclusions + ou -
< -HOSTID:HARDWAREFR TITLE:"amd" >
Ton idée pour la v2 ou v5 est interessante je la note
Marsh Posté le 14-09-2006 à 09:57:25
J'indexe maintenant en plus des 17 autres sites :
- 01Net
- Generation NT
On peut maintenant trier par date ou par pertinence et borner la recherche à un interval de temps données
Ma base comporte maintenant 260.000 articles/news
Je vais bientot ajouter la notion de hotnews extrayant automatiquement les mots les plus utilisés dans les news
Ca avance...
Marsh Posté le 07-08-2006 à 18:37:21
D'abord je voudrais platement m'excuser aupres des differents serveurs que j'ai malmené depuis 2 semaines. J'espere que je n'ai pas fait exploser leurs bandes passantes
Je viens de créer un site hebergeant un moteur de recherche axé informatique et multimedia. La spécificité de ce moteur est qu'il n'indexe qu'un nombre restreint de sites choisis pour la pertinence des articles et des news. Mon souhait en d'avoir un moteur de recherche retournant des resultats plus ciblés et moins parasités.
J'ai pour l'instant dans ma base (base BETA et non complete) :
-clubic
-hardware.fr
-matbe
-pcinpact
-presencepc
-tomshardware
-tthardware
J'aurais besoin de votre avis sur la pertinence de ce genre de moteur et si vous connaissez des sites interessants a indexer
le moteur est à l'adresse http://www.janaga.com
par exemple une recherche sur le core 2 : core 2 duo
Ca sera l'occasion de tester la monté en charge . Merci pour vos commentaires.
Nithril
Message édité par nithril le 07-08-2006 à 18:49:49