Choix d'une méthode pour extraire des données web

Marsh Posté le 26-06-2012 à 09:53:52

Bonjour à tous,

Mon problème concerne le choix d'une méthode pour récupérer des données sur un autre site web.
L'idée du projet est de réaliser (en gros) un agrégateur de petites annonces immobilières, donc il faut être capable de récupérer les annonces sur des sites immobiliers.
Je vois plusieurs solutions possibles, mais ne sait pas du tout laquelle est la plus intéressante en termes de difficulté, performances, etc..

Les solutions que j'envisage sont:
_ soit récupérer les données des annonces sur les sites de manière régulière - effectuer un crawl une fois par jour par exemple - et les stocker dans une bdd interne. Les données étant alors accessibles plus facilement.
_ soit faire une sorte de "méta-moteur" où une recherche sur le site lancerait des requêtes sur chacun des sites immobiliers, et les résultats seraient alors traités à la volée pour les afficher correctement.
_ soit intégrer un flux rss/xml/csv - mis à jour par les sites - et stocker les annonces en dur dans une base de données.

Voilà les 3 solutions qui me viennent à l'esprit, j'imagine qu'il doit en exister d'autres, donc je suis ouvert à toute idée ou proposition et bien sûr à tout avis sur ces 3 solutions.

Alors.. qu'en pensez-vous ?

Merci d'avance pour vos réponses !

Reply

Marsh Posté le 26-06-2012 à 09:53:52

Reply

Marsh Posté le 26-06-2012 à 10:27:31

Déjà, faudrait voir quelles relations tu envisages avec lesdits sites web. "Pomper" leur contenu est illégal, surtout si c'est à des fins commerciales. Normalement, on conclut un partenariat (gratuit ou payant, ça dépend) avec le site qui va te servir de source. Ensuite, ben c'est souvent via une api ou un web service (soap, rest, xml, json...) que les données sont échangées.

Message édité par rufo le 26-06-2012 à 10:28:21

---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta

Reply

Marsh Posté le 26-06-2012 à 10:38:37

Merci de ta réponse,
oui tu as raison, l'aspect légal est très important ici, il y aura donc des accords avec les sites en question.
Ensuite si le site possède un webservice pour échanger les données c'est parfait, mais si ce n'est pas le cas et qu'ils ne souhaitent pas (ou n'ont pas les moyens de) le mettre en place, quelle solution est la plus intéressante ?

Reply

Marsh Posté le 26-06-2012 à 10:47:10

Y'a aussi la possibilité de se connecter en direct à leur BD en lecture seule.

Après, ça va être de l'analyse de flux rss ou parsing de page web (mais là, ça va être galère )

---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta

Reply

Marsh Posté le 26-06-2012 à 23:45:19

Pour parser des pages web : surtout pas de regex, mais Xpath

Assez simple, dès que tu sais que Firebug ( l'extension firefox ) peut t'afficher des chemins Xpath...

Reply

Marsh Posté le 26-06-2012 à 23:54:37

Non mais comme dit Rufo soit ils exposent leur APIs soit non, avec tout l'aspect légal qui va avec, l'aspect technique est ici vraiment super anodin ...

---------------
A religious war is like children fighting over who has the strongest imaginary friend.

Reply

Marsh Posté le 27-06-2012 à 07:38:12

A mon avis t'es jamais rentré dans une agence immo et tu n'a jamais visité de site web d'agence immo.

Quant à l'aspect légal ca m'intéresse (une vraie réponse de juriste), je n'ai jamais signé de contrat avec google, bing, yahoo et surement des tas de comparateurs de prix, pourtant ils affichent (et vivent) de mon contenu ...

Message cité 1 fois

Reply

Marsh Posté le 27-06-2012 à 09:24:20

scvo0ne a écrit :

A mon avis t'es jamais rentré dans une agence immo et tu n'a jamais visité de site web d'agence immo.

Quant à l'aspect légal ca m'intéresse (une vraie réponse de juriste), je n'ai jamais signé de contrat avec google, bing, yahoo et surement des tas de comparateurs de prix, pourtant ils affichent (et vivent) de mon contenu ...

Un peu hors-sujet mais c'est justement le combat engagé entre les journaux en ligne et Google (Google News par ex). Mais difficile de comparer une situation entre Google et un petit site web et une situation petit site web - autre petite site web. Dans ce dernier cas, le premier qui se fait piquer son contenu sans accord ira en justice et gagnera sans pb. Dans le premier cas, ça peut se tenter, mais va falloir lutter contre une armée d'avocats, pendant longtemps, c'est pas dit de gagner à la fin et surtout, c'est pas dit que le petit site web soit pas malencontreusement tombé dans le bas à sable ou juste sévèrement dégradé en terme de page rank

---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta

Reply

Choix d'une méthode pour extraire des données web

Sujets relatifs:

Leave a Replay