Comment récupérer des informations sur un site web ? - Divers - Programmation
Marsh Posté le 09-06-2010 à 15:37:49
Par ex en faisant un robot en php qui va utiliser fopen() puis la lib DOM (ou un autre parseur) et extraire les données désirées.
Mais ton robot aura intérêt à être discret (en terme de charge) vis à vis du site concerné car ce genre de pratique est rarement appréciée par le site (c'est même illégal il me semble quand il n'y a pas eu de demande d'autorisation de ta part).
Marsh Posté le 09-06-2010 à 15:58:17
Merci de ta réponse rapide.
Tout d'abord, je tiens à préciser que je ne compte pas "surcharger" le site avec des listes interminables.
Simplement, je voudrais que lorsque je tape le siret d'une entreprise ( dans un petit programme basique), j'obtienne alors directement son chiffre d'affaire ( sans passer par les étapes : aller sur www.société.com => rechercher=> entrer numéro => chercher la case CA, copier excel ...).
Ensuite, est-ce qu'il est nécessaire de faire le robot en PHP ou bien est-ce possible en C ( seul langage que je connaisse ^^), voire ce genre de robot existe-t-il en open source ?
Marsh Posté le 09-06-2010 à 17:57:33
auto it peut le faire, c'est un ptit langage de script tout simple, après je programme pas trop, alors je connais pas toutes les possibilités du C
Marsh Posté le 09-06-2010 à 18:04:20
AutoIt est bien pas pas franchement adapté dans cette situation : parser des pages HTML, c'est pas son truc. A ma connaissance, il n'a pas un tel parser alors que PHP en a plusieurs. Sur sourceforge, y'a une lib plus puissante que DOM pour parser le HTML et pas sensibles aux erreurs de codage HTML, mais je ne me rappelle plus le nom Qq'un de ce forum avait donné le lien y'a qq jours...
Marsh Posté le 09-06-2010 à 18:12:01
beautiful soup
Marsh Posté le 10-06-2010 à 09:39:58
Non, c'est une lib écrite en php.
Marsh Posté le 09-06-2010 à 14:55:43
Bonjour,
j'aimerais récupérer des informations sur un site web de façon automatique et j'aurais besoin de vos conseils.
Voilà, par exemple je voudrais obtenir le chiffre d'affaire d'une liste d'entreprise ( avec leur numéro SIRET ), d'après le site www.societe.com.
Avez vous une idée s'il existe déjà un moyen simple de le faire, ou sinon à quel type de programmation dois-je m'atteler ?
Merci par avance.