Aller chercher des informations sur un site web

Aller chercher des informations sur un site web - Python - Programmation

Marsh Posté le 20-04-2009 à 00:08:13    

Bonjour!
 
J'ai besoin d'un petit coup de main pour la réalisation d'un petit script: J'ai une liste de films ( dans un fichier txt par exemple). A partir de ces noms de films, j'aimerai faire un petit script qui aille sur allociné, et qui me donne le nombre d'étoile, et une petite description par exemple.
 
J'ai fait du python, et je n'ai pas trop de soucis avec. Par contre, ce que je ne vois pas comment faire, c'est comment aller sur un site web, quel module utiliser... Ce que je veux, c'est des orientations ( pas trop vagues quand même), pas des solutions ( la solution, c'est moi qui la trouverai XD )
 
Donc, voila, si quelques connaisseurs pouvaient m'orienter =)
 
@Plous

Reply

Marsh Posté le 20-04-2009 à 00:08:13   

Reply

Marsh Posté le 20-04-2009 à 08:41:19    

http://docs.python.org/library/httplib.html


---------------
Now Playing: {SYNTAX ERROR AT LINE 1210}
Reply

Marsh Posté le 20-04-2009 à 09:08:04    

Mieux : http://www.crummy.com/software/BeautifulSoup/


---------------
J'ai un string dans l'array (Paris Hilton)
Reply

Marsh Posté le 20-04-2009 à 23:32:20    

Yeah, frais, merci les gars =) J'ai opté pour BeautifulSoup, et je vous dis si j'arrive à faire ce que je veux ;-)
 
@plous

Reply

Marsh Posté le 21-04-2009 à 00:57:41    


httplib c'est super bas niveau, je conseille plutôt urllib2 ou httplib2


---------------
Stick a parrot in a Call of Duty lobby, and you're gonna get a racist parrot. — Cody
Reply

Marsh Posté le 21-04-2009 à 21:36:56    

Bon, les premiers soucis se pointent -_-
 

Code :
  1. <addinfourl at 137915244 whose fp = <socket._fileobject object at 0x82fced4>>
  2. toto
  3. Traceback (most recent call last):
  4.   File "allocine.py", line 13, in <module>
  5.     soup = BeautifulSoup(page)
  6.   File "/usr/lib/python2.5/site-packages/BeautifulSoup.py", line 1499, in __init__
  7.     BeautifulStoneSoup.__init__(self, *args, **kwargs)
  8.   File "/usr/lib/python2.5/site-packages/BeautifulSoup.py", line 1230, in __init__
  9.     self._feed(isHTML=isHTML)
  10.   File "/usr/lib/python2.5/site-packages/BeautifulSoup.py", line 1263, in _feed
  11.     self.builder.feed(markup)
  12.   File "/usr/lib/python2.5/HTMLParser.py", line 108, in feed
  13.     self.goahead(0)
  14.   File "/usr/lib/python2.5/HTMLParser.py", line 150, in goahead
  15.     k = self.parse_endtag(i)
  16.   File "/usr/lib/python2.5/HTMLParser.py", line 314, in parse_endtag
  17.     self.error("bad end tag: %r" % (rawdata[i:j],))
  18.   File "/usr/lib/python2.5/HTMLParser.py", line 115, in error
  19.     raise HTMLParseError(message, self.getpos())
  20. HTMLParser.HTMLParseError: bad end tag: u'</scr" + "ipt>', at line 30, column 73


 
J'obtiens ça :s
 
Mon code est :  

from BeautifulSoup import BeautifulSoup
import urllib2
 
page = urllib2.urlopen("http://www.allocine.fr/film/fichefilm_gen_cfilm=46211.html" )
 
print(page)
print("toto" )
 
soup = BeautifulSoup(page)
print (soup.prettify())


 
Alors, j'ai vu pour plusieurs voies ...
- Je me suis mal débrouillé pour mon code ( pourtant, c'est que de la récup d'exemples)
- Le code html n'est pas bien formé: en effet, sur la page, il y a bcp d'erreurs ( test W3C)
- Nettoyer le  code HTML, mais, j'ai pas trouvé de module dans python qui permette de faire ça ...
- Autre ?
 
Donc, bon, je suis bloqué, dans mon élan :s et dire que j'etais suuper motivé pour y arriver rapidement ...
 
Merci pour votre aide

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed