charset, coding, accents et page html [Python] - Python - Programmation
Marsh Posté le 27-05-2004 à 21:17:52
AirbaT a écrit : Bonsoir,
|
bonjour,
desolé pour cette réponse tardive.
j'ai écrit un commentaire sur Python et l'unicode : http://lionel.grolleau.free.fr/pyt [...] ml#unicode.
si cela peux t'aider un peu.
Lionel
Marsh Posté le 28-05-2004 à 13:48:47
Merci pour cette réponse,
en fait le problème se situait au niveau de l'éditeur de texte ! J'en ai changé par hasard et tout est rentré dans l'ordre apres avoir reecrit mes accents.
Marsh Posté le 28-05-2004 à 14:56:42
C'est des accents UTF-8 ça. Il est très probable que ton site web fournisse des pages à ce format. Ce qui est conseillé dans ce cas c'est de convertir la page en string unicode en lui fournissant cette information :
chaineUnicode = unicode(chaineUTF8,"UTF-8" )
Après, tes regexp devraient pouvoir fonctionner correctement
Marsh Posté le 07-06-2004 à 09:51:57
Et le_Glu ,euh Lionel Merci pour ton site.
Un gros débutant.
Marsh Posté le 20-05-2004 à 23:19:03
Bonsoir,
Je débute sous Python (depuis cet après midi) et je me suis fait un petit script qui va récupérer quelques valeurs d'une page HTML.
Je me sers pour cela du module "re", avec par exemple des re.findall(blabla, pouet)
Tout ceci fonctionne tant bien que mal sauf... quand un accent apparait. Deja un simple print me donne :
De plus quand je cherche à récupérer mes valeurs avec mes re.findall, le moindre accent empeche de trouver quelque chose.
Genre:
La ligne sans accent passe, les accent dans le re.find bloquent.
J'ai essayé de regler le "coding" avec
utf-8, latin-1, iso-8859-1 (ce dernier etant le codage de la page), mais pas de changement notable
Si vous avez un tuyau, je prends...