[Xerces ?] Parser du HTML en Java

Parser du HTML en Java [Xerces ?] - Java - Programmation

Marsh Posté le 05-08-2002 à 16:58:22    

Euh donc ceci est un post desespere et celui qui me donnera LA reponse aura le benefice de ma reconnaissance eternelle. Depuis deux jours j'essaie de trouver une solution pas trop laide pour, a partir d'une String qui est du code HTML, recuperer tous les formulaires ainsi que tous les input, select et textarea associes. Donc, comme un gros malin, j'ai fait :
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();
HTMLDocument document = (HTMLDocument)builder.parse(new InputSource(new StringReader(body.getString())));
 
Mais, pas de bol, j'obtiens :
org.apache.xerces.dom.DeferredDocumentImpl java.lang.ClassCastException
 
Donc ma question c'est : COMMENT FAIT-ON POUR UTILISER CETTE PUTAIN DE CLASSE org.w3c.dom.html.HTMLDocument ?
 
Toutes les idees sont les bienvenues.

Reply

Marsh Posté le 05-08-2002 à 16:58:22   

Reply

Marsh Posté le 05-08-2002 à 17:15:42    

:heink:


---------------
Just because you feel good does not make you right
Reply

Marsh Posté le 05-08-2002 à 17:30:18    

je n'utilise pas cette classe, mais tu va devoir faire gaffe au document... faut qu'il soit en XHTML si tu veux qu'il soit ouvert avec un parser XML...
 
en gros, va falloir fermer img, br, hr et autres joyeusetés... si ce n'est pas fait...
 


---------------
A straight line is a special case of a curve. It's a curve which is uncurved. -- Susskind.
Reply

Marsh Posté le 05-08-2002 à 18:07:16    

TBone a écrit a écrit :

je n'utilise pas cette classe, mais tu va devoir faire gaffe au document... faut qu'il soit en XHTML si tu veux qu'il soit ouvert avec un parser XML...
 
en gros, va falloir fermer img, br, hr et autres joyeusetés... si ce n'est pas fait...
 
 




 
C'est fait ça. Sinon j'aurai une belle saxParserException. Tu utilises quoi toi pour faire ça si ce n'est pas indiscret ?

Reply

Marsh Posté le 06-08-2002 à 11:20:11    

des librairies maison basées sur l'implémentation de DOM maintenant dans le JDK1.4 (org.w3c.dom.*)
tout document qu'il soit XML ou XHTML est un Document pour l'appli.
et puis je joue dans l'arbre.


Message édité par TBone le 06-08-2002 à 11:20:37

---------------
A straight line is a special case of a curve. It's a curve which is uncurved. -- Susskind.
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed