Récupérer le contenu d'une colonne au format html [Résolut] - Codes et scripts - Linux et OS Alternatifs
Marsh Posté le 27-12-2007 à 18:31:20
Copier-coller?
Marsh Posté le 28-12-2007 à 19:06:35
Si le code HTML est assez propre, ceci devrait marcher :
gawk -f extract_column_from_html.gawk Tableau.html > resultat.txt
extract_column_from_html.gawk:
BEGIN{ TD = 0 } |
Le numéro de la colonne du tableau que tu veux est à mettre dans le "if(TD==4)" { (ici colonne n°4).
Marsh Posté le 29-12-2007 à 07:54:37
Fichier résuktat vide
Merci p-seeker23, merci tout de me pour ce code.
En fait mon code est généré par Access.
Marsh Posté le 29-12-2007 à 08:45:19
"Si le code HTML est assez propre" disais-je.
Ca m'étonnerait fortement que le code HTML produit par Access le soit ! J'ai déjà eu à travailler sur du "HTML-doc": laisse tomber ! Il y avait des <span>s de partout, c'est tout juste si on repérait la balise <html>, ..
Ceci-dit, si tu me donne un exemple de ligne de ton tableau (le code HTML compris entre deux balises <tr> .. </tr> ), je te garantie que tu auras une solution !
J'ai juste cinq ans d'expérience professionnelle dans la manipulation de awk, sed et compagnie, les 10 derniers mois ayant-je à jouer à ce petit jeu (manipuler des fichiers de données pour formattage et extraction d'infos...) quasi-tous les jours.. si tu savais le genre de clowneries qu'on m'a demandé de faire avec des fichiers texte !
Marsh Posté le 29-12-2007 à 11:01:47
Bien content de tomber sur toi en tout cas.
Voici un bout de code :
Code :
|
Marsh Posté le 29-12-2007 à 11:32:45
sed 's/<[tT][dD].*>\(.*\)<\/[tT][dD]>.*/\1/g' Tableau.html | gawk '/<[tT][rR]/{ col=0; getline } { col++; if(col==4) print }' > col4.txt |
Ca marche sur le bout de code HTML (qui est très propre pour le coup !) que tu donne. Récupération de la colonne 4.
Marsh Posté le 29-12-2007 à 15:50:19
Yep,
Sur la quatrième colonne, cher moi ça ne marche pas, sur la deuxieme non plus, en revanche ça semble marcher sur la première.
Je vais essayer d'intervertir l'ordre des colonne.
Marsh Posté le 29-12-2007 à 16:58:53
Yep
le ligne de commande fonctionne
Merci, j'ai récupéré ma colonne ; En fait j'ai une machine qui interprète mal les caractères accentué et qui traitait le fichier en conséquence.
Voila. Et bien merci beaucoup
Marsh Posté le 27-12-2007 à 17:48:10
Yep, salut, bonjour, hello,
Sur un Gnu/Linux Debian, je souhaite récupérer le contenu d'une colonne d'un tableau au format html dans un fichier texte.
Comment procéder ?
C'est un gros fichier.
Message édité par Profil supprimé le 29-12-2007 à 17:03:01