Extraction d'url depuis un fichier

Extraction d'url depuis un fichier - Shell/Batch - Programmation

Marsh Posté le 13-06-2007 à 21:07:48    

Bonjour
 
Je souhaiterais extraire toutes les url d'un fichier de ce style :
 
[quote]
ove" src="http://forum-images.hardware.fr/images/perso/zytralove.gif" /><img style="margin:5px;" alt="zytrahusathome" title="zytrahusathome" src="http://forum-images.hardware.fr/images/perso/zytrahusathome.gif" /><img style="margin:5px;" alt="zytrasnif" title="zytrasnif" src="http://forum-images.hardware.fr/images/perso/zytrasnif.gif" /><img style="margin:5px;" alt="zytrayaisse" title="zytrayaisse" src="http://forum-images.hardware.fr/images/perso/zytrayaisse.gif" /><img style="margin:5px;" alt="zytrafumay" title="zytrafumay" src="http://forum-images.hardware.fr/images/perso/zytrafumay.gif" /><img style="margin:5px;" alt="catharsis" title="catharsis" src="http://forum-images.hardware.fr/ima[/img]
 
Mais je ne sais pas trop comment m'y prendre.
 
Awk or not :??:
 
Merci :)

Reply

Marsh Posté le 13-06-2007 à 21:07:48   

Reply

Marsh Posté le 13-06-2007 à 23:32:07    

Si l'on suppose que toutes les URLs sont spécifiées sous la forme : src="url", le petit programme awk suivant devrait faire l'affaire:

#!/usr/bin/awk -f
# Awk program: get_urls.awk
 
BEGIN {
   RS = "\n";
   FS = "\"";
}
{
   gsub(/\n/, "" );
   for (f=1; f<=NF; f++) {
      if ($f ~ /src=$/)
         print $(++f);
   }
}

Fichier en entrée:

$ cat test.html
ove" src="http://forum-images.hardware.fr/images/perso/zytralove.gif" /><img style="margin:5px;" alt="zytrahusathome" title="zytrahu
sathome" src="http://forum-images.hardware.fr/images/perso/zytrahusathome.gif" /><img style="margin:5px;" alt="zytrasnif" title="zyt
rasnif" src="http://forum-images.hardware.fr/images/perso/zytrasnif.gif" /><img style="margin:5px;" alt="zytrayaisse" title="zytraya
isse" src="http://forum-images.hardware.fr/images/perso/zytrayaisse.gif" /><img style="margin:5px;" alt="zytrafumay" title="zytrafum
ay" src="http://forum-images.hardware.fr/images/perso/zytrafumay.gif" /><img style="margin:5px;" alt="catharsis" title="catharsis" s
rc="http://forum-images.hardware.fr/images/last.gif"/>
$

Résultat:

$ awk -f get_urls.awk test.html
http://forum-images.hardware.fr/images/perso/zytralove.gif
http://forum-images.hardware.fr/images/perso/zytrahusathome.gif
http://forum-images.hardware.fr/images/perso/zytrasnif.gif
http://forum-images.hardware.fr/images/perso/zytrayaisse.gif
http://forum-images.hardware.fr/images/perso/zytrafumay.gif
http://forum-images.hardware.fr/images/last.gif
$


 
Jean-Pierre.

Reply

Marsh Posté le 14-06-2007 à 00:33:00    

:ouch:
 
Bon bah merci Jean Pierre :D
Me reste plus qu'à comprendre le script maintenant
 
:jap:

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed