Copier un site sur son disque dur et le convertir en ps

Marsh Posté le 01-11-2003 à 15:58:56

Bonjour,

J'essaie de faire une copie d'un site sur mon disque dur avec wget. Tout est correctement copié sauf les images. J'ai essayé les options suivantes :

-r : "Turn on recursive retrieving."
-p : "This option causes Wget to download all the files that are necessary to properly display a given HTML page. This includes such things as inlined images, sounds, and referenced stylesheets.".
-m : " Turn on options suitable for mirroring. This option turns on recursion and time-stamping, sets infinite recursion depth and keeps FTP directory listings."

Il s'agit du site "http://www.allaboutcircuits.com" et je voudrais les parties "http://www.allaboutcircuits.com/vol_1" et "http://www.allaboutcircuits.com/vol_2".

Lorsque je regarde les liens depuis le site des images, il s'avère qu'elles sont stockées sur un autre nom de domaine (http://sub.allaboutcircuits.com). Est-ce que wget, se limite à un seul nom de domaine ? Pourtant, l'option -p devrait fonctionner, non ? J'ai essayé de copier les fichiers de ce nom de domaine là mais l'accès est limités : on peux prendre un fichier précis mais pas tout les fichiers d'un répertoire (403 Forbidden). Logiquement wget connait les noms des images et les prendre une par une et donc il ne devrait pas y avoir de problèmes ... Alors pourquoi ne le fait-il pas ?

Ensuite, je voudrais pouvoir convertir tout le site en ps ou pdf de sorte à pouvoir facilement imprimer. J'ai essayé hmtl2ps, mais encore une fois je ne suis pas parvenu à avoir un résultat. J'ai bien un fichier ps mais impossible de l'ouvrir ...

Avant de passer encore du temps sur ce problème, pouvez-vous me dire si ce que je veux faire est possible et éventuellement comment le faire ? Meri d'avance !

Reply

Marsh Posté le 01-11-2003 à 15:58:56

Reply

Marsh Posté le 01-11-2003 à 17:46:50

Personne n'a une idée ? A défaut de mieux, je copie colle le tout dans un fichier openoffice ... J'ai également un problème en faisant comme ça : lorsque je convertis en pdf, certaines images sont réduites et on ne les vois pas ... d'autres sont noires ! Je pense que ça vient du fait que OpenOffice garde des liens vers les images et ne les copies pas physiquement dans le fichier. Et donc, j'imagine que lorsque je lance la converstion pdf, celle-ci doit retélécharger les images une par une et ça peut venir de là. Mais bon, normalement ça devrait quand même passer. C'est toujours comme ça avec les logiciels libres ? Savez-vous comment dire à OOo de copier "vraiment" les images dans le fichier ?

Reply

Marsh Posté le 01-11-2003 à 17:55:34

Lorsque j'imprime en ps ca donne le meme résultat, à part que les images noires sont invisibles et les petites sont coupées ... (??!!). Sinon pour l'option wget, vous n'avez pas d'idées ?

Reply

Marsh Posté le 01-11-2003 à 17:57:09

essaie avec http://www.httrack.com/ peut-être...

Reply

Marsh Posté le 02-11-2003 à 00:21:25

Merci je vais tester !

Et sinon pour le problème avec OOo, c'est normal ?

Reply

Marsh Posté le 02-11-2003 à 00:37:42

moi je connais ça pour convertir une page en pdf http://html2pdf.seven49.net/seven4 [...] Activ=3908

sinon effectivment httrack est très bien, suffit de taper la commande, de répondre aux questions et bingos

Reply

Marsh Posté le 02-11-2003 à 01:22:01

Merci pour le site, mais il me semble que c'est juste pour une page. Moi j'ai toute une arborescence à transcrire en pdf

Sinon pour httrack, il est en train de télécharger le site, c'est étrange, j'ai déjà plus de 100Mo, aucune photo, pas d'autre nom de domaine, alors que wget m'a pris tout le texte pour slment 12Mo !!

Reply

Marsh Posté le 02-11-2003 à 16:41:35

bon ben httrack ne s'arretant jamais, j'ai essayé avec Windows. Pas de problèmes de copier coller avec Word ! C'est comme ça OOo ou bien c'est moi qui ne sais pas l'utiliser ?

Reply

Marsh Posté le 02-11-2003 à 17:45:56

httrack ne s'arrête jamais parce que tu lui a dit d'aller trop loin .|

Reply

Marsh Posté le 02-11-2003 à 23:02:15

Oui certainement, mais en l'arretant j'ai remarqué tout ce dont j'avais besoin était là, donc c'est parfait

Sinon pour le problème de conversion d'un fichier OOo en pdf lorsqu'il contient des images linkées directement du web, c'est normal que ça bug ainsi (petites images ou carrément noires) ? Comment fait-on un copier coller "réel" (que l'image soit enregistrée localement et non rapatriée par le web) ? Ca irait peux-être mieux comme ça ...

Pour convertir le site en pdf, ça marche bien normallement avec html2pdf ou bien c'est encore un truc qui marche à moitié ?

Merci pour vos réponse !

Reply

Copier un site sur son disque dur et le convertir en ps

Sujets relatifs:

Leave a Replay