Suche
Suche Menü

Offline Backup einer Webseite mit wget

Mit wget lässt sich einfach eine Offline-Backup einer Webseite anlegen

wget --mirror --convert-links --adjust-extension --page-requisites --no-parent -e robots=off --restrict-file-names=windows https://www.webseite.ch

Bedeutung der einzelnen Flags

  • --mirror – Macht den Download rekursiv (Zusammenfassung von -r -l inf -N).
  • --convert-links – Konvertiert alle Links wie z.B. Stylesheets in relative Links, damit sie für die Offline-Anzeige geeignet sind.
  • --adjust-extension – Fügt dem Dateinamen die entsprechende Endung (html oder css) hinzu.
  • --page-requisites – Lädt alle verlinkten Dateien wie Stylesheets, PDFs und Bilder herunter, die für die korrekte Offline-Anzeige der Seite erforderlich sind.
  • --no-parent – Beim Rekursieren wird nicht zum übergeordneten Verzeichnis aufgestiegen. Dies ist nützlich, um den Download auf einen Teil der Website zu beschränken.
  • -e robots=off – ignoriert die robots.txt datei, damit der mirror wirklich vollständig ist
  • --restrict-file-names=windows – Bei Verwendung der «Windows»-Option in Wget werden bestimmte Zeichen wie \, |, /, :, ?, «, *, < und > sowie Steuerzeichen zwischen 0 und 31 und zwischen 128 und 159 umgangen. Im Windows-Modus ersetzt Wget das : durch +, um Host und Port in lokalen Dateinamen zu trennen, und ersetzt das ? durch @, um den Abfrageteil des Dateinamens vom Rest zu trennen. Das bedeutet, dass eine URL wie www.xemacs.org:4300/search.pl?input=blah, die im Unix-Modus gespeichert würde, im Windows-Modus als www.xemacs.org+4300/search.pl@input=blah gespeichert wird.

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.