Stažení celého webu pomocí wget

Pro stažení celého webu máme několik možností – použít grafický specializovaný program jako je např. HTTrack nebo použít jednoduchý řádkový wget.

Použití wgetu je jednoduché:

stáhne index z URL http://www.example.com

Mezi nejdůležitější přepínače wget patří především:

  • --recursive = stáhne rekurzivně celý web
  • --page-requisites = stahuje všechny elementy stránky (obrázky, CSS, …)
  • --domains website.org = nestahuje nic mimo doménu website.org
  • --convert-links = převeď všechny linky na offline, aby se po kliknutí na odkaz otevřel soubor z disku, ne z URL (pozor, toto je provedeno po stažení všech souborů, ne dřív)
  • --server-response = zobrazí odpověď serveru (hlavičku http)
  • --no-clobber = již stažené soubory se nebudou přepisovat a nestáhnou se znovu (hodí se při opětovném spuštění wgetu při stahování většího webu)

Ne vždy ale chceme stahovat z veřejně přístupného webu.

Pokud chceme stahovat z webu zabezpečeného pomocí HTTP Basic Authentication

Pokud se login a heslo zadává přes formulář metodou GET

A ten nejzajímavější způsob, metoda POST. V tomto případě je vhodné využít možnost podpory textových cookies programem wget.

Nejjednodušší asi bude cookies získat pomocí webového prohlížeče. Obyčejně se tedy přihlásíme na daný web, poté nalezneme cookies soubor na disku a ten dáme parametrem wgetu.

Několik prohlížečů (např. Mozilla Firefox) „bohužel“ upustilo od textových cookies a poskytují pouze SQLite formát. Firefox nabízí addon Cookie exporter pomocí kterého lze vytvořit textový formát z sqlite formátu.

Výsledný wget příkaz pro stažení webu pomocí wget poté tedy může vypadat následovně

 

Be Sociable, Share!

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *