Stažení celého webu pomocí wget

Pro stažení celého webu máme několik možností – použít grafický specializovaný program jako je např. HTTrack nebo použít jednoduchý řádkový wget.

Použití wgetu je jednoduché:

stáhne index z URL http://www.example.com

Mezi nejdůležitější přepínače wget patří především:

  • --recursive = stáhne rekurzivně celý web
  • --page-requisites = stahuje všechny elementy stránky (obrázky, CSS, …)
  • --domains website.org = nestahuje nic mimo doménu website.org
  • --convert-links = převeď všechny linky na offline, aby se po kliknutí na odkaz otevřel soubor z disku, ne z URL (pozor, toto je provedeno po stažení všech souborů, ne dřív)
  • --server-response = zobrazí odpověď serveru (hlavičku http)
  • --no-clobber = již stažené soubory se nebudou přepisovat a nestáhnou se znovu (hodí se při opětovném spuštění wgetu při stahování většího webu)

Ne vždy ale chceme stahovat z veřejně přístupného webu.

Pokud chceme stahovat z webu zabezpečeného pomocí HTTP Basic Authentication

Pokud se login a heslo zadává přes formulář metodou GET

A ten nejzajímavější způsob, metoda POST. V tomto případě je vhodné využít možnost podpory textových cookies programem wget.

Číst dále...