Pro stažení celého webu máme několik možností – použít grafický specializovaný program jako je např. HTTrack nebo použít jednoduchý řádkový wget.
Použití wgetu je jednoduché:
1 |
wget http://www.example.org |
stáhne index z URL http://www.example.com
Mezi nejdůležitější přepínače wget patří především:
--
recursive = stáhne rekurzivně celý web--
page-requisites = stahuje všechny elementy stránky (obrázky, CSS, …)--
domains website.org = nestahuje nic mimo doménu website.org--
convert-links = převeď všechny linky na offline, aby se po kliknutí na odkaz otevřel soubor z disku, ne z URL (pozor, toto je provedeno po stažení všech souborů, ne dřív)--
server-response = zobrazí odpověď serveru (hlavičku http)--
no-clobber = již stažené soubory se nebudou přepisovat a nestáhnou se znovu (hodí se při opětovném spuštění wgetu při stahování většího webu)
Ne vždy ale chceme stahovat z veřejně přístupného webu.
Pokud chceme stahovat z webu zabezpečeného pomocí HTTP Basic Authentication
1 |
wget --http-user=USERNAME --http-password=PASSWORD http://www.example.org/restricted/area/ |
Pokud se login a heslo zadává přes formulář metodou GET
1 |
wget --post-data='username=USER&password=PASSWORD' http://www.example.org/restricted/area/auth.php |
A ten nejzajímavější způsob, metoda POST. V tomto případě je vhodné využít možnost podpory textových cookies programem wget.