Naplnění databáze – bash/sed/awk style

Slíbil jsem známé vytvořit web s jejím zbožím, konečně mám volný večer a tak se do toho pustím. Hlavním bodem je naplnění databáze, kde bude prozatím 190 výrobků a časem bude toto číslo pomalu narůstat. Nedostal jsem však tato data v žádné formě, jsou už všechny přidány na webu www.fler.cz, stačí tedy „pouze“ daná data najít a vytvořit z nich tabulku. Jednoduché ne? Takový praktický příklad ze života. Jelikož jsem nikdy neudělal pořádný web ani databázi, ale celkem rád ve volném čase skriptuji, popíši řešení daného problému ze svého pohledu :)

Číst dále...

Stažení celého webu pomocí wget

Pro stažení celého webu máme několik možností – použít grafický specializovaný program jako je např. HTTrack nebo použít jednoduchý řádkový wget.

Použití wgetu je jednoduché:

stáhne index z URL http://www.example.com

Mezi nejdůležitější přepínače wget patří především:

  • --recursive = stáhne rekurzivně celý web
  • --page-requisites = stahuje všechny elementy stránky (obrázky, CSS, …)
  • --domains website.org = nestahuje nic mimo doménu website.org
  • --convert-links = převeď všechny linky na offline, aby se po kliknutí na odkaz otevřel soubor z disku, ne z URL (pozor, toto je provedeno po stažení všech souborů, ne dřív)
  • --server-response = zobrazí odpověď serveru (hlavičku http)
  • --no-clobber = již stažené soubory se nebudou přepisovat a nestáhnou se znovu (hodí se při opětovném spuštění wgetu při stahování většího webu)

Ne vždy ale chceme stahovat z veřejně přístupného webu.

Pokud chceme stahovat z webu zabezpečeného pomocí HTTP Basic Authentication

Pokud se login a heslo zadává přes formulář metodou GET

A ten nejzajímavější způsob, metoda POST. V tomto případě je vhodné využít možnost podpory textových cookies programem wget.

Číst dále...