HTTP heeft niet echt een notie van directories. De slashes behalve de eerste drie (http://example.com/
) hebben geen speciale betekenis behalve met betrekking tot ..
in relatieve URLs. Dus tenzij de server een bepaald formaat volgt, is er geen manier om “alle bestanden in de gespecificeerde directory te downloaden”.
Als je de hele site wilt downloaden, kun je het beste alle links op de hoofdpagina recursief doorzoeken. Curl kan dit niet, maar wget wel. Dit zal werken als de website niet te dynamisch is (in het bijzonder, wget zal geen links zien die zijn opgebouwd door Javascript code). Begin met wget -r http://example.com/
, en kijk onder “Recursive Retrieval Options” en “Recursive Accept/Reject Options” in de wget handleiding voor meer relevante opties (recursie diepte, uitsluitingslijsten, etc).
Als de website geautomatiseerde downloads probeert te blokkeren, kan het nodig zijn om de user agent string (-U Mozilla
) te veranderen, en om robots.txt
te negeren (maak een leeg bestand example.com/robots.txt
en gebruik de -nc
optie zodat wget niet probeert om het van de server te downloaden).