2013-10-07 16:05:46 +0000 2013-10-07 16:05:46 +0000
21
21

Download ALLE mappen, submappen en bestanden met Wget

Ik heb Wget gebruikt, en ik ben een probleem tegengekomen. Ik heb een site, die verschillende mappen en submappen binnen de site heeft. Ik moet alle inhoud van elke map en submap downloaden. Ik heb verschillende methodes geprobeerd met Wget, en wanneer ik de voltooiing controleer, is het enige wat ik kan zien in de mappen een “index” bestand. Ik kan op het index bestand klikken, en het zal me naar de bestanden brengen, maar ik heb de echte bestanden nodig.

heeft iemand een commando voor Wget dat ik over het hoofd heb gezien, of is er een ander programma dat ik kan gebruiken om al deze informatie te krijgen?

site voorbeeld:

www.mysite.com/Pictures/ binnen de Pictures DIr, zijn er verschillende mappen…..

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North Amerika/Californië/JoeUser.jpg

Ik heb alle bestanden, mappen, etc nodig…..

Antwoorden (3)

38
38
38
2013-10-07 16:23:25 +0000

Ik wil aannemen dat je dit niet geprobeerd hebt:

wget -r --no-parent http://www.mysite.com/Pictures/

of om de inhoud op te halen, zonder de “index.html” bestanden te downloaden:

wget -r --no-parent --reject "index.html\*" http://www.mysite.com/Pictures/

Referentie: Het gebruik van wget om recursief een directory op te halen met willekeurige bestanden erin

20
20
20
2014-12-20 09:22:17 +0000

Ik gebruik wget -rkpN -e robots=off http://www.example.com/

-r betekent recursief

-k betekent links converteren. Dus links op de webpagina zullen localhost zijn in plaats van example.com/bla

-p betekent alle webpagina bronnen ophalen dus afbeeldingen en javascript bestanden ophalen om de website goed te laten werken.

-N is om timestamps op te halen, dus als lokale bestanden nieuwer zijn dan bestanden op externe website worden ze overgeslagen.

-e is een vlag optie die er moet zijn om de robots=off te laten werken.

robots=off betekent negeer robots bestand.

Ik had ook -c in dit commando zodat als de verbinding verbroken werd, het verder zou gaan waar het gebleven was als ik het commando opnieuw uitvoerde. Ik dacht dat -N goed zou gaan met -c

1
1
1
2014-12-20 09:11:52 +0000

wget -m -A -pk -e robots=off www.mysite.com/ dit zal alle type bestanden lokaal downloaden en er naar verwijzen vanuit het html bestand en het zal het robots bestand negeren