2013-10-07 16:05:46 +0000 2013-10-07 16:05:46 +0000
21
21

Pobierz WSZYSTKIE foldery, podfoldery i pliki za pomocą programu Wget

Używam Wget, i natknąłem się na problem. Mam witrynę, która ma kilka folderów i podfolderów w obrębie witryny. Muszę pobrać całą zawartość każdego z folderów i podfolderów. Próbowałem kilku metod używając Wget, i kiedy sprawdzam ukończenie, wszystko co widzę w folderach to plik “index”. Mogę kliknąć na plik indeksu, a to zabierze mnie do plików, ale potrzebuję rzeczywistych plików.

czy ktoś ma polecenie dla Wget, które przeoczyłem, lub czy jest inny program, którego mógłbym użyć, aby uzyskać wszystkie te informacje?

przykład strony:

www.mysite.com/Pictures/ w katalogu Pictures DIr, jest kilka folderów…..

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North America/California/JoeUser.jpg

Potrzebuję wszystkich plików, folderów, itp…..

Odpowiedzi (3)

38
38
38
2013-10-07 16:23:25 +0000

Chcę założyć, że nie próbowałeś tego:

wget -r --no-parent http://www.mysite.com/Pictures/

lub aby odzyskać zawartość, bez pobierania plików “index.html”:

wget -r --no-parent --reject "index.html\*" http://www.mysite.com/Pictures/

Referencje: Using wget to recursively fetch a directory with arbitrary files in it ](https://stackoverflow.com/a/273776)

20
20
20
2014-12-20 09:22:17 +0000

Używam wget -rkpN -e robots=off http://www.example.com/

-r oznacza rekursywnie

-k oznacza konwersję linków. Więc linki na stronie będą localhost zamiast example.com/bla

-p oznacza pobierz wszystkie zasoby strony, więc pobierz obrazy i pliki javascript, aby strona działała poprawnie.

-N służy do pobrania znaczników czasu, więc jeśli lokalne pliki są nowsze niż pliki na zdalnej stronie pomiń je.

-e jest opcją flagi, która musi tam być, aby robots=off działało.

robots=off oznacza ignorowanie pliku robots.

Miałem również -c w tej komendzie, więc jeśli połączenie spadnie, będzie kontynuowane tam gdzie zostało przerwane po ponownym uruchomieniu komendy. Pomyślałem, że -N będzie dobrze współgrać z -c.

1
1
1
2014-12-20 09:11:52 +0000

wget -m -A -pk -e robots=off www.mysite.com/ to pobierze wszystkie typy plików lokalnie i wskaże na nie z pliku html i zignoruje plik robots