Wget 이란?
Wget을 알아보기에 앞서 크롤링에 대해서 간단하게 정의하고 시작하겠습니다.
크롤링이란?
웹 페이지의 하이퍼링크를 순회하면서 웹 페이지를 다운로드하는 작업입니다.
보통 우분투에서 Wget으로 크롤링을 합니다.
Wget이란?
우분투에서 Wget 설치 하기
아래 두 명령어를 입력하시면 됩니다.
테스트 해보기
웹사이트에 올라와져 있는 사진을 다운로드 해보겠습니다.
명령어를 입력하시면 홈 디렉토리에 main_img_v.jpg라는 파일이 다운되어있습니다.
아래와 같이 이미지파일을 다운로드하신것을 확인할 수 있습니다.
Wget에서 자주 사용하는 옵션
옵션 |
설명 |
-V, --version |
Wget의 버전을 출력 |
-h, --help |
도움말을 출력 |
-q,--quiet |
진행 상황 등을 출력하지 않습니다. |
-O <file>, --output-document=<file> |
file에 저장 |
-c, --continu |
이전 상태에서 계속 이어서 파일을 다운로드 |
-r, --recursive |
링크를 돌며 재귀적으로 다운로드 |
-l depth, --level=<depth> |
재귀적으로 다운로드할 때 링크의 순회 깊이를 depth만큼 제한 |
-w <seconds>, --wait=<seconds> |
재귀적으로 다운로드할 때 다운로드 간격을 seconds 초로 지정 |
-np, --no-parent |
재귀적으로 다운로드할 때 부모 디렉터리는 크롤링하지 않습니다. |
-I <list>, --include <list> |
재귀적으로 다운로드할 때 list 포함돼 있는 디렉터리만 돕니다. |
-N, --timestamping |
파일이 변경됐을 때만 다운로드 |
-m, --mirror |
미러링 전용 옵션을 활성화합니다. |