개발바닥

Wget 이란? 본문

웹 크롤링

Wget 이란?

라이언 2018. 11. 2. 00:30
반응형

Wget을 알아보기에 앞서 크롤링에 대해서 간단하게 정의하고 시작하겠습니다.

크롤링이란?

웹 페이지의 하이퍼링크를 순회하면서 웹 페이지를 다운로드하는 작업입니다.

 

보통 우분투에서 Wget으로 크롤링을 합니다.

 

Wget이란?

GNU Wget은 HTTP 통신 또는 FTP 통신을 사용해 서버에서 파일 또는 콘텐츠를 다운로드할 때 사용하는 소프트웨어입니다.
Wget의 특징은 크롤링 기능입니다. 여러 파일을 한 번에 다운로드하거나 웹 페이지의 링크를 순회하며 여러 콘텐츠를 자동으로 다운로드할 수 있습니다.

 

우분투에서 Wget 설치 하기

 

아래 두 명령어를 입력하시면 됩니다.

 

 

테스트 해보기

 

웹사이트에 올라와져 있는 사진을 다운로드 해보겠습니다.

 

 

 명령어를 입력하시면 홈 디렉토리에 main_img_v.jpg라는 파일이 다운되어있습니다.

아래와 같이 이미지파일을 다운로드하신것을 확인할 수 있습니다.

 

Wget에서 자주 사용하는 옵션

 

 옵션 

설명 

 -V, --version

 Wget의 버전을 출력

 -h, --help

 도움말을 출력

 -q,--quiet

 진행 상황 등을 출력하지 않습니다.

 -O <file>, --output-document=<file>

 file에 저장

 -c, --continu

 이전 상태에서 계속 이어서 파일을 다운로드

 -r, --recursive

 링크를 돌며 재귀적으로 다운로드

 -l depth, --level=<depth>

 재귀적으로 다운로드할 때 링크의 순회 깊이를 depth만큼 제한

 -w <seconds>, --wait=<seconds>

 재귀적으로 다운로드할 때 다운로드 간격을 seconds 초로 지정

 -np, --no-parent

 재귀적으로 다운로드할 때 부모 디렉터리는 크롤링하지 않습니다.

 -I <list>, --include <list>

 재귀적으로 다운로드할 때 list 포함돼 있는 디렉터리만 돕니다.

 -N, --timestamping

 파일이 변경됐을 때만 다운로드

 -m, --mirror

 미러링 전용 옵션을 활성화합니다.

 

 

반응형

'웹 크롤링' 카테고리의 다른 글

우분투 스크레이핑  (0) 2018.11.02
Comments