일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- http 완벽가이드
- 백준 12761번
- 도메인 주도 개발
- 백준 사이트
- 백준 12761
- golang
- 우분투
- 도메인 주도 개발 시작하기
- 백준 파이썬
- 하둡
- go
- 트리 순회
- 파이썬
- ddd
- 고 배열
- 자바
- 자바 디자인 패턴
- 백준
- String 함수
- 12761 돌다리
- hadoop
- 12761번 돌다리
- MongoDB Realm
- flask
- domain driven develop
- 몽고디비 렘
- golang struct
- http 개념
- 정렬
- 자바 디자인패턴
- Today
- Total
개발바닥
Wget 이란? 본문
Wget을 알아보기에 앞서 크롤링에 대해서 간단하게 정의하고 시작하겠습니다.
크롤링이란?
웹 페이지의 하이퍼링크를 순회하면서 웹 페이지를 다운로드하는 작업입니다.
보통 우분투에서 Wget으로 크롤링을 합니다.
Wget이란?
우분투에서 Wget 설치 하기
아래 두 명령어를 입력하시면 됩니다.
테스트 해보기
웹사이트에 올라와져 있는 사진을 다운로드 해보겠습니다.
명령어를 입력하시면 홈 디렉토리에 main_img_v.jpg라는 파일이 다운되어있습니다.
아래와 같이 이미지파일을 다운로드하신것을 확인할 수 있습니다.
Wget에서 자주 사용하는 옵션
옵션 |
설명 |
-V, --version |
Wget의 버전을 출력 |
-h, --help |
도움말을 출력 |
-q,--quiet |
진행 상황 등을 출력하지 않습니다. |
-O <file>, --output-document=<file> |
file에 저장 |
-c, --continu |
이전 상태에서 계속 이어서 파일을 다운로드 |
-r, --recursive |
링크를 돌며 재귀적으로 다운로드 |
-l depth, --level=<depth> |
재귀적으로 다운로드할 때 링크의 순회 깊이를 depth만큼 제한 |
-w <seconds>, --wait=<seconds> |
재귀적으로 다운로드할 때 다운로드 간격을 seconds 초로 지정 |
-np, --no-parent |
재귀적으로 다운로드할 때 부모 디렉터리는 크롤링하지 않습니다. |
-I <list>, --include <list> |
재귀적으로 다운로드할 때 list 포함돼 있는 디렉터리만 돕니다. |
-N, --timestamping |
파일이 변경됐을 때만 다운로드 |
-m, --mirror |
미러링 전용 옵션을 활성화합니다. |