일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 자바
- 백준
- ddd
- 도메인 주도 개발
- 백준 사이트
- 백준 12761
- MongoDB Realm
- 정렬
- 자바 디자인 패턴
- 하둡
- hadoop
- 파이썬
- golang
- domain driven develop
- 12761번 돌다리
- 자바 디자인패턴
- 백준 파이썬
- 트리 순회
- 12761 돌다리
- http 개념
- http 완벽가이드
- flask
- 도메인 주도 개발 시작하기
- golang struct
- go
- 우분투
- String 함수
- 몽고디비 렘
- 고 배열
- 백준 12761번
- Today
- Total
목록웹 크롤링 (2)
개발바닥
우분투 스크레이핑 하기 앞서 유닉스 명령어 기본적인 개념을 알아보겠습니다. 표준 스트림이란? 대부분의 명령어는 입력 데이터를 받고, 명령어를 동작하고, 출력 하는 3가지 단계로 동작합니다. 명령어가 입력을 받는 부분을 "표준 입력" , 결과를 출력하는 부분을 "표준 출력" , 오류 등의 부가적인 정보를 출력하는 정보를 "표준 오류 출력" 이라고 한다. 이 세가지를 모두 총칭해서 "표준 스트림"이라고 부른다. 기본적으로 표준 입력은 키보드에서의 입력, 표준 출려과 표준 오류 출력은 콘솔 화면으로 출력합니다. 이를 팡리에서의 입력 또는 파일에서의 출력 등으로 변경할 수 있는데, 이렇게 변경하는 것을 리다이렉트라고 합니다. 표준 출력 리다이렉트 명령어 실행 결과을 파일에 저장하기 $명령어 > 경로 표준 입력 ..
Wget을 알아보기에 앞서 크롤링에 대해서 간단하게 정의하고 시작하겠습니다. 크롤링이란? 웹 페이지의 하이퍼링크를 순회하면서 웹 페이지를 다운로드하는 작업입니다. 보통 우분투에서 Wget으로 크롤링을 합니다. Wget이란? GNU Wget은 HTTP 통신 또는 FTP 통신을 사용해 서버에서 파일 또는 콘텐츠를 다운로드할 때 사용하는 소프트웨어입니다. Wget의 특징은 크롤링 기능입니다. 여러 파일을 한 번에 다운로드하거나 웹 페이지의 링크를 순회하며 여러 콘텐츠를 자동으로 다운로드할 수 있습니다. 우분투에서 Wget 설치 하기 아래 두 명령어를 입력하시면 됩니다. 테스트 해보기 웹사이트에 올라와져 있는 사진을 다운로드 해보겠습니다. 명령어를 입력하시면 홈 디렉토리에 main_img_v.jpg라는 파일이 ..