일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- golang
- 트리 순회
- 백준
- flask
- 자바 디자인 패턴
- 도메인 주도 개발
- go
- 파이썬
- 몽고디비 렘
- String 함수
- 백준 12761번
- 백준 사이트
- hadoop
- ddd
- 자바
- 백준 파이썬
- http 완벽가이드
- 우분투
- domain driven develop
- http 개념
- 백준 12761
- 자바 디자인패턴
- 12761 돌다리
- 12761번 돌다리
- MongoDB Realm
- golang struct
- 정렬
- 도메인 주도 개발 시작하기
- 고 배열
- 하둡
- Today
- Total
목록hadoop (3)
개발바닥
MapReduce 프로그램은 기본적으로 맵과 리듀스의 두 단계로 구성이 되고 맵과 리듀스 모두 입력으로 주어지는 데이터나 출력으로 내보내는 데이터가 모두 (key,value) 형태로 구성됩니다. 맵(Map) 의 기본 동작에 대해서 알아 보겠습니다. 일반적으로 데이터가 주어졌을 때 데이터를 라인별로 나누게 됩니다. 입력 레코드에 k1은 라인 번호이고 v1은 문장입니다. 맵에서 데이터를 가공해서 같은 키값을 갖는 레코드들을 모아서 리듀스로 하나의 입력으로 들어가게 됩니다. 리듀스 입력 레코드의 키는 맵의 출력 레코드의 키가 됩니다. 같은 키를 갖는 맵의 출력 레코드들의 밸류를 리스트로 만든 것이 리듀스 입력 레코드의 밸류가 됩니다. 리듀스는 맵의 처리결과를 보고 같은 키값을 갖는 것들에 대해 또 다른 작업을..
분산 파일 시스템 (DFS, Distributed File System)이란? 마스터 노드(Master node)와 슬레이브 노드(Slave node)로 구성되어 있다. 마스터 노드란? 현재 분산 파일 시스템에서 사용하고 있는 모든 슬레이브 노드들을 관리하는 것이다. 실시간으로 각 슬레이브 노드들에 대한 정보를 파악하고 있어야 된다. 그리고 디렉토리와 파일에 대한 정보를 포함하는 메타데이터를 관리한다. 마스터 노드는 데이터가 정확하게 어느 슬레이브 노드에 있는지 알고 있어야 해당 슬레이브를 빠르게 요청을 하고 어느 슬레이브가 디스크 용량이 충분한지 등의 실시간으로 정보를 확보함으로써 사용자가 업로드 요청하면 어느 슬레이브에 저장할지 결정하는 역할을 한다. 슬레이브 노드란? 사용자의 데이터를 저장하는 역할..
하둡(Hadoop)이란? 하둡은 오픈소스로 제공되는 플랫폼으로 대규모 데이터 세트를 효율적으로 처리한다. 분산 시스템의 대표인 하둡은 하나의 서버에서 저장할 수 없는 엄청난 양의 데이터를 저장하기 위하여 수천 대의 서버를 네트워크로 묶어 마치 하나의 서버가 보유하고 있는 파일 시스템처럼 사용할 수 있는 분산 파일 시스템(Distributed File System)과 각 서버가 저장하고 있는 데이터를 동시에 병렬로 처리할 수 있는 분산 처리 시스템(Distributed Processing System)으로 구성되어 있다. 하둡에는 크게 3가지 프로젝트로 구성되어 있다. 하둡 공통 (Hadoop Common) : 하둡 프로젝트들의 기반이 되는 통신 방법 및 쉘 프로그램 등을 다루고 있다. 하둡 분산 파일 시..