개발바닥

하둡이란? 본문

Hadoop

하둡이란?

라이언 2018. 9. 30. 21:27
반응형

하둡(Hadoop)이란?

하둡은 오픈소스로 제공되는 플랫폼으로 대규모 데이터 세트를 효율적으로 처리한다.

분산 시스템의 대표인 하둡은 하나의 서버에서 저장할 수 없는 엄청난 양의 데이터를 저장하기 위하여 수천 대의 서버를 네트워크로 묶어 마치 하나의 서버가 보유하고 있는 파일 시스템처럼 사용할 수 있는 분산 파일 시스템(Distributed File System)과 각 서버가 저장하고 있는 데이터를 동시에 병렬로 처리할 수 있는 분산 처리 시스템(Distributed Processing System)으로 구성되어 있다.

 

하둡에는 크게 3가지 프로젝트로 구성되어 있다.

  •  하둡 공통 (Hadoop Common) : 하둡 프로젝트들의 기반이 되는 통신 방법 및 쉘 프로그램 등을 다루고 있다.
  • 하둡 분산 파일 시스템 (HDFS : Hadoop Distributed File System) : 하둡 공통을 이용하여 분산된 환경에 데이터를 저장한다.
  • 하둡 맵리듀스(Hadoop MapReduce) : 하둡 분산 파일 시스템에 분산되어 저장된 데이터를 효과적으로 처리한다.

 

 

하둡의 특징

  •  오픈 소스
  • -병렬 처리를 가능케 해주는 단순한 데이터 모델
  • 스케일 아웃
  • 오프라인 배치 프로세싱에 적합
  • 데이터가 있는 곳으로 코드를 이동
  • 웹에서 접근 가능

 

 

반응형

'Hadoop' 카테고리의 다른 글

Mapper 클래스의 메소드들  (0) 2018.10.06
WordCount  (0) 2018.10.06
맵과 리듀스  (0) 2018.10.06
데이터 타입  (0) 2018.10.02
하둡 분산 파일 시스템  (0) 2018.09.30
Comments