개발바닥

하둡 분산 파일 시스템 본문

Hadoop

하둡 분산 파일 시스템

라이언 2018. 9. 30. 22:06
반응형

분산 파일 시스템 (DFS, Distributed File System)이란?

마스터 노드(Master node)슬레이브 노드(Slave node)로 구성되어 있다.

 

 

 

마스터 노드란?

현재 분산 파일 시스템에서 사용하고 있는 모든 슬레이브 노드들을 관리하는 것이다. 실시간으로 각 슬레이브 노드들에 대한 정보를 파악하고 있어야 된다. 그리고 디렉토리와 파일에 대한 정보를 포함하는 메타데이터를 관리한다. 

마스터 노드는 데이터가 정확하게 어느 슬레이브 노드에 있는지 알고 있어야 해당 슬레이브를 빠르게 요청을 하고 어느 슬레이브가 디스크 용량이 충분한지 등의 실시간으로 정보를 확보함으로써 사용자가 업로드 요청하면 어느 슬레이브에 저장할지 결정하는 역할을 한다.

슬레이브 노드란?

사용자의 데이터를 저장하는 역할을 담당한다. 사용자가 파일을 업로드하면 데이터를 저장하고, 다운로드하면 데이터를 전달해주는 역할을 한다.

또한, 분산 파일 시스템 환경에서 하나의 파일을 여러 개의 슬레이브 노드에 저장하므로써 데이터 손실을 최소화한다.

 

하둡 분산 파일 시스템 (HDFS, Hadoop Distributed File System)이란?

HDFS도 마스터 - 슬레이브 구조를 가지고 있다.

마스터 노드 역할을 네임 노드라 불리는 프로그램이 담당하고, 슬레이브 노드 역할은 데이터노드라 불리는 프로그램이 담당한다.

네임노드는 마스터 노드와 같이 데이터노드들을 관리하고 데이터노드에 저아되어 있는 사용자 데이터의 메타데이터를 관리하는 역할을 한다.

 

HDFS의 특징

  • 대용량 데이터 저장, 장애 복구, 데이터 무결성(WORM)
  • 스트리밍 방식의 데이터 접근 : 배치 작업과 높은 데이터 처리량
  • HDFS 프로그래밍 : shell script, Java API

하둡 맵리듀스란?

맵리듀스도 마스터-슬레이브 구조로 구성되어 있다.

하둡 맵리듀스에서 마스터 노드 역할은 잡 트래커(Job Tracker)라 불리는 프로그램이 담당하고,

슬레이브 노드 역할을 태스크 트래커(Task Tracker)라 불리는 프로그램이 담당한다.

잡 트래커는 맵리듀스가 수행할 전체 작업을 중앙에서 관리하는 역할을 한다.

태스크 트래커는  잡 트래커가 할당한 맵/리듀스 태스크들을 생성 후 실행한다.

반응형

'Hadoop' 카테고리의 다른 글

Mapper 클래스의 메소드들  (0) 2018.10.06
WordCount  (0) 2018.10.06
맵과 리듀스  (0) 2018.10.06
데이터 타입  (0) 2018.10.02
하둡이란?  (0) 2018.09.30
Comments