개발바닥

맵과 리듀스 본문

Hadoop

맵과 리듀스

라이언 2018. 10. 6. 18:06
반응형

MapReduce 프로그램은 기본적으로 맵과 리듀스의 두 단계로 구성이 되고 맵과 리듀스 모두 입력으로 주어지는 데이터나 출력으로 내보내는 데이터가 모두 (key,value) 형태로 구성됩니다.

 

맵(Map) 의 기본 동작에 대해서 알아 보겠습니다.

 

 

일반적으로 데이터가 주어졌을 때 데이터를 라인별로 나누게 됩니다.

입력 레코드에 k1은 라인 번호이고 v1은 문장입니다.

맵에서 데이터를 가공해서 같은 키값을 갖는 레코드들을 모아서 리듀스로 하나의 입력으로 들어가게 됩니다.

리듀스 입력 레코드의 키는 출력 레코드의 키가 됩니다.

같은 키를 갖는 맵의 출력 레코드들의 밸류를 리스트로 만든 것이 리듀스 입력 레코드의 밸류가 됩니다.

리듀스는 맵의 처리결과를 보고 같은 키값을 갖는 것들에 대해 또 다른 작업을 수행해주는 것이다.

 

ㅇㅇㅇㅇㅇㅇ

「 자료 출처  : 광운대학교 컴퓨터소프트웨어학과 김우생교수님 빅데이터처리및응용수업 ppt 」

 

 

 

MapReduce 프레임워크는 입력 파일을 맵의 입력 레코드로 만들어주는 일과 맵에서 출력된 레코드들에서 같은 값을 갖는 키의 밸류를 하나의 리스트로 묶어 리스듀스로 넘겨주는 일을 담당한다.

개발자는 단순히 맵과 리듀스만 구현하면 된다.

 

맵을 클래스로 구현한 것을 매퍼(Mapper)

리듀스를 클래스로 구현할 것을 리듀서(Reducer)라고 한다.

 

반응형

'Hadoop' 카테고리의 다른 글

Mapper 클래스의 메소드들  (0) 2018.10.06
WordCount  (0) 2018.10.06
데이터 타입  (0) 2018.10.02
하둡 분산 파일 시스템  (0) 2018.09.30
하둡이란?  (0) 2018.09.30
Comments