#hadoop MaxTemperature input/ncdc/sample.txt output
- hadoop : 하둡을 실행한다.
- MaxTemperature : 어플리케이션[프로젝트]을 명시한다.
- input/ncdc/sample.txt : 인풋 데이터 경로를 명시한다.
- output : 출력될 디렉터리를 설정한다.
*맵 리듀스
- 클라이언트가 수행하려는 작업의 단위. 이것은 입력 데이터, 맵리듀스 프로그램, 설정정보로 구성된다.
Job을 이용하여 하둡은 프로그램을 수행한다.
- Job을 제어하기 위해서 하나의 잡트래커(마스터)와 다수의 taskTracker가 존재한다.
- jobTracker는 taskTracker들의 스케줄링을 제어한다.
- 태스크 트래커들은 태스크들을 수행하고 각 잡의 전체경과를 하나의 레코드로 유지하는 경과보고서를 잡트래커에 보낸다.
*하둡은 맵리듀스 잡의 입력을 입력 스플릿 또는 단순히 스플릿이라고 불리는고정크기의 조각들로 나눔
- 즉, 인풋 데이터를 쪼개서 MapTask를 생성한다.
*하둡은 HDFS 내의 입력 데이터가 있는 노드에서 맵 태스크를 수행할 때 가장 잘 동작
- 스플릿이 두블록에 저장된다면, 이는 다른 클러스터에 존재할 수도 있다.
- 만약 위와 같다면, 로컬상에서 수행할 때보다 느리게 동작할 것이다.
다수의 맵태스크와 다수의 리듀스가 존재한다면
- N개로 인풋 데이터를 스플릿하고, N개의 맵태스크가 수행된다.
- 맵태스크는 M개로 결과를 나누고, (그 포맷은 블록인지,객체들인지 잘 모르겠음)
- M개의 결과를 M개의 리듀스에게 각각 전달한다.
- 이제, 각각의 리듀스는 N개의 객체들이 존재한다.
- 이들을 병합하여, 데이터를 처리하고, 출력한다.
- HDFS에 있는 출력물을 일반 파일시스템에 복제한다.
'JAVA이야기' 카테고리의 다른 글
Custom serialization (0) | 2012.05.27 |
---|---|
자바 -study (0) | 2012.05.22 |
repo sync 멈춤 (0) | 2012.03.16 |
SOA에서의 WSDL/SOAP 그리고 자바/XML 매핑의 역할 (0) | 2012.03.08 |
안드로이드 액티비티 다양한 전환방법 (0) | 2012.02.27 |