달력

1

« 2025/1 »

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
2012. 5. 21. 22:50

하둡 용어 정리 JAVA이야기2012. 5. 21. 22:50

#hadoop MaxTemperature input/ncdc/sample.txt output

- hadoop : 하둡을 실행한다.

- MaxTemperature : 어플리케이션[프로젝트]을 명시한다.

- input/ncdc/sample.txt : 인풋 데이터 경로를 명시한다.

- output : 출력될 디렉터리를 설정한다.


*맵 리듀스

- 클라이언트가 수행하려는 작업의 단위. 이것은 입력 데이터, 맵리듀스 프로그램, 설정정보로 구성된다.


Job을 이용하여 하둡은 프로그램을 수행한다.

- Job을 제어하기 위해서 하나의 잡트래커(마스터)와 다수의 taskTracker가 존재한다. 

 - jobTracker는 taskTracker들의 스케줄링을 제어한다.

 - 태스크 트래커들은 태스크들을 수행하고 각 잡의 전체경과를 하나의 레코드로 유지하는 경과보고서를 잡트래커에 보낸다.


*하둡은 맵리듀스 잡의 입력을 입력 스플릿 또는 단순히 스플릿이라고 불리는고정크기의 조각들로 나눔

 - 즉, 인풋 데이터를 쪼개서 MapTask를 생성한다.


*하둡은 HDFS 내의 입력 데이터가 있는 노드에서 맵 태스크를 수행할 때 가장 잘 동작

 - 스플릿이 두블록에 저장된다면, 이는 다른 클러스터에 존재할 수도 있다.

- 만약 위와 같다면, 로컬상에서 수행할 때보다 느리게 동작할 것이다.


다수의 맵태스크와 다수의 리듀스가 존재한다면

- N개로 인풋 데이터를 스플릿하고, N개의 맵태스크가 수행된다.

- 맵태스크는 M개로 결과를 나누고, (그 포맷은 블록인지,객체들인지 잘 모르겠음)

- M개의 결과를 M개의 리듀스에게 각각 전달한다.

- 이제, 각각의 리듀스는 N개의 객체들이 존재한다.

- 이들을 병합하여, 데이터를 처리하고, 출력한다.

- HDFS에 있는 출력물을 일반 파일시스템에 복제한다.



'JAVA이야기' 카테고리의 다른 글

Custom serialization  (0) 2012.05.27
자바 -study  (0) 2012.05.22
repo sync 멈춤  (0) 2012.03.16
SOA에서의 WSDL/SOAP 그리고 자바/XML 매핑의 역할  (0) 2012.03.08
안드로이드 액티비티 다양한 전환방법  (0) 2012.02.27
:
Posted by НooпeУ


Code Start Code End