맵 리듀스

1.맵리듀스 정의 맵리듀스(MapReduce) 프레임워크는 대용량 데이터를 분산 처리하기 위한 목적으로 개발된 프로그래밍 모델이다. Google에 의해 고안된 맵리듀스 기술은 대표적인 대용량 데이터 처리를 위한 병렬 처리 기법의 하나로 최근까지 많은 주목을 받고 있다. 그림 1과 같이 맵리듀스는 임의의 순서로 정렬된 데이터를 분산 처리(Map)하고 이를 다시 합치(Reduce)는 과정을 거친다. 2. 맵리듀스 구현 플랫폼 하둡 맵리듀스를 핵심 기반으로 […]

HDFS 의 정의

HDFS 의 정의 1.HDFS의 정의 하둡(Hadoop)은 대표적인 빅데이터 기술로써 대용량 데이터 분석 처리를 위한 오픈소스 프레임워크이다. 이는 2003년, 2004년에 발표되었던 구글의 구글 분산 파일 시스템(GFS)과 맵리듀스(MapReduce)를 구현한 것으로, 그 설계와 아이디어가 많은 부분에서 구글의 것과 유사하다. 하둡은 대용량 데이터을 분산시키고 저장하고 관리하는 하둡 분산 파일 시스템(HDFS)과 대용량 데이터의 분석을 수행하는 맵리듀스로 구성된다. 2.HDFS의 특징 하둡 […]