HDFS 의 정의

HDFS 의 정의

1.HDFS의 정의

하둡(Hadoop)은 대표적인 빅데이터 기술로써 대용량 데이터 분석 처리를 위한 오픈소스 프레임워크이다.

이는 2003년, 2004년에 발표되었던 구글의 구글 분산 파일 시스템(GFS)과 맵리듀스(MapReduce)를 구현한 것으로, 그 설계와 아이디어가 많은 부분에서 구글의 것과 유사하다.
하둡은 대용량 데이터을 분산시키고 저장하고 관리하는 하둡 분산 파일 시스템(HDFS)과 대용량 데이터의 분석을 수행하는 맵리듀스로 구성된다.

2.HDFS의 특징

하둡 분산 파일 시스템(HDFS)은 다수의 리눅스 서버에 설치되어 운영되며, 뛰어난 확장성으로 페타바이트 이상의 대용량 데이터 저장 공간을 확보할 수 있다.

또한, 여러 대의 서버가 동시에 데이터를 분산 처리하여 대규모 데이터 처리에 있어 빠른 속도를 보장한다.

특히, 리눅스 장비를 사용함으로써 고가의 장비를 사용하는 관계형 데이터베이스 관리 시스템(RDBMS)에 비해 시스템 구축비용이 저렴하다.

저가의 장비 사용으로 인한 데이터 유실 및 저장 실패 등의 문제는 데이터를 다양한 노드(서버)에 분산 저장하여 해결한다.

3.HDFS 구성 1

하둡 분산 파일 시스템은 대규모 데이터를 분산, 저장, 관리하기 위한 분산 파일 시스템으로서, 저장하고자 하는 파일을 블록 단위로 나누어 분산된 서버에 저장한다.
블록 크기는 기본적으로 64MB로 설정되어 있으며, 데이터가 64MB로 나누어 떨어지지 않는 경우에 블록을 나누고 남은 부분은 그 크기 그대로의 블록으로 저장된다.

4.HDFS 구성 2

하둡 분산 파일 시스템은 그림 4와 같이 하나의 네임노드(NameNode), 다수의 데이터노드(DataNode)로 구성된다.

네임노드는 하둡 분산 파일 시스템의 모든 메타데이터(디렉토리명, 파일명, 파일 블록 등에 대한 트리 형태의 네임 스페이스)를 관리한다.

데이터노드는 블록 단위로 나뉜 데이터를 저장하는 데이터 서버로서, 네임노드와 클라이언트의 데이터 입출력 요청을 관리한다.

5.HDFS 보안

초기에는 하둡에 대한 사용자 접근 제어를 위한 메커니즘으로 SSL(Secure Socket Layer)이 제안되었다.
그러나 SSL은 공개키 방식을 사용하여 처리속도가 느리고 계산량이 많다는 단점을 가진다.

따라서 현재는 SSL 방식은 거의 사용하지 않고 대칭키 방식의 커버로스(Kerberos) 인증을 사용하고 있다.

 

출처 : 밴드 – 빅데이터 연구소

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.