출처: http://redju.tistory.com/256
I. HDFS(Hadoop Distributed File System) 개요
- Master/Slave 구조로 Master인 Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장하는 하둡 분산 파일 시스템
II. HDFS의 특징 및 읽기 및 쓰기 동작
가. HDFS의 특징
구분 |
특징 |
Data Block |
파일을 블록단위로 쪼개서 여러 Data node에 나눠서 저장하고 각 파일의 기본 정보 및 각 블록들의 위치 정보를 Name node에서 관리 |
Replication |
일부 Data node에 장애가 발생하더라도 데이터가 유실되는 것을 막기 위해 각 데이터 블록에 대해서 여러 개의 복제본(Replica) 유지(보통은 3개의 복제본을 유지) |
Rack Awareness |
랙 단위의 장애에 대해 최대한 가용성을 높이기 위해 데이터 블록의 복제본을 관리할 때 복제본이 한 군데에 몰려 있지 않도록 관리 복제본 개수가 3인 경우 두 개는 같은 랙의 다른 노드에 저장하고 나머지 하나는 다른 랙에 있는 노드에 저장 |
Data Read(Locality) |
사용자가 파일을 읽을 때는 먼저 Name node에 해당 파일 위치 정보를 요청하고 그 정보를 토대로 Data node와 통신하여 파일을 읽음 |
Data Write (Consistency) |
먼저 Name node에 해당 파일 쓰기 요청을 하면 Name node에서는 기본적인 유효성 검사를 수행 그후 Name node는 데이터를 저장할 Data node 리스트를 사용자에게 전달하고 첫번째 Data node에 데이터를 쓰기 시작하고 다른 Data Node에 복제 데이터를 완료하면 쓰기 작업이 완료 |
나. 읽기 및 쓰기 동작
- 읽기 동작
- 쓰기 동작
'IT기술 관련 > 빅데이터 관련' 카테고리의 다른 글
RDBMS vs MongoDB (0) | 2015.10.01 |
---|---|
빅데이터 저장 기술 - NoSQL (0) | 2015.10.01 |
빅데이터 분석 기술 - 데이터 마이닝 vs 텍스트 마이닝 (0) | 2015.09.30 |
빅데이터 저장 기술 - HDFS vs Object Storage (0) | 2015.09.30 |
빅데이터 저장 기술 - DAS, NAS, SAN 비교 (0) | 2015.09.30 |