반응형

출처: http://redju.tistory.com/256

 

I.       HDFS(Hadoop Distributed File System) 개요

-       Master/Slave 구조로 Master Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장하는 하둡 분산 파일 시스템

 

II.      HDFS의 특징 및 읽기 및 쓰기 동작

가.   HDFS의 특징

구분

특징

Data Block

파일을 블록단위로 쪼개서 여러 Data node에 나눠서 저장하고 각 파일의 기본 정보 및 각 블록들의 위치 정보를 Name node에서 관리

Replication

일부 Data node에 장애가 발생하더라도 데이터가 유실되는 것을 막기 위해 각 데이터 블록에 대해서 여러 개의 복제본(Replica) 유지(보통은 3개의 복제본을 유지)

Rack Awareness

랙 단위의 장애에 대해 최대한 가용성을 높이기 위해 데이터 블록의 복제본을 관리할 때 복제본이 한 군데에 몰려 있지 않도록 관리

복제본 개수가 3인 경우 두 개는 같은 랙의 다른 노드에 저장하고 나머지 하나는 다른 랙에 있는 노드에 저장

Data Read(Locality)

사용자가 파일을 읽을 때는 먼저 Name node에 해당 파일 위치 정보를 요청하고 그 정보를 토대로 Data node와 통신하여 파일을 읽음

Data Write

(Consistency)

먼저 Name node에 해당 파일 쓰기 요청을 하면 Name node에서는 기본적인 유효성 검사를 수행

그후 Name node는 데이터를 저장할 Data node 리스트를 사용자에게 전달하고

첫번째 Data node에 데이터를 쓰기 시작하고 다른 Data Node에 복제 데이터를 완료하면 쓰기 작업이 완료

 

 

나.   읽기 및 쓰기 동작

-       읽기 동작

 

-     쓰기 동작

 

 

반응형
반응형

 

 비교 내용

데이터 마이닝 

텍스트 마이닝 

 대상 데이터

수치/범주화된 데이터 

텍스트 

데이터 구조 

관계형 데이터베이스 

비정형 텍스트 

목표 

미래 상황과 결과의 예견/예측 

적합한 정보를 획득하고, 의미를 정제하고 범주화함 

방법 

기계학습 

기계학습 포함

인덱싱, 신경망 처리, 자연어 처리, 온토로지 등 적용 가능 

성숙도 

1994년 이후 광범위하게 구현 

2000년 이후 광범위한 구현 시작 

 

반응형
반응형

 

 구분

HDFS 

Object Storage 

메타 데이터 

Name Node 중심의 중앙 집중형 

클러스터 복제의 분산 저장 

멀티 테넌시 

멀티 테넌시 고려 사항 아님 

멀티 테넌시 기반 

데이터 

처리 중심의 대용량 데이터 

용량 크기는 상관 없음 

쓰기 작업 

한 번의 쓰기 작업 

여러 번 쓰기로 마지막 데이터가 중요 

 개발 언어

Java 

Python 

 

반응형
반응형

 

 

 DAS

NAS 

SAN 

 개념

Direct Attached Storage

서버의 디스크를 확장하여 파일을 공유하는 형태 

Network Attached Storage 네트워크 파일 공유 전용 스토리지 

Storage Area Network 서버와 스토리지 사이에 고속의 전용망을 통해 공유하는 스토리지 

 구성 요소

애플리케이션 서버,

스토리지 

애플리케이션 서버,

전용 파일 서버,

스토리지 

애플리케이션 서버,

스토리지 

 접속 장치

없음 

이더넷 스위치 

파이버 채널 스위치 

 스토리지 공유

 가능

가능 

가능 

 파일 시스템

공유

 불가능

가능 

불가능 

 파일 시스템

관리

 애플리케이션 서버

파일 서버 

애플리케이션 서버 

 접속 속도

결정 요인

 채널 속도

LAN과 채널 속도 

채널 속도 

 특징

 소규모의 독립된

구성에 적합

파일 공유를 위한 가장 안적적이고 신뢰성

높은 솔루션 

유연성, 확정성, 편의성이 가장 뛰어남 

 

반응형

+ Recent posts