'IT기술 관련/빅데이터 관련' 카테고리의 글 목록 (5 Page)

데이터 마이닝 vs 텍스트 마이닝

데이터 마이닝 -> 기존 데이터 베이스에 저장된 정형화된 데이터로부터 정보를 찾아내는 방식

텍스트 마이닝 -> 비정형화된 텍스트 문서에서 정보를 찾아내는 방식

둘 다 패턴을 추출한다는 점에서는 공통점이 있으나 어디에서 패턴을 추출하는가에 대해서는 차이점이 있다.

'IT기술 관련 > 빅데이터 관련' 카테고리의 다른 글

[R 프로그래밍] R의 데이터 구조 (0)	2016.02.23
[R프로그래밍] Data Import, Data 구조 (0)	2016.01.31
기존 데이터 분석 vs 빅데이터 분석 (0)	2016.01.22
맵리듀스(MapReduce)란? -2- (0)	2016.01.22
맵리듀스(MapReduce)란? -1- (0)	2016.01.22

출처: R을 이용한 빅데이터 분석 - 임동훈

기존 데이터 분석

빅데이터 분석

- 데이터 마이닝

- 기계학습

- 텍스트마이닝

- 감성분석

- 소셜 네트워크 분석

- 텍스트 클러스팅

감성분석 -> 텍스트를 작성한 사람들의 태도,의견, 성향과 같은 주관적인 데이터를 가지고 특정 주제에 대하 긍정인지 또는 부정인지를 분류하는 방법이다.

소셜 네트워크 분석 -> 구성원들 간의 연결 구조와 연결 강도 등을 정량적인 방법으로 분석함으로써 내재된 현상을 찾아내는 일

텍스트 클러스팅 -> 텍스트에 나오는 여러 개체들에 유사한 속성을 지닌 대상을 몇 개의 집단으로 그룹화한 다음 각 집단의 성격을 파악함으로써 텍스트 전체의 구조에 대해 이해하고자 하는 일

저작자표시

'IT기술 관련 > 빅데이터 관련' 카테고리의 다른 글

[R프로그래밍] Data Import, Data 구조 (0)	2016.01.31
데이터 마이닝 vs 텍스트 마이닝 (0)	2016.01.22
맵리듀스(MapReduce)란? -2- (0)	2016.01.22
맵리듀스(MapReduce)란? -1- (0)	2016.01.22
[빅데이터] 오픈소스 기반 빅데이터 (0)	2016.01.21

출처: http://over153cm.tistory.com/entry/맵리듀스란-2

맵리듀스 과정에서 데이터가 어떤 식으로 흘러가고 처리되는지 자세히 알아봅시다.

잡 실행과정

1:N방식

1 - 잡 트래커(노드)

N - 태스크 트래커(노드)

잡 트래커: 태스크 트래커가 수행할 태스크를 스케줄링 함으로써 시스템 전체에서 모든 잡이 수행되도록 조절.
태스크 트래커: 태스크를 수행하고 각 잡의 전체 경과를 하나의 레코드로 유지하는 경과 보고서를잡 트래커에 보냄. (태스크가 실패하면 잡 트래커는 그것을 다른 태스크 트래커에 다시 스케줄 한다.
입력스플릿&스플릿: 맵리듀스 잡의 입력크기. 각 스플릿마다 하나의 맵 태스크를 생성하고, 그 스플릿에 있는 각 레코드를 사용자 정의 맵 함수로 처리한다.

Split

- 하둡은 입력된 데이터를 고정된 크기의 조각으로 나눈다 ⇒ Split

- 각 Split 마다 하나의 Map Task 생성해 그 split의 레코드를 Map함수로 처리한다.

- 전체 입력을 통째로 처리하는 것 보다 시간이 더 짧게 걸린다.

- 보통 64MB의 HDFS Block을 사용하는 추세이다.

Map Tasks Status

① Data–local

: HDFS 내의 입력 Data가 있는 노드에서 Map Task 실행

- 데이터 지역성 최적화(Data Locality Optimization). 네트워크 대역폭을 사용하지 않아 가장 잘 작동

② Rack–local

: 동일 랙 중 다른 노드에서 찾아와 실행

- HDFS 블록 복제 본이 저장된 세 개의 노드 모두가 다른 맵 태스크 실행 중일 때도 있다. 이럴 경우 잡트래커는 블록 복제 본이 저장된 동일 랙 중 다른 노드에서 이용 가능한 맵 슬롯 가져온다.

③ Off-rack

: 다른 외부 랙의 노드에서 찾아와 실행

- 랙 간 네트워크 전송을 해야만 하기 때문에 네트워크 대역폭 사용.

각 태스크 결과물 저장 장소

맵리듀스 데이터 흐름

- 리듀스 태스크 개수는 독립적으로 지정한다. (입력 크기와는 관련X)

→ 클러스터 내 리듀서 슬롯의 개수 보다 약간 작게 설정하는 것이 가장 좋다.

단일 리듀스 태스크

: 모든 중간 데이터를 혼자 처리해야 해서 매우 느려진다.

2. 다중 리듀스 태스크

: Map 태스크는 Reduce 태스크 개수만큼 파티션을 생성하고 결과를 분배한다.

3. 리듀스 태스크 없음

: 완전히 병렬로 수행. 셔플이 필요없는 경우에 적합.

컴바이너 함수 (Combiner Function)

대역폭은 제한적. 따라서 데이터 전송은 줄일수록 좋다.

- 맵과 리듀스 태스크 간 데이터전송을 최소화 하는 것이 좋다.

- 최적화와 관련 있기 때문에 필수 사항은 아니다. 0번을 써도, 여러 번 호출 되도 출력 결과는 같다.

- 매퍼와 리듀서 사이에서 셔플할 데이터의 양을 줄이는데 큰 도움을 준다.

[참고] http://blog.secmem.org/

http://bigbigdata.tistory.com/

저작자표시

'IT기술 관련 > 빅데이터 관련' 카테고리의 다른 글

데이터 마이닝 vs 텍스트 마이닝 (0)	2016.01.22
기존 데이터 분석 vs 빅데이터 분석 (0)	2016.01.22
맵리듀스(MapReduce)란? -1- (0)	2016.01.22
[빅데이터] 오픈소스 기반 빅데이터 (0)	2016.01.21
[시각화] 데이터 시각화의 중요 keyword (0)	2015.11.24

출처:

맵리듀스(MapReduce)란?

: 대용량 데이터를 처리를 위한 분산 프로그래밍 모델

- 구글에서 2004년 발표한 소프트웨어 프레임워크

- 타고난 병행성(병렬 처리 지원)을 내포

- 누구든지 임의로 활용할 수 있는 충분한 서버를 이용하여 대규모 데이터 분석 가능

- 흩어져 있는 데이터를 수직화하여, 그 데이터를 각각의 종류 별로 모으고(èMap),

Filtering과 Sorting을 거쳐 데이터를 뽑아내는(èReduce)

하는 분산처리 기술과 관련 프레임워크를 의미

맵리듀스는 맵(Map) 단계와 리듀스(Reduce) 단계로 처리 과정을 나누어 작업
각 단계는 입력과 출력으로써 키-값 쌍을 가지고 있고, 그 타입은 프로그래머가 선택합니다. 또한, 맵과 리듀스 함수도 프로그래머가 직접 작성하게 됩니다

Map은 흩어져 잇는 데이터를 Key, Value의 형태로 연관성 있는 데이터 분류로 묶는 작업

Reduce는 Map화한 작업 중 중복 데이터를 제거하고 원하는 데이터를 추출하는 작업

l MapReduce Logical Data Flow

맵(map)은 흩어져 있는 데이터를 관련 있는 데이터끼리 묶는 작업을 통해서 임시 데이터 집합으로 변형되며, 리듀스(Reduce)는 맵 작업에서 생성된 임시 데이터 집합에서 중복 데이터를 제거하고 원하는 데이터를 추출하는 작업을 진행합니다.

맵리듀스 잡(MapReduce Job): Client 수행 작업 단위

: 클라이언트가 수행하려는 작업 단위로써 입력 데이터, 맵리듀스 프로그램, 설정 정보로 구성

- 하둡은 Job을 Map Task와 Reduce Task로 작업을 나누어서 실행한다.

- Job 실행 과정을 “제어”해주는 노드

잡 트래커(Job Tracker): 태스크 트래커가 수행할 Task 스케줄링, 시스템 전체 수행을 조절.

태스크 트래커(Task Tracker): Task 수행하고, 잡트래커에게 전체 경과 보고.

[출처] 시작하세요! 하둡 프로그래밍(위키북스), 하둡 완벽 가이드(한빛 미디어)

저작자표시

'IT기술 관련 > 빅데이터 관련' 카테고리의 다른 글

기존 데이터 분석 vs 빅데이터 분석 (0)	2016.01.22
맵리듀스(MapReduce)란? -2- (0)	2016.01.22
[빅데이터] 오픈소스 기반 빅데이터 (0)	2016.01.21
[시각화] 데이터 시각화의 중요 keyword (0)	2015.11.24
RDBMS vs MongoDB (0)	2015.10.01

Unique Life