[빅데이터] 오픈소스 기반 빅데이터
·
IT기술 관련/빅데이터 관련
출처:5. (ETRI_김익균실장) 기업 내부 이상행위 탐지 기술동향
[시각화] 데이터 시각화의 중요 keyword
·
IT기술 관련/빅데이터 관련
데이터 시각화의 중요 keyword PEER AT Prompt => 사람들의 시선을 사로 잡을 수 있는 시각화 Explore => 데이터에서 중요하고 특이한 패턴과 경향,변칙을 찾아내도록 시각화 Explain => 시각 매체를 통해 데이터의 흥미로운 특징을 다른 사람에게 설명 하기 쉽게 시각화 Relate => 데이터의 연관성을 찾아 낼 수 있도록 시각화 Analyze => 데이터 구조를 분석하고 핵심적인 부분을 점검 할 수 있도록 시각화 Track => 데이터에 나타난 경로를 추적하고 미래의 일을 예측할 수 있도록 시각화
RDBMS vs MongoDB
·
IT기술 관련/빅데이터 관련
RDBMS MongoDB Table, View Collection Row JSON Document Index Index Join Embedded & Linking across Document Partition Shard Partition Key Shard Key Primary Key _ID 필드
빅데이터 저장 기술 - NoSQL
·
IT기술 관련/빅데이터 관련
빅데이터 저장 기술 특징 1. Key Value 기반 2. 대용량 데이터의 저장 및 랜덤 읽기 3. 칼럼 기반 4. 데이터의 클러스터 기반 유연한 저장 NoSQL 구조 API 계층 Ope API, REST, JavaScript 질의 계층 Document, Key, Graph 분산 파일 시스템 분산 파일 시스템 (Block 단위, 복제 저장) 하드웨어 클라스터 PC서버 여러개 NoSQL 기술적 특징 구분 내용 수평적 확장성 무한한의 확장성 보장, 페타바이트 수준의 데이터 처리 Simple DB 고정 스키마가 없기에 Join이 없고 무결성과 정합성을 보장하지 않음 저렴한 클러스터링 PC 수준의 하드웨어 사용 단순한 검색 RESTFul API를 통한 데이터 접근, Key-Value, Graph, Documen..
HDFS (Hadoop Distributed File System)
·
IT기술 관련/빅데이터 관련
출처: http://redju.tistory.com/256 I. HDFS(Hadoop Distributed File System) 개요 - Master/Slave 구조로 Master인 Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장하는 하둡 분산 파일 시스템 II. HDFS의 특징 및 읽기 및 쓰기 동작 가. HDFS의 특징 구분 특징 Data Block 파일을 블록단위로 쪼개서 여러 Data node에 나눠서 저장하고 각 파일의 기본 정보 및 각 블록들의 위치 정보를 Name node에서 관리 Replication 일부 Data node에 장애가 발생하더라도 데이터가 유실되는 것을 막기 위해 각 데이터 블록에 대해서 여러 개의 복제본..
빅데이터 분석 기술 - 데이터 마이닝 vs 텍스트 마이닝
·
IT기술 관련/빅데이터 관련
비교 내용 데이터 마이닝 텍스트 마이닝 대상 데이터 수치/범주화된 데이터 텍스트 데이터 구조 관계형 데이터베이스 비정형 텍스트 목표 미래 상황과 결과의 예견/예측 적합한 정보를 획득하고, 의미를 정제하고 범주화함 방법 기계학습 기계학습 포함 인덱싱, 신경망 처리, 자연어 처리, 온토로지 등 적용 가능 성숙도 1994년 이후 광범위하게 구현 2000년 이후 광범위한 구현 시작
빅데이터 저장 기술 - HDFS vs Object Storage
·
IT기술 관련/빅데이터 관련
구분 HDFS Object Storage 메타 데이터 Name Node 중심의 중앙 집중형 클러스터 복제의 분산 저장 멀티 테넌시 멀티 테넌시 고려 사항 아님 멀티 테넌시 기반 데이터 처리 중심의 대용량 데이터 용량 크기는 상관 없음 쓰기 작업 한 번의 쓰기 작업 여러 번 쓰기로 마지막 데이터가 중요 개발 언어 Java Python
빅데이터 저장 기술 - DAS, NAS, SAN 비교
·
IT기술 관련/빅데이터 관련
DAS NAS SAN 개념 Direct Attached Storage 서버의 디스크를 확장하여 파일을 공유하는 형태 Network Attached Storage 네트워크 파일 공유 전용 스토리지 Storage Area Network 서버와 스토리지 사이에 고속의 전용망을 통해 공유하는 스토리지 구성 요소 애플리케이션 서버, 스토리지 애플리케이션 서버, 전용 파일 서버, 스토리지 애플리케이션 서버, 스토리지 접속 장치 없음 이더넷 스위치 파이버 채널 스위치 스토리지 공유 가능 가능 가능 파일 시스템 공유 불가능 가능 불가능 파일 시스템 관리 애플리케이션 서버 파일 서버 애플리케이션 서버 접속 속도 결정 요인 채널 속도 LAN과 채널 속도 채널 속도 특징 소규모의 독립된 구성에 적합 파일 공유를 위한 가장 ..
빅데이터 저장 기술 - RDB vs NoSQL
·
IT기술 관련/빅데이터 관련
구분 RDB NoSQL 도입 용이성 변경 및 설치 용이 기존 Data 재구축 데이터 정형 데이터 처리에 유리 비정형, 반정형 데이터 처리에 유리 성능 대용량 처리 시 성능 저하 대용량 처리 지원 비용 고가 스토리지와 서버 지원 PC급 범용 하드웨어 스키마 고정된 스키마 비고정 스키마 사례 MySQL, Oracle 등 Big Table, Cassandra 등
Big Data 란?
·
IT기술 관련/빅데이터 관련
데이터 형태 ==> 정형 데이터 vs 비정형 데이터 정형 데이터 -> 숫자나 문자들로 쉽게 구분할 수 있는 데이터 비정형 데이터 -> 텍스트,동영상 음악 파일 등 구조화가 어려운 데이터 빅데이터 개념 ==> " 대규모, 고속의 다양한 데이터를 분석하여 인사이트와 가치를 주는 새로운 기술 " 빅데이터의 주요 특성 1. 규모 -> 정보의 범위 확대, 대량의 데이터 2. 다양성 -> 새로운 종류의 데이터와 분석, 비전동적 형태의 미디어, 소셜 미디어 데이터 3. 속도 -> 실시간 정보, 신기술에서 유입되는 데이터