HDFS (Hadoop Distributed File System)
·
IT기술 관련/빅데이터 관련
출처: http://redju.tistory.com/256 I. HDFS(Hadoop Distributed File System) 개요 - Master/Slave 구조로 Master인 Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장하는 하둡 분산 파일 시스템 II. HDFS의 특징 및 읽기 및 쓰기 동작 가. HDFS의 특징 구분 특징 Data Block 파일을 블록단위로 쪼개서 여러 Data node에 나눠서 저장하고 각 파일의 기본 정보 및 각 블록들의 위치 정보를 Name node에서 관리 Replication 일부 Data node에 장애가 발생하더라도 데이터가 유실되는 것을 막기 위해 각 데이터 블록에 대해서 여러 개의 복제본..
빅데이터 분석 기술 - 데이터 마이닝 vs 텍스트 마이닝
·
IT기술 관련/빅데이터 관련
비교 내용 데이터 마이닝 텍스트 마이닝 대상 데이터 수치/범주화된 데이터 텍스트 데이터 구조 관계형 데이터베이스 비정형 텍스트 목표 미래 상황과 결과의 예견/예측 적합한 정보를 획득하고, 의미를 정제하고 범주화함 방법 기계학습 기계학습 포함 인덱싱, 신경망 처리, 자연어 처리, 온토로지 등 적용 가능 성숙도 1994년 이후 광범위하게 구현 2000년 이후 광범위한 구현 시작
빅데이터 저장 기술 - HDFS vs Object Storage
·
IT기술 관련/빅데이터 관련
구분 HDFS Object Storage 메타 데이터 Name Node 중심의 중앙 집중형 클러스터 복제의 분산 저장 멀티 테넌시 멀티 테넌시 고려 사항 아님 멀티 테넌시 기반 데이터 처리 중심의 대용량 데이터 용량 크기는 상관 없음 쓰기 작업 한 번의 쓰기 작업 여러 번 쓰기로 마지막 데이터가 중요 개발 언어 Java Python
빅데이터 저장 기술 - DAS, NAS, SAN 비교
·
IT기술 관련/빅데이터 관련
DAS NAS SAN 개념 Direct Attached Storage 서버의 디스크를 확장하여 파일을 공유하는 형태 Network Attached Storage 네트워크 파일 공유 전용 스토리지 Storage Area Network 서버와 스토리지 사이에 고속의 전용망을 통해 공유하는 스토리지 구성 요소 애플리케이션 서버, 스토리지 애플리케이션 서버, 전용 파일 서버, 스토리지 애플리케이션 서버, 스토리지 접속 장치 없음 이더넷 스위치 파이버 채널 스위치 스토리지 공유 가능 가능 가능 파일 시스템 공유 불가능 가능 불가능 파일 시스템 관리 애플리케이션 서버 파일 서버 애플리케이션 서버 접속 속도 결정 요인 채널 속도 LAN과 채널 속도 채널 속도 특징 소규모의 독립된 구성에 적합 파일 공유를 위한 가장 ..
빅데이터 저장 기술 - RDB vs NoSQL
·
IT기술 관련/빅데이터 관련
구분 RDB NoSQL 도입 용이성 변경 및 설치 용이 기존 Data 재구축 데이터 정형 데이터 처리에 유리 비정형, 반정형 데이터 처리에 유리 성능 대용량 처리 시 성능 저하 대용량 처리 지원 비용 고가 스토리지와 서버 지원 PC급 범용 하드웨어 스키마 고정된 스키마 비고정 스키마 사례 MySQL, Oracle 등 Big Table, Cassandra 등
Big Data 란?
·
IT기술 관련/빅데이터 관련
데이터 형태 ==> 정형 데이터 vs 비정형 데이터 정형 데이터 -> 숫자나 문자들로 쉽게 구분할 수 있는 데이터 비정형 데이터 -> 텍스트,동영상 음악 파일 등 구조화가 어려운 데이터 빅데이터 개념 ==> " 대규모, 고속의 다양한 데이터를 분석하여 인사이트와 가치를 주는 새로운 기술 " 빅데이터의 주요 특성 1. 규모 -> 정보의 범위 확대, 대량의 데이터 2. 다양성 -> 새로운 종류의 데이터와 분석, 비전동적 형태의 미디어, 소셜 미디어 데이터 3. 속도 -> 실시간 정보, 신기술에서 유입되는 데이터
서버 로그 데이터를 조정 및 시각화하는 방법
·
IT기술 관련/빅데이터 관련
http://ko.hortonworks.com/hadoop-tutorial/how-to-refine-and-visualize-server-log-data/ 참고 진행하다가 이 부분이 잘 진행이 안되었다. ping은 연결이 되는데 SCP 연결이 계속 실패가 되었다. 음.. vmware 공유 파일 만들어서 옮기기로.. http://kjvvv.kr/190840 공유 폴더 설정 관련 링크 ** 공유 폴더 설정 방법 1. vmware에 Share Folders 를 Always enabled로 하고 경로 설정 2. 재부팅 후 /mnt 접근하면 공유 폴더내에 파일이 있음 Flume 실행 1. 메뉴얼에 나와 있는 명령어 입력 입력 후 다음과 같은 화면 나옴 2. CTRL + ALT + F2를 눌러서 새로운 유저로 접속..
하둡 설치
·
IT기술 관련/빅데이터 관련
http://ko.hortonworks.com/wp-content/uploads/2015/07/Import_on_VMware_7_20_2015.pdf 참고 자료 해당 문서에 설명이 잘 나와 있다. 1. 해당 파일 http://ko.hortonworks.com/hdp/downloads/ 서 다운로드 2. 해당 파일 더블 클릭 하면 import 됨!! 3. 설치 완료! root // hadoop 4. 튜토리얼 보고 진행해보자!! http://ko.hortonworks.com/hadoop-tutorial/how-to-refine-and-visualize-server-log-data/
하둡
·
IT기술 관련/빅데이터 관련
출처: http://blog.ncsoft.com/?p=248 엔씨가 사용하는 오픈소스 #1 빅데이터 처리기술 : ‘하둡(HADOOP)’ Q2. 엔씨소프트 속 하둡을 다루기 전에 하둡이란 오픈소스에 대해 간단히 설명 부탁 드립니다. 노재호 : 하둡의 약자를 설명 드리면 (HADOOP/High-Availability Distributed Object-Oriented Platform)입니다. 재미나게도 하둡이 만들어진 다음에 붙여졌다고 합니다. 간단하게 설명을 드리면 대용량 자료를 처리할 수 있는 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈소스 자바 프레임워크입니다. 박수혁 : 하둡은 더그 커팅(Doug Cutting)이라는 개발자가 넛치(Nutch)라는 검색엔진을 개발하는 과정에서 탄생되..
TextWatcher 를 이용한 글입력 제한 하기.
·
IT기술 관련/모바일
출처: http://ememomo.tistory.com/36 /* * Copyright (C) 2006 The Android Open Source Project * * Licensed under the Apache License, Version 2.0 (the "License"); * you may not use this file except in compliance with the License. * You may obtain a copy of the License at * * http://www.apache.org/licenses/LICENSE-2.0 * * Unless required by applicable law or agreed to in writing, software * distribute..