[R 프로그래밍] apply, lapply, sapply, tapply, mapply, by
·
IT기술 관련/빅데이터 관련
1. apply - 적용한 함수 값을 리스트로 반환 > (성적 apply(성적, 1, sum) # 행 단위의 계산(합계) 값을 벡터로 출력한다. [1] 17 18 22 16 22 20 21 29 16 19 ​> apply(성적, 1, mean) # 행 단위의 계산(평균) 값을 벡터로 출력한다. [1] 5.666667 6.000000 7.333333 5.333333 7.333333 6.666667 7.000000 9.666667 5.333333 6.333333​​> round(apply(성적, 1, mean),1) # round() 함수로 소수점 1자리까지 반올림. [1] 5.7 6.0 7.3 5.3 7.3 6.7 7.0 9.7 5.3 6.3​​> apply(성적, 2, sum) # 열 단위의 계산(합계)..
[R 프로그래밍] apply 함수군 (lapply, sapply, tapply) R 프로그래밍
·
IT기술 관련/빅데이터 관련
/* * http://sosal.kr/ * made by so_Sal */ apply() 함수는 벡터, 행렬 등의 데이터 프레임에서 row/column 단위의 계산을 할 때 함수를 쉽게 적용할 수 있도록 도와준다.apply 함수 외에 리스트, 벡터, 테이블 형태로 결과를 반환해주는 lapply, sapply, tapply 함수에 대해 알아보자. 실습데이터)> weight height gender testDate patients patients.sub patients.sub weight height1 65.4 1702 55.0 1553 380.0 NA4 72.2 1735 51.0 1616 NA 166 - 각 환자(row)별로 몸무게와 키의 평균을 구한다 > apply(patients.sub, 1, mean..
[R 프로그래밍] [R] 몫과 나머지 (quotient and remainder)
·
IT기술 관련/빅데이터 관련
출처: http://egloos.zum.com/entireboy/v/4863513 일반적인 프로그래밍언어에는 modulro라는 연산자가 있다. 나누고 남은 나머지를 구하는 연산자로, 홀짝 등을 확인하기 좋다. 이와 비슷하게 R에서는 %/%와 %%를 사용하면 몫과 나머지를 구할 수 있다. R Language Definition - 3.1.4. Operators > # 일반 나누기 - R에서는 double로 소수점을 포함한 결과가 나온다. > 9/2 [1] 4.5 > class(9/2) [1] "numeric" > typeof(9/2) [1] "double" > # 나눗셈의 몫 (quotient) > 9%/%2 [1] 4 > # 나눗셈의 나머지(remainder) - 2로 나누면 홀짝 구분이 된다. > 9%..
[Rstudio] Rstudio (치명적 오류: 접근 거부 - Fatal error: access denied) 해결
·
IT기술 관련/빅데이터 관련
출처:http://ddolgi.tistory.com/602 R이랑 Rstudio를 몇 번을 지웠다 깔았는지 모른다;;; 열심히 검색하다가 log파일 위치를 찾아서 열어보니, Windows 사용자명 때문에 Temp파일 경로명에 있는 한글이 깨져있더라;;; 확인차 영문 사용자를 만들어 보니... 된다! 그렇다고 사용자를 바꾸긴 버겁고... 그럼 Temp 경로를 바꿔줘보자! 제어판>사용자 계정>환경 변수 변경 - TEMP와 TMP 값을 "C:\Temp"로 바꿔주니, 해결!!!
[R 프로그래밍] R의 데이터 구조
·
IT기술 관련/빅데이터 관련
R의 데이터 구조 기계 학습에서 많이 사용하는 R데이터 구조는 벡터, 팩터, 리스트, 어레이, 데이터 프레임이다. 1) 벡터 (Vector) -> 벡터는 원소라고 불리는 값의 순서 있는 집합으로 저장한다. 벡터는 원소의 개수를 상관하지 않지만 모든 원소는 같은 타입이어야 한다. ex) > subject_name 문자열 벡터를 subject_name 으로 정의 2) 팩터 (Factor) -> 데이터에 남자 여자 여자 라는 데이터가 있을 경우 팩터를 사용하면 레벨: 남자 여자 이런식으로 보여준다. 3) 리스트 (List) -> 값의 순서가 있는 집합을 저장 ex) 1) 에서 사용했던 subject_name으로 예를 들면 > subject_name[1] [1] "horae" 이런식으로 출력이 된다. 또한 리스..
[R프로그래밍] Data Import, Data 구조
·
IT기술 관련/빅데이터 관련
출처: http://www.datamarket.kr/xe/index.php?mid=board_ecko11&page=3&document_srl=395 이제 본격적으로 R 강의를 시작하도록 하겠습니다. R내부에서 Data Import시키는 방법에는 여러가지가 있습니다. 일단 data형식에도 여러가지가 있다는걸 알고 계실 겁니다. txt파일,이미지파일,xlsx파일,csv파일 등등 여러가지가 있습니다. 보통 다루는 데이터는 matrix형태이고(excel 형태) data를 다룰때에도 excel데이터를 주로 다룹니다. R에서 xlsx파일(excel확장자) import시킬수 도 있지만, 특별한 이유가 없는 한 모두 csv파일로 바꿔서 import시킵니다. csv파일과. xlsx파일의 차이점부터 알려드리겠습니다. xl..
데이터 마이닝 vs 텍스트 마이닝
·
IT기술 관련/빅데이터 관련
데이터 마이닝 vs 텍스트 마이닝 데이터 마이닝 -> 기존 데이터 베이스에 저장된 정형화된 데이터로부터 정보를 찾아내는 방식 텍스트 마이닝 -> 비정형화된 텍스트 문서에서 정보를 찾아내는 방식 둘 다 패턴을 추출한다는 점에서는 공통점이 있으나 어디에서 패턴을 추출하는가에 대해서는 차이점이 있다.
기존 데이터 분석 vs 빅데이터 분석
·
IT기술 관련/빅데이터 관련
출처: R을 이용한 빅데이터 분석 - 임동훈 기존 데이터 분석 빅데이터 분석 - 데이터 마이닝 - 기계학습 - 텍스트마이닝 - 감성분석 - 소셜 네트워크 분석 - 텍스트 클러스팅 감성분석 -> 텍스트를 작성한 사람들의 태도,의견, 성향과 같은 주관적인 데이터를 가지고 특정 주제에 대하 긍정인지 또는 부정인지를 분류하는 방법이다. 소셜 네트워크 분석 -> 구성원들 간의 연결 구조와 연결 강도 등을 정량적인 방법으로 분석함으로써 내재된 현상을 찾아내는 일 텍스트 클러스팅 -> 텍스트에 나오는 여러 개체들에 유사한 속성을 지닌 대상을 몇 개의 집단으로 그룹화한 다음 각 집단의 성격을 파악함으로써 텍스트 전체의 구조에 대해 이해하고자 하는 일
맵리듀스(MapReduce)란? -2-
·
IT기술 관련/빅데이터 관련
출처: http://over153cm.tistory.com/entry/맵리듀스란-2 맵리듀스 과정에서 데이터가 어떤 식으로 흘러가고 처리되는지 자세히 알아봅시다. 잡 실행과정 1:N방식 1 - 잡 트래커(노드) N - 태스크 트래커(노드) 잡 트래커: 태스크 트래커가 수행할 태스크를 스케줄링 함으로써 시스템 전체에서 모든 잡이 수행되도록 조절. 태스크 트래커: 태스크를 수행하고 각 잡의 전체 경과를 하나의 레코드로 유지하는 경과 보고서를잡 트래커에 보냄. (태스크가 실패하면 잡 트래커는 그것을 다른 태스크 트래커에 다시 스케줄 한다. 입력스플릿&스플릿: 맵리듀스 잡의 입력크기. 각 스플릿마다 하나의 맵 태스크를 생성하고, 그 스플릿에 있는 각 레코드를 사용자 정의 맵 함수로 처리한다. Split - 하둡..
맵리듀스(MapReduce)란? -1-
·
IT기술 관련/빅데이터 관련
출처: 맵리듀스(MapReduce)란? : 대용량 데이터를 처리를 위한 분산 프로그래밍 모델 - 구글에서 2004년 발표한 소프트웨어 프레임워크 - 타고난 병행성(병렬 처리 지원)을 내포 - 누구든지 임의로 활용할 수 있는 충분한 서버를 이용하여 대규모 데이터 분석 가능 - 흩어져 있는 데이터를 수직화하여, 그 데이터를 각각의 종류 별로 모으고(èMap), Filtering과 Sorting을 거쳐 데이터를 뽑아내는(èReduce) 하는 분산처리 기술과 관련 프레임워크를 의미 맵리듀스는 맵(Map) 단계와 리듀스(Reduce) 단계로 처리 과정을 나누어 작업 각 단계는 입력과 출력으로써 키-값 쌍을 가지고 있고, 그 타입은 프로그래머가 선택합니다. 또한, 맵과 리듀스 함수도 프로그래머가 직접 작성하게 됩니..