출처: http://www.datamarket.kr/xe/index.php?mid=board_ecko11&page=3&document_srl=395
이제 본격적으로 R 강의를 시작하도록 하겠습니다.
R내부에서 Data Import시키는 방법에는 여러가지가 있습니다.
일단 data형식에도 여러가지가 있다는걸 알고 계실 겁니다.
txt파일,이미지파일,xlsx파일,csv파일 등등 여러가지가 있습니다.
보통 다루는 데이터는 matrix형태이고(excel 형태) data를 다룰때에도
excel데이터를 주로 다룹니다.
R에서 xlsx파일(excel확장자) import시킬수 도 있지만, 특별한 이유가 없는 한 모두 csv파일로 바꿔서 import시킵니다.
csv파일과. xlsx파일의 차이점부터 알려드리겠습니다.
xlsx파일은 여러분들이 알고계시는 일반적인 엑셀파일입니다. 엑셀파일에 아래그럼처럼 함수를 적용했다고 칩시다.
저파일을 저장한 후, 다시 엑셀에서 열어도 함수는 그대로 적용 되있습니다. 이 상태에서 다름이름으로 저장 -> .csv 파일로 저장 해보겠습니다.
그리고 .csv파일을 열면 아래 화면처럼 적용된 함수가 사라진 상태가 됩니다.
xlsx파일과 csv파일의 차이점을 아시겠나요? csv파일은 간단하게 말하면 적용된 함수,수식,서식을 없애고 cell 하나하나가 갖는 값 자체로만 저장이 됩니다. 물론 엑셀로 작업하시는 모든 파일들은 원본 xlsx파일로 저장하시고 csv파일을 따로 저장해두셔야합니다. xlsx파일로 저장을 안하고 csv파일로만 저장하면 적용됨 함수, 수식, 서식이 모두 사라지게 됩니다.
그렇다면 왜 R에서는 csv파일로 Import시켜야 하는 걸까요?
위 엑셀파일을 예로 들면, xlsx파일을 import시키면 D2셀에 적용된 함수인 B2&C2의 정보가 Import 됩니다. 원하는 데이터 형식은 함수가 적용되지 않은 값 자체이기 때문에 csv파일을 import시켜야됩니다.
csv파일은 import시키는 함수는
read.csv("경로/파일명.csv")입니다
여러데이터를 import시켜야 되는 경우 그때그때마다 경로를 써줘야하는 불편함이 있기때문에
저같은 경우는 항상 미리 경로 설정을 해줍니다.
getwd() 명령어를 쳐봅시다
그러면 현재 설정된 기본 데릭토리가 나옵니다.
이제 현재 작업폴더를 열어서 폴더의 디렉토리를 복사 해줍니다.
그리고 작업폴더를 기본 데릭토리로 설정하도록 하겠습니다.
복사한 디렉토리를 setwd() 안에 넣어줍시다.
저같은경우
위와 같은 화면이 나오는데 역슬래쉬를 슬래쉬 ( / ) 로 바꿔주셔야됩니다.
그리고 실행시켜주기 다시 getwd() 를 실행해주시면
데릭토리 설정이 바뀐것을 알수 있습니다.
list.files() # 해당 폴더안에있는 파일 목록들을 보여줍니다.
이제 결과.csv 파일을 Import시켜보도록 하겠습니다
위와 같은 코드로 Import시키면 됩니다. header=TRUE은, 데이타안에 칼럼 제목에 대해서 설정을 해주는 겁니다. true값은 제목이 있다는 얘기입니다.
stringsAsFactors는 데이터 값이 factor이냐를 설정해주는 건데, factor에 대해서는 추후에 설명 하도록 하겠습니다. 일단은 저 옵션은 기본적으로 넣어주신다고 생각하시면 되겠습니다.
결과.csv 파일을 result라는 변수명에 넣으라는 얘기이고
result자체를 실행하면 result안에 data내용을 보여줍니다.
str(result) ## str(자신의파일을 넣은 변수)
haed(result) ## head(자신의파일을 넣은 변수)
class(result) ## head(자신의파일을 넣은 변수)
를 실행해봅시다.
head() 는 해당 데이터의 가장 위에 위치한 데이터 몇개를 보여줍니다. Data가 제대로 Import되었는지 확인 하기위해 쓰입니다.
str() 은 해당 데이터의 간단한 구조를 보여줍니다. (structure의 약자입니다.)
위 같은경우는 result라는 변수는 data.frame의 형태이고 77개의 관측치, 4개의 변수를 가지고 있고 'X'변수 '실제'변수는 int(정수)형태, '영판단확률'변수 '일판단확률'변수는 num(숫자)형태인것을 알수 있습니다.
class(변수) 는 해당 변수의 class를 보여줍니다. result는 dataframe 형태인것을 알수 있습니다. 보통 data를 Import 시킬때는 head()와, str()을 항상 사용해서 제대로 Import가 됬는지 꼭 확인해 줍시다.
'IT기술 관련 > 빅데이터 관련' 카테고리의 다른 글
[Rstudio] Rstudio (치명적 오류: 접근 거부 - Fatal error: access denied) 해결 (3) | 2016.03.14 |
---|---|
[R 프로그래밍] R의 데이터 구조 (0) | 2016.02.23 |
데이터 마이닝 vs 텍스트 마이닝 (0) | 2016.01.22 |
기존 데이터 분석 vs 빅데이터 분석 (0) | 2016.01.22 |
맵리듀스(MapReduce)란? -2- (0) | 2016.01.22 |