본문 바로가기

R Programming

[R Programming] R 데이터 생성 (불러들이기) - Week 3-1

GIST에서 공개하는 청년 AI. Big Data 아카데미 온라인 기초과정 빅데이터 분석과 R프로그래밍 강의를 참고하였다.

 

R Studio를 실행하여 실습을 해본다.

 

외부의 파일을 사용하여 데이터를 불러들이는 작업을 해보겠다.

그러기 위해서는 우선 파일이 저장된 경로를 설정해주어야 한다.

setwd("지정 경로")

setwd() 함수는 작업 폴더를 지정해주는 명령이다. 작업 폴더를 지정해주면 그 폴더 내의 파일의 이름으로 데이터를 불러들일 수 있다. getwd()로 현재 지정된 작업 폴더를 확인할 수 있다.

 

파일 읽어오기는 read함수를 사용해서 읽어올 수 있다. 파일의 종류를 뒤의 옵션으로 하여 확장자가 csv인파일, txt인파일 등을 불러올 수 있다. 강의에서는 확장자명이 xls인 파일일 경우에는 csv로 저장한 다음에 불러들이는 게 편하다고 한다.

1
2
3
4
5
6
7
brain<-read.csv("brain2210.csv")
head(brain)
dim(brain)
 
car<-read.table(file="autompg.txt", na=" ", header=TRUE)
head(car)
dim(car)
 
cs

왼쪽에는 csv파일을 읽어서 보았고, 오른쪽은 txt 파일을 읽어보았다. 여기서 head함수와 dim함수가 사용된 것을 볼 수 있다. head 함수는 데이터의 첫 번 재부터 6번째까지 줄을 프린트 해주는 함수이다. dim함수는 데이터 관측 치수와 변수의 개수를 알려준다. brain 벡터에는 185개의 데이터가 들어가 있고, 이 데이터는 2개의 변수를 들고있는 것을 볼 수 있다. car 벡터에는 398개의 데이터가 들어가있고, 9개의 변수가 있는 것을 볼 수 있다.

 

attach함수는 데이터를 사용할 때 데이터 이름을 따로 지정해주지 않아 유용하다.

1
2
3
4
5
table(brain$sex)
attach(brain)
table(sex)
hist(wt)
detach(brain)
cs

table 함수는 빈도수를 구하기 위해서 사용하는 함수이다.

첫 줄에는 table함수를 사용할 때 brain벡터의 sex변수의 빈도수를 구한다는 명령을 사용하여 결과를 보았다. (벡터$변수) 이제 attach함수를 사용하여 brain을 지정해주면 따로 데이터 이름을 지정해주지 않아도 sex변수를 이해하고 table 함수를 실행하는 것을 알 수 있다.

hist함수는 히스토그램을 보여주는 함수이다.

hist(wt)명렁도 attach함수로 brain의 wt변수가 지정돼 있기 때문에 실행이 될 수 있었다.

detach함수를 사용하면 attach 된 데이터를 해제할 수 있다.