본문 바로가기
R

R 데이터 분석 파일 읽기 / 히스토그램 (histogram) / boxplot

by 자유코딩 2017. 12. 9.

R 데이터 분석 파일 읽기 / 히스토그램 (histogram) / boxplot

 

안녕하세요 이번 글에는 R로 데이터 파일을 읽은 후 , boxplot과 히스토그램을 출력하는 방법을 담았습니다.

 

글에서 사용된 데이터셋은 https://archive.ics.uci.edu/ml/datasets/Dow+Jones+Index

 

UCI Machine Learning Repository에서 다운로드 받았습니다.

 

 

 

R에서 CSV 파일 읽기

 

 

파일 경로 , header=T, sep="," 순서로 read.csv 함수 안에 입력하면 된다.

 

header = T 와 sep=" , " 는 파일을 읽는 옵션인데, header = T 를 설정하면 데이터 셋의 맨 위 부분을 속성 이름으로 인식한다.

 

sep은 데이터가 구분 되어 있는 규칙을 말한다. sep = " , "로 옵션을 작성하면 , 가 나타나는 부분에서 데이터를 끊어 읽는다.

 

데이터 셋 사진

 

Environment 창에서 읽은 데이터를 확인 할 수 있습니다.

 

데이터 요약하기 (summary)

 

R에서는 summary 함수를 사용해서 데이터의 기본적인 특성을 알아낼 수 있습니다.

 

 

summary(읽은 데이터 이름) 함수를 사용하면 사분위수 , 평균 , 중앙값 등의 기본적인 데이터 특성을 알 수 있습니다.

※여기서는 읽은 데이터 이름이 data입니다.

 

히스토그램 (histogram) 출력하기

 

히스토그램이란 

히스토그램(histogram)은 표로 되어 있는 도수 분포를 정보 그림으로 나타낸 것이다. 더 간단하게 말하면, 도수분포표그래프로 나타낸 것이다. 보통 히스토그램에서는 가로축이 계급, 세로축이 도수를 뜻하는데, 때때로 반대로 그리기도 한다. 계급은 보통 변수의 구간이고, 서로 겹치지 않는다. 그림에서 계급(막대기)끼리는 서로 붙어 있어야 한다. 히스토그램은 일반 막대그래프와는 다르다. 막대그래프는 계급 즉 가로를 생각하지 않고 세로의 높이로만 나타내지만 히스토그램은 가로와 세로를 함께 생각해야 한다.

출처 : 위키백과 (https://ko.wikipedia.org/wiki/%ED%9E%88%EC%8A%A4%ED%86%A0%EA%B7%B8%EB%9E%A8)

 

읽은 데이터 셋의 히스토그램을 출력해보도록 하겠습니다.

 

 

화면

 

 

hist(데이터이름 $ 속성이름)

 

개별 속성에 대해서 데이터이름$속성이름 을 적으면 히스토그램을 출력 할 수 있습니다.

 

boxplot 출력하기

 

 

이번 글은 R에서 데이터를 읽고 히스토그램과 boxplot을 출력하는 방법에 대한 내용입니다.

 

jswoo030@gmail.com으로 질문을 보내시면 빠른 답변을 받으실 수 있습니다.

 

댓글