욱이의 냉철한 공부

[R, 시각화, 패키지] ggplot 패키지 사용하여 이쁘게 그래프 그리기1 - geom_point(), geom_smooth() 본문

데이터분석/R

[R, 시각화, 패키지] ggplot 패키지 사용하여 이쁘게 그래프 그리기1 - geom_point(), geom_smooth()

냉철한 욱 2021. 6. 28. 05:41

 

* 예시로 사용할 데이터 셋

mpg : 자동차 234종에 대한 데이터입니다. 총 234행 11열(변수)로 이루어져 있습니다.

변수명 내용 변수명 내용
manufacturer 제조회사 model 자동차 모델명
dispal 배기량 year 생산연도
cyl 실린더 개수 trans 변속기 종류
drv 구동 방식 cty 도시 연비
hwy 고속도로 연비 fl 연료 종류
class 자동차 종류

 


 

 

1. ggplot 패키지 설치 및 데이터 셋 확인

- ggplot2패키지는 ggplot패키지의 업데이트된 버젼이다.

- ggplot2패키지 내에 있는 mpg 데이터셋 객체를 불러와 데이터 프레임으로 만든다.

- ggplot2::mpg는 ggplot2에 들어있는 mpg 데이터를 지칭하는 코드

- ::를 이용하면 특정 패키지에 들어 있는 함수나 데이터를 지정할 수 있다.

 

- mpg 데이터 셋을 확인 해 본다

 

 

 

 

 

 

2. ggplot(), geom_point(), Aesthetics(미학요소)설명

양식 : ggplot(data = <DATA>) + <GEOM_FUNCTION>(mapping=aes(<MAPPINGS>))

1) 기본

- ggplot2 패키지에서 대표적인 함수는 ggplot과 qplot이다. 우리는 ggplot을 마스터한다.

- ggplot() 함수는 무슨 데이터를 사용 할지 정하고 그래프 그릴 준비를 활성화 한다고 생각하면 된다

- geom_point() 함수는 구체적으로 무었을 그릴지 명령한다고 생각하면 된다.

- aes(미학요소)함수 가장 중요하다. x축, y축 및 색 등의 미학요소를 설정한다.

2) 여러가지 미학요소 사용하기

- #2는  미학요소를 설정하였다. year변수의 값에 따라 색이 달라지는 것을 확인 할 수 있다.

다만 펙터만 분류를 받아들이기 때문에 펙터로 변환시켰다.

- #3은 크기 미학요소를 설정하였다. cty변수의 값에 따라 크기가 달라지는 것을 확인 할 수 있다.

- #4은 투명도 미학요소를 설정하였다. cty변수의 값에 따라 투명도가 달라지는 것을 확인 할 수 있다.

- #5은 모양 미학요소를 설정하였다. fl변수의 값에 따라 모양이 달라지는 것을 확인 할 수 있다.

- #6은 크기 미학요소와  미학요소를 설정하였다. cty변수에 따라 크기, class변수에 따라 색이 달라지는 것을 확인 할 수 있다.

 

3) aes() 함수 밖에 설정하면 미학요소를 수동으로 설정

- 첫 번째 그래프는 aes() 함수 밖, 즉 geom_point() 함수의 인자로 color를 사용하였다.

여기는 다른 변수에 따라 자동 변화하는 것이 아니라 본인이 원하는 색을 직접 전체 설정 하는 것이다.

- 두 번째 그래프에서 shape는 점의 모양, color인자는 점 테두리 색, fill인자는 점 안의 색이다.

- shape = 24에서 숫자의 의미는 아래 표에 나와있다.

 

 

 

 

3. ggplot(), geom_smooth()

- geom_point() 와 사용방법 비슷하다.

- #2는 그룹을 설정하였다. year변수에 따라 그룹으로 나누어져서 그래프를 그린다는 것을 확인할 수 있다

다만 펙터만 분류를 받아들이기 때문에 펙터로 변환시켰다.

- #3은 그룹별 색 미학요소를 설정하였다. drv변수의 값에 따라 색이 달라지는 것을 확인 할 수 있다.

- #4은 그룹별 선 모양 미학요소를 설정하였다. drv변수에 값에 따라 선 모양이 달라지는 것을 확인 할 수 있다.

 

 

 

 

 

 

4. 복수의 geom함수 사용

- 복수의 geom함수를 사용 할 수 있다.

- 방법이 여러가지가 있다.

- 다른방법1 처럼 geom_point(), geom_smooth() 함수에 중복해서 쓰이는 미학요소를 ggplot() 함수에 한 번으로 설정 할 수 있다.

- 다른방법2는 ggplot() 함수를 변수에 저장하여 재사용성을 높일 수 있다.

- 위 3가지 방법으로 그려진 그래프는 동일하다.

 

 

 

 

 

5. 응용 동작

- 이렇게 원하는 미학요소를 잘 설정하여 이쁘게 그래프를 그릴 수 있다.

* 기본 그래프 vs ggplot 그래프

- 기본 그래프는 본인이 데이터 분석의 데이터를 탐색하는 과정에서 빠르게 시각화 하기 위해 주로 사용한다.

- 이쁜 ggplot 그래프는 당연히 남에게 이쁘게 보여주기 위해서 주로 사용한다.