욱이의 냉철한 공부

[R, 크롤링, 패키지] XML 패키지 사용하여 웹에서 그래프 가져오기 본문

데이터분석/R

[R, 크롤링, 패키지] XML 패키지 사용하여 웹에서 그래프 가져오기

냉철한 욱 2021. 6. 28. 06:16

 

R에서 XML 패키지를 사용하면 웹에서 쉽게 그래프를 크롤링 할 수 있어요~!

 

크롤링 함수를 알아볼께요~!

 

 


 

 

1. 패키지 설치

- XML 패키지를 설치한다.

 

 

 

2. 도표(Table) 가져오기

- 본인은 스포츠 통계 사이트에 들어가서 빨간색 박스의 '프리미어리그 최근 경기 결과 도표' 를 크롤링 하겠다.

해당링크 : http://www.betstudy.com/soccer-stats/c/england/premier-league/2017-2018/

- 도표가 있는 크롤링 할 사이트의 링크를 입력한다.

XML 패키지 readHTMLTable() 함수에 주소링크를 입력한다.

- length() 함수를 통해 몇 개의 테이블을 R로 가져왔는지 확인한다.

- 빨간색 박스를 통해 원하는 표를 크롤링 했다는 것을 확인 할 수 있다.

 

- 해당 크롤링해서 담은 변수 pop_table이 list 데이터타입이라는 것을 확인 할 수 있다.

리스트 안에는 표 하나씩 데이터프레임으로 저장되어 있다.

 

 

 

3. 테이블 위치 지정하여 크롤링하기

readHTMLTable()함수의 which 인자를 이용하여 리스트 안에 있는 순서에 맞게 표를 가져올 수 있다.

which=3으로 설정되어 있기 때문에, 3번째 본인이 가져오고 싶은 '프리미어리그 최근 경기 결과 도표' 를 가져왔다.

- 가져온 표가 R에서 데이터프레임 데이터타입이라는 것을 확인 할 수 있다.