욱이의 냉철한 공부

[Python, 정리] 데이터 타입 이해하기 본문

데이터분석/Python : Basic

[Python, 정리] 데이터 타입 이해하기

냉철한 욱 2022. 3. 28. 07:43

 

1. 데이터 분석을 위해 파이썬을 왜 배우는가?
-  interpreter 언어로 분석과정의 결과를 빠르게 확인 할 수 있다.
- 다양한 데이터 분석 라이브러리를 제공한다.
- 다양한 목적으로 범용적 사용이 가능하며 확장성이 좋다.
- R보다 더 대용량 데이터를 빠르게 다룰 수 있다.
- 버젼마다 사용할 수 있는 패키지가 다른 R보다 편리하다.
- 무료이다.


2. Python 특징
- 반복 : 반복문을 사용하지 않고 내부에서 반복연산을 하게 해주는 언어 (vecterization)
- 배정 : Python의 데이터타입은 동적변수로서 매번 바뀐다.
- 뭉탱이(데이터를 집어넣는 공간) 사용 : 
   tuple, list, dictionary, set
   뭉탱이 안에 뭉탱이를 집어 넣을 수 있다.
   가변형태이며 뭉탱이 안에 뭉탱이는 다 다른 데이터 타입이다. 


3. 뭉탱이 1 - list
- 데이터 분석에서 사용목적 : 데이터베이스에서 데이터 가지고 올 때 한 개의 리스트 타입으로 처리한다.
- 뭐든지 다 담을 수 있는 공간이다. 문자, 숫자, 참, 거짓 전부 담을 수 있다.
- 공간을 여러 개 붙여놓은 것


4. 뭉탱이 2 - tuple (튜플)
- 데이터 분석에서 사용목적 : 데이터베이스에서 데이터 가져왔는데 실수로 데이터 삭제하면 어떻게 할까?
  삭제를 못하게 하는 뭉탱이가 튜플이다.
- 튜플은 수정하지 못하는 것이 아니라 관련 속성이 없는 것이다. 튜플이라는 속성에서는 추가, 삽입, 삭제 라는 메소드가 없다.
- 데이터를 프로그램 시작해서 끝낼 때까지 그대로 유지하고 싶으면 사용해라!


5. 뭉탱이 3 - dictionary
- 데이터 분석에서 사용목적 : 웹에서 데이터를 가져왔다. 보통이 반구조형 데이터타입인 json 타입이며 이것은 key와 value 형태로 되어 있는 dictionary를 사용한다.
- dictionary 안에다가 다른 뭉탱이를 집어넣을 수 있다. 


6. 뭉탱이 4 - set
- 그냥 만들면 dictionary 형태
- 중복허가 하지 않는다.

7. numpy - ndarray

8. pandas - series

9. pandas - dataframe
- pandas 라이브러리를 사용한 데이터프레임 타입이다.
- 기본적으로 데이터 가져올 때 리스트, 튜플, 딕션어리를 사용해서 가져온다.
- 인덱스 옵션이 있다.