일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- pandas
- SQL
- word2vec
- 데이터
- R시각화
- ggplot
- lstm
- r
- 빅데이터
- 그래프
- NLP
- CNN
- 기계학습
- R그래프
- HIVE
- 주가예측
- 데이터분석
- 그래프시각화
- 빅데이터처리
- AI
- 하둡
- 자연어처리
- Deeplearning
- 데이터시각화
- 딥러닝
- Hadoop
- 머신러닝
- Python
- 데이터처리
- R프로그래밍
- Today
- Total
목록데이터분석/Python : Basic (5)
욱이의 냉철한 공부
1. GroupBy => 그룹연산 : Split 분리 - Apply 적용 - Combine 결합 그룹의 색인은 다양한 형태가 될 수 있으며, 모두 같은 타입일 필요도 없다. . 그룹으로 묶을 축과 같은 길이의 리스트나 배열 . DataFrame의 칼럼 이름을 지칭하는 값 . 그룹으로 묶을 값과 그룹 이름에 대응하는 사전이나 Series 객체 . 축 색인 혹은 색인 내의 개별 이름에 대해 실행되는 함수 df = DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'], 'key2' : ['one', 'two', 'one', 'two', 'one'], 'data1' : np.random.randn(5), 'data2' : np.random.randn(5)}) 1. grouped = ..
1. 데이터베이스처럼 DataFrame 합치기. - merging (병합) df1 = pd.DataFrame({"key" : list("bbacaab"), "data1":range(7)}) df2 = pd.DataFrame({"key" : list("abd"), "data1":range(3)}) pd.merge(df1,df2,on="key") pd.merge(df1,df2,on="key",how="outer") pd.merge(df1,df2,on="key",how="left") pd.merge(df1,df2,on="key",how="right") pd.merge(df1,df2,on="key",how="inner") pd.merge(left, right, on='key', suffixes=('_left',..
Series 1. pandas, numpy 라이브러리 추출하기. import pandas as pd import numpy as np 2. series 만들기, 속성 obj = pd.Series([4,7,-5,3]) obj.values : 시리즈의 값만을 array로 표현 obj.index : 인덱스 값만을 표현 obj.dtypes : int라는 것을 확인 -원하는 인덱스 대입할 수 있다. obj2 = pd.Series([4,7,-5,3],index=["d","b","a","c"]) - 딕션어리 형태로도 만들 수 있다. sdata = {"charles" : 35000, "kilho" : 71000, "hayoung" : 16000, "sangjae":5000} obj3 = pd.Series(sdata) ..
1 .NumPy, ndarray - NumPy에는 N차원의 배열 객체인 ndarray가 있고 파이썬에서 사용할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조이다. - 모든 원소는 같은 자료형 2. NumPy 객체 만드는 방법 및 함수 - import numpy as np : numpy 라이브러리를 호출 - data = np.arrange(10) : 파이썬의 range 함수의 배열 버전이다. 리스트 대신 ndarray를 반환한다. - data = [[1,2,3,4],[5,6,7,8]] arr = np.array[data] - data = np.zeros(10) : 0 반환, 0으로 초기화 하는 것이다. , 누적합 구할 때 자주 사용. data = np.zeros((3,6)) - dat..
1. 데이터 분석을 위해 파이썬을 왜 배우는가? - interpreter 언어로 분석과정의 결과를 빠르게 확인 할 수 있다. - 다양한 데이터 분석 라이브러리를 제공한다. - 다양한 목적으로 범용적 사용이 가능하며 확장성이 좋다. - R보다 더 대용량 데이터를 빠르게 다룰 수 있다. - 버젼마다 사용할 수 있는 패키지가 다른 R보다 편리하다. - 무료이다. 2. Python 특징 - 반복 : 반복문을 사용하지 않고 내부에서 반복연산을 하게 해주는 언어 (vecterization) - 배정 : Python의 데이터타입은 동적변수로서 매번 바뀐다. - 뭉탱이(데이터를 집어넣는 공간) 사용 : tuple, list, dictionary, set 뭉탱이 안에 뭉탱이를 집어 넣을 수 있다. 가변형태이며 뭉탱이 안..