'데이터분석' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록데이터분석 (28)

욱이의 냉철한 공부

[Python, 정리] Pandas - 데이터 그룹연산

1. GroupBy => 그룹연산 : Split 분리 - Apply 적용 - Combine 결합 그룹의 색인은 다양한 형태가 될 수 있으며, 모두 같은 타입일 필요도 없다. . 그룹으로 묶을 축과 같은 길이의 리스트나 배열 . DataFrame의 칼럼 이름을 지칭하는 값 . 그룹으로 묶을 값과 그룹 이름에 대응하는 사전이나 Series 객체 . 축 색인 혹은 색인 내의 개별 이름에 대해 실행되는 함수 df = DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'], 'key2' : ['one', 'two', 'one', 'two', 'one'], 'data1' : np.random.randn(5), 'data2' : np.random.randn(5)}) 1. grouped = ..

데이터분석/Python : Basic 2022. 3. 28. 08:12

[Python, 정리] Pandas - 데이터 처리

1. 데이터베이스처럼 DataFrame 합치기. - merging (병합) df1 = pd.DataFrame({"key" : list("bbacaab"), "data1":range(7)}) df2 = pd.DataFrame({"key" : list("abd"), "data1":range(3)}) pd.merge(df1,df2,on="key") pd.merge(df1,df2,on="key",how="outer") pd.merge(df1,df2,on="key",how="left") pd.merge(df1,df2,on="key",how="right") pd.merge(df1,df2,on="key",how="inner") pd.merge(left, right, on='key', suffixes=('_left',..

데이터분석/Python : Basic 2022. 3. 28. 08:05

[Python] pandas 사용하기

Series 1. pandas, numpy 라이브러리 추출하기. import pandas as pd import numpy as np 2. series 만들기, 속성 obj = pd.Series([4,7,-5,3]) obj.values : 시리즈의 값만을 array로 표현 obj.index : 인덱스 값만을 표현 obj.dtypes : int라는 것을 확인 -원하는 인덱스 대입할 수 있다. obj2 = pd.Series([4,7,-5,3],index=["d","b","a","c"]) - 딕션어리 형태로도 만들 수 있다. sdata = {"charles" : 35000, "kilho" : 71000, "hayoung" : 16000, "sangjae":5000} obj3 = pd.Series(sdata) ..

데이터분석/Python : Basic 2022. 3. 28. 07:58

[Python, 정리] Numpy 사용하기

1 .NumPy, ndarray - NumPy에는 N차원의 배열 객체인 ndarray가 있고 파이썬에서 사용할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조이다. - 모든 원소는 같은 자료형 2. NumPy 객체 만드는 방법 및 함수 - import numpy as np : numpy 라이브러리를 호출 - data = np.arrange(10) : 파이썬의 range 함수의 배열 버전이다. 리스트 대신 ndarray를 반환한다. - data = [[1,2,3,4],[5,6,7,8]] arr = np.array[data] - data = np.zeros(10) : 0 반환, 0으로 초기화 하는 것이다. , 누적합 구할 때 자주 사용. data = np.zeros((3,6)) - dat..

데이터분석/Python : Basic 2022. 3. 28. 07:48

[Python, 정리] 데이터 타입 이해하기

1. 데이터 분석을 위해 파이썬을 왜 배우는가? - interpreter 언어로 분석과정의 결과를 빠르게 확인 할 수 있다. - 다양한 데이터 분석 라이브러리를 제공한다. - 다양한 목적으로 범용적 사용이 가능하며 확장성이 좋다. - R보다 더 대용량 데이터를 빠르게 다룰 수 있다. - 버젼마다 사용할 수 있는 패키지가 다른 R보다 편리하다. - 무료이다. 2. Python 특징 - 반복 : 반복문을 사용하지 않고 내부에서 반복연산을 하게 해주는 언어 (vecterization) - 배정 : Python의 데이터타입은 동적변수로서 매번 바뀐다. - 뭉탱이(데이터를 집어넣는 공간) 사용 : tuple, list, dictionary, set 뭉탱이 안에 뭉탱이를 집어 넣을 수 있다. 가변형태이며 뭉탱이 안..

데이터분석/Python : Basic 2022. 3. 28. 07:43

[R, DB연동] MySQL과 연동하여 R에서 SQL 사용하기

* ORACLE과 연동하기 전에 이해하고 해야 할 것이 있다. 1. rJava : 이 패키지로 자바에 있는 리소스를 가져 올 수 있다. 즉 rjdbc를 사용할 수 있다. 이러한 패키지를 사용하기 위해서는 jdk가 필요하다. 그래서 보통 R을 설치하기 전에 자바를 설치한다. 2. rjdbc : R하고 자바가 설치되어 있어야 사용할 수 있다. 모든 데이터베이스하고 연동하게 해준다. 3. mysql-connector-java-5.1.38-bin.jar jar 파일은 자바패키지 파일 덩어리이다. DB연동을 위해 mysql-connector-java-5.1.38-bin.jar에 있는 패키지를 사용할 것이다. 1. MySQL 연결 - JDBC() 함수를 사용하여 자바패키지를 사용한다. - 자바패키지를 사용할 수 있..

데이터분석/R 2021. 6. 28. 06:33

[R, 시각화, 패키지] googleVis 패키지 사용하여 구글 그래프 그리기

* 우리가 R을 쓰는 이유 : 시각화, 통계 패키지를 비롯하여 수많은 패키지 + 다른 언어, 툴과 연결 https://warm-uk.tistory.com/64?category=810499 [R, 정리] R의 특징과 장점, 사용이유 R은 제가 가장 자주, 잘 사용하는 툴이자 언어에요. 처음 데이터 공부를 R로 시작했기 때문에 그런 것일지도 모릅니다. Python을 자주 사용하면서 익히고 싶지만.. 아직 스몰데이터만 만져본 저에 warm-uk.tistory.com * 구글 그래프 - 자바스크립 이용한 기술이다. - 구글이 만든 무빙 그래프(설정에 의해서 움직이는 그래프) ,인터랙티브 그래프(마우스 움직임에 반응해 실시간으로 형태가 변하는 그래프) - R은 수많은 언어와 화합할 수 있고, R을 이용하여 자바스..

데이터분석/R 2021. 6. 28. 06:28

[R, 시각화, 패키지] ggmap 패키지 사용하여 지도 그리기(R까기)

제가 블로그에 올리는 R 내용은 제가 학교 수업, 국비 수업, 책, 구글링, 프로젝트를 통해 습득했던 내용을 요약 정리해서 웬만하면 다른 데이터에 적용해서 포스팅 하고 있어요. (현재 기준으로 아직 워드클라우드, 데이터마이닝 패키지들, 구글그래프, 텍스트클러스터링, shiny 등등 .. 포스팅 할 것이 많네용 ) ggmap 패키지는 책 R까기의 내용을 실행하는 것을 올리도록 할께요~! 개인적으로 책으로 R에 입문할 때, (R 관련 책을 많이 읽어 본 건 아니지만...) R까기, R까기2 가 가장 좋은 책 같아요. R까기는 시각화 위주로 나왔고, R까기2는 R에서 기본적으로 사용할 수 있는 데이터 처리, 시각화, 통계적인 부분 이해하기 쉽게 쓰여진 책이에요 1. 지도 그리는 ggmap패키지 사용하기. * ..

데이터분석/R 2021. 6. 28. 06:23

이전 Prev 1 2 3 4 Next 다음

목록데이터분석 (28)

욱이의 냉철한 공부

티스토리툴바