일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- word2vec
- lstm
- 그래프시각화
- Python
- 하둡
- HIVE
- 자연어처리
- 딥러닝
- pandas
- 주가예측
- R시각화
- R프로그래밍
- 그래프
- 데이터시각화
- 데이터처리
- AI
- 데이터분석
- Hadoop
- ggplot
- 기계학습
- 빅데이터처리
- R그래프
- r
- NLP
- CNN
- Deeplearning
- 데이터
- 빅데이터
- 머신러닝
- SQL
- Today
- Total
목록데이터분석 (28)
욱이의 냉철한 공부
1. GroupBy => 그룹연산 : Split 분리 - Apply 적용 - Combine 결합 그룹의 색인은 다양한 형태가 될 수 있으며, 모두 같은 타입일 필요도 없다. . 그룹으로 묶을 축과 같은 길이의 리스트나 배열 . DataFrame의 칼럼 이름을 지칭하는 값 . 그룹으로 묶을 값과 그룹 이름에 대응하는 사전이나 Series 객체 . 축 색인 혹은 색인 내의 개별 이름에 대해 실행되는 함수 df = DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'], 'key2' : ['one', 'two', 'one', 'two', 'one'], 'data1' : np.random.randn(5), 'data2' : np.random.randn(5)}) 1. grouped = ..
1. 데이터베이스처럼 DataFrame 합치기. - merging (병합) df1 = pd.DataFrame({"key" : list("bbacaab"), "data1":range(7)}) df2 = pd.DataFrame({"key" : list("abd"), "data1":range(3)}) pd.merge(df1,df2,on="key") pd.merge(df1,df2,on="key",how="outer") pd.merge(df1,df2,on="key",how="left") pd.merge(df1,df2,on="key",how="right") pd.merge(df1,df2,on="key",how="inner") pd.merge(left, right, on='key', suffixes=('_left',..
Series 1. pandas, numpy 라이브러리 추출하기. import pandas as pd import numpy as np 2. series 만들기, 속성 obj = pd.Series([4,7,-5,3]) obj.values : 시리즈의 값만을 array로 표현 obj.index : 인덱스 값만을 표현 obj.dtypes : int라는 것을 확인 -원하는 인덱스 대입할 수 있다. obj2 = pd.Series([4,7,-5,3],index=["d","b","a","c"]) - 딕션어리 형태로도 만들 수 있다. sdata = {"charles" : 35000, "kilho" : 71000, "hayoung" : 16000, "sangjae":5000} obj3 = pd.Series(sdata) ..
1 .NumPy, ndarray - NumPy에는 N차원의 배열 객체인 ndarray가 있고 파이썬에서 사용할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조이다. - 모든 원소는 같은 자료형 2. NumPy 객체 만드는 방법 및 함수 - import numpy as np : numpy 라이브러리를 호출 - data = np.arrange(10) : 파이썬의 range 함수의 배열 버전이다. 리스트 대신 ndarray를 반환한다. - data = [[1,2,3,4],[5,6,7,8]] arr = np.array[data] - data = np.zeros(10) : 0 반환, 0으로 초기화 하는 것이다. , 누적합 구할 때 자주 사용. data = np.zeros((3,6)) - dat..
1. 데이터 분석을 위해 파이썬을 왜 배우는가? - interpreter 언어로 분석과정의 결과를 빠르게 확인 할 수 있다. - 다양한 데이터 분석 라이브러리를 제공한다. - 다양한 목적으로 범용적 사용이 가능하며 확장성이 좋다. - R보다 더 대용량 데이터를 빠르게 다룰 수 있다. - 버젼마다 사용할 수 있는 패키지가 다른 R보다 편리하다. - 무료이다. 2. Python 특징 - 반복 : 반복문을 사용하지 않고 내부에서 반복연산을 하게 해주는 언어 (vecterization) - 배정 : Python의 데이터타입은 동적변수로서 매번 바뀐다. - 뭉탱이(데이터를 집어넣는 공간) 사용 : tuple, list, dictionary, set 뭉탱이 안에 뭉탱이를 집어 넣을 수 있다. 가변형태이며 뭉탱이 안..

* ORACLE과 연동하기 전에 이해하고 해야 할 것이 있다. 1. rJava : 이 패키지로 자바에 있는 리소스를 가져 올 수 있다. 즉 rjdbc를 사용할 수 있다. 이러한 패키지를 사용하기 위해서는 jdk가 필요하다. 그래서 보통 R을 설치하기 전에 자바를 설치한다. 2. rjdbc : R하고 자바가 설치되어 있어야 사용할 수 있다. 모든 데이터베이스하고 연동하게 해준다. 3. mysql-connector-java-5.1.38-bin.jar jar 파일은 자바패키지 파일 덩어리이다. DB연동을 위해 mysql-connector-java-5.1.38-bin.jar에 있는 패키지를 사용할 것이다. 1. MySQL 연결 - JDBC() 함수를 사용하여 자바패키지를 사용한다. - 자바패키지를 사용할 수 있..

* 우리가 R을 쓰는 이유 : 시각화, 통계 패키지를 비롯하여 수많은 패키지 + 다른 언어, 툴과 연결 https://warm-uk.tistory.com/64?category=810499 [R, 정리] R의 특징과 장점, 사용이유 R은 제가 가장 자주, 잘 사용하는 툴이자 언어에요. 처음 데이터 공부를 R로 시작했기 때문에 그런 것일지도 모릅니다. Python을 자주 사용하면서 익히고 싶지만.. 아직 스몰데이터만 만져본 저에 warm-uk.tistory.com * 구글 그래프 - 자바스크립 이용한 기술이다. - 구글이 만든 무빙 그래프(설정에 의해서 움직이는 그래프) ,인터랙티브 그래프(마우스 움직임에 반응해 실시간으로 형태가 변하는 그래프) - R은 수많은 언어와 화합할 수 있고, R을 이용하여 자바스..

제가 블로그에 올리는 R 내용은 제가 학교 수업, 국비 수업, 책, 구글링, 프로젝트를 통해 습득했던 내용을 요약 정리해서 웬만하면 다른 데이터에 적용해서 포스팅 하고 있어요. (현재 기준으로 아직 워드클라우드, 데이터마이닝 패키지들, 구글그래프, 텍스트클러스터링, shiny 등등 .. 포스팅 할 것이 많네용 ) ggmap 패키지는 책 R까기의 내용을 실행하는 것을 올리도록 할께요~! 개인적으로 책으로 R에 입문할 때, (R 관련 책을 많이 읽어 본 건 아니지만...) R까기, R까기2 가 가장 좋은 책 같아요. R까기는 시각화 위주로 나왔고, R까기2는 R에서 기본적으로 사용할 수 있는 데이터 처리, 시각화, 통계적인 부분 이해하기 쉽게 쓰여진 책이에요 1. 지도 그리는 ggmap패키지 사용하기. * ..