일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- AI
- R그래프
- 빅데이터
- 딥러닝
- 주가예측
- word2vec
- 데이터처리
- 데이터
- 그래프
- Deeplearning
- 빅데이터처리
- 머신러닝
- 데이터시각화
- 자연어처리
- r
- 그래프시각화
- pandas
- 데이터분석
- 하둡
- ggplot
- HIVE
- SQL
- Python
- Hadoop
- 기계학습
- R시각화
- CNN
- NLP
- R프로그래밍
- lstm
- Today
- Total
목록전체 글 (91)
욱이의 냉철한 공부
1. Transfer learning 개념 적은 이미지 데이터 세트에서 딥러닝을 적용하기 위한 효과적인 방법은 전이학습이다. 전이학습은 높은 정확도를 비교적 짧은 시간 내에 달성할 수 있게 해주기 때문에 컴퓨터 비전 분야에서 널리 쓰이는 방법론이다. 일반적으로 대규모 이미지 데이터 세트에서 사전 훈련된 DCNN 모델을 새로운 task에 적합하도록 수정하여 활용한다. 그림 10과 같이 기존 DCNN 모델에서는 하위계층이 일반적인 특징을 추출하도록 학습이 이루어지고, 상위계층은 특정 문제에서만 나타날 수 있는 구체적인 특징을 추출하도록 학습되어 졌다. 전이학습 시 하위계층들은 일반적으로 재사용될 수 있지만, 상위계층은 데이터 크기와 유사성에 따라 재학습이 필요하다. 전이학습을 진행하는 방법은 그림 11처럼 ..
* 출저 본 개념정리는 제 지도교수님이신 연세대학교 정보대학원 김하영 교수님 수업과 Andrew 교수님의 Coursera 수업을 통해 얻은 정보를 통해 정리했습니다. 자료는 대부분 Andrew 교수님의 Coursera 수업자료입니다. 1. Error Analysis 1) Carrying out error analysis - examples 확인 강아지를 고양이로 잘못 카테고리화 한 경우 찾는다. * 선택 10% error : 100장 중 50장이 mislabeled라면 수정하는 것이 가치가 있을 수 있다. ex) 100장 중 강아지를 고양이로 잘못 분류한 경우가 50장! - parallel 방식의 error analysis - 요약 요약하자면, 오류 분석을 실행하는데에는 먼저 dev set나 devleo..
* 출저 본 개념정리는 제 지도교수님이신 연세대학교 정보대학원 김하영 교수님 수업과 Andrew 교수님의 Coursera 수업을 통해 얻은 정보를 통해 정리했습니다. 자료는 대부분 Andrew 교수님의 Coursera 수업자료입니다. 1. Introduction to ML Strategy 1) Why ML Strategy? 2) Orthogonalization 2. Setting up your goal 1). Single number evaluation metric - idea – code – experiment - 다양한 평가지표 평가지표 : Precision, Recall 새로운 평가지표 : F1 score 또 다른 방법 : 알고리즘 대륙 전체 평균 2). Satisf..
1. GroupBy => 그룹연산 : Split 분리 - Apply 적용 - Combine 결합 그룹의 색인은 다양한 형태가 될 수 있으며, 모두 같은 타입일 필요도 없다. . 그룹으로 묶을 축과 같은 길이의 리스트나 배열 . DataFrame의 칼럼 이름을 지칭하는 값 . 그룹으로 묶을 값과 그룹 이름에 대응하는 사전이나 Series 객체 . 축 색인 혹은 색인 내의 개별 이름에 대해 실행되는 함수 df = DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'], 'key2' : ['one', 'two', 'one', 'two', 'one'], 'data1' : np.random.randn(5), 'data2' : np.random.randn(5)}) 1. grouped = ..
1. 데이터베이스처럼 DataFrame 합치기. - merging (병합) df1 = pd.DataFrame({"key" : list("bbacaab"), "data1":range(7)}) df2 = pd.DataFrame({"key" : list("abd"), "data1":range(3)}) pd.merge(df1,df2,on="key") pd.merge(df1,df2,on="key",how="outer") pd.merge(df1,df2,on="key",how="left") pd.merge(df1,df2,on="key",how="right") pd.merge(df1,df2,on="key",how="inner") pd.merge(left, right, on='key', suffixes=('_left',..
Series 1. pandas, numpy 라이브러리 추출하기. import pandas as pd import numpy as np 2. series 만들기, 속성 obj = pd.Series([4,7,-5,3]) obj.values : 시리즈의 값만을 array로 표현 obj.index : 인덱스 값만을 표현 obj.dtypes : int라는 것을 확인 -원하는 인덱스 대입할 수 있다. obj2 = pd.Series([4,7,-5,3],index=["d","b","a","c"]) - 딕션어리 형태로도 만들 수 있다. sdata = {"charles" : 35000, "kilho" : 71000, "hayoung" : 16000, "sangjae":5000} obj3 = pd.Series(sdata) ..
1 .NumPy, ndarray - NumPy에는 N차원의 배열 객체인 ndarray가 있고 파이썬에서 사용할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조이다. - 모든 원소는 같은 자료형 2. NumPy 객체 만드는 방법 및 함수 - import numpy as np : numpy 라이브러리를 호출 - data = np.arrange(10) : 파이썬의 range 함수의 배열 버전이다. 리스트 대신 ndarray를 반환한다. - data = [[1,2,3,4],[5,6,7,8]] arr = np.array[data] - data = np.zeros(10) : 0 반환, 0으로 초기화 하는 것이다. , 누적합 구할 때 자주 사용. data = np.zeros((3,6)) - dat..
1. 데이터 분석을 위해 파이썬을 왜 배우는가? - interpreter 언어로 분석과정의 결과를 빠르게 확인 할 수 있다. - 다양한 데이터 분석 라이브러리를 제공한다. - 다양한 목적으로 범용적 사용이 가능하며 확장성이 좋다. - R보다 더 대용량 데이터를 빠르게 다룰 수 있다. - 버젼마다 사용할 수 있는 패키지가 다른 R보다 편리하다. - 무료이다. 2. Python 특징 - 반복 : 반복문을 사용하지 않고 내부에서 반복연산을 하게 해주는 언어 (vecterization) - 배정 : Python의 데이터타입은 동적변수로서 매번 바뀐다. - 뭉탱이(데이터를 집어넣는 공간) 사용 : tuple, list, dictionary, set 뭉탱이 안에 뭉탱이를 집어 넣을 수 있다. 가변형태이며 뭉탱이 안..