일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- word2vec
- 빅데이터처리
- R시각화
- 머신러닝
- 그래프시각화
- 주가예측
- R프로그래밍
- pandas
- 데이터
- 자연어처리
- lstm
- 딥러닝
- 데이터분석
- ggplot
- 그래프
- 빅데이터
- R그래프
- HIVE
- Hadoop
- 하둡
- 기계학습
- CNN
- r
- Deeplearning
- 데이터처리
- AI
- Python
- SQL
- 데이터시각화
- NLP
- Today
- Total
욱이의 냉철한 공부
[통계기초] 통계분석 : 통계적 추정 : 기술통계, 기본개념 본문
* 자료출저 및 참고강의
패스트캠퍼스 올인원 패키지(금융공학/퀀트) 장순용 강사님 인터넷 강의
명지대 산업경영공학과 이병기 교수님 품질관리 강의
* 목차
통계분석 : 기본개념(기술통계, 통계적추론)
1. 모집단과 표본
2. 기술통계
3. 통계적추론 : 전수조사와 표본조사
4. 통계적추론 : 표본추출 방법
5. 통계적추론 : 표본분포
6. 통계적추론 : 중심극한정리 (CLT : Central Limit Theorem)
1. 모집단과 표본
- 모집단(population)
통계 분석 대상 전체
- 표본(sample)
모집단에서 추출한 일부
ex) 대한민국 20세 이상 남성의 체질량 지수 BMI 평균을 구하기
이를 위해서 500명의 표본을 뽑아 조사한다.

2. 기술통계
- 기술통계
통계적 특성을 있는 그대로 묘사 : 표본을 요약, 통계량 계산
- 통계적 추론
표본의 특성을 가지고 모집단의 특성 즉 모수를 알아내는 것 : 일반화를 의미.
- 통계량

- 표본의 분산(Var), 공분산(Cov), 상관계수(Cor)


- 확률분포의 형상



- 분위수
α 분위수 xα는 누적확률이 α와 같은 지점을 일컫는다. (α는 0과 1사이의 수치)


데이터를 소-> 대 순서대로 정렬
정렬된 데이터를 x(1), x(2) .....x(N)과 같이 표기

α 분위수는 α*100%위치의 값이 됨. (α는 0과 1사이의 수치)
- 백분위수 (percentile)
α 분위수와 같은데 α를 백분율 (0% ~ 100%)로 나타낸 경우
- 사분위수 (quartile)
α를 4개의 구간으로 나눈 분위수
제 1사분위수 (Q1) : α=25%에 해당하는 분위수
제 2사분위수 (Q2) : α=50%에 해당하는 분위수
제 3사분위수 (Q3) : α=75%에 해당하는 분위수
- 기타통계값
중위수(median) : 50% 백분위수.
최고값(maximum) : 100% 백분위수.
최저값(minimun) : 0% 백분위수
- 상자그림 (Boxplot)


3. 통계적 추론 : 전수조사와 표본조사
- 통계적 추론의 당위성
전수조사(모집단)의 문제점이 있다.
문제점은 현실적으로 불가능한 경우 많음.
문제점은 과다한 비용과 시간이 소요
-> 그리하여 표본을 통해서 전수조사(모집단)의 효과를 낼 수 있다면 표본조사를 더 선호
표본조사는 실용적이고 비용면에서 이점이 있는 반면에 불확실성에 대한 고려가 필요함
-> 그러므로 통계학을 적용한다.
- 통계량과 모수
1) 통계량(sample statistic), 통계치
표본은 여러번 추출할 수 있고, 통계량도 여러번 계산할 수 있음
-> 모집단의 모수를 추정하기 위한 목적으로 활용
통계치는 샘플을 취할때마다 그 값이 변한다.
2) 모수(population parameter)
모집단을 사용하여 (전수조사) 계산한 모집단의 특성
-> 모집단은 단 하나. 모수도 단 한번 계산한다 ?
모수는 원래 계산해서 나오는 값이 아니다. 원래 있는 값이다.
모수는 변하지 않는 값이다.
3) 통계치

* 분산
분산은 SS(제곱합)의 평균이다.
* 분산에서 왜 자유도 n-1인가?
n-1개만 알아도 남은 1개의 값 알 수 있다.
왜냐하면 다 더하면 0이기 때문이다.
즉 자유로운 값은 n-1개 뿐이다.
4. 통계적 추론 : 표본추출 방법
- 표본추출 방법 종류
1) 단순임의추출
2) 가중치를 고려한 표본추출
3) 층화추출
4) 계통추출
5) 집락추출
- 표본추출 방법 : 단순 임의 추출
모집단의 개개 값을 동일 확률로 추출하는 방법
복원추출(sampling with replacement)과 비복원추출(sampling without replacement)이 있다.
복원추출을 통해서 무한대 크기의 모집단 효과를 낼 수 있음.
- 표본추출 방법 : 가중치를 고려한 표본 추출
모집단의 개개 값에 가중치를 적용하여 동일하지 않은 확률로 추출하는 방법
- 표본추출 방법 : 층화 추출
계층의 비율을 고려한 표본 추출법.
데이터 값들이 중첩없이 분할될 수 있는 경우 적용 (교집합 없음)
ex) 남자 20명, 여자 80명이 있는 경우 남녀 분할해 놓고 각각 20% 80% 표본을 추출함.
- 표본추출 방법 : 계통 추출
모집단에서 임의의 위치에서 시작해 매 k번째 항목을 표본으로 추출
데이터가 정렬된 경우에는 단순 임의 추출보다 좋은 방법
데이터에 주기성이 있는 경우에는 부적합.
- 표본추출 방법 : 집락 추출
다단계 표본 추출 방법
-> 모집단에서 군집을 일차적으로 추출.
-> 다음은 선정된 각 군집에서 구성원을 표본으로 추출.
군집의 대표성을 고려한 표본 추출법.
5. 통계적 추론 : 표본(평균)분포(Sample distribution)
- 표본(평균)분포 개요
표본(평균)분포(sample distribution)은 표본에서 도출되는 통계량에 대한 확률분포
표본(평균)분포는 모수를 추정하기 위한 표본 통계량의 확률분포
6. 통계적 추론 : 중심극한정리(CLT : Central Limit Theorem)
- 중심극한정리 목적
표본의 개수(n)가 충분하다면 모수를 모르는 상황에서도
표본통계량으로 정규분포를 구성하여 모수를 추정할 수 있다.
- 동전던지기 실험 사례



- 표본평균의 중심극한정리 주요 핵심
1) 중심극한 정리는 모집단의 확률분포와 무관하게 성립.
2) 표본크기 n이 충분히 크다면 표본평균의 분포는 근사적으로 정규분포임.
3) 보통 n>30이면 중심극한정리가 성립된다고 인정.
4) 모집단의 확률분포가 정규분포이면 표본평균의 분포는 정확하게 정규분포임. 표본크기와 무관하게 성립
: 정규확률변수의 합은 또 다른 정규확률변수이기 때문
- 현실적 고려
현실에서는 표본은 단 한개이고, 표본평균도 단 한 개
하지만 CLT를 믿고 표본평균이 근사적으로 정규분포에 의해서 생성되었음을 전제.
그리하여 정규분포의 특성을 응용하여 추정 가능
- 표준화
1) Z 통계량 : 근사적으로 표준정규분포를 따른다
표본의 크기 n이 충분히 크다면 표본평균을 표준화 가능하다.

2) t 통계량 : 자유도 n-1인 스튜던트 t 분포를 근사적으로 따름.
만약에 모표준편차를 모른다면 대신해서 s를 사용한다.

- 표본비율의 분포
동전은 베르누이 확률분포의 특별 케이스(p=0.5)
모집단이 일반적인 베르누이 확률분포를 따르는 경우를 전제
성공확률이 p인 모집단을 전제하면 표본평균의 기대값과 오차는 다음과 같음


- 통계량 사이의 차이 또는 합의 분포
두 개의 모집단을 가정
각각 모집단에서 크기가 n1과 n2인 표본을 추출
각각의 표본평균 사이의 차이에는 다음과 같은 특성이 있음.


- 표준오차 정리

'데이터과학 > 개념 : Statistics' 카테고리의 다른 글
[통계기초] 통계분석 : 상관성 분석 (0) | 2020.04.18 |
---|---|
[통계기초] 통계분석 : 통계적 추정 : 점추정, 구간추정 (0) | 2020.04.18 |
[통계기초] 확률변수와 확률분포함수 : 결합확률 (0) | 2020.04.18 |
[통계기초] 확률변수와 확률분포함수 : 연속확률 (0) | 2020.04.17 |
[통계기초] 확률변수와 확률분포함수 : 이산확률 (0) | 2020.04.16 |