욱이의 냉철한 공부

[통계기초] 통계분석 : 통계적 추정 : 기술통계, 기본개념 본문

데이터과학/개념 : Statistics

[통계기초] 통계분석 : 통계적 추정 : 기술통계, 기본개념

냉철한 욱 2020. 4. 18. 02:23

* 자료출저 및 참고강의

패스트캠퍼스 올인원 패키지(금융공학/퀀트) 장순용 강사님 인터넷 강의

명지대 산업경영공학과 이병기 교수님 품질관리 강의


* 목차

통계분석 : 기본개념(기술통계, 통계적추론)

1. 모집단과 표본

2. 기술통계

3. 통계적추론 : 전수조사와 표본조사

4. 통계적추론 : 표본추출 방법

5. 통계적추론 : 표본분포

6. 통계적추론 : 중심극한정리 (CLT : Central Limit Theorem)


1. 모집단과 표본

- 모집단(population)

통계 분석 대상 전체

- 표본(sample)

모집단에서 추출한 일부

ex) 대한민국 20세 이상 남성의 체질량 지수 BMI 평균을 구하기

이를 위해서 500명의 표본을 뽑아 조사한다.

2. 기술통계

- 기술통계

통계적 특성을 있는 그대로 묘사 : 표본을 요약, 통계량 계산

- 통계적 추론

표본의 특성을 가지고 모집단의 특성 즉 모수를 알아내는 것 : 일반화를 의미.

- 통계량

- 표본의 분산(Var), 공분산(Cov), 상관계수(Cor)

- 확률분포의 형상

- 분위수

α 분위수 xα는 누적확률이 α와 같은 지점을 일컫는다. (α는 0과 1사이의 수치)

데이터를 소-> 대 순서대로 정렬

정렬된 데이터를 x(1), x(2) .....x(N)과 같이 표기

α 분위수는 α*100%위치의 값이 됨. (α는 0과 1사이의 수치)

- 백분위수 (percentile)

α 분위수와 같은데 α를 백분율 (0% ~ 100%)로 나타낸 경우

- 사분위수 (quartile)

α를 4개의 구간으로 나눈 분위수

제 1사분위수 (Q1) : α=25%에 해당하는 분위수

제 2사분위수 (Q2) : α=50%에 해당하는 분위수

제 3사분위수 (Q3) : α=75%에 해당하는 분위수

- 기타통계값

중위수(median) : 50% 백분위수.

최고값(maximum) : 100% 백분위수.

최저값(minimun) : 0% 백분위수

- 상자그림 (Boxplot)

3. 통계적 추론 : 전수조사와 표본조사

- 통계적 추론의 당위성

전수조사(모집단)의 문제점이 있다.

문제점은 현실적으로 불가능한 경우 많음.

문제점은 과다한 비용과 시간이 소요

-> 그리하여 표본을 통해서 전수조사(모집단)의 효과를 낼 수 있다면 표본조사를 더 선호

표본조사는 실용적이고 비용면에서 이점이 있는 반면에 불확실성에 대한 고려가 필요함

-> 그러므로 통계학을 적용한다.

- 통계량과 모수

1) 통계량(sample statistic), 통계치

표본은 여러번 추출할 수 있고, 통계량도 여러번 계산할 수 있음

-> 모집단의 모수를 추정하기 위한 목적으로 활용

통계치는 샘플을 취할때마다 그 값이 변한다.

2) 모수(population parameter)

모집단을 사용하여 (전수조사) 계산한 모집단의 특성

-> 모집단은 단 하나. 모수도 단 한번 계산한다 ?

모수는 원래 계산해서 나오는 값이 아니다. 원래 있는 값이다.

모수는 변하지 않는 값이다.

3) 통계치

* 분산

분산은 SS(제곱합)의 평균이다.

* 분산에서 왜 자유도 n-1인가?

n-1개만 알아도 남은 1개의 값 알 수 있다.

왜냐하면 다 더하면 0이기 때문이다.

즉 자유로운 값은 n-1개 뿐이다.

4. 통계적 추론 : 표본추출 방법

- 표본추출 방법 종류

1) 단순임의추출

2) 가중치를 고려한 표본추출

3) 층화추출

4) 계통추출

5) 집락추출

- 표본추출 방법 : 단순 임의 추출

모집단의 개개 값을 동일 확률로 추출하는 방법

복원추출(sampling with replacement)과 비복원추출(sampling without replacement)이 있다.

복원추출을 통해서 무한대 크기의 모집단 효과를 낼 수 있음.

- 표본추출 방법 : 가중치를 고려한 표본 추출

모집단의 개개 값에 가중치를 적용하여 동일하지 않은 확률로 추출하는 방법

- 표본추출 방법 : 층화 추출

계층의 비율을 고려한 표본 추출법.

데이터 값들이 중첩없이 분할될 수 있는 경우 적용 (교집합 없음)

ex) 남자 20명, 여자 80명이 있는 경우 남녀 분할해 놓고 각각 20% 80% 표본을 추출함.

- 표본추출 방법 : 계통 추출

모집단에서 임의의 위치에서 시작해 매 k번째 항목을 표본으로 추출

데이터가 정렬된 경우에는 단순 임의 추출보다 좋은 방법

데이터에 주기성이 있는 경우에는 부적합.

- 표본추출 방법 : 집락 추출

다단계 표본 추출 방법

-> 모집단에서 군집을 일차적으로 추출.

-> 다음은 선정된 각 군집에서 구성원을 표본으로 추출.

군집의 대표성을 고려한 표본 추출법.

5. 통계적 추론 : 표본(평균)분포(Sample distribution)

- 표본(평균)분포 개요

표본(평균)분포(sample distribution)은 표본에서 도출되는 통계량에 대한 확률분포

표본(평균)분포는 모수를 추정하기 위한 표본 통계량확률분포

6. 통계적 추론 : 중심극한정리(CLT : Central Limit Theorem)

- 중심극한정리 목적

표본의 개수(n)가 충분하다면 모수를 모르는 상황에서도

표본통계량으로 정규분포를 구성하여 모수를 추정할 수 있다.

- 동전던지기 실험 사례

- 표본평균의 중심극한정리 주요 핵심

1) 중심극한 정리는 모집단의 확률분포와 무관하게 성립.

2) 표본크기 n이 충분히 크다면 표본평균의 분포는 근사적으로 정규분포임.

3) 보통 n>30이면 중심극한정리가 성립된다고 인정.

4) 모집단의 확률분포가 정규분포이면 표본평균의 분포는 정확하게 정규분포임. 표본크기와 무관하게 성립

: 정규확률변수의 합은 또 다른 정규확률변수이기 때문

- 현실적 고려

현실에서는 표본은 단 한개이고, 표본평균도 단 한 개

하지만 CLT를 믿고 표본평균이 근사적으로 정규분포에 의해서 생성되었음을 전제.

그리하여 정규분포의 특성을 응용하여 추정 가능

- 표준화

1) Z 통계량 : 근사적으로 표준정규분포를 따른다

표본의 크기 n이 충분히 크다면 표본평균을 표준화 가능하다.

2) t 통계량 : 자유도 n-1인 스튜던트 t 분포를 근사적으로 따름.

만약에 모표준편차를 모른다면 대신해서 s를 사용한다.

 

- 표본비율의 분포

동전은 베르누이 확률분포의 특별 케이스(p=0.5)

모집단이 일반적인 베르누이 확률분포를 따르는 경우를 전제

성공확률이 p인 모집단을 전제하면 표본평균의 기대값과 오차는 다음과 같음

- 통계량 사이의 차이 또는 합의 분포

두 개의 모집단을 가정

각각 모집단에서 크기가 n1과 n2인 표본을 추출

각각의 표본평균 사이의 차이에는 다음과 같은 특성이 있음.

- 표준오차 정리