### 통계학은 확률론이다.
통계학에서는 확률론이 중요하다. 통계학이, 관찰한 데이터를 모집단에서 확률적으로 발생한 값으로 상정하고, 데이터 자체나 데이터 배후에 있는 법칙을 이해하고자 하는 시도이기 때문이다.
정규분포부터 시작해보자.
- 정규분포는 가우스분포라고 한다. 통계학은 모집단이 이 정규분포를 따를 것이라는 가정을 한다.
- 정규분포는 두 개의 파라미터를 알면 확률분포의 형태를 알 수 있다
- 평균과 표준편차이다.
- 확률분포의 형태란, 여기서 평균을 중심으로 어느 정도 퍼져 있는지를 보는 것이다.
- 정규분포는 N(μ, σ2)으로 표시한다.
- 표준정규분포는 N(0, 1)이다.
### 실현값과 확률변수
- 실현값 X에 대해, 확률을 값으로 갖는 경우 이를 확률변수라고 한다.
- 주사위의 눈은 실현값 X이고, 확률은 1/6이다. 주사위는 P(x) = 1/6의 확률변수이다.
### 확률분포와 실현값
##### 1. 모집단은 확률분포다.
- 모집단은 정규분포를 따른다.
- 키를 대상으로 해보자.
![[표본은 모집단을 정규분포로 따르는 실현값.png]]
- 여기서 표본 179를 X로, 확률은 전체 사람 수로 세로축을 나눈 값이 확률이다.
- 즉, 모집단은 정규분포를 따르는 확률분포이고, 표본집단은 이로부터 무작위, 독립적으로 추출한 실험값이다.
>[!중요]
>얻은 실험값(표본)으로부터 모집단의 확률 분포를 추정하는 것이 추론 통계이다.
##### 2. 표본은 확률변수다.
- 각 표본은 위의 예에서처럼 확률변수다.
##### 3. 표본오차
- 표본평균과 모평균의 차이값이다.
- x-u
- 주사위 n=6, m=3, 으로 X1, X2, X3 표본평균을 구하면 각각의 표본오차가 생긴다. 이를 통해 원리를 도출하고, 표본평균으로부터 모집단의 평균과 분산을 파악해보자.
>[!개념]
> 통계학은 오차의 학문이다.
##### 4. 큰수의 법칙
- 주사위 예에서 n을 크게 늘리면 모평균에 가까워진다. 즉, x-u= 0이 된다.
- x-u 자체는 확률변수다.
- 표본평균이 확률변수인데, P(x-u)도 확률변수이다.
- 이 확률분포는 어떤 분포일지를 알면? 여기서 이 확률분포는 표본오차, 즉 표본의 평균과 모집단의 평균이 어느 정도 차이가 나고, 어떤 분산이 있는지를 보는 것이다.
##### 5. 표본평균의 분포
- 다시, 모집단으로부터 m=3인 표본평균을 세개 구했다고 해보자. 서로 값이 다르다. 모평균과도 차이가 있을 것이다.
- 이 표본평균도 그 자체로 확률분포인데, 이 확률분포에서 n을 크게 늘리면, 결국 정규분포를 따르게 될 것이다. 이게 중심극한 정리이다.
![[중심극한정리.png]]
- 정확히는 정규분포를 근사하게 된다고 하는데, 이때 표본평균은 모집단 u
- 표준편차는 시그마 / 루트 n이다.
- 그런데 이 표본평균의 분포만으로는 모집단을 알 수 없다.
##### 6. 표본오차의 분포
- 표본평균도 중심극한 정리에 따라 n이 커지면 정규분포에 근사한다. 표본오차의 분포, 즉 x-u의 확률분포도 n이 늘어나면 정규분포에 근사해질 것이다.
- 이 확률분포의 정규분포는 평균은 0, 표준편차는 시그마 / 루트 n이다.
- 이때, 시그마 / 루트 n을 표준오차라고 한다. 평균이 0으로 표준화가 되었기 때문에 표준편차를 표준오차라고 부르는 것으로 생각된다.
- 그런데, 이 분포에서 우리는 여전시 시그마 값을 알 수 없다. 모표준편차. 그래서, 비편항표준편차를 사용해, s를 대신 쓴다. 즉, 표준오차는 s/루트 n이다.
- 그래서, 표본오차의 확률분포는 정규분포와 닮은 t분포를 따른다.
##### 7. 신뢰구간
- 우리가 알고 싶은 것은 모집단의 평균이므로, 표본오차의 분포를 바탕으로, 신뢰구간을 두고 모평균이 몇%의 확률로 해당 값에 있을지를 알 수 있다
![[표본오차를 통한 신뢰구간 설정.png]]
##### 8. 신뢰구간의 해석과 T분포
- 95% 확률로 A~B구간에 모집단 평균이 있을 거라는 추정은, 모집단으로부터 표본평균을 100번 뽑으면, 95번은 맞을 거라는 뜻이다.
![[95% 신뢰구간의 의미.png]]
- 하지만, 실제로는 표본이 적기 때문에 우리는 t분포를 사용한다. t분포는 작은 표본으로 모집단을 추정하고자 만든 값이다. 표본오차를 표준오차로 나누어 표준화한값을 다르는 분포이다.
### 생각정리
- 모집단의 분포를 알기 위해서, 표본오차를 활용해 모집단의 확률분포의 주요 파라미터를 파악하고, 실제 모집단의 평균이 어느 정도일지를 95%의 확률로 알아낸다.
- t분포를 활용한다.
- 만약 5점척도로 조사를 한다면, 이 점수도 모집단에서는 확률분포가 정규분포를 따를 것이라는 가정을 하고 실제 모집단도 이런 응답을 할 겁니다, 이걸 알아내는 것일까?