### 통계학은 확률론이다. 통계학에서는 확률론이 중요하다. 통계학이, 관찰한 데이터를 모집단에서 확률적으로 발생한 값으로 상정하고, 데이터 자체나 데이터 배후에 있는 법칙을 이해하고자 하는 시도이기 때문이다. 정규분포부터 시작해보자. - 정규분포는 가우스분포라고 한다. 통계학은 모집단이 이 정규분포를 따를 것이라는 가정을 한다. - 정규분포는 두 개의 파라미터를 알면 확률분포의 형태를 알 수 있다 - 평균과 표준편차이다. - 확률분포의 형태란, 여기서 평균을 중심으로 어느 정도 퍼져 있는지를 보는 것이다. - 정규분포는 N(μ, σ2)으로 표시한다. - 표준정규분포는 N(0, 1)이다. ### 실현값과 확률변수 - 실현값 X에 대해, 확률을 값으로 갖는 경우 이를 확률변수라고 한다. - 주사위의 눈은 실현값 X이고, 확률은 1/6이다. 주사위는 P(x) = 1/6의 확률변수이다. ### 확률분포와 실현값 ##### 1. 모집단은 확률분포다. - 모집단은 정규분포를 따른다. - 키를 대상으로 해보자. ![[표본은 모집단을 정규분포로 따르는 실현값.png]] - 여기서 표본 179를 X로, 확률은 전체 사람 수로 세로축을 나눈 값이 확률이다. - 즉, 모집단은 정규분포를 따르는 확률분포이고, 표본집단은 이로부터 무작위, 독립적으로 추출한 실험값이다. >[!중요] >얻은 실험값(표본)으로부터 모집단의 확률 분포를 추정하는 것이 추론 통계이다. ##### 2. 표본은 확률변수다. - 각 표본은 위의 예에서처럼 확률변수다. ##### 3. 표본오차 - 표본평균과 모평균의 차이값이다. - x-u - 주사위 n=6, m=3, 으로 X1, X2, X3 표본평균을 구하면 각각의 표본오차가 생긴다. 이를 통해 원리를 도출하고, 표본평균으로부터 모집단의 평균과 분산을 파악해보자. >[!개념] > 통계학은 오차의 학문이다. ##### 4. 큰수의 법칙 - 주사위 예에서 n을 크게 늘리면 모평균에 가까워진다. 즉, x-u= 0이 된다. - x-u 자체는 확률변수다. - 표본평균이 확률변수인데, P(x-u)도 확률변수이다. - 이 확률분포는 어떤 분포일지를 알면? 여기서 이 확률분포는 표본오차, 즉 표본의 평균과 모집단의 평균이 어느 정도 차이가 나고, 어떤 분산이 있는지를 보는 것이다. ##### 5. 표본평균의 분포 - 다시, 모집단으로부터 m=3인 표본평균을 세개 구했다고 해보자. 서로 값이 다르다. 모평균과도 차이가 있을 것이다. - 이 표본평균도 그 자체로 확률분포인데, 이 확률분포에서 n을 크게 늘리면, 결국 정규분포를 따르게 될 것이다. 이게 중심극한 정리이다. ![[중심극한정리.png]] - 정확히는 정규분포를 근사하게 된다고 하는데, 이때 표본평균은 모집단 u - 표준편차는 시그마 / 루트 n이다. - 그런데 이 표본평균의 분포만으로는 모집단을 알 수 없다. ##### 6. 표본오차의 분포 - 표본평균도 중심극한 정리에 따라 n이 커지면 정규분포에 근사한다. 표본오차의 분포, 즉 x-u의 확률분포도 n이 늘어나면 정규분포에 근사해질 것이다. - 이 확률분포의 정규분포는 평균은 0, 표준편차는 시그마 / 루트 n이다. - 이때, 시그마 / 루트 n을 표준오차라고 한다. 평균이 0으로 표준화가 되었기 때문에 표준편차를 표준오차라고 부르는 것으로 생각된다. - 그런데, 이 분포에서 우리는 여전시 시그마 값을 알 수 없다. 모표준편차. 그래서, 비편항표준편차를 사용해, s를 대신 쓴다. 즉, 표준오차는 s/루트 n이다. - 그래서, 표본오차의 확률분포는 정규분포와 닮은 t분포를 따른다. ##### 7. 신뢰구간 - 우리가 알고 싶은 것은 모집단의 평균이므로, 표본오차의 분포를 바탕으로, 신뢰구간을 두고 모평균이 몇%의 확률로 해당 값에 있을지를 알 수 있다 ![[표본오차를 통한 신뢰구간 설정.png]] ##### 8. 신뢰구간의 해석과 T분포 - 95% 확률로 A~B구간에 모집단 평균이 있을 거라는 추정은, 모집단으로부터 표본평균을 100번 뽑으면, 95번은 맞을 거라는 뜻이다. ![[95% 신뢰구간의 의미.png]] - 하지만, 실제로는 표본이 적기 때문에 우리는 t분포를 사용한다. t분포는 작은 표본으로 모집단을 추정하고자 만든 값이다. 표본오차를 표준오차로 나누어 표준화한값을 다르는 분포이다. ### 생각정리 - 모집단의 분포를 알기 위해서, 표본오차를 활용해 모집단의 확률분포의 주요 파라미터를 파악하고, 실제 모집단의 평균이 어느 정도일지를 95%의 확률로 알아낸다. - t분포를 활용한다. - 만약 5점척도로 조사를 한다면, 이 점수도 모집단에서는 확률분포가 정규분포를 따를 것이라는 가정을 하고 실제 모집단도 이런 응답을 할 겁니다, 이걸 알아내는 것일까?