- 확률변수. X의 값이 달라짐에 따라 확률이 달라지는 변수를 확률변수라고 한다.
- 모든 확률변수는 이산형, 연속형으로 분포를 갖는다.
- 연속형 분포를 갖는 것 중에서 가장 중요하고 유명한 분포가 정규분포다.
- 확률분포는 평균 뮤와 표준편차 시그마로 파라미터가 결정된다. 정규분포의 표기가 N(평균, 분산)인 점을 기억하자. 이를 표준화시킨 표중정규분포는 N(0,1)이다.
- 통계에서는 모집단이 정규분포를 따를 것이라는 가정을 한다. 그래서, 모집단의 정규분포로부터 표본을 얻는다는 건, 표본이 곧 실현값이 되는 거다. 모집단의 확률분포를 알면, 표본은 그 확률분포의 실현값이다.
- 그래서, 반대로, 표본을 통해 모집단의 확률분포를 파악하는 것을 통계학의 목적이자 전략으로 삼고, 이 확률분포는 평균과 분산이라는 파라미터를 알면 되기 때문에 이것을 추론해나가는 거다.
-
![[Screenshot 2024-08-08 at 9.25.38 AM.png]]
- 이제 통계학이 오차의 학문이라는 관점에서 설명을 해보자.
- 표본과 모집단에는 반드시 오차가 있을 수밖에 없다. 이 둘의 오차를 표본오차(Sampling error)라고 한다. 표본오차가 정말 중요하다. 일단 표본오차는 주사위를 6번 던져서 평균을 구하는 것을 생각해봤을 때, 3.5가 안나온다. 나올 때도 있지만 이 행위를 20번 한다고 했을 때, 이 표본의 평균과 모집단의 평균인 3.5는 다를 수밖에 없다. 무작위로 뽑기 때문에 발생할 수밖에 없는 필연적인 오차다.
- 큰수의 법칙. 이 오차는 시행횟수를 늘리면, 즉 표본크기 n이 커질수록 표본평균이 모집단 평균에 가까워진다는 법칙이다.
- ![[Screenshot 2024-08-08 at 9.28.22 AM.png]]
- 이제, 표본오차의 확률분포를 생각해봐야 한다. 표본오차=표본평균-모집단평균이다. 그런데, 표본평균 자체가 확률변수이므로, 표본오차도 확률변수다. 이 확률변수는 확률분포를 가진다. 이 확률분포의 형태가 어떨 것인가에 대해서, 중심극한정리가 나온다. 모집단의 분포와 상관없이 표본크기 n이 커질수록 표본평균의 분포는 정규분포로 근사한다. 이때, 평균은 모집단 평균, 표준편차는 시그마/루트 n이다.![[Screenshot 2024-08-08 at 9.31.01 AM.png]]
- 위의 내용은 표본평균의 확률분포에 대한 내용이다. 표본오차의 확률분포는 이와 비슷한데, 평균은 우선 0이다. 표준편차는 위와 같다. 그런데, 우리가 시그마를 알 수 없기 때문에 시그마 대신 S/루트 n을 쓴다. 여기까지의 내용을 이해했다면, 이제 더 쉽게 넘어간다. 표본오차의 확률분포는 정규분포와 닮은 t분포를 따른다.
- 우리가 표본오차를 확인하는 이유는, 표본을 통해 정확한 모집단의 평균값을 알 수는 없지만, 어느 정도 범위에 모집단 평균이 있는지를 알 수 있기 때문이다. 이를 신뢰구간이라고 한다. 95%의 신뢰구간은 모집단의 평균이 해당 신뢰구간에 있거나 없거나 하는 게, 20번을 하면 1번을 빼고 19번은 있다는 것.
- 표본오차의 확률분포는 t 분포를 따르는데, 표본 크기가 작아도 정규분포를 따른다는 가정을 만족할 수 있어서 고안된 분포이다. 표준오차를 비편향표준편차 S를 사용한 표준편차로 나눈 값이 따르는 분포다.
- ![[Screenshot 2024-08-08 at 9.47.56 AM.png]]
가설검정과 신뢰구간은 동전의 양면이라고 말한다. 왜 인지 알아보자.
- 가설검정에서 p-value가 등장한다. 이것은 귀무가설이 옳은 세계를 가정했을 때, 현실에서 관측한 표본값이 옳은 세계에 등장하는 확률이다. 즉, 귀무가설이 옳은 세계에서는 두 집단의 평균값이 같다고 했는데, 실제 관측한 표본값이 +10이다.그리고 p값이 0.01이라면, 귀무가설이 옳은 세계에서 이러한 표본차이가 10이상이거나 10이하인 확률이 1%이고, 이는 귀무가설이 옳지 않을 수 있다는 뜻이다.
- 그래서, 유의수준 알파를 0.05로 정해서, p값이 이보다 낮으면 귀무가설을 기각한다. 통계적으로 유의미한 차이가 있다고 말하는 거다.
- 여기서 하나 짚고 가자. 두 집단의 표본 차이와 모집단의 평균차이를 비교할 때, 표본이 모집단과 동일할 수 없기 때문에 필연적으로 오차는 발생한다. 이게 샘플링에 의한 오차인지, 실제로 두 집단의 차이가 있어서 발생한 차이인지를 알아야 한다.
![[Screenshot 2024-08-08 at 9.55.24 AM.png]]
- 표본평균의 차이를 뽑아보면, 1이 되기도 하고, 3.4가 되기도 하고 다양하게 나온다. 귀무가설이 옳은 세계라고 가정하고 극단적인 값이 나올 확률인데, 이게 0.01이라면, 1%의 확률로 귀무가설이 옳은 세계에서 극단적 값이 나타난다는 의미다. 즉, 내가 표본에서 얻은 값은 나타나기 굉장히 어려운, 5% 미만의 값인데, 그게 나타났고, 그러므로 귀무가설이 옳다는 결정을 버리고 대립가설을 선택하게 된다는 것다.
- p값을 계산하는 방법은 t분포에서 유의수준으로 정한 5%의 범위, 양끝으로 하면 2.5%의 값에 해당하는 t검정량을 구해서 하는 거다.
- 이때, t분포로 구할 수 있는 게, one sample(표본과 모집단 평균 비교), two sample(서로 다른 두집단의 평균 비교로, 표본으로 뽑은 값이 모집단에서도 나타날지를 확인), 대응검정(같은 집단의 처치 전과 후의 평균 비교로, 마찬가지로 모집단에서도 나타날지를 비교) 이 세가지의 유형에 대해서, t 검정값을 구하는데, 이때 필요한 값은 표본의 평균, 표준편차, 도수 정도이다. 이것만 알면 공식에 따라 t값을 구할 수 있고, 이 t값을 귀무가설이 옳은 세계에서 볼 때, 평균이 0이다. 왜? 귀무가설이 옳다면 모집단에서도 두 집단의 평균차가 0이니까.
![[Screenshot 2024-08-08 at 10.11.02 AM.png]]
- t값을 계산해서, p값을 아래와 같이 계산한다. 그걸 유의수준 이하라면, 귀무가설을 기각한다.
- t값은 결국, 표본오차의 분포에서 시작한다. 표본 오차를 표준편차로 나눈 값이 따르는 분포가 t분포니까. 이 값은 해석하자면, 모집단과 표본집단의 차이.. 아 여기서 살짝 어렵다. 일단 여기까지만 하고 넘어가보자.
![[Screenshot 2024-08-08 at 10.35.13 AM.png]]