### <통계 101 X 데이터 분석>을 읽고
- 회귀분석을 그냥 하면 된다고 생각했다. 인과관계를 알기 위해서 변수 두개를 설정해서 통계값을 보면 된다고 생각했다. 틀린 생각이었다. 통제된 실험이 아니라면 변수 간의 관계를 아는 것은 어렵다. 중첩요인이 있을 수 있기 때문에 모델을 그려야 한다. 변수 간의 관계가 어떻게 영향을 주는지 이해하지 못한다면 회귀분석도 크게 의미가 없다.
- 정규분포, 가설검정, 유의수준, p-value 등, 개념을 정확이 이해하지 못하고 더듬더듬 알고 있던 것들에 대해서 조금 더 정리가 됐다. 여전히 궁금한 것은 많지만.
- 추론통계의 의미에 대해서도 알게 됐다. 추론 통계는 표본을 통해 모집단의 성격을 알기 위한 방법이다. 가설 검정은 귀무가설이 옳다는 전제 하에 표본 오차가 나타날 확률을 일정 유의수준 이하로 확인해봄으로써 어떤 가설을 지지할지 선택하는 프로셋였다. 표본의 수가 적기 때문에 t분포를 사용해 이를 확인한다.
---
### 원문 노트
- 정규분포, 가설검정, 유의수준, p-value, 회귀분석.. 여러 개념들이 조금은 더 이해가 되는 느낌이다. 기술 통계를 우습게 봤었는데 그게 아니라는 것도 이해했고, 통계 데이터를 구했다고 해서 바로 회귀분석을 실시할 수 없다는 것도 알게 되었다. 회귀는 인과관계를 알기 위해서 분석해야 하는데, 인과관계를 파악하는 일은 통제된 실험이 아니라면 중첩요인이 있어서 쉽게 알 수 없다는 것. 상관관계도 그런 점에서 볼때 탐색적으로 사용할 수 있지만, 이 자체로는 허위상관인 경우가 있을 수 있다는 점도 알게 되었다.
- 정규분포를 통해서 어떤 특정 값이 모집단에서 나오는 것을 추정하는 것을 추론통계라고 한다는 것도 알게 되었다. 가설 검정은 귀무가설이 옳다는 가정 하에, 현실세계에서 수집한 데이터의 표본오차가 나타날 확률을 정규분포로 나타낸 것으로, 그 확률을 p-value로 나타낸다. 또 t-test를 통해서 평균의 차이를 나타내므로, t분포 값을 확인해서 귀무가설이 옳은지를 알아내는데, 0.05이하인 경우에, 귀무가설이 옳은 상황에서 현실 세계에서 수집한 데이터가 0.05 이하로 나타난다는 것은 거의 나타나지 않는다는 의미로, 그럴 확률은 미미하다. 따라서 귀무가설을 기각하는 방식으로 정리한다.
- 사실 아직, 가설검정과 유의수준은 헷갈린다. F 값을 확인하는 이유도 확인해봐야 한다.
- 회귀분석에서 추론통계를 하는 방식도 정확히 이해가 되지는 않는다.
- 기계학습, 딥러닝, 신경망 분석 등도 확실히 이해가 되진 않는다. 이 개념들 간의 관계를 파악해야 한다.