27. 통계분석에서 자료를 수집하고 그 수집된 자료로부터 어떤 정보를 얻고자 하는 경우에는 항상 수집된 자료가 특정한 확률분포를 따른다고 가정한다. 다음 중 연속형 확률분포가 아닌 것은?
① 이항분포
② 정규분포
③ t분포
④ F분포
정답: 1
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
풀 수 있는 문제
---
30. 두 변수 X, Y의 상관분석에 관한 내용이다. 설명이 옳지 않은 것은?
① 등간척도로 측정된 두 변수 간의 상관관계는 피어슨 상관계수(Pearson Correlation)를 통해 확인할 수 있다.
② 상관계수가 0이면 두 변수 X, Y 사이에 선형관계가 없다.
③ 서열척도로 측정된 두 변수간의 상관관계는 스피어만 상관계수(Spearman Correlation)를 통해 확인할 수 있다.
④ R에서 상관계수를 구하기 위해서는 rcor() 함수를 사용하면 되고 type인자를 통해 피어슨과 스피어만 상관계수를 선택할 수 있다.
정답: 4
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
이 문제는 상관분석(correlation analysis)과 관련된 여러 개념에 대한 이해를 묻고 있습니다. 각 선택지에 나온 개념들을 이해하기 위해, 관련된 기본 개념들을 예시와 함께 설명하겠습니다.
### 1. 피어슨 상관계수(Pearson Correlation)
피어슨 상관계수는 두 변수 간의 **선형적인 관계**를 측정합니다. 이때, 변수들은 **등간척도(Interval scale)**나 **비율척도(Ratio scale)**로 측정되어야 합니다. 피어슨 상관계수는 -1과 1 사이의 값을 가지며, 다음과 같은 의미를 갖습니다:
- 1: 완벽한 양의 선형 관계 (X가 증가할 때 Y도 증가)
- -1: 완벽한 음의 선형 관계 (X가 증가할 때 Y는 감소)
- 0: 선형 관계가 없음
**예시:** 학생들의 수학 성적(X)과 과학 성적(Y) 간의 관계를 피어슨 상관계수를 통해 분석할 수 있습니다.
### 2. 상관계수 0의 의미
상관계수가 0이면 두 변수 사이에 **선형적** 관계가 없다는 것을 의미합니다. 그러나 **비선형적**인 관계는 있을 수 있습니다. 즉, X와 Y가 어떤 비선형적 패턴을 따를 수는 있지만, 피어슨 상관계수는 이러한 패턴을 탐지하지 못합니다.
**예시:** X가 Y의 제곱에 비례한다면 (예: Y = X²), 피어슨 상관계수는 0에 가까울 수 있지만, 실제로는 비선형 관계가 존재합니다.
### 3. 스피어만 상관계수(Spearman Correlation)
스피어만 상관계수는 **서열척도(Ordinal scale)**로 측정된 변수들 간의 **순위**에 기반한 상관관계를 측정합니다. 즉, 두 변수 간의 비선형 관계를 포함한 **단조적(monotonic)** 관계를 측정합니다.
**예시:** 학생들의 서열(순위) 간의 관계를 측정할 때, 예를 들어 학급 내 성적 순위(X)와 운동 능력 순위(Y) 간의 상관관계를 스피어만 상관계수로 측정할 수 있습니다.
### 4. R에서 상관계수 계산 (문제의 정답)
R에서 상관계수를 계산할 때는 `cor()` 함수를 사용합니다. 피어슨 상관계수와 스피어만 상관계수 모두 이 함수에서 계산할 수 있으며, `method` 인자를 통해 선택할 수 있습니다.
- `method = "pearson"` (기본값): 피어슨 상관계수
- `method = "spearman"`: 스피어만 상관계수
그러나 문제에서 제시한 `rcor()` 함수는 존재하지 않으며, 잘못된 정보입니다. 따라서 4번이 정답입니다.
**예시:** R 코드로 상관계수를 계산하는 방법은 다음과 같습니다:
```r
cor(X, Y, method = "pearson") # 피어슨 상관계수
cor(X, Y, method = "spearman") # 스피어만 상관계수
```
`
이제 문제의 각 선택지를 이해할 수 있는 기본 개념들을 살펴보았으니, 4번 선택지가 틀렸다는 것을 알 수 있습니다.
---
42. 아래는 스위스의 47개 프랑스어 사용지역의 출산율(Fertility)과 관련된 변수들을 사용하여 얻은 결과이다. 회귀모형에 관한 다음 설명 중 가장 부적절한 것은?
43.
```r
> summary(lm(Fertility~., data=swiss))
Call:
lm(formula = Fertility ~ ., data = swiss)
Residuals:
Min 1Q Median 3Q Max
-15.2743 -5.2617 0.5032 4.1198 15.3213
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 66.91518 10.70604 6.250 1.91e-07 *
Agriculture -0.17211 0.07030 -2.448 0.01873 *
Examination -0.25801 0.25388 -1.016 0.31546
Education -0.87094 0.18343 -4.758 2.43e-05 *
Catholic 0.10412 0.03526 2.953 0.00519
Infant.Mortality 1.07705 0.38172 2.822 0.00734
---
Signif. codes: 0 ‘*’ 0.001 ‘’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.165 on 41 degrees of freedom
Multiple R-squared: 0.7067, Adjusted R-squared: 0.671
F-statistic: 19.76 on 5 and 41 DF, p-value: 5.594e-10
```
① 유의수준 0.05하에서 위의 회귀모형은 유의적으로 출산율을 설명한다.
② 위의 설명변수들은 출산율 변동의 원인임을 보여준다.
③ 위의 회귀모형은 출산율 변동의 70.67%를 설명한다.
④ 수정결정계수는 0.671이다.
정답: 2
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
풀 수 있는 문제
---
21. 다음 중 이산형 확률분포에 해당하지 않는 것은?
① 기하 분포
② 이항 분포
③ 지수 분포
④ 초기하 분포
정답: 3
출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]
이 문제는 이산형 확률분포와 연속형 확률분포를 구분하는 문제입니다. 각 선택지에 대한 설명을 통해 왜 3번이 정답인지 이해해보겠습니다.
### 1. 이산형 확률분포 (Discrete Probability Distributions)
이산형 확률분포는 확률변수가 취할 수 있는 값이 **이산적**(즉, 명확히 구분되는 정수 값)인 경우에 해당하는 분포를 의미합니다.
#### ① 기하 분포 (Geometric Distribution)
- **이산형 확률분포**입니다.
- 어떤 사건이 처음으로 성공할 때까지의 실패 횟수를 나타냅니다. 예를 들어, 동전을 던질 때 첫 번째 앞면이 나올 때까지의 뒷면이 나오는 횟수를 설명하는 데 사용됩니다.
#### ② 이항 분포 (Binomial Distribution)
- **이산형 확률분포**입니다.
- 고정된 횟수의 독립적인 시행에서 성공 횟수를 나타냅니다. 예를 들어, 10번 동전을 던졌을 때 앞면이 나오는 횟수를 설명할 수 있습니다.
#### ④ 초기하 분포 (Hypergeometric Distribution)
- **이산형 확률분포**입니다.
- 주어진 모집단에서 비복원 추출을 통해 특정한 특성을 가진 항목의 개수를 설명합니다. 예를 들어, 카드 뽑기에서 특정 색상의 카드가 나올 확률을 설명할 수 있습니다.
### 2. 연속형 확률분포 (Continuous Probability Distributions)
연속형 확률분포는 확률변수가 취할 수 있는 값이 **연속적**(즉, 특정 구간 내의 모든 값을 취할 수 있는 경우)인 분포를 의미합니다.
#### ③ 지수 분포 (Exponential Distribution)
- **연속형 확률분포**입니다.
- 사건이 발생하는 시간 간격을 설명하는 데 사용됩니다. 예를 들어, 버스를 기다리는 시간이나 부품의 수명이 지수 분포를 따를 수 있습니다.
### 결론
지수 분포는 연속형 확률분포이므로, 다른 선택지와 달리 이산형 확률분포에 해당하지 않습니다. 따라서 정답은 **3번**입니다.
---
24. 중속변수를 설명하는데 가장 중요한 독립변수로 적절한 것은?
① p-value가 가장 작은 변수
② 표준화 자료로 추정한 계수가 가장 큰 변수
③ 원 자료로 추정한 계수가 가장 큰 변수
④ 중속변수의 상관관계분석에서 상관계수가 가장 큰 변수
정답: 2
출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]
이 문제는 중속변수(종속변수, Dependent Variable)에 가장 중요한 독립변수(Independent Variable)를 선택하는 방법에 관한 것입니다. 각 선택지의 의미를 설명한 후, 왜 2번이 정답인지 설명하겠습니다.
### 선택지 설명
#### ① p-value가 가장 작은 변수
- **p-value**는 해당 독립변수가 종속변수에 대해 통계적으로 유의미한 영향을 미치는지 여부를 판단하는 데 사용됩니다. p-value가 작을수록 해당 변수의 영향력이 통계적으로 유의미하다고 할 수 있습니다. 하지만 p-value는 영향력의 크기를 직접적으로 나타내지 않습니다.
#### ② 표준화 자료로 추정한 계수가 가장 큰 변수
- **표준화 회귀계수(Standardized Regression Coefficient)**는 독립변수들이 서로 다른 척도로 측정되었을 때, 그들 간의 영향력을 비교하기 위해 사용하는 값입니다. 표준화된 계수는 모든 변수들이 같은 기준으로 평가되므로, 계수가 가장 큰 변수가 종속변수에 가장 큰 영향을 미치는 변수로 간주될 수 있습니다.
#### ③ 원 자료로 추정한 계수가 가장 큰 변수
- 원 자료로 추정한 계수는 각 변수의 원래 척도에서 종속변수에 미치는 영향력을 나타냅니다. 하지만 각 변수들이 다른 척도를 가질 수 있기 때문에, 이들 간의 계수 크기를 직접 비교하는 것은 어려울 수 있습니다.
#### ④ 종속변수의 상관관계분석에서 상관계수가 가장 큰 변수
- 상관계수는 두 변수 간의 선형적 관계의 강도를 나타냅니다. 상관계수가 큰 변수는 종속변수와 강한 선형적 관계를 가질 수 있지만, 이것이 곧 회귀분석에서 가장 중요한 변수임을 의미하지는 않습니다. 상관계수는 회귀계수와 다르게 변수 간의 관계의 크기와 방향성을 종합적으로 고려하지 않습니다.
### 결론
**표준화 회귀계수**는 변수들이 서로 다른 척도를 가질 때에도 각 독립변수가 종속변수에 미치는 영향을 비교할 수 있는 유일한 방법입니다. 따라서, 표준화된 계수가 가장 큰 변수가 종속변수에 가장 중요한 독립변수로 적절합니다.
따라서 정답은 **2번**입니다.
---
26. 다음 중 중심극한정리(Central Limit Theorem)에 대한 설명으로 가장 부적절한 것은?
① 여러 통계적 방법론에는 정규데이터가 필요하지만 중심극한정리를 사용하면 비정규적인 모집단에도 이와 유사한 절차를 적용할 수 있다.
② 표본평균의 분포는 표본의 크기가 커짐에 따라 정규분포로 근사한다.
③ 모집단의 분포가 정규분포에 가까워져야 표본평균의 분포가 정규분포로 근사하게 된다.
④ 모집단의 분포가 대칭이면 표본의 크기가 작아도 되지만 모집단의 분포가 비대칭이면 표본의 크기가 30이상이 되어야 한다.
정답: 3
출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]
이 문제는 중심극한정리(Central Limit Theorem, CLT)에 대한 이해를 묻고 있습니다. 각 선택지에 대한 설명을 통해 왜 3번이 부적절한지를 알아보겠습니다.
### 중심극한정리(CLT) 개요
중심극한정리는 표본의 크기가 충분히 클 경우, 모집단의 분포가 무엇이든지 간에 **표본평균의 분포**가 정규분포에 가까워진다는 이론입니다. 이는 통계적 추론의 중요한 기초 중 하나입니다.
### 선택지 분석
#### ① 여러 통계적 방법론에는 정규데이터가 필요하지만 중심극한정리를 사용하면 비정규적인 모집단에도 이와 유사한 절차를 적용할 수 있다.
- **맞는 설명입니다.** 많은 통계적 방법이 정규성을 가정하지만, 중심극한정리를 이용하면 비정규적인 모집단에서도 표본평균이 정규분포에 근사하기 때문에 이러한 절차를 적용할 수 있습니다.
#### ② 표본평균의 분포는 표본의 크기가 커짐에 따라 정규분포로 근사한다.
- **맞는 설명입니다.** 중심극한정리에 따르면, 표본의 크기가 커질수록 표본평균의 분포는 정규분포에 가까워집니다.
#### ③ 모집단의 분포가 정규분포에 가까워져야 표본평균의 분포가 정규분포로 근사하게 된다.
- **부적절한 설명입니다.** 중심극한정리는 모집단의 분포가 비정규분포일지라도 표본의 크기만 충분히 크다면, 표본평균의 분포가 정규분포에 가까워진다고 말합니다. 즉, 모집단의 분포가 정규분포에 가까워질 필요는 없습니다. 이는 중심극한정리의 핵심 개념을 잘못 설명한 것입니다.
#### ④ 모집단의 분포가 대칭이면 표본의 크기가 작아도 되지만 모집단의 분포가 비대칭이면 표본의 크기가 30 이상이 되어야 한다.
- **맞는 설명입니다.** 모집단의 분포가 대칭적일 경우, 작은 표본 크기에서도 표본평균이 정규분포에 잘 근사할 수 있습니다. 반면, 모집단이 비대칭일 경우, 표본 크기가 커야 표본평균이 정규분포에 근사하게 됩니다. 일반적으로 비대칭인 경우 표본 크기가 30 이상일 때 중심극한정리가 잘 적용됩니다.
### 결론
**정답은 3번입니다.** 중심극한정리의 핵심 개념을 오해한 설명입니다. 모집단의 분포가 비정규적이더라도 표본의 크기가 충분히 크면 표본평균의 분포는 정규분포에 가까워집니다. 모집단의 분포가 정규분포에 가까워져야 한다는 조건은 중심극한정리와 관련이 없습니다.
---
[데이터 분석 - 통계학 개론]
27. 다음은 데이터의 척도에 관한 설명이다. 설명이 틀린 것은?
① 명목척도는 측정 대상이 어느 집단에 속하는지 분류할 때 사용되며, 성별, 출생지 정보가 해당된다.
② 순서척도는 측정 대상이 순서를 갖는 자료를 의미하며, 만족도, 선호도, 학력, 신용등급 정보가 해당된다.
③ 구간척도는 측정 대상의 순서와 순서 사이의 간격에 의미가 있는 자료를 의미하며, 온도, 물가지수, 주가지수 정보가 해당된다.
④ 비율척도는 측정 대상의 값이 비율로 정의되는 자료를 의미하며, 물가성장율, 흡연감소율의 정보가 해당된다.
정답: 4
출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]
이 문제는 데이터의 척도(명목척도, 순서척도, 구간척도, 비율척도)에 대한 이해를 묻고 있습니다. 각 척도의 정의와 예시를 통해 어떤 선택지가 잘못된 것인지 확인해 보겠습니다.
### 척도의 유형 설명
#### ① 명목척도 (Nominal Scale)
- **명목척도**는 데이터를 단순히 분류하는 데 사용되며, 데이터 간의 순서나 간격은 의미가 없습니다.
- **예시:** 성별(남성, 여성), 출생지(서울, 부산 등).
→ **설명에 맞는 예시입니다.**
#### ② 순서척도 (Ordinal Scale)
- **순서척도**는 데이터 간의 순서나 서열이 의미가 있지만, 순서 간의 간격이 일정하지 않음을 나타냅니다.
- **예시:** 만족도(매우 만족, 만족, 보통, 불만족, 매우 불만족), 학력(초등학교, 중학교, 고등학교, 대학교).
→ **설명에 맞는 예시입니다.**
#### ③ 구간척도 (Interval Scale)
- **구간척도**는 데이터 간의 순서와 간격이 의미가 있지만, 절대적인 0점이 존재하지 않습니다. 즉, 0이 존재하더라도 "없음"을 의미하지 않습니다.
- **예시:** 온도(섭씨, 화씨), 물가지수, 주가지수.
→ **설명에 맞는 예시입니다.**
#### ④ 비율척도 (Ratio Scale)
- **비율척도**는 순서, 간격, 그리고 절대적인 0점이 존재하는 자료를 의미합니다. 0이 "없음"을 의미하며, 비율 계산이 가능합니다.
- **예시:** 길이, 무게, 나이, 소득. 비율척도에서는 "2배"라는 표현이 가능합니다.
→ **틀린 설명입니다.** 물가성장율이나 흡연감소율은 비율척도가 아니라 **비율척도를 바탕으로 계산된 변화율**입니다. 비율척도는 측정 대상 자체의 값(길이, 무게 등)을 의미합니다. 비율척도에서는 값 자체가 중요하며, 변화율 같은 파생된 값은 여기에서 직접적인 예시가 되지 않습니다.
### 결론
**정답은 4번**입니다. 비율척도에 대한 설명이 틀렸습니다. 비율척도의 예시로는 길이, 무게, 나이, 소득 등이 해당되며, 물가성장율이나 흡연감소율 같은 변화율은 비율척도가 아니라 그로부터 파생된 값입니다.
---
28. 다음은 확률변수에 관한 설명이다. 설명이 옳지 않은 것은?
① 확률변수는 특정값이 나타날 가능성이 확률적으로 주어지는 변수이며, 실수값으로 표현된다.
② 이산형 확률변수는 확률변수의 공간이 유한하거나 셀 수 있는 경우를 의미하며, 이항분포, 기하분포, 초기하분포가 해당한다.
③ 연속형 확률변수는 확률변수의 공간이 무한한 경우를 의미하며, 베르누이 확률분포, 포아송 분포, 정규분포가 해당한다.
④ 균일분포는 확률변수의 구간 [a, b] 내에서 모든 확률이 동일한 분포를 의미하며, 확률은 1/(b-a)가 된다.
정답: 3
출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]
이 문제는 확률변수의 개념과 이와 관련된 분포들에 대한 이해를 묻고 있습니다. 각 선택지에 대한 분석을 통해 잘못된 설명이 무엇인지 알아보겠습니다.
### 선택지 분석
#### ① 확률변수는 특정값이 나타날 가능성이 확률적으로 주어지는 변수이며, 실수값으로 표현된다.
- **맞는 설명입니다.** 확률변수는 실수값을 가지며, 각 값이 나타날 가능성(확률)이 주어집니다. 이 설명은 확률변수의 일반적인 정의에 부합합니다.
#### ② 이산형 확률변수는 확률변수의 공간이 유한하거나 셀 수 있는 경우를 의미하며, 이항분포, 기하분포, 초기하분포가 해당한다.
- **맞는 설명입니다.** 이산형 확률변수는 그 값이 유한하거나 셀 수 있는 경우를 의미하며, 이항분포, 기하분포, 초기하분포는 모두 이산형 확률변수의 예입니다.
#### ③ 연속형 확률변수는 확률변수의 공간이 무한한 경우를 의미하며, 베르누이 확률분포, 포아송 분포, 정규분포가 해당한다.
- **틀린 설명입니다.** 연속형 확률변수는 그 값이 연속적인 경우를 의미하며, 정규분포는 연속형 확률분포에 해당합니다. 그러나 **베르누이 분포**와 **포아송 분포**는 **이산형 확률분포**입니다. 베르누이 분포는 0과 1의 두 가지 값만을 가지는 이산형 분포이고, 포아송 분포는 특정 시간 또는 공간 내에 사건이 발생하는 횟수를 모델링하는 이산형 분포입니다. 따라서 이 설명은 틀렸습니다.
#### ④ 균일분포는 확률변수의 구간 [a, b] 내에서 모든 확률이 동일한 분포를 의미하며, 확률은 1/(b-a)가 된다.
- **맞는 설명입니다.** 균일분포는 구간 [a, b] 내에서 모든 값이 동일한 확률을 가지는 연속형 분포로, 확률밀도 함수는 1/(b-a)로 정의됩니다.
### 결론
**정답은 3번**입니다. 베르누이 분포와 포아송 분포는 이산형 확률분포로, 연속형 확률분포가 아닙니다. 이 부분이 잘못된 설명입니다.
---
37. 다음 중 비모수적 방법에 대한 설명으로 가장 부적절한 것은?
① 관측된 자료가 주어진 분포를 따른다는 가정을 받아들일 수 없을 때 이용하는 검정법이다.
② 자료의 추출된 모집단의 분포에 대해 제약을 가하지 않고 검정을 실시하는 방법이다.
③ 관측된 자료로 구한 표본평균과 표본분산 등을 이용해 검정을 실시한다.
④ 관측된 자료가 특정 분포를 따른다고 가정할 수 없을 때 이용한다.
정답: 3
출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]
이 문제는 비모수적 방법(Non-parametric methods)에 대한 이해를 묻고 있습니다. 비모수적 방법은 주어진 데이터가 특정한 분포를 따른다는 가정 없이 분석을 수행하는 통계적 방법을 의미합니다.
### 선택지 분석
#### ① 관측된 자료가 주어진 분포를 따른다는 가정을 받아들일 수 없을 때 이용하는 검정법이다.
- **맞는 설명입니다.** 비모수적 방법은 데이터가 특정 분포를 따른다는 가정을 할 수 없을 때 사용됩니다. 따라서 이 설명은 적절합니다.
#### ② 자료의 추출된 모집단의 분포에 대해 제약을 가하지 않고 검정을 실시하는 방법이다.
- **맞는 설명입니다.** 비모수적 방법은 모집단의 분포에 대한 가정이 없거나 매우 적기 때문에 제약 없이 검정을 실시할 수 있습니다. 이 설명도 적절합니다.
#### ③ 관측된 자료로 구한 표본평균과 표본분산 등을 이용해 검정을 실시한다.
- **부적절한 설명입니다.** 비모수적 방법은 **표본평균**이나 **표본분산**과 같은 특정 통계량에 의존하지 않습니다. 대신, 데이터의 순위나 중위수, 또는 다른 비모수적인 통계량을 주로 사용합니다. 표본평균과 표본분산 등을 이용한 검정은 **모수적 방법**에 해당합니다.
#### ④ 관측된 자료가 특정 분포를 따른다고 가정할 수 없을 때 이용한다.
- **맞는 설명입니다.** 비모수적 방법은 특정 분포에 대한 가정 없이 사용할 수 있는 방법이므로, 이 설명은 적절합니다.
### 결론
**정답은 3번**입니다. 비모수적 방법에서는 표본평균과 표본분산을 이용하지 않고, 자료의 순위나 기타 비모수적 통계량을 사용하여 검정을 실시합니다. 따라서 3번이 비모수적 방법에 대한 부적절한 설명입니다.
---
25. 다음 중 잔차분석의 오차 정규성 검정에서 옳지 않은 것은?
① Q-Q Plot은 대략적인 확인이 가능하다.
② 잔차의 히스토그램이나 점포밀 그래프로서 정규성 문제를 검토하기도 한다.
③ 정규성을 검정하는 방법으로 Shapiro-Wilk test, Anderson-Darling test 등을 이용할 수 있다.
④ 정상성을 만족하지 않음 때는 종속변수와 상관계수가 높은 독립변수를 제거한다.
정답: 4
출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]]
이 문제는 잔차분석에서 오차의 정규성을 검정하는 방법에 대한 이해를 묻고 있습니다. 각 선택지를 분석하여 어떤 설명이 잘못되었는지 확인해 보겠습니다.
### 선택지 분석
#### ① Q-Q Plot은 대략적인 확인이 가능하다.
- **맞는 설명입니다.** Q-Q Plot은 정규분포를 따르는지 시각적으로 확인할 수 있는 방법입니다. 잔차가 정규분포를 따를 경우, Q-Q Plot에서 점들이 대각선에 근접하게 분포하게 됩니다.
#### ② 잔차의 히스토그램이나 점포밀 그래프로서 정규성 문제를 검토하기도 한다.
- **맞는 설명입니다.** 잔차의 히스토그램이나 점포밀 그래프(density plot)는 잔차가 정규분포를 따르는지 확인하기 위해 자주 사용되는 시각적 도구입니다. 정규성을 띠는 잔차는 종 모양의 분포를 나타냅니다.
#### ③ 정규성을 검정하는 방법으로 Shapiro-Wilk test, Anderson-Darling test 등을 이용할 수 있다.
- **맞는 설명입니다.** Shapiro-Wilk test와 Anderson-Darling test는 잔차의 정규성을 검정하기 위해 사용되는 통계적 방법입니다. 이들은 잔차가 정규분포를 따르는지 여부를 검정할 수 있습니다.
#### ④ 정상성을 만족하지 않음 때는 종속변수와 상관계수가 높은 독립변수를 제거한다.
- **부적절한 설명입니다.** 잔차의 정규성 문제는 독립변수를 제거함으로써 해결되는 문제가 아닙니다. 잔차의 정규성이 만족되지 않을 경우, 데이터 변환(예: 로그 변환, 제곱근 변환 등), 비모수적 방법 적용, 또는 회귀모형의 수정 등을 고려해야 합니다. 종속변수와 상관계수가 높은 독립변수를 제거하는 것은 정규성 문제와는 직접적인 관련이 없습니다.
### 결론
**정답은 4번**입니다. 잔차의 정규성이 만족되지 않을 때는 독립변수를 제거하는 것이 아니라, 데이터 변환이나 모델 수정 등의 다른 방법을 고려해야 합니다.
---
39. 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석 방법은 무엇인가?
① 구간추정
② 점추정
③ 신뢰수준
④ 가설검정
정답: 4
출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]]
풀 수 있는 문제
---
09. 통계분석 개념 중 모집단의 특성을 단일한 값으로 추정하는 방법은 무엇인가?
( )
정답: 점 추정
출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]]
10. 불순도를 측정하는 지표로 노드의 불순도를 나타내는 값이다. 클수록 이질적이며 순수도가 낮다고 볼 수 있으며, CART에서 목적변수가 범주형일 경우 사용하는 이 지표는 무엇인가?
( )
정답: 지니 지수
출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]]
21. 다음 중 아래의 표가 나타내는 확률질량함수를 가진 확률변수 X의 기댓값 E(X)로 가장 적절한 것은?
| X | 1 | 2 | 3 | 4 |
|-----|-----|-----|-----|-----|
| f(x) | 0.5 | 0.3 | 0.2 | 0 |
① 1
② 1.7
③ 2.5
④ 10
정답: 2
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
23. 확률변수 X의 확률은 아래와 같이 나타낼 수 있다. 다음 중 옳은 것은?
![[ADsP 기출문제 이미지 07.png]]
① X의 기댓값은 13/6이다.
② X가 1 혹은 2일 확률은 1/2 보다 크다.
③ X가 4일 확률은 0 보다 크다.
④ X가 1, 2, 3 중 하나의 값을 가질 확률은 1보다 작다.
정답: 1
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
48. P(A)=0.3, P(B)=0.4이다. 두 사건 A와 B가 독립일 경우 P(B|A)는 얼마인가?
( )
정답: 0.4
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
두 사건 A와 B가 **독립**일 경우, 사건 B가 사건 A에 영향을 받지 않으므로, 조건부 확률 P(B∣A)P(B|A)P(B∣A)는 사건 B의 확률 P(B)P(B)P(B)와 같습니다.
따라서, 주어진 조건에서 P(B∣A)=P(B)=0.4P(B|A) = P(B) = 0.4P(B∣A)=P(B)=0.4입니다.
---
49. 이산형 확률분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률 분포는 무엇인가?
( )
정답: 포아송 분포
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
포아송 분포(Poisson distribution)는 특정 시간 또는 공간 내에서 사건이 발생하는 횟수를 모델링하는 이산형 확률분포입니다. 이 분포는 사건이 발생하는 확률이 매우 작고, 발생 횟수가 빈번하지 않은 상황에서 자주 사용됩니다.
### 포아송 분포의 주요 특징
1. **이산형 확률분포**:
- 포아송 분포는 특정 시간 또는 공간 내에서 사건이 발생한 횟수를 세는 데 사용됩니다. 이 횟수는 이산적(정수)인 값만 가질 수 있습니다.
2. **사건 발생의 독립성**:
- 포아송 분포는 사건이 시간 또는 공간 내에서 독립적으로 발생한다고 가정합니다. 즉, 어떤 순간에 사건이 발생했는지가 다른 순간에 사건이 발생할 확률에 영향을 미치지 않습니다.
3. **평균 발생률**:
- 포아송 분포는 평균 발생률(λ, 람다)로 표현되며, 이 λ는 특정 시간 또는 공간 내에서 기대되는 사건의 평균 발생 횟수입니다. λ는 포아송 분포의 유일한 매개변수이며, 이를 통해 분포의 형태가 결정됩니다.
4. **확률질량함수(PMF)**:
- 사건이 kkk번 발생할 확률은 다음과 같은 확률질량함수(PMF)로 표현됩니다:
P(X=k)=λke−λk!P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}P(X=k)=k!λke−λ
여기서 XXX는 사건이 발생한 횟수를 나타내는 확률변수, λ\lambdaλ는 주어진 시간 또는 공간에서의 평균 발생률, kkk는 발생 횟수이며, eee는 자연로그의 밑(약 2.71828)입니다.
5. **예시**:
- **전화 교환기**: 특정 시간 동안 교환기로 걸려오는 전화의 수를 모델링할 때, 포아송 분포를 사용합니다. 예를 들어, 매시간 평균 5통의 전화가 걸려온다면, 이 시간 동안 7통의 전화가 걸려올 확률을 계산할 수 있습니다.
- **응급실 방문자 수**: 병원 응급실에서 한 시간 동안 방문하는 환자 수를 예측할 때도 포아송 분포를 사용할 수 있습니다.
6. **포아송 분포의 활용**:
- 포아송 분포는 사건의 발생이 드문 상황에서 사용되며, 특정 시간이나 공간 내에서 사건의 발생을 모델링하는 데 매우 유용합니다. 실생활에서는 통신, 산업 공정, 의료 분야 등에서 널리 사용됩니다.
### 포아송 분포의 성질
1. **기대값과 분산**:
- 포아송 분포의 기대값과 분산은 모두 λ로 동일합니다. 즉, E(X)=λ\text{E}(X) = \lambdaE(X)=λ, Var(X)=λ\text{Var}(X) = \lambdaVar(X)=λ입니다.
2. **표준 포아송 분포**:
- 만약 λ = 1인 경우, 이 분포를 **표준 포아송 분포**라고 합니다.
3. **포아송 분포와 이항분포의 관계**:
- 이항분포에서 사건의 발생 확률이 매우 작고, 시행 횟수가 매우 큰 경우, 이항분포는 포아송 분포로 근사할 수 있습니다. 이 경우, 포아송 분포의 평균 발생률 λ는 이항분포의 시행 횟수와 각 시행의 성공 확률의 곱으로 주어집니다.
포아송 분포는 이처럼 드문 사건의 발생 횟수를 모델링하는 데 매우 적합하며, 여러 분야에서 중요한 역할을 합니다.
---
![[ADsP 기출문제 이미지 12.png]]]]
① age와 wage의 관계가 선형인지는 위의 결과로 판단할 수 없다.
② age의 효과를 제어했을 때 각 education 그룹 간의 wage가 동일하다고 할 수 없다.
③ age와 wage는 양의 상관관계를 가진다.
④ age가 증가함에 따라 wage에 미치는 영향은 각 education 그룹에 따라 다를 것이다.
정답: 3
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
### 분석
- **모델 설명**: 주어진 R 코드에서는 `lm()` 함수를 사용해 `wage`를 종속변수로 하고, `age`, `education`, 그리고 이들 간의 상호작용 항(`age:education`)을 독립변수로 하는 선형회귀모델을 구축했습니다.
- **ANOVA 결과**: `aov()` 함수를 사용해 이 모델에 대한 분산분석을 수행했습니다.
### 각 선택지 분석
1. **선택지 ①: "age와 wage의 관계가 선형인지는 위의 결과로 판단할 수 없다."**
- 주어진 ANOVA 결과만으로는 `age`와 `wage` 간의 관계가 선형인지 여부를 판단할 수 없습니다. 선형성 판단은 주로 잔차 분석이나 다른 진단 도구를 통해 수행됩니다. 이 선택지는 **적절한 설명**입니다.
2. **선택지 ②: "age의 효과를 제어했을 때 각 education 그룹 간의 wage가 동일하다고 할 수 없다."**
- ANOVA 결과에서 `education`의 p-value가 매우 작으므로, `education` 변수는 `wage`에 유의한 영향을 미친다고 할 수 있습니다. 따라서 교육 수준에 따른 `wage`의 차이가 존재합니다. 이 선택지도 **적절한 설명**입니다.
3. **선택지 ③: "age와 wage는 양의 상관관계를 가진다."**
- 이 주장은 ANOVA 결과만으로는 알 수 없습니다. ANOVA는 변수들 간의 상관관계를 보여주지 않고, 각 변수와 상호작용 항의 유의미성을 테스트합니다. **이 선택지는 적절하지 않은 설명**입니다.
4. **선택지 ④: "age가 증가함에 따라 wage에 미치는 영향은 각 education 그룹에 따라 다를 것이다."**
- `age:education` 상호작용 항의 p-value가 0.0133으로, 유의미한 수준이므로 `age`가 `wage`에 미치는 영향은 `education` 그룹에 따라 달라진다고 해석할 수 있습니다. **이 선택지도 적절한 설명**입니다.
### 결론
- **정답은 ③번**입니다.**
- ANOVA 결과만으로는 `age`와 `wage` 간의 상관관계의 방향(양의 상관관계 여부)을 판단할 수 없으므로, 이 선택지는 부적절합니다.
---
32. 다음 중 아래 코드 실행 결과에 대한 설명으로 가장 적절한 것은? ![[ADsP 기출문제 이미지 14.png]]]]
① 위의 모델은 2차 선형 회귀 모델이다.
② 추정된 회귀식은 weight = 7.9879*Time이다.
③ 회귀모형은 유의수준 5% 하에서 통계적으로 유의미하다.
④ Intercept는 유의수준 0.1% 하에서 통계적으로 매우 유의미하다.
정답: 3
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
풀 수 있는 문제
---
15. 데이터 분석에서 정확도(Accuracy)와 정밀도(Precision)에 대한 설명으로 가장 적절하지 않은 것은?
① 정확도는 True로 예측한 것 중 실제 True인 비율, 정밀도는 실제 True인 경우에서 True로 예측한 비율이다.
② 정확도는 모델의 실제 값 사이의 차이이고, 정밀도는 모델을 지속적으로 반복했을 때 편차의 수준이다.
③ 모형의 활용측면에서는 정확도가, 모형의 안정성측면에서는 정밀도가 중요하다.
④ 정확도와 정밀도는 트레이드-오프 관계가 되는 경우가 많다.
정답: 1
[[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]
19. 통계적 가설검정에 대한 설명으로 가장 적절하지 않은 것은?
① 대립가설은 연구자가 연구를 통해 입증되기를 기대하는 가설이다.
② 귀무가설을 기각할 수 있는 검정통계량의 영역을 기각역이라고 한다.
③ p-value가 작을수록 해당 검정통계량의 관측값은 귀무가설을 더 지지하는 것으로 해석할 수 있다.
④ 다른 조건이 동일할 때 제1종 오류를 줄이면 제2종 오류는 늘어나게 된다.
정답: 3
[[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]
풀 수 있는 문제
26. 아래는 변수 X와 Y에 대하여 단순선형회귀모형 Yi = β0 + β1Xi + ε, i=1,...,n을 분석한 분산분석표이다. 아래에서 얻을 수 있는 결론으로 가장 적절하지 않은 것은? (단, 기본가정은 모두 만족하는 것을 전제로 함)
| 요인 | 제곱합 | 자유도 | 평균제곱 | F-value | p-value |
| --- | --- | --- | ---- | ------- | ------- |
| 회귀 | 100 | 1 | 100 | 50 | 0.00004 |
| 잔차 | 200 | 10 | 2 | | |
| 계 | 300 | 11 | | | |
① 추정된 회귀계수는 유의수준 0.05에서 유의하다.
② 오차항(e)의 분산의 불편추정값은 0.1이다.
③ 위 분석에 사용된 자료의 크기(n)는 12이다.
④ 결정계수는 \(\frac{1}{3}\)이다.
정답: 2
[[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]
이 문제는 주어진 분산분석표(ANOVA 표)와 관련된 여러 결론을 평가하는 문제입니다. 각 선택지의 타당성을 분석하여 부적절한 결론이 무엇인지 확인해보겠습니다.
### 주어진 ANOVA 표 분석
- **회귀 제곱합 (SSR)**: 100
- **잔차 제곱합 (SSE)**: 200
- **총 제곱합 (SST)**: 300 (회귀 제곱합 + 잔차 제곱합)
- **회귀 자유도**: 1
- **잔차 자유도**: 10
- **총 자유도**: 11 (회귀 자유도 + 잔차 자유도)
- **회귀 평균제곱 (MSR)**: 100
- **잔차 평균제곱 (MSE)**: 2
- **F-value**: 50
- **p-value**: 0.00004
### 선택지 분석
#### ① "추정된 회귀계수는 유의수준 0.05에서 유의하다."
- **적절한 설명**입니다. p-value가 0.00004로 매우 작기 때문에 유의수준 0.05에서 회귀계수는 유의하다고 결론을 내릴 수 있습니다.
#### ② "오차항(e)의 분산의 불편추정값은 0.1이다."
- **부적절한 설명**입니다. 오차항의 분산에 대한 불편추정값은 **잔차 평균제곱(MSE)**입니다. 주어진 MSE는 2이므로 오차항의 분산의 불편추정값은 2가 되어야 합니다. 0.1이라는 값은 잘못된 해석입니다.
#### ③ "위 분석에 사용된 자료의 크기(n)는 12이다."
- **적절한 설명**입니다. 총 자유도는 n−1n - 1n−1이므로, 주어진 총 자유도가 11인 경우, n=12n = 12n=12임을 알 수 있습니다.
#### ④ "결정계수는 13\frac{1}{3}31이다."
- **적절한 설명**입니다. 결정계수 R2R^2R2는 회귀 제곱합(SSR)과 총 제곱합(SST)의 비율로 계산됩니다.
$
R2=SSRSST=100300=13R^2 = \frac{\text{SSR}}{\text{SST}} = \frac{100}{300} = \frac{1}{3}
$
---
27. 모분산의 추론에 대한 설명으로 가장 적절하지 않은 것은?
① 모분산을 추론하면 모집단의 변동성 또는 퍼짐 정도를 추정할 수 있다.
② 정규모집단으로부터 n개의 단순임의 추출한 표본의 분산은 자유도가 n-1인 분포를 따른다.
③ 모집단이 정규분포를 따르지 않더라도 중심극한정리를 통해 정규모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있다.
④ 이표본(two sample)에 의한 분산비 검정에서 두 표본의 분산이 동일한지 비교하는 검정통계량은 F-분포를 따른다.
정답: 2
[[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]
이 문제는 모분산의 추론에 관한 여러 개념을 이해하고 평가하는 것입니다. 각 선택지의 타당성을 분석하여 부적절한 결론이 무엇인지 확인해보겠습니다.
### 선택지 분석
#### ① "모분산을 추론하면 모집단의 변동성 또는 퍼짐 정도를 추정할 수 있다."
- **적절한 설명**입니다. 모분산은 모집단의 변동성 또는 퍼짐 정도를 나타내는 지표이므로, 이를 추론하는 것은 모집단의 변동성을 추정하는 것과 같습니다.
#### ② "정규모집단으로부터 n개의 단순임의 추출한 표본의 분산은 자유도가 n-1인 분포를 따른다."
- **부적절한 설명**입니다. 정규모집단에서 단순임의추출된 표본의 분산은 자유도가 n−1n-1n−1인 **χ2\chi^2χ2 (카이제곱) 분포**를 따르는 것이 맞습니다. 그러나 이 설명에서 "분산이 자유도가 n−1n-1n−1인 분포를 따른다"는 표현은 혼동을 일으킬 수 있습니다. 자유도 n−1n-1n−1인 분포는 χ2\chi^2χ2 분포를 의미하지만, 직접적으로 분산이 분포를 따른다고 표현하는 것은 부정확합니다.
#### ③ "모집단이 정규분포를 따르지 않더라도 중심극한정리를 통해 정규모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있다."
- **적절한 설명**입니다. 중심극한정리에 의해, 모집단이 정규분포를 따르지 않더라도 표본의 크기가 충분히 크다면 정규분포를 근사하여 사용할 수 있습니다. 이를 통해 모분산에 대한 검정도 유사하게 시행할 수 있습니다.
#### ④ "이표본(two sample)에 의한 분산비 검정에서 두 표본의 분산이 동일한지 비교하는 검정통계량은 F-분포를 따른다."
- **적절한 설명**입니다. 두 집단의 분산이 동일한지 비교하는 분산비 검정에서는 F-분포를 사용합니다. F-분포는 두 표본의 분산 비율에 대한 분포입니다.
### 결론
**정답은 ②번**입니다. 설명에서 "정규모집단으로부터 n개의 단순임의 추출한 표본의 분산은 자유도가 n-1인 분포를 따른다"는 표현이 부정확하며, 정확히는 표본분산이 n−1n-1n−1 자유도의 χ2\chi^2χ2 분포와 관련이 있음을 명확히 해야 합니다.
---