22. 측정대상이 갖고 있는 속성의 양을 측정하는 것으로 측정결과가 숫자로 표현되나 해당 속성이 전혀 없는 상태면 절대값이 없으며 두 관측 값 사이의 비율은 별 의미가 없게 된다. 온도, 지수 등이 해당되는 이 척도는 무엇인가?
① 명목척도
② 순서척도
③ 구간척도
④ 비율척도
정답: 3
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
질문에서 설명하는 척도는 측정대상의 속성의 양을 숫자로 표현하지만, 절대 영점이 없고 두 관측 값 사이의 비율이 의미가 없다는 특징을 가지고 있습니다. 이러한 특징을 고려하면, 다음과 같은 척도 중에서 선택할 수 있습니다:
1. **명목척도 (Nominal Scale)**:
- 속성을 분류하는 데 사용되는 척도로, 숫자는 단순히 카테고리를 나타내기 위한 것입니다. 예를 들어, 성별, 혈액형 등이 있습니다.
- **적절하지 않습니다.**
2. **순서척도 (Ordinal Scale)**:
- 순서를 나타내는 척도로, 숫자는 순위를 나타냅니다. 예를 들어, 설문조사의 만족도 순위 등이 있습니다. 순서는 있지만 두 값 사이의 차이 또는 비율은 의미가 없습니다.
- **적절하지 않습니다.**
3. **구간척도 (Interval Scale)**:
- 속성의 양을 측정하고, 두 관측 값 사이의 차이를 비교할 수 있는 척도입니다. 그러나 절대 영점이 없으며, 두 값 사이의 비율은 의미가 없습니다. 예를 들어, 섭씨 온도, 지수 등이 있습니다.
- **적절한 설명입니다.**
4. **비율척도 (Ratio Scale)**:
- 속성의 양을 측정하고, 절대 영점이 있으며, 두 관측 값 사이의 비율도 의미가 있는 척도입니다. 예를 들어, 길이, 무게, 나이 등이 있습니다.
---
24. 다음 중 모분산의 추론에 대한 설명으로 적절하지 않은 것은 무엇인가?
① 이분산에 의한 분산비 검증은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F분포를 따른다.
② 모분산의 추론의 대상이 되는 경우는 모집단의 변동성 또는 편차의 정도에 관심이 있을 때이다.
③ 모집단이 정규분포를 따르지 않더라도 중심극한 정리를 통해 정규 모집단으로부터의 모분산에 대한 검증을 유사하게 시행할 수 있다.
④ 평균군집단에서 n개를 단순임의 추출한 표본의 분산은 자유도가 n-1인 분포를 따른다.
정답: 4
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
**핵심은 자유도가 n-1인 카이제곱 분포를 따른다는 설명이 아니어서 4번이 틀린 거다. 3번도 맞진 않는 것 같은데. **
모분산의 추론에 대한 설명 중 적절하지 않은 것에 대한 문제를 다시 한 번 살펴보겠습니다.
1. **이분산에 의한 분산비 검증은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F분포를 따른다.**
- 이는 두 표본의 분산을 비교하기 위한 검정으로, F-검정을 사용하여 두 표본의 분산이 동일한지를 판단합니다. 검정통계량은 F분포를 따릅니다.
- **적절한 설명입니다.**
2. **모분산의 추론의 대상이 되는 경우는 모집단의 변동성 또는 편차의 정도에 관심이 있을 때이다.**
- 모분산의 추론은 모집단의 변동성(또는 편차의 정도)을 추정하고자 할 때 사용됩니다.
- **적절한 설명입니다.**
3. **모집단이 정규분포를 따르지 않더라도 중심극한 정리를 통해 정규 모집단으로부터의 모분산에 대한 검증을 유사하게 시행할 수 있다.**
- 중심극한 정리는 표본평균의 분포가 정규분포에 가까워지는 성질을 설명합니다. 그러나 모집단이 정규분포를 따르지 않을 경우, 모분산에 대한 검증을 중심극한 정리를 통해 유사하게 시행할 수 있다는 것은 정확하지 않습니다. 모분산의 추론은 보통 모집단이 정규분포를 따른다는 가정 하에서 이루어집니다.
- **부적절한 설명입니다.**
4. **평균군집단에서 n개를 단순임의 추출한 표본의 분산은 자유도가 n-1인 분포를 따른다.**
- 표본 분산은 자유도가 n−1n-1n−1인 카이제곱 분포를 따릅니다. 하지만 "평균군집단"이라는 표현이 정확하지 않으며, 표본의 분산이 정규분포를 따른다는 설명이 적절하지 않습니다. 표본 분산은 자유도가 n−1n-1n−1인 χ2\chi^2χ2 분포를 따르지만, 이 설명은 틀렸습니다.
- **부적절한 설명입니다.**
### 정답: 4
**평균군집단에서 n개를 단순임의 추출한 표본의 분산은 자유도가 n-1인 분포를 따른다.**
이 설명은 부적절합니다. 표본 분산은 자유도가 n−1n-1n−1인 χ2\chi^2χ2 분포를 따르지만, "평균군집단"이라는 표현과 "정규분포를 따른다"는 부분이 정확하지 않습니다.
---
25. 다음 다중회귀분석을 위해 사용되는 변수선택방법에 대한 설명 중 변수선택방법과 설명이 잘못 연결되어 있는 것은?
① 전진선택법(Forward Selection)은 상수항만 포함된 모형에서 출발하여 설명력이 좋은 변수를 하나씩 추가하는 방법이다.
② 단계적 방법(Stepwise Method)은 설명력이 나쁜 변수를 제거하거나 모형에서 제외된 변수 중 모형의 설명력을 가장 잘 개선하는 변수를 추가하는 방법이다.
③ 후진제거법(Backward Elimination)은 모든 변수가 포함된 모형에서 설명력이 나쁜 변수를 하나씩 제거하는 방법이다.
④ 최적선택법(Optimum Selection)은 전진선택법과 후진제거법을 결합한 방법으로 최적의 변수를 선택하도록 하는 방법이다.
정답: 4
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
다중회귀분석에서 변수선택방법은 모델의 복잡도를 조절하고 과적합을 방지하기 위해 중요한 역할을 합니다. 변수선택방법의 설명이 잘못 연결되어 있는지 확인해보겠습니다.
### 변수선택방법 설명
1. **전진선택법(Forward Selection)**
- 전진선택법은 초기 모델에 상수항만 포함하고, 설명력이 좋은 변수를 하나씩 추가하여 모델을 확장하는 방법입니다.
- **적절한 설명입니다.**
2. **단계적 방법(Stepwise Method)**
- 단계적 방법은 전진선택법과 후진제거법을 결합한 방법으로, 변수 추가와 제거를 반복하여 모델의 설명력을 최적화하는 방법입니다. 설명력이 나쁜 변수를 제거하거나, 모형에서 제외된 변수 중 설명력을 개선하는 변수를 추가하는 방법입니다.
- **적절한 설명입니다.**
3. **후진제거법(Backward Elimination)**
- 후진제거법은 초기 모델에 모든 변수를 포함하고, 설명력이 나쁜 변수를 하나씩 제거하여 모델을 간소화하는 방법입니다.
- **적절한 설명입니다.**
4. **최적선택법(Optimum Selection)**
- 최적선택법이라는 용어는 일반적으로 사용되지 않으며, 설명된 내용은 단계적 방법(Stepwise Method)에 더 적합합니다. 최적선택법이란 용어는 특정한 변수선택 방법을 나타내지 않습니다.
- **부적절한 설명입니다.**
---
29. 다음 중 비모수검정이 아닌 것을 고르시오.
① 윌콕슨의 순위합 검정
② 맨-휘트니 U검정
③ 스피어만의 순위상관계수
④ 자기상관검정
정답: 4
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
비모수 검정은 데이터가 특정 분포(주로 정규 분포)를 따른다는 가정 없이 데이터를 분석하는 통계 방법입니다. 각 항목이 비모수 검정인지 아닌지 살펴보겠습니다.
1. **윌콕슨의 순위합 검정 (Wilcoxon Rank-Sum Test)**
- 이는 두 독립 표본이 동일한 분포를 갖는지 비교하는 비모수 검정 방법입니다.
- **비모수 검정입니다.**
2. **맨-휘트니 U검정 (Mann-Whitney U Test)**
- 이는 두 독립 표본의 중앙값을 비교하는 비모수 검정 방법으로, 윌콕슨의 순위합 검정과 동일합니다.
- **비모수 검정입니다.**
3. **스피어만의 순위상관계수 (Spearman's Rank Correlation Coefficient)**
- 이는 두 변수 간의 순위 상관 관계를 측정하는 비모수 방법입니다.
- **비모수 검정입니다.**
4. **자기상관검정 (Autocorrelation Test)**
- 자기상관 검정은 시간 시계열 데이터에서 이전 값과 현재 값 사이의 상관 관계를 측정하는 방법으로, 일반적으로 모수 방법(특히 정규성을 가정한 방법)입니다.
- **비모수 검정이 아닙니다.**
---
31. 다음 중 회귀분석에서 나온 결정계수(R²)에 대한 설명으로 옳지 않은 것은?
① 총제곱의 중 설명된 제곱의 합의 비율을 뜻한다.
② 종속변수에 미치는 영향이 적은 독립변수가 추가된다면 결정계수는 변하지 않는다.
③ R²의 값이 클수록 회귀선으로 실제 관찰치를 예측하는 데 정확성이 높아진다.
④ 독립변수의 숫자와 상관없이 표본상관계수 r의 제곱값과 같다.
정답: 2
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
34. 아래의 잔차도를 보고 회귀분석의 가정 중 어떤 가정이 위배되었다고 판단할 수 있는가?
![[01회 모의고사 그림 01.png]]
① 비상관성
② 등분산성
③ 선형성
④ 독립성
정답: 2
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
주어진 잔차도(Residual Plot)를 분석한 결과, 다음과 같은 판단을 내릴 수 있습니다:
### 잔차도 분석:
잔차도가 포물선 형태를 띠고 있다는 것은 잔차가 특정한 패턴을 따라 분포하고 있다는 것을 나타냅니다. 이는 회귀 분석의 특정 가정이 위배되고 있음을 시사합니다.
### 주어진 선택지 분석:
1. **비상관성 (No Autocorrelation)**:
- 비상관성은 잔차들 간에 상관관계가 없어야 한다는 가정입니다. 잔차들이 시간적 순서에 따라 상관관계가 없는 경우를 의미합니다. 주어진 잔차도는 시간적 순서를 나타내지 않으므로 이 가정을 판단하기 어렵습니다.
2. **등분산성 (Homoscedasticity)**:
- 등분산성은 잔차들의 분산이 모든 수준에서 일정해야 한다는 가정입니다. 주어진 잔차도에서 잔차의 분포가 특정한 패턴을 따르고 있으며, 분산이 일정하지 않아 보입니다. 따라서 이 가정이 위배되었다고 볼 수 있습니다.
3. **선형성 (Linearity)**:
- 선형성은 독립변수와 종속변수 간의 관계가 선형적이어야 한다는 가정입니다. 주어진 잔차도에서 포물선 형태는 선형성이 위배되었음을 나타냅니다. 즉, 독립변수와 종속변수 간의 관계가 비선형적임을 시사합니다.
4. **독립성 (Independence)**:
- 독립성은 잔차들이 서로 독립적이어야 한다는 가정입니다. 주어진 잔차도에서는 잔차들이 독립적인지 여부를 판단할 수 있는 정보가 부족합니다.
### 결론:
**선형성(Linearity)**와 **등분산성(Homoscedasticity)** 가정이 위배되었다고 볼 수 있습니다. 주어진 선택지에서 두 가정을 비교할 때, 주어진 잔차도의 형태로 인해 선형성 위배가 더 명확하게 드러납니다.
---
47. 아래는 근로자의 임금 등에 대한 데이터에 대한 분석 결과이다. 다음 중 유의수준 0.05에서 이에 대한 설명으로 가장 적절하지 않은 것은?
```r
> summary(Wage,c("wage", "age", "jobclass"))
wage age jobclass
Min. : 20.09 Min. :18.00 1. Industrial :1544
1st Qu.: 85.38 1st Qu.:33.75 2. Information:1456
Median :104.92 Median :42.00
Mean :111.70 Mean :42.41
3rd Qu.:128.68 3rd Qu.:51.00
Max. :318.34 Max. :80.00
> model<-lm(wage~age+jobclass+age*jobclass,data=Wage)
> summary(model)
Call:
lm(formula = wage ~ age + jobclass + age * jobclass, data = Wage)
Residuals:
Min 1Q Median 3Q Max
-105.656 -24.568 -6.104 16.433 196.810
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 73.52831 3.76133 19.548 < 2e-16 *
age 0.71966 0.08744 8.230 2.57e-16 *
jobclass2. Information 22.73086 5.63141 4.036 5.56e-05 *
age:jobclass2. Information -0.16017 0.12785 -1.253 0.21
---
Signif. codes: 0 ‘*’ 0.001 ‘’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 40.16 on 2996 degrees of freedom
Multiple R-squared: 0.07483, Adjusted R-squared: 0.07391
F-statistic: 80.78 on 3 and 2996 DF, p-value: < 2.2e-16
```
① 직업군이 동일할 때, 나이가 많을수록 임금이 올라가는 경향이 있다.
② 나이가 동일할 때, Information 직군이 Industrial 직군에 비해 평균적으로 임금이 높다.
③ 나이에 따라 두 직군 간의 임금의 평균 차이가 유의하게 변하지 않는다.
④ 위의 회귀식은 유의수준 0.05에서 임금의 변동성을 설명하는데 유의하지 않다.
정답: 4
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
주어진 회귀분석 결과에서는 다음과 같은 변수가 사용되었습니다:
- **age** (나이)
- **jobclass** (직업군, 두 가지: Industrial와 Information)
- **age와 jobclass의 상호작용 항(term)**
따라서 총 3개의 변수가 모델에 포함되었습니다: age, jobclass, age * jobclass.
### 주어진 회귀분석 결과:
- **모델 식**: `wage ~ age + jobclass + age * jobclass`
- **잔차(Residuals)**: 모델의 오차 분포를 보여줍니다.
- **계수(Coefficients)**:
- (Intercept): 73.52831, p-value < 2e-16
- age: 0.71966, p-value = 2.57e-16
- jobclass2. Information: 22.73086, p-value = 5.56e-05
- age
. Information: -0.16017, p-value = 0.21
- **R-squared**: 0.07483
- **Adjusted R-squared**: 0.07391
- **F-statistic**: 80.78, p-value < 2.2e-16
### 해석:
1. **직업군이 동일할 때, 나이가 많을수록 임금이 올라가는 경향이 있다.**
- `age`의 계수는 0.71966이며, p-value는 2.57e-16으로 유의수준 0.05에서 유의합니다. 이는 나이가 증가할수록 임금이 올라가는 경향이 있음을 의미합니다.
- **적절한 설명입니다.**
2. **나이가 동일할 때, Information 직군이 Industrial 직군에 비해 평균적으로 임금이 높다.**
- `jobclass2. Information`의 계수는 22.73086이며, p-value는 5.56e-05로 유의수준 0.05에서 유의합니다. 이는 Information 직군이 Industrial 직군에 비해 임금이 평균적으로 높음을 의미합니다.
- **적절한 설명입니다.**
3. **나이에 따라 두 직군 간의 임금의 평균 차이가 유의하게 변하지 않는다.**
- `age:jobclass2. Information`의 계수는 -0.16017이며, p-value는 0.21으로 유의수준 0.05에서 유의하지 않습니다. 이는 나이에 따라 두 직군 간의 임금 차이가 유의하게 변하지 않는다는 것을 의미합니다.
- **적절한 설명입니다.**
4. **위의 회귀식은 유의수준 0.05에서 임금의 변동성을 설명하는데 유의하지 않다.**
- 전체 모델의 F-statistic은 80.78이며, p-value는 < 2.2e-16로 유의수준 0.05에서 매우 유의합니다. 이는 회귀식이 임금의 변동성을 설명하는데 유의미함을 의미합니다.
- **부적절한 설명입니다.**
회귀분석에서 범주형 변수를 사용하는 경우, 하나의 범주를 기준으로 다른 범주와의 비교를 수행합니다. 이 기준이 되는 범주를 **기준 범주(reference category)**라고 합니다. 나머지 범주들은 이 기준 범주에 대한 효과를 나타내는 더미 변수(dummy variable)로 표현됩니다.
### 주어진 회귀분석 결과:
- **(Intercept)**: 73.52831
- **age**: 0.71966
- **jobclass2. Information**: 22.73086
- **age
. Information**: -0.16017
여기서 `jobclass2. Information`은 Information 직군에 대한 더미 변수입니다. 회귀분석에서 직업군이 `Information`인지 `Industrial`인지를 나타내기 위해 더미 변수를 사용한 것입니다.
### 이해하기 위한 단계:
1. **기준 범주**:
- 주어진 결과에서는 `jobclass`가 `Industrial`인 경우가 기준 범주(reference category)입니다. 즉, `jobclass2. Information`이 0인 경우는 `Industrial` 직군을 의미합니다.
2. **더미 변수**:
- `jobclass2. Information`이 1인 경우는 `Information` 직군을 의미합니다.
### 회귀식 해석:
회귀식은 다음과 같이 작성됩니다: wage=73.52831+0.71966⋅age+22.73086⋅Information−0.16017⋅(age×Information)\text{wage} = 73.52831 + 0.71966 \cdot \text{age} + 22.73086 \cdot \text{Information} - 0.16017 \cdot (\text{age} \times \text{Information})wage=73.52831+0.71966⋅age+22.73086⋅Information−0.16017⋅(age×Information)
여기서 `Information`은 직업군이 `Information`인 경우 1, `Industrial`인 경우 0으로 나타냅니다.
### 산업 직군 (Industrial) 및 정보 직군 (Information)의 임금 예측:
1. **Industrial 직군 (기준 범주)**:
- `Information`이 0이므로, 회귀식에서 관련된 항목이 모두 사라집니다.
- 회귀식: wage=73.52831+0.71966⋅age\text{wage} = 73.52831 + 0.71966 \cdot \text{age}wage=73.52831+0.71966⋅age
- 이 식은 `Industrial` 직군의 나이에 따른 임금을 나타냅니다.
2. **Information 직군**:
- `Information`이 1이므로, 회귀식은 다음과 같이 됩니다:
- 회귀식: wage=73.52831+0.71966⋅age+22.73086−0.16017⋅age\text{wage} = 73.52831 + 0.71966 \cdot \text{age} + 22.73086 - 0.16017 \cdot \text{age}wage=73.52831+0.71966⋅age+22.73086−0.16017⋅age
- 이를 단순화하면: wage=73.52831+(0.71966−0.16017)⋅age+22.73086\text{wage} = 73.52831 + (0.71966 - 0.16017) \cdot \text{age} + 22.73086wage=73.52831+(0.71966−0.16017)⋅age+22.73086 wage=73.52831+0.55949⋅age+22.73086\text{wage} = 73.52831 + 0.55949 \cdot \text{age} + 22.73086wage=73.52831+0.55949⋅age+22.73086
### 비교:
- **Industrial 직군**: wage=73.52831+0.71966⋅age\text{wage} = 73.52831 + 0.71966 \cdot \text{age}wage=73.52831+0.71966⋅age
- **Information 직군**: wage=96.25917+0.55949⋅age\text{wage} = 96.25917 + 0.55949 \cdot \text{age}wage=96.25917+0.55949⋅age
이 결과는 `Information` 직군이 `Industrial` 직군에 비해 기본 임금이 약 22.73086만큼 높음을 의미합니다. 그러나 나이(age)에 따른 임금 증가율은 `Industrial` 직군(0.71966)보다 `Information` 직군(0.55949)이 낮습니다.
따라서, 회귀분석 결과에서 `Industrial` 직군의 값은 기준 범주로 설정되어 있어 별도의 계수가 제공되지 않았지만, 이를 통해 `Industrial` 직군의 회귀식을 도출할 수 있습니다. `Information` 직군의 계수를 통해 두 직군 간의 임금 차이를 비교할 수 있습니다.
---
50. 다음 중 자료의 중앙 50% 데이터들이 흩어진 정도를 의미하는 것은?
① 중앙값(median)
② 사분위수 범위(Interquantile Range)
③ 표준편차(Standard Deviation)
④ 평균(Mean)
정답: 2
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
**사분위수 범위(Interquartile Range, IQR)**:
- 사분위수 범위는 제1사분위수(Q1)와 제3사분위수(Q3) 사이의 범위를 의미합니다. 즉, 데이터의 중앙 50%가 얼마나 흩어져 있는지를 나타내는 지표입니다.
- IQR = Q3 - Q1
---
47. 다음 가설검정 용어 중 '귀무가설이 옳은데도 이를 기각하는 확률의 크기'를 나타내는 용어는 무엇인가?
① 제 2종 오류
② 검정통계량
③ 기각역
④ 유의수준
정답: 4
출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]
가설검정에서 '귀무가설이 옳은데도 이를 기각하는 확률의 크기'를 나타내는 용어는 **유의수준 (significance level)**입니다.
### 각 용어에 대한 설명:
1. **제 2종 오류 (Type II Error)**:
- 제 2종 오류는 실제로 귀무가설이 거짓인데도 불구하고 이를 기각하지 않는 오류를 말합니다. 즉, 실제로 대립가설이 참인데도 귀무가설을 채택하는 오류입니다.
- 제 2종 오류를 나타내는 확률은 베타(β)로 표시합니다.
2. **검정통계량 (Test Statistic)**:
- 검정통계량은 표본 데이터로부터 계산된 값으로, 이를 통해 귀무가설을 기각할지 여부를 결정합니다. 예를 들어, t-검정에서는 t-값이 검정통계량입니다.
3. **기각역 (Rejection Region)**:
- 기각역은 검정통계량이 귀무가설을 기각하게 되는 구간을 말합니다. 검정통계량이 기각역에 속하면 귀무가설을 기각하게 됩니다.
4. **유의수준 (Significance Level)**:
- 유의수준은 귀무가설이 옳은데도 이를 기각하는 확률을 나타냅니다. 보통 α로 표시하며, 흔히 사용하는 유의수준은 0.05 (5%)입니다. 즉, 유의수준이 0.05라는 것은 5%의 확률로 귀무가설이 참임에도 불구하고 이를 기각하게 된다는 의미입니다.
---
1. K-평균군집은 단순하고 빠르게 수행될 수 있지만 변수의 크기에 영향을 받음에 따라 군집 분석을 수행하기 전에 정규화 과정이 필수적이다. 다음 정규화 방법 중 원 데이터의 분포를 유지하면서 정규화가 가능한 방법은 무엇인가?
① z-score 정규화
② min-max 정규화
③ 로그 정규화
④ 벡터 정규화
정답: 2
출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]
Min-Max 정규화가 원 데이터의 분포를 유지하면서 정규화가 가능하다는 설명이 맞는지 다시 검토해 보겠습니다.
### 각 정규화 방법에 대한 검토:
1. **z-score 정규화 (Z-score Normalization)**:
- 데이터의 평균을 0으로, 표준편차를 1로 변환합니다.
- 데이터의 분포를 표준 정규분포로 변경합니다.
- **원 데이터의 분포를 유지하지 않습니다.**
2. **min-max 정규화 (Min-Max Normalization)**:
- 데이터 값을 0과 1 사이의 값으로 변환합니다.
- 데이터의 상대적인 분포와 구조를 유지합니다.
- 공식: x′=(x−min(x))(max(x)−min(x))x' = \frac{(x - \min(x))}{(\max(x) - \min(x))}x′=(max(x)−min(x))(x−min(x))
- **원 데이터의 분포를 유지하면서 정규화가 가능합니다.**
3. **로그 정규화 (Log Normalization)**:
- 데이터의 범위를 축소하기 위해 로그 변환을 사용합니다.
- 데이터의 분포를 크게 변경할 수 있습니다.
- **원 데이터의 분포를 유지하지 않습니다.**
4. **벡터 정규화 (Vector Normalization)**:
- 벡터의 길이를 1로 만드는 방법입니다.
- 주로 벡터 간의 유사성을 계산할 때 사용됩니다.
- **원 데이터의 분포를 유지하지 않습니다.**
---
49. 상품의 가격을 조사한 데이터를 나타낸 다음의 Box Plot에 대한 설명으로 옳은 것은?
![[02회 모의고사 그림 02.png]]
① 평균 -1.5*IQR ≤ 데이터 ≤ 평균 +1.5*IQR 범위를 벗어난 데이터를 이상치라고 한다.
② 평균(mean)은 160이다.
③ 3사분위수보다 높은 가격 데이터가 약 50% 이상이다.
④ 가격의 IQR(Interquartile Range)은 60이다.
정답: 4
출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]
주어진 박스 플롯(Box Plot)을 해석해 보겠습니다.
### 박스 플롯 해석:
1. **최소값(Minimum)**: 100
2. **제1사분위수(Q1)**: 140
3. **중앙값(Median)**: 160
4. **제3사분위수(Q3)**: 200
5. **최대값(Maximum)**: 300
### 각 보기 검토:
1. **평균 -1.5IQR ≤ 데이터 ≤ 평균 +1.5IQR 범위를 벗어난 데이터를 이상치라고 한다.**
- 이상치는 보통 Q1 - 1.5IQR보다 작거나 Q3 + 1.5IQR보다 큰 값으로 정의됩니다. 평균(mean)과 관련된 설명은 부정확합니다.
- **부적절한 설명입니다.**
2. **평균(mean)은 160이다.**
- 박스 플롯에서 중앙값(Median)이 160임을 알 수 있지만, 평균(mean)에 대한 정보는 제공되지 않았습니다. 중앙값과 평균은 항상 같지 않으며, 데이터의 분포에 따라 다릅니다.
- **부적절한 설명입니다.**
3. **3사분위수(Q3)보다 높은 가격 데이터가 약 50% 이상이다.**
- 박스 플롯에서 Q3(제3사분위수)는 데이터의 상위 25%를 의미합니다. Q3보다 높은 가격 데이터는 상위 25%에 해당하므로 약 50% 이상이라는 설명은 부정확합니다.
- **부적절한 설명입니다.**
4. **가격의 IQR(Interquartile Range)은 60이다.**
- IQR은 Q3 - Q1로 계산됩니다. 주어진 박스 플롯에서 Q3는 200, Q1은 140이므로 IQR은 200 - 140 = 60입니다.
- **적절한 설명입니다.**
---
40. College 데이터프레임은 777개의 미국 소재 대학의 각종 통계치를 포함하고 있다. 각 대학에 재학하는데 필요한 비용이 졸업률(Grad.Rate)에 미치는 영향을 알아보기 위해 등록금(Outstate), 기숙사비(Room.Board), 교재구입비(Books), 그 외 개인지출비용(Personal)을 활용하기로 했다. 다음 중 아래의 결과물에 대한 설명으로 가장 부적절한 것은?
```R
> cor(College)
Grad.Rate Outstate Room.Board Books Personal
Grad.Rate 1.00000000 0.57128993 0.42494195 0.00106894 -0.26934406
Outstate 0.57128993 1.00000000 0.65425642 0.08385468 -0.29908689
Room.Board 0.42494195 0.65425642 1.00000000 0.17929674 -0.19942821
Books 0.00106894 0.08385468 0.17929674 1.00000000 0.17929674
Personal -0.26934406 -0.29908689 -0.19942821 0.17929674 1.00000000
```
① Room.Board와 Outstate 간의 상관관계는 있다고 할 수 있다.
② Personal과 Grad.Rate, Outstate, Room.Board는 음의 상관계수를 가진다.
③ 위의 결과로 각 변수 간의 인과관계 알 수 있다.
④ Grad.Rate의 값이 커짐에 따라 Books의 값이 커지는 원인을 알 수 없다.
정답: 3
출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]]
상관분석 결과 해석하기. 쉽다.
---
19. 소득 수준과 같이 정규 분포를 따르지 않고 오른쪽 꼬리가 긴(right-skewed)분포를 나타내는 자료의 평균값과 중앙값의 관계로 옳은 것은 무엇인가?
① 자료의 크기에 따라 달라진다.
② 평균이 중앙값보다 큰 경향을 보인다.
③ 평균이 중앙값과 일치하는 경향을 보인다.
④ 평균이 중앙값보다 작은 경향을 보인다.
정답: 2
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
오른쪽 꼬리가 긴(right-skewed) 분포는 대체로 고소득층처럼 소수의 극단적으로 큰 값들이 평균에 영향을 많이 미쳐 평균이 중앙값보다 커지는 경향을 보입니다. 이는 평균이 극단값의 영향을 받기 때문에 발생하는 현상입니다.
### 각 선택지 검토:
1. **자료의 크기에 따라 달라진다.**
- 자료의 크기와 상관없이 오른쪽 꼬리가 긴 분포에서는 평균이 중앙값보다 큰 경향이 나타납니다.
- **부적절한 설명입니다.**
2. **평균이 중앙값보다 큰 경향을 보인다.**
- 오른쪽 꼬리가 긴 분포에서는 극단적으로 큰 값들이 평균에 영향을 미쳐 평균이 중앙값보다 커집니다.
- **적절한 설명입니다.**
3. **평균이 중앙값과 일치하는 경향을 보인다.**
- 정규 분포에서는 평균과 중앙값이 일치하지만, 오른쪽 꼬리가 긴 분포에서는 일치하지 않습니다.
- **부적절한 설명입니다.**
4. **평균이 중앙값보다 작은 경향을 보인다.**
- 오른쪽 꼬리가 긴 분포에서는 평균이 극단적으로 큰 값들에 의해 중앙값보다 커지게 됩니다.
- **부적절한 설명입니다.**
---
22. 다음 중 이상치를 판정하는 방법에 대한 설명으로 가장 부적절한 것은?
① Q2(중위수)+1.5*IQR 보다 크거나 Q2(중위수)-1.5*IQR 작은 데이터를 이상치로 규정한다.
② 3-시그마 법은 “평균으로부터 표준편차의 3배가 넘는 범위의 데이터”를 비정상이라 규정한다.
③ 훗날의 새로운 자료 수집과정에서 이상치를 판정하는 방법이 있다.
④ 표본에 기반한 방법으로 Grubb's Test, Hotellings T-Squared Test 등이 있다.
정답: 1
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
이상치를 판정하는 여러 방법들이 존재합니다. 주어진 선택지들 중 가장 부적절한 설명을 찾아보겠습니다.
1. **Q2(중위수)+1.5_IQR 보다 크거나 Q2(중위수)-1.5_IQR 작은 데이터를 이상치로 규정한다.**
- 이 설명은 부적절합니다. 통상적으로 이상치는 제3사분위수(Q3)보다 1.5_IQR(Interquartile Range) 이상 크거나 제1사분위수(Q1)보다 1.5_IQR 이상 작은 값을 의미합니다. 중위수(Q2)를 기준으로 이상치를 판정하는 것은 일반적이지 않습니다.
- **부적절한 설명입니다.**
2. **3-시그마 법은 “평균으로부터 표준편차의 3배가 넘는 범위의 데이터”를 비정상이라 규정한다.**
- 3-시그마 법칙은 정규 분포에서 평균으로부터 표준편차의 3배를 벗어나는 데이터를 이상치로 간주하는 방법입니다. 이는 널리 사용되는 이상치 판정 방법입니다.
- **적절한 설명입니다.**
3. **훗날의 새로운 자료 수집과정에서 이상치를 판정하는 방법이 있다.**
- 이상치를 판정하는 방법은 기존의 데이터뿐만 아니라 새로운 데이터를 수집할 때도 적용될 수 있습니다.
- **적절한 설명입니다.**
4. **표본에 기반한 방법으로 Grubb's Test, Hotellings T-Squared Test 등이 있다.**
- Grubb's Test와 Hotelling's T-Squared Test는 이상치를 판정하는 표본 기반의 통계적 방법입니다.
- **적절한 설명입니다.**
---
26. 표본들이 서로 관련된 경우 짝지어진 두 관찰치의 크고 작음을 표시하여 그 두 분포의 차이에 대한 가설을 검증하는 비모수 검정 방법은?
① 부호 검정(Sign test)
② 만-휘트니의 U검정(Mann-Whitney U test)
③ 순위합차 검정(Wilcoxon Rank-Sum test)
④ 스피어만의 순위상관계수(Spearman's Rank Correlation Coefficient)
정답: 1
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
**부호 검정(Sign test)**:
- 부호 검정은 짝지어진 두 관찰치의 차이를 구하여, 그 차이가 양수인지 음수인지에 따라 부호를 붙입니다. 그런 다음, 양수와 음수의 수를 비교하여 두 분포의 차이를 검증합니다.
- **적절한 설명입니다.**
---
29. 표본추출의 방법으로 적절하지 않은 것은?
① 계통추출법
② 집단추출법
③ 층화추출법
④ 단순무작위추출법
정답: 2
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
09. A 고등학교에서 B과목의 상위 2%의 상급반을 운영한다고 한다. 상급반에 들어가려고 할 때, B과목의 최저 점수는 몇점인가? (단, 상위 2%일 때 z=2.05, 평균점수=85, 표준편차=5)
( )
정답: 95.25
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
10. 이상형 확률변수 x가 1, 2, 4로 주어졌을 때, p(x=1)이 0.4로 나타났다. p(x=2)의 확률은 얼마인가? (단, 기대값은 2.4)
( )
정답: 0.2
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
18. 아래에 대한 설명으로 부적절한 것은 무엇인가?![[ADsP 기출문제 이미지 17.png]]
① 총 관측치 수는 71이다.
② feed의 중앙값을 계산할 수 없다.
③ casein이 포함된 사료를 먹인 관측치는 12개이다.
④ weight의 중앙값은 261.3이다.
정답: 4
[[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]
21. Wage 데이터는 근로자의 임금(wage)을 포함하고 있다. 아래 결과에 대한 설명으로 가장 부적절한 것은?
```r
> t.test(Wage$wage, mu=100)
One Sample t-test
data: Wage$wage
t = 15.362, df = 2999, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 100
95 percent confidence interval:
110.2098 113.1974
sample estimates:
mean of x
111.7036
```
① 귀무가설은 '평균 임금은 100과 같다'이다.
② 유의수준 α=0.05일 때 귀무가설이 기각되지 않는다.
③ wage의 평균은 111.7036이다.
④ 검정통계량은 t분포를 따른다.
정답: 2
[[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]
주어진 R 코드 결과에 대한 각 선택지를 검토하여 가장 부적절한 설명을 찾아보겠습니다.
### t-검정 결과 해석:
1. **t 값**: 15.362
2. **자유도(df)**: 2999
3. **p 값**: < 2.2e-16
4. **대립 가설**: true mean is not equal to 100
5. **95% 신뢰 구간**: [110.2098, 113.1974]
6. **표본 평균**: 111.7036
### 각 선택지 검토:
1. **귀무가설은 '평균 임금은 100과 같다'이다.**
- 귀무가설(H0): "평균 임금은 100과 같다" (H0: μ = 100)
- **적절한 설명입니다.**
2. **유의수준 α=0.05일 때 귀무가설이 기각되지 않는다.**
- 유의수준 α=0.05에서 p-값이 < 2.2e-16이므로, p-값은 매우 작아 귀무가설을 기각합니다. 따라서 "평균 임금은 100과 같다"는 귀무가설이 기각됩니다.
- **부적절한 설명입니다.**
3. **wage의 평균은 111.7036이다.**
- 주어진 결과에서 샘플 평균은 111.7036으로 명시되어 있습니다.
- **적절한 설명입니다.**
4. **검정통계량은 t 분포를 따른다.**
- 검정통계량(t 값)은 자유도(df) 2999를 가지는 t-분포를 따릅니다.
- **적절한 설명입니다.**
### 결론:
**가장 부적절한 설명은 ②번입니다.**
유의수준 α=0.05에서 p-값이 < 2.2e-16으로 매우 작기 때문에 귀무가설이 기각됩니다. 따라서 "유의수준 α=0.05일 때 귀무가설이 기각되지 않는다"는 설명은 부적절합니다.
---
29. 부스트랩(bootstrap) 방법을 이용하여 모형을 평가하고자 한다. d개의 관측치가 있는 데이터에서 각 관측치가 학습용 데이터(train data)로 선정될 확률은 \(\frac{1}{d}\)이며 학습용 데이터의 선정을 d번 반복할 때, 하나의 관측치가 선정되지 않을 확률은?
① \(1 - \frac{1}{d}\)
② \((1 - \frac{1}{d})^d\)
③ \((1 - \frac{1}{d})^2\)
④ \((1 - \frac{1}{d})^4\)
정답: 2
[[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]
부스트랩(bootstrap) 방법을 사용할 때, d개의 관측치 중에서 하나의 관측치가 학습용 데이터에 포함되지 않을 확률을 계산해보겠습니다.
### 부스트랩 방법 요약
부스트랩 방법은 주어진 데이터 세트에서 동일한 크기의 표본을 복원 추출(sampling with replacement)하여 여러 번 샘플링하는 방법입니다. 이 방법을 통해 모형의 불확실성을 추정하고, 신뢰구간을 구하거나 통계적 추론을 수행할 수 있습니다.
![[부트스트랩 계산.jpg]]