22. 측정대상이 갖고 있는 속성의 양을 측정하는 것으로 측정결과가 숫자로 표현되나 해당 속성이 전혀 없는 상태면 절대값이 없으며 두 관측 값 사이의 비율은 별 의미가 없게 된다. 온도, 지수 등이 해당되는 이 척도는 무엇인가? ① 명목척도 ② 순서척도 ③ 구간척도 ④ 비율척도 정답: 3 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] 질문에서 설명하는 척도는 측정대상의 속성의 양을 숫자로 표현하지만, 절대 영점이 없고 두 관측 값 사이의 비율이 의미가 없다는 특징을 가지고 있습니다. 이러한 특징을 고려하면, 다음과 같은 척도 중에서 선택할 수 있습니다: 1. **명목척도 (Nominal Scale)**: - 속성을 분류하는 데 사용되는 척도로, 숫자는 단순히 카테고리를 나타내기 위한 것입니다. 예를 들어, 성별, 혈액형 등이 있습니다. - **적절하지 않습니다.** 2. **순서척도 (Ordinal Scale)**: - 순서를 나타내는 척도로, 숫자는 순위를 나타냅니다. 예를 들어, 설문조사의 만족도 순위 등이 있습니다. 순서는 있지만 두 값 사이의 차이 또는 비율은 의미가 없습니다. - **적절하지 않습니다.** 3. **구간척도 (Interval Scale)**: - 속성의 양을 측정하고, 두 관측 값 사이의 차이를 비교할 수 있는 척도입니다. 그러나 절대 영점이 없으며, 두 값 사이의 비율은 의미가 없습니다. 예를 들어, 섭씨 온도, 지수 등이 있습니다. - **적절한 설명입니다.** 4. **비율척도 (Ratio Scale)**: - 속성의 양을 측정하고, 절대 영점이 있으며, 두 관측 값 사이의 비율도 의미가 있는 척도입니다. 예를 들어, 길이, 무게, 나이 등이 있습니다. --- 24. 다음 중 모분산의 추론에 대한 설명으로 적절하지 않은 것은 무엇인가? ① 이분산에 의한 분산비 검증은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F분포를 따른다. ② 모분산의 추론의 대상이 되는 경우는 모집단의 변동성 또는 편차의 정도에 관심이 있을 때이다. ③ 모집단이 정규분포를 따르지 않더라도 중심극한 정리를 통해 정규 모집단으로부터의 모분산에 대한 검증을 유사하게 시행할 수 있다. ④ 평균군집단에서 n개를 단순임의 추출한 표본의 분산은 자유도가 n-1인 분포를 따른다. 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] **핵심은 자유도가 n-1인 카이제곱 분포를 따른다는 설명이 아니어서 4번이 틀린 거다. 3번도 맞진 않는 것 같은데. ** 모분산의 추론에 대한 설명 중 적절하지 않은 것에 대한 문제를 다시 한 번 살펴보겠습니다. 1. **이분산에 의한 분산비 검증은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F분포를 따른다.** - 이는 두 표본의 분산을 비교하기 위한 검정으로, F-검정을 사용하여 두 표본의 분산이 동일한지를 판단합니다. 검정통계량은 F분포를 따릅니다. - **적절한 설명입니다.** 2. **모분산의 추론의 대상이 되는 경우는 모집단의 변동성 또는 편차의 정도에 관심이 있을 때이다.** - 모분산의 추론은 모집단의 변동성(또는 편차의 정도)을 추정하고자 할 때 사용됩니다. - **적절한 설명입니다.** 3. **모집단이 정규분포를 따르지 않더라도 중심극한 정리를 통해 정규 모집단으로부터의 모분산에 대한 검증을 유사하게 시행할 수 있다.** - 중심극한 정리는 표본평균의 분포가 정규분포에 가까워지는 성질을 설명합니다. 그러나 모집단이 정규분포를 따르지 않을 경우, 모분산에 대한 검증을 중심극한 정리를 통해 유사하게 시행할 수 있다는 것은 정확하지 않습니다. 모분산의 추론은 보통 모집단이 정규분포를 따른다는 가정 하에서 이루어집니다. - **부적절한 설명입니다.** 4. **평균군집단에서 n개를 단순임의 추출한 표본의 분산은 자유도가 n-1인 분포를 따른다.** - 표본 분산은 자유도가 n−1n-1n−1인 카이제곱 분포를 따릅니다. 하지만 "평균군집단"이라는 표현이 정확하지 않으며, 표본의 분산이 정규분포를 따른다는 설명이 적절하지 않습니다. 표본 분산은 자유도가 n−1n-1n−1인 χ2\chi^2χ2 분포를 따르지만, 이 설명은 틀렸습니다. - **부적절한 설명입니다.** ### 정답: 4 **평균군집단에서 n개를 단순임의 추출한 표본의 분산은 자유도가 n-1인 분포를 따른다.** 이 설명은 부적절합니다. 표본 분산은 자유도가 n−1n-1n−1인 χ2\chi^2χ2 분포를 따르지만, "평균군집단"이라는 표현과 "정규분포를 따른다"는 부분이 정확하지 않습니다. --- 25. 다음 다중회귀분석을 위해 사용되는 변수선택방법에 대한 설명 중 변수선택방법과 설명이 잘못 연결되어 있는 것은? ① 전진선택법(Forward Selection)은 상수항만 포함된 모형에서 출발하여 설명력이 좋은 변수를 하나씩 추가하는 방법이다. ② 단계적 방법(Stepwise Method)은 설명력이 나쁜 변수를 제거하거나 모형에서 제외된 변수 중 모형의 설명력을 가장 잘 개선하는 변수를 추가하는 방법이다. ③ 후진제거법(Backward Elimination)은 모든 변수가 포함된 모형에서 설명력이 나쁜 변수를 하나씩 제거하는 방법이다. ④ 최적선택법(Optimum Selection)은 전진선택법과 후진제거법을 결합한 방법으로 최적의 변수를 선택하도록 하는 방법이다. 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] 다중회귀분석에서 변수선택방법은 모델의 복잡도를 조절하고 과적합을 방지하기 위해 중요한 역할을 합니다. 변수선택방법의 설명이 잘못 연결되어 있는지 확인해보겠습니다. ### 변수선택방법 설명 1. **전진선택법(Forward Selection)** - 전진선택법은 초기 모델에 상수항만 포함하고, 설명력이 좋은 변수를 하나씩 추가하여 모델을 확장하는 방법입니다. - **적절한 설명입니다.** 2. **단계적 방법(Stepwise Method)** - 단계적 방법은 전진선택법과 후진제거법을 결합한 방법으로, 변수 추가와 제거를 반복하여 모델의 설명력을 최적화하는 방법입니다. 설명력이 나쁜 변수를 제거하거나, 모형에서 제외된 변수 중 설명력을 개선하는 변수를 추가하는 방법입니다. - **적절한 설명입니다.** 3. **후진제거법(Backward Elimination)** - 후진제거법은 초기 모델에 모든 변수를 포함하고, 설명력이 나쁜 변수를 하나씩 제거하여 모델을 간소화하는 방법입니다. - **적절한 설명입니다.** 4. **최적선택법(Optimum Selection)** - 최적선택법이라는 용어는 일반적으로 사용되지 않으며, 설명된 내용은 단계적 방법(Stepwise Method)에 더 적합합니다. 최적선택법이란 용어는 특정한 변수선택 방법을 나타내지 않습니다. - **부적절한 설명입니다.** --- 29. 다음 중 비모수검정이 아닌 것을 고르시오. ① 윌콕슨의 순위합 검정 ② 맨-휘트니 U검정 ③ 스피어만의 순위상관계수 ④ 자기상관검정 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] 비모수 검정은 데이터가 특정 분포(주로 정규 분포)를 따른다는 가정 없이 데이터를 분석하는 통계 방법입니다. 각 항목이 비모수 검정인지 아닌지 살펴보겠습니다. 1. **윌콕슨의 순위합 검정 (Wilcoxon Rank-Sum Test)** - 이는 두 독립 표본이 동일한 분포를 갖는지 비교하는 비모수 검정 방법입니다. - **비모수 검정입니다.** 2. **맨-휘트니 U검정 (Mann-Whitney U Test)** - 이는 두 독립 표본의 중앙값을 비교하는 비모수 검정 방법으로, 윌콕슨의 순위합 검정과 동일합니다. - **비모수 검정입니다.** 3. **스피어만의 순위상관계수 (Spearman's Rank Correlation Coefficient)** - 이는 두 변수 간의 순위 상관 관계를 측정하는 비모수 방법입니다. - **비모수 검정입니다.** 4. **자기상관검정 (Autocorrelation Test)** - 자기상관 검정은 시간 시계열 데이터에서 이전 값과 현재 값 사이의 상관 관계를 측정하는 방법으로, 일반적으로 모수 방법(특히 정규성을 가정한 방법)입니다. - **비모수 검정이 아닙니다.** --- 31. 다음 중 회귀분석에서 나온 결정계수(R²)에 대한 설명으로 옳지 않은 것은? ① 총제곱의 중 설명된 제곱의 합의 비율을 뜻한다. ② 종속변수에 미치는 영향이 적은 독립변수가 추가된다면 결정계수는 변하지 않는다. ③ R²의 값이 클수록 회귀선으로 실제 관찰치를 예측하는 데 정확성이 높아진다. ④ 독립변수의 숫자와 상관없이 표본상관계수 r의 제곱값과 같다. 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] 34. 아래의 잔차도를 보고 회귀분석의 가정 중 어떤 가정이 위배되었다고 판단할 수 있는가? ![[01회 모의고사 그림 01.png]] ① 비상관성 ② 등분산성 ③ 선형성 ④ 독립성 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] 주어진 잔차도(Residual Plot)를 분석한 결과, 다음과 같은 판단을 내릴 수 있습니다: ### 잔차도 분석: 잔차도가 포물선 형태를 띠고 있다는 것은 잔차가 특정한 패턴을 따라 분포하고 있다는 것을 나타냅니다. 이는 회귀 분석의 특정 가정이 위배되고 있음을 시사합니다. ### 주어진 선택지 분석: 1. **비상관성 (No Autocorrelation)**: - 비상관성은 잔차들 간에 상관관계가 없어야 한다는 가정입니다. 잔차들이 시간적 순서에 따라 상관관계가 없는 경우를 의미합니다. 주어진 잔차도는 시간적 순서를 나타내지 않으므로 이 가정을 판단하기 어렵습니다. 2. **등분산성 (Homoscedasticity)**: - 등분산성은 잔차들의 분산이 모든 수준에서 일정해야 한다는 가정입니다. 주어진 잔차도에서 잔차의 분포가 특정한 패턴을 따르고 있으며, 분산이 일정하지 않아 보입니다. 따라서 이 가정이 위배되었다고 볼 수 있습니다. 3. **선형성 (Linearity)**: - 선형성은 독립변수와 종속변수 간의 관계가 선형적이어야 한다는 가정입니다. 주어진 잔차도에서 포물선 형태는 선형성이 위배되었음을 나타냅니다. 즉, 독립변수와 종속변수 간의 관계가 비선형적임을 시사합니다. 4. **독립성 (Independence)**: - 독립성은 잔차들이 서로 독립적이어야 한다는 가정입니다. 주어진 잔차도에서는 잔차들이 독립적인지 여부를 판단할 수 있는 정보가 부족합니다. ### 결론: **선형성(Linearity)**와 **등분산성(Homoscedasticity)** 가정이 위배되었다고 볼 수 있습니다. 주어진 선택지에서 두 가정을 비교할 때, 주어진 잔차도의 형태로 인해 선형성 위배가 더 명확하게 드러납니다. --- 47. 아래는 근로자의 임금 등에 대한 데이터에 대한 분석 결과이다. 다음 중 유의수준 0.05에서 이에 대한 설명으로 가장 적절하지 않은 것은? ```r > summary(Wage,c("wage", "age", "jobclass")) wage age jobclass Min. : 20.09 Min. :18.00 1. Industrial :1544 1st Qu.: 85.38 1st Qu.:33.75 2. Information:1456 Median :104.92 Median :42.00 Mean :111.70 Mean :42.41 3rd Qu.:128.68 3rd Qu.:51.00 Max. :318.34 Max. :80.00 > model<-lm(wage~age+jobclass+age*jobclass,data=Wage) > summary(model) Call: lm(formula = wage ~ age + jobclass + age * jobclass, data = Wage) Residuals: Min 1Q Median 3Q Max -105.656 -24.568 -6.104 16.433 196.810 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.52831 3.76133 19.548 < 2e-16 * age 0.71966 0.08744 8.230 2.57e-16 * jobclass2. Information 22.73086 5.63141 4.036 5.56e-05 * age:jobclass2. Information -0.16017 0.12785 -1.253 0.21 --- Signif. codes: 0 ‘*’ 0.001 ‘’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 40.16 on 2996 degrees of freedom Multiple R-squared: 0.07483, Adjusted R-squared: 0.07391 F-statistic: 80.78 on 3 and 2996 DF, p-value: < 2.2e-16 ``` ① 직업군이 동일할 때, 나이가 많을수록 임금이 올라가는 경향이 있다. ② 나이가 동일할 때, Information 직군이 Industrial 직군에 비해 평균적으로 임금이 높다. ③ 나이에 따라 두 직군 간의 임금의 평균 차이가 유의하게 변하지 않는다. ④ 위의 회귀식은 유의수준 0.05에서 임금의 변동성을 설명하는데 유의하지 않다. 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] 주어진 회귀분석 결과에서는 다음과 같은 변수가 사용되었습니다: - **age** (나이) - **jobclass** (직업군, 두 가지: Industrial와 Information) - **age와 jobclass의 상호작용 항(term)** 따라서 총 3개의 변수가 모델에 포함되었습니다: age, jobclass, age * jobclass. ### 주어진 회귀분석 결과: - **모델 식**: `wage ~ age + jobclass + age * jobclass` - **잔차(Residuals)**: 모델의 오차 분포를 보여줍니다. - **계수(Coefficients)**: - (Intercept): 73.52831, p-value < 2e-16 - age: 0.71966, p-value = 2.57e-16 - jobclass2. Information: 22.73086, p-value = 5.56e-05 - age . Information: -0.16017, p-value = 0.21 - **R-squared**: 0.07483 - **Adjusted R-squared**: 0.07391 - **F-statistic**: 80.78, p-value < 2.2e-16 ### 해석: 1. **직업군이 동일할 때, 나이가 많을수록 임금이 올라가는 경향이 있다.** - `age`의 계수는 0.71966이며, p-value는 2.57e-16으로 유의수준 0.05에서 유의합니다. 이는 나이가 증가할수록 임금이 올라가는 경향이 있음을 의미합니다. - **적절한 설명입니다.** 2. **나이가 동일할 때, Information 직군이 Industrial 직군에 비해 평균적으로 임금이 높다.** - `jobclass2. Information`의 계수는 22.73086이며, p-value는 5.56e-05로 유의수준 0.05에서 유의합니다. 이는 Information 직군이 Industrial 직군에 비해 임금이 평균적으로 높음을 의미합니다. - **적절한 설명입니다.** 3. **나이에 따라 두 직군 간의 임금의 평균 차이가 유의하게 변하지 않는다.** - `age:jobclass2. Information`의 계수는 -0.16017이며, p-value는 0.21으로 유의수준 0.05에서 유의하지 않습니다. 이는 나이에 따라 두 직군 간의 임금 차이가 유의하게 변하지 않는다는 것을 의미합니다. - **적절한 설명입니다.** 4. **위의 회귀식은 유의수준 0.05에서 임금의 변동성을 설명하는데 유의하지 않다.** - 전체 모델의 F-statistic은 80.78이며, p-value는 < 2.2e-16로 유의수준 0.05에서 매우 유의합니다. 이는 회귀식이 임금의 변동성을 설명하는데 유의미함을 의미합니다. - **부적절한 설명입니다.** 회귀분석에서 범주형 변수를 사용하는 경우, 하나의 범주를 기준으로 다른 범주와의 비교를 수행합니다. 이 기준이 되는 범주를 **기준 범주(reference category)**라고 합니다. 나머지 범주들은 이 기준 범주에 대한 효과를 나타내는 더미 변수(dummy variable)로 표현됩니다. ### 주어진 회귀분석 결과: - **(Intercept)**: 73.52831 - **age**: 0.71966 - **jobclass2. Information**: 22.73086 - **age . Information**: -0.16017 여기서 `jobclass2. Information`은 Information 직군에 대한 더미 변수입니다. 회귀분석에서 직업군이 `Information`인지 `Industrial`인지를 나타내기 위해 더미 변수를 사용한 것입니다. ### 이해하기 위한 단계: 1. **기준 범주**: - 주어진 결과에서는 `jobclass`가 `Industrial`인 경우가 기준 범주(reference category)입니다. 즉, `jobclass2. Information`이 0인 경우는 `Industrial` 직군을 의미합니다. 2. **더미 변수**: - `jobclass2. Information`이 1인 경우는 `Information` 직군을 의미합니다. ### 회귀식 해석: 회귀식은 다음과 같이 작성됩니다: wage=73.52831+0.71966⋅age+22.73086⋅Information−0.16017⋅(age×Information)\text{wage} = 73.52831 + 0.71966 \cdot \text{age} + 22.73086 \cdot \text{Information} - 0.16017 \cdot (\text{age} \times \text{Information})wage=73.52831+0.71966⋅age+22.73086⋅Information−0.16017⋅(age×Information) 여기서 `Information`은 직업군이 `Information`인 경우 1, `Industrial`인 경우 0으로 나타냅니다. ### 산업 직군 (Industrial) 및 정보 직군 (Information)의 임금 예측: 1. **Industrial 직군 (기준 범주)**: - `Information`이 0이므로, 회귀식에서 관련된 항목이 모두 사라집니다. - 회귀식: wage=73.52831+0.71966⋅age\text{wage} = 73.52831 + 0.71966 \cdot \text{age}wage=73.52831+0.71966⋅age - 이 식은 `Industrial` 직군의 나이에 따른 임금을 나타냅니다. 2. **Information 직군**: - `Information`이 1이므로, 회귀식은 다음과 같이 됩니다: - 회귀식: wage=73.52831+0.71966⋅age+22.73086−0.16017⋅age\text{wage} = 73.52831 + 0.71966 \cdot \text{age} + 22.73086 - 0.16017 \cdot \text{age}wage=73.52831+0.71966⋅age+22.73086−0.16017⋅age - 이를 단순화하면: wage=73.52831+(0.71966−0.16017)⋅age+22.73086\text{wage} = 73.52831 + (0.71966 - 0.16017) \cdot \text{age} + 22.73086wage=73.52831+(0.71966−0.16017)⋅age+22.73086 wage=73.52831+0.55949⋅age+22.73086\text{wage} = 73.52831 + 0.55949 \cdot \text{age} + 22.73086wage=73.52831+0.55949⋅age+22.73086 ### 비교: - **Industrial 직군**: wage=73.52831+0.71966⋅age\text{wage} = 73.52831 + 0.71966 \cdot \text{age}wage=73.52831+0.71966⋅age - **Information 직군**: wage=96.25917+0.55949⋅age\text{wage} = 96.25917 + 0.55949 \cdot \text{age}wage=96.25917+0.55949⋅age 이 결과는 `Information` 직군이 `Industrial` 직군에 비해 기본 임금이 약 22.73086만큼 높음을 의미합니다. 그러나 나이(age)에 따른 임금 증가율은 `Industrial` 직군(0.71966)보다 `Information` 직군(0.55949)이 낮습니다. 따라서, 회귀분석 결과에서 `Industrial` 직군의 값은 기준 범주로 설정되어 있어 별도의 계수가 제공되지 않았지만, 이를 통해 `Industrial` 직군의 회귀식을 도출할 수 있습니다. `Information` 직군의 계수를 통해 두 직군 간의 임금 차이를 비교할 수 있습니다. --- 50. 다음 중 자료의 중앙 50% 데이터들이 흩어진 정도를 의미하는 것은? ① 중앙값(median) ② 사분위수 범위(Interquantile Range) ③ 표준편차(Standard Deviation) ④ 평균(Mean) 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] **사분위수 범위(Interquartile Range, IQR)**: - 사분위수 범위는 제1사분위수(Q1)와 제3사분위수(Q3) 사이의 범위를 의미합니다. 즉, 데이터의 중앙 50%가 얼마나 흩어져 있는지를 나타내는 지표입니다. - IQR = Q3 - Q1 --- 47. 다음 가설검정 용어 중 '귀무가설이 옳은데도 이를 기각하는 확률의 크기'를 나타내는 용어는 무엇인가? ① 제 2종 오류 ② 검정통계량 ③ 기각역 ④ 유의수준 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] 가설검정에서 '귀무가설이 옳은데도 이를 기각하는 확률의 크기'를 나타내는 용어는 **유의수준 (significance level)**입니다. ### 각 용어에 대한 설명: 1. **제 2종 오류 (Type II Error)**: - 제 2종 오류는 실제로 귀무가설이 거짓인데도 불구하고 이를 기각하지 않는 오류를 말합니다. 즉, 실제로 대립가설이 참인데도 귀무가설을 채택하는 오류입니다. - 제 2종 오류를 나타내는 확률은 베타(β)로 표시합니다. 2. **검정통계량 (Test Statistic)**: - 검정통계량은 표본 데이터로부터 계산된 값으로, 이를 통해 귀무가설을 기각할지 여부를 결정합니다. 예를 들어, t-검정에서는 t-값이 검정통계량입니다. 3. **기각역 (Rejection Region)**: - 기각역은 검정통계량이 귀무가설을 기각하게 되는 구간을 말합니다. 검정통계량이 기각역에 속하면 귀무가설을 기각하게 됩니다. 4. **유의수준 (Significance Level)**: - 유의수준은 귀무가설이 옳은데도 이를 기각하는 확률을 나타냅니다. 보통 α로 표시하며, 흔히 사용하는 유의수준은 0.05 (5%)입니다. 즉, 유의수준이 0.05라는 것은 5%의 확률로 귀무가설이 참임에도 불구하고 이를 기각하게 된다는 의미입니다. --- 1. K-평균군집은 단순하고 빠르게 수행될 수 있지만 변수의 크기에 영향을 받음에 따라 군집 분석을 수행하기 전에 정규화 과정이 필수적이다. 다음 정규화 방법 중 원 데이터의 분포를 유지하면서 정규화가 가능한 방법은 무엇인가? ① z-score 정규화 ② min-max 정규화 ③ 로그 정규화 ④ 벡터 정규화 정답: 2 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] Min-Max 정규화가 원 데이터의 분포를 유지하면서 정규화가 가능하다는 설명이 맞는지 다시 검토해 보겠습니다. ### 각 정규화 방법에 대한 검토: 1. **z-score 정규화 (Z-score Normalization)**: - 데이터의 평균을 0으로, 표준편차를 1로 변환합니다. - 데이터의 분포를 표준 정규분포로 변경합니다. - **원 데이터의 분포를 유지하지 않습니다.** 2. **min-max 정규화 (Min-Max Normalization)**: - 데이터 값을 0과 1 사이의 값으로 변환합니다. - 데이터의 상대적인 분포와 구조를 유지합니다. - 공식: x′=(x−min⁡(x))(max⁡(x)−min⁡(x))x' = \frac{(x - \min(x))}{(\max(x) - \min(x))}x′=(max(x)−min(x))(x−min(x))​ - **원 데이터의 분포를 유지하면서 정규화가 가능합니다.** 3. **로그 정규화 (Log Normalization)**: - 데이터의 범위를 축소하기 위해 로그 변환을 사용합니다. - 데이터의 분포를 크게 변경할 수 있습니다. - **원 데이터의 분포를 유지하지 않습니다.** 4. **벡터 정규화 (Vector Normalization)**: - 벡터의 길이를 1로 만드는 방법입니다. - 주로 벡터 간의 유사성을 계산할 때 사용됩니다. - **원 데이터의 분포를 유지하지 않습니다.** --- 49. 상품의 가격을 조사한 데이터를 나타낸 다음의 Box Plot에 대한 설명으로 옳은 것은? ![[02회 모의고사 그림 02.png]] ① 평균 -1.5*IQR ≤ 데이터 ≤ 평균 +1.5*IQR 범위를 벗어난 데이터를 이상치라고 한다. ② 평균(mean)은 160이다. ③ 3사분위수보다 높은 가격 데이터가 약 50% 이상이다. ④ 가격의 IQR(Interquartile Range)은 60이다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] 주어진 박스 플롯(Box Plot)을 해석해 보겠습니다. ### 박스 플롯 해석: 1. **최소값(Minimum)**: 100 2. **제1사분위수(Q1)**: 140 3. **중앙값(Median)**: 160 4. **제3사분위수(Q3)**: 200 5. **최대값(Maximum)**: 300 ### 각 보기 검토: 1. **평균 -1.5IQR ≤ 데이터 ≤ 평균 +1.5IQR 범위를 벗어난 데이터를 이상치라고 한다.** - 이상치는 보통 Q1 - 1.5IQR보다 작거나 Q3 + 1.5IQR보다 큰 값으로 정의됩니다. 평균(mean)과 관련된 설명은 부정확합니다. - **부적절한 설명입니다.** 2. **평균(mean)은 160이다.** - 박스 플롯에서 중앙값(Median)이 160임을 알 수 있지만, 평균(mean)에 대한 정보는 제공되지 않았습니다. 중앙값과 평균은 항상 같지 않으며, 데이터의 분포에 따라 다릅니다. - **부적절한 설명입니다.** 3. **3사분위수(Q3)보다 높은 가격 데이터가 약 50% 이상이다.** - 박스 플롯에서 Q3(제3사분위수)는 데이터의 상위 25%를 의미합니다. Q3보다 높은 가격 데이터는 상위 25%에 해당하므로 약 50% 이상이라는 설명은 부정확합니다. - **부적절한 설명입니다.** 4. **가격의 IQR(Interquartile Range)은 60이다.** - IQR은 Q3 - Q1로 계산됩니다. 주어진 박스 플롯에서 Q3는 200, Q1은 140이므로 IQR은 200 - 140 = 60입니다. - **적절한 설명입니다.** --- 40. College 데이터프레임은 777개의 미국 소재 대학의 각종 통계치를 포함하고 있다. 각 대학에 재학하는데 필요한 비용이 졸업률(Grad.Rate)에 미치는 영향을 알아보기 위해 등록금(Outstate), 기숙사비(Room.Board), 교재구입비(Books), 그 외 개인지출비용(Personal)을 활용하기로 했다. 다음 중 아래의 결과물에 대한 설명으로 가장 부적절한 것은? ```R > cor(College) Grad.Rate Outstate Room.Board Books Personal Grad.Rate 1.00000000 0.57128993 0.42494195 0.00106894 -0.26934406 Outstate 0.57128993 1.00000000 0.65425642 0.08385468 -0.29908689 Room.Board 0.42494195 0.65425642 1.00000000 0.17929674 -0.19942821 Books 0.00106894 0.08385468 0.17929674 1.00000000 0.17929674 Personal -0.26934406 -0.29908689 -0.19942821 0.17929674 1.00000000 ``` ① Room.Board와 Outstate 간의 상관관계는 있다고 할 수 있다. ② Personal과 Grad.Rate, Outstate, Room.Board는 음의 상관계수를 가진다. ③ 위의 결과로 각 변수 간의 인과관계 알 수 있다. ④ Grad.Rate의 값이 커짐에 따라 Books의 값이 커지는 원인을 알 수 없다. 정답: 3 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] 상관분석 결과 해석하기. 쉽다. --- 19. 소득 수준과 같이 정규 분포를 따르지 않고 오른쪽 꼬리가 긴(right-skewed)분포를 나타내는 자료의 평균값과 중앙값의 관계로 옳은 것은 무엇인가? ① 자료의 크기에 따라 달라진다. ② 평균이 중앙값보다 큰 경향을 보인다. ③ 평균이 중앙값과 일치하는 경향을 보인다. ④ 평균이 중앙값보다 작은 경향을 보인다. 정답: 2 출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]] 오른쪽 꼬리가 긴(right-skewed) 분포는 대체로 고소득층처럼 소수의 극단적으로 큰 값들이 평균에 영향을 많이 미쳐 평균이 중앙값보다 커지는 경향을 보입니다. 이는 평균이 극단값의 영향을 받기 때문에 발생하는 현상입니다. ### 각 선택지 검토: 1. **자료의 크기에 따라 달라진다.** - 자료의 크기와 상관없이 오른쪽 꼬리가 긴 분포에서는 평균이 중앙값보다 큰 경향이 나타납니다. - **부적절한 설명입니다.** 2. **평균이 중앙값보다 큰 경향을 보인다.** - 오른쪽 꼬리가 긴 분포에서는 극단적으로 큰 값들이 평균에 영향을 미쳐 평균이 중앙값보다 커집니다. - **적절한 설명입니다.** 3. **평균이 중앙값과 일치하는 경향을 보인다.** - 정규 분포에서는 평균과 중앙값이 일치하지만, 오른쪽 꼬리가 긴 분포에서는 일치하지 않습니다. - **부적절한 설명입니다.** 4. **평균이 중앙값보다 작은 경향을 보인다.** - 오른쪽 꼬리가 긴 분포에서는 평균이 극단적으로 큰 값들에 의해 중앙값보다 커지게 됩니다. - **부적절한 설명입니다.** --- 22. 다음 중 이상치를 판정하는 방법에 대한 설명으로 가장 부적절한 것은? ① Q2(중위수)+1.5*IQR 보다 크거나 Q2(중위수)-1.5*IQR 작은 데이터를 이상치로 규정한다. ② 3-시그마 법은 “평균으로부터 표준편차의 3배가 넘는 범위의 데이터”를 비정상이라 규정한다. ③ 훗날의 새로운 자료 수집과정에서 이상치를 판정하는 방법이 있다. ④ 표본에 기반한 방법으로 Grubb's Test, Hotellings T-Squared Test 등이 있다. 정답: 1 출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]] 이상치를 판정하는 여러 방법들이 존재합니다. 주어진 선택지들 중 가장 부적절한 설명을 찾아보겠습니다. 1. **Q2(중위수)+1.5_IQR 보다 크거나 Q2(중위수)-1.5_IQR 작은 데이터를 이상치로 규정한다.** - 이 설명은 부적절합니다. 통상적으로 이상치는 제3사분위수(Q3)보다 1.5_IQR(Interquartile Range) 이상 크거나 제1사분위수(Q1)보다 1.5_IQR 이상 작은 값을 의미합니다. 중위수(Q2)를 기준으로 이상치를 판정하는 것은 일반적이지 않습니다. - **부적절한 설명입니다.** 2. **3-시그마 법은 “평균으로부터 표준편차의 3배가 넘는 범위의 데이터”를 비정상이라 규정한다.** - 3-시그마 법칙은 정규 분포에서 평균으로부터 표준편차의 3배를 벗어나는 데이터를 이상치로 간주하는 방법입니다. 이는 널리 사용되는 이상치 판정 방법입니다. - **적절한 설명입니다.** 3. **훗날의 새로운 자료 수집과정에서 이상치를 판정하는 방법이 있다.** - 이상치를 판정하는 방법은 기존의 데이터뿐만 아니라 새로운 데이터를 수집할 때도 적용될 수 있습니다. - **적절한 설명입니다.** 4. **표본에 기반한 방법으로 Grubb's Test, Hotellings T-Squared Test 등이 있다.** - Grubb's Test와 Hotelling's T-Squared Test는 이상치를 판정하는 표본 기반의 통계적 방법입니다. - **적절한 설명입니다.** --- 26. 표본들이 서로 관련된 경우 짝지어진 두 관찰치의 크고 작음을 표시하여 그 두 분포의 차이에 대한 가설을 검증하는 비모수 검정 방법은? ① 부호 검정(Sign test) ② 만-휘트니의 U검정(Mann-Whitney U test) ③ 순위합차 검정(Wilcoxon Rank-Sum test) ④ 스피어만의 순위상관계수(Spearman's Rank Correlation Coefficient) 정답: 1 출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]] **부호 검정(Sign test)**: - 부호 검정은 짝지어진 두 관찰치의 차이를 구하여, 그 차이가 양수인지 음수인지에 따라 부호를 붙입니다. 그런 다음, 양수와 음수의 수를 비교하여 두 분포의 차이를 검증합니다. - **적절한 설명입니다.** --- 29. 표본추출의 방법으로 적절하지 않은 것은? ① 계통추출법 ② 집단추출법 ③ 층화추출법 ④ 단순무작위추출법 정답: 2 출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]] 09. A 고등학교에서 B과목의 상위 2%의 상급반을 운영한다고 한다. 상급반에 들어가려고 할 때, B과목의 최저 점수는 몇점인가? (단, 상위 2%일 때 z=2.05, 평균점수=85, 표준편차=5) ( ) 정답: 95.25 출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]] 10. 이상형 확률변수 x가 1, 2, 4로 주어졌을 때, p(x=1)이 0.4로 나타났다. p(x=2)의 확률은 얼마인가? (단, 기대값은 2.4) ( ) 정답: 0.2 출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]] 18. 아래에 대한 설명으로 부적절한 것은 무엇인가?![[ADsP 기출문제 이미지 17.png]] ① 총 관측치 수는 71이다. ② feed의 중앙값을 계산할 수 없다. ③ casein이 포함된 사료를 먹인 관측치는 12개이다. ④ weight의 중앙값은 261.3이다. 정답: 4 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 21. Wage 데이터는 근로자의 임금(wage)을 포함하고 있다. 아래 결과에 대한 설명으로 가장 부적절한 것은? ```r > t.test(Wage$wage, mu=100) One Sample t-test data: Wage$wage t = 15.362, df = 2999, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 100 95 percent confidence interval: 110.2098 113.1974 sample estimates: mean of x 111.7036 ``` ① 귀무가설은 '평균 임금은 100과 같다'이다. ② 유의수준 α=0.05일 때 귀무가설이 기각되지 않는다. ③ wage의 평균은 111.7036이다. ④ 검정통계량은 t분포를 따른다. 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 주어진 R 코드 결과에 대한 각 선택지를 검토하여 가장 부적절한 설명을 찾아보겠습니다. ### t-검정 결과 해석: 1. **t 값**: 15.362 2. **자유도(df)**: 2999 3. **p 값**: < 2.2e-16 4. **대립 가설**: true mean is not equal to 100 5. **95% 신뢰 구간**: [110.2098, 113.1974] 6. **표본 평균**: 111.7036 ### 각 선택지 검토: 1. **귀무가설은 '평균 임금은 100과 같다'이다.** - 귀무가설(H0): "평균 임금은 100과 같다" (H0: μ = 100) - **적절한 설명입니다.** 2. **유의수준 α=0.05일 때 귀무가설이 기각되지 않는다.** - 유의수준 α=0.05에서 p-값이 < 2.2e-16이므로, p-값은 매우 작아 귀무가설을 기각합니다. 따라서 "평균 임금은 100과 같다"는 귀무가설이 기각됩니다. - **부적절한 설명입니다.** 3. **wage의 평균은 111.7036이다.** - 주어진 결과에서 샘플 평균은 111.7036으로 명시되어 있습니다. - **적절한 설명입니다.** 4. **검정통계량은 t 분포를 따른다.** - 검정통계량(t 값)은 자유도(df) 2999를 가지는 t-분포를 따릅니다. - **적절한 설명입니다.** ### 결론: **가장 부적절한 설명은 ②번입니다.** 유의수준 α=0.05에서 p-값이 < 2.2e-16으로 매우 작기 때문에 귀무가설이 기각됩니다. 따라서 "유의수준 α=0.05일 때 귀무가설이 기각되지 않는다"는 설명은 부적절합니다. --- 29. 부스트랩(bootstrap) 방법을 이용하여 모형을 평가하고자 한다. d개의 관측치가 있는 데이터에서 각 관측치가 학습용 데이터(train data)로 선정될 확률은 \(\frac{1}{d}\)이며 학습용 데이터의 선정을 d번 반복할 때, 하나의 관측치가 선정되지 않을 확률은? ① \(1 - \frac{1}{d}\) ② \((1 - \frac{1}{d})^d\) ③ \((1 - \frac{1}{d})^2\) ④ \((1 - \frac{1}{d})^4\) 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 부스트랩(bootstrap) 방법을 사용할 때, d개의 관측치 중에서 하나의 관측치가 학습용 데이터에 포함되지 않을 확률을 계산해보겠습니다. ### 부스트랩 방법 요약 부스트랩 방법은 주어진 데이터 세트에서 동일한 크기의 표본을 복원 추출(sampling with replacement)하여 여러 번 샘플링하는 방법입니다. 이 방법을 통해 모형의 불확실성을 추정하고, 신뢰구간을 구하거나 통계적 추론을 수행할 수 있습니다. ![[부트스트랩 계산.jpg]]