35. 다음 headsize 데이터는 25개 가구에서 첫 번째와 두 번째 성인 아들의 머리길이(head)와 머리폭(breadth)를 보여준다. 이에 대한 설명 중 가장 부적절한 것은? ```r > head(headsize) head1 breadth1 head2 breadth2 1, 191 155 179 145 2, 195 149 201 152 3, 181 148 195 149 4, 183 153 188 149 5, 176 144 171 142 6, 208 157 192 152 > str(headsize) num 1:25, 1:4 191 195 181 183 176 208 189 197 188 192 ... - attr(*, "dimnames")=List of 2 ..$ : NULL ..$ : chr 1:4 "head1" "breadth1" "head2" "breadth2" > out<-princomp(headsize) > print(summary(out),loadings=TRUE) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 15.1 5.42 4.12 3.000 Proportion of Variance 0.8 0.10 0.06 0.032 Cumulative Proportion 0.8 0.91 0.97 1.000 Loadings: Comp.1 Comp.2 Comp.3 Comp.4 head1 0.570 0.693 -0.442 breadth1 0.406 0.219 0.870 -0.173 head2 0.601 -0.633 -0.209 -0.441 breadth2 0.386 -0.267 -0.881 ``` ① 주성분분석의 결과를 보여준다. ② 첫 두 개의 주성분으로 전체 데이터 분산의 91%를 설명할 수 있다. ③ 두 번째 주성분은 네 개의 원변수와 양의 상관관계를 가진다. ④ 네 개의 주성분을 사용하면 전체 데이터 분산을 모두 설명할 수 있다. 정답: 3 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] ### 1. **데이터셋 설명 (`head(headsize)`와 `str(headsize)`)** ```r > head(headsize) head1 breadth1 head2 breadth2 1, 191 155 179 145 2, 195 149 201 152 3, 181 148 195 149 4, 183 153 188 149 5, 176 144 171 142 6, 208 157 192 152 ``` - `headsize` 데이터셋은 25개의 관측치로 구성되어 있으며, 각 관측치에는 두 명의 성인 아들의 머리 길이(`head1`, `head2`)와 머리 폭(`breadth1`, `breadth2`)이 기록되어 있습니다. ```r > str(headsize) num 1:25, 1:4 191 195 181 183 176 208 189 197 188 192 ... - attr(*, "dimnames")=List of 2 ..$ : NULL ..$ : chr 1:4 "head1" "breadth1" "head2" "breadth2" ``` - `str(headsize)` 명령어는 데이터셋의 구조를 보여줍니다. 이 데이터셋은 25개의 관측치와 4개의 변수를 포함한 숫자형 데이터입니다. ### 2. **주성분 분석 결과 (`princomp(headsize)`와 `summary(out), loadings=TRUE`)** 주성분 분석(PCA)을 통해 데이터를 분석한 결과는 다음과 같습니다: #### **주성분의 중요성 (Importance of Components):** ```r Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 15.1 5.42 4.12 3.000 Proportion of Variance 0.8 0.10 0.06 0.032 Cumulative Proportion 0.8 0.91 0.97 1.000 ``` - **Standard deviation**: 각 주성분의 표준편차입니다. 첫 번째 주성분(Comp.1)은 가장 큰 표준편차(15.1)를 가지며, 이는 이 주성분이 가장 많은 변동성을 설명한다는 것을 의미합니다. - **Proportion of Variance**: 각 주성분이 설명하는 데이터의 분산 비율입니다. - 첫 번째 주성분(Comp.1)은 데이터 분산의 80%를 설명합니다. - 두 번째 주성분(Comp.2)은 10%를 추가로 설명하여, 첫 번째와 두 번째 주성분이 합쳐서 전체 분산의 90%를 설명합니다. - 세 번째와 네 번째 주성분은 각각 6%, 3.2%의 분산을 설명합니다. - **Cumulative Proportion**: 누적 분산 비율입니다. 첫 번째와 두 번째 주성분을 사용하면 데이터 전체 분산의 91%를 설명할 수 있습니다. 네 개의 주성분을 모두 사용하면, 전체 데이터의 분산을 100% 설명할 수 있습니다. #### **주성분의 적재값 (Loadings):** ```r Loadings: Comp.1 Comp.2 Comp.3 Comp.4 head1 0.570 0.693 -0.442 breadth1 0.406 0.219 0.870 -0.173 head2 0.601 -0.633 -0.209 -0.441 breadth2 0.386 -0.267 -0.881 ``` - **Loadings**: 각 주성분이 원래 변수들로 구성된 선형 조합임을 보여주는 계수들입니다. 각 주성분은 네 개의 원래 변수(`head1`, `breadth1`, `head2`, `breadth2`)의 가중합으로 구성됩니다. - **Comp.1**: 첫 번째 주성분은 네 변수 모두에 대해 양의 가중치를 가지고 있습니다. `head2`와 `head1`이 가장 높은 가중치를 가지며, 따라서 이 주성분은 이 두 변수를 주로 반영합니다. - **Comp.2**: 두 번째 주성분은 `head1`에 높은 양의 가중치를 가지며, `head2`에 높은 음의 가중치를 가집니다. 이는 이 주성분이 `head1`과 `head2` 사이의 차이를 주로 반영한다는 것을 의미합니다. - **Comp.3**: 세 번째 주성분은 `breadth1`에 높은 양의 가중치를, `breadth2`에 높은 음의 가중치를 가집니다. 이는 `breadth1`과 `breadth2` 사이의 차이를 반영합니다. - **Comp.4**: 네 번째 주성분은 이 네 변수의 조합으로 이루어져 있으며, 설명하는 분산 비율이 매우 작습니다. ### **결론 및 해석:** 1. **첫 번째 주성분(Comp.1)**: `head1`과 `head2`가 큰 영향을 미치는 주성분으로, 전체 데이터의 80%를 설명합니다. 즉, `head1`과 `head2`의 크기가 전체 데이터를 잘 설명하는 중요한 요소입니다. 2. **두 번째 주성분(Comp.2)**: `head1`과 `head2`의 차이를 반영하는 주성분으로, 추가적인 10%의 분산을 설명합니다. 3. **세 번째와 네 번째 주성분(Comp.3, Comp.4)**: `breadth1`과 `breadth2`의 차이를 반영하지만, 설명하는 분산의 비율이 상대적으로 낮습니다. 이 결과를 통해, `head1`과 `head2`의 길이가 전체 데이터에서 가장 중요한 요소임을 알 수 있으며, 이를 통해 주성분 분석이 데이터를 이해하는 데 유용하게 활용될 수 있습니다. --- 45. 다음 중 주성분 회귀 분석에 대한 설명으로 가장 적절하지 않은 것은? ① 차원 축소된 주성분으로 회귀분석에 적용하는 방법으로 자료의 시각화에 도움을 줄 수 있다. ② 변수들의 선형결합으로 이루어진 주성분은 서로 직교하며, 기존 자료보다 적은 수의 주성분들을 회귀분석의 독립변수로 설정할 수 있다. ③ 주성분의 개수는 기존보다 큰 고유값(Eigenvalue)의 개수로 정할 수 있다. ④ 개별 고유값의 분해 가능 여부를 판단하여 주성분의 개수를 정한다. 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] ### 주성분 회귀 분석 (Principal Component Regression, PCR) 개념 설명: 주성분 회귀 분석은 다중 회귀 분석에서 독립 변수들 간의 다중공선성 문제를 해결하기 위해 사용되는 방법입니다. 기본적으로 주성분 분석(PCA)을 사용하여 독립 변수들의 주요 변동성을 설명하는 주성분들을 찾아내고, 이 주성분들을 회귀 분석에 사용하는 방법입니다. #### 주요 개념: 1. **차원 축소**: - 주성분 분석(PCA)을 통해 여러 독립 변수들을 선형 결합하여 주성분을 생성하고, 이들 중 중요한 몇 개의 주성분만을 선택하여 차원을 축소합니다. 이 과정에서 정보의 손실을 최소화하면서 회귀 모델의 복잡성을 줄일 수 있습니다. 2. **직교성**: - 주성분은 서로 직교(orthogonal)합니다. 즉, 주성분 간에는 상관관계가 없기 때문에, 주성분들을 회귀 분석의 독립 변수로 사용하면 다중공선성 문제를 효과적으로 해결할 수 있습니다. 3. **고유값(Eigenvalue)**: - 주성분은 공분산 행렬의 고유값과 고유벡터를 통해 계산됩니다. 고유값이 큰 주성분은 데이터의 변동성을 많이 설명하는 주성분이며, 일반적으로 큰 고유값에 해당하는 주성분을 회귀 분석에 사용합니다. 4. **주성분의 개수 선택**: - 주성분의 개수는 일반적으로 **고유값이 큰 주성분**들을 선택하여 결정합니다. 고유값이 작으면 해당 주성분이 데이터의 변동성을 잘 설명하지 못하므로 회귀 분석에 사용되지 않는 경우가 많습니다. ### 문제 해석: #### 각 보기의 설명: 1. **① 차원 축소된 주성분으로 회귀분석에 적용하는 방법으로 자료의 시각화에 도움을 줄 수 있다.** - 이 설명은 적절합니다. 주성분 회귀 분석은 차원 축소를 통해 데이터의 시각화를 쉽게 만들 수 있습니다. 2. **② 변수들의 선형결합으로 이루어진 주성분은 서로 직교하며, 기존 자료보다 적은 수의 주성분들을 회귀분석의 독립변수로 설정할 수 있다.** - 이 설명도 적절합니다. 주성분은 서로 직교하며, 이들 중 중요한 주성분만을 선택하여 회귀 분석에 사용할 수 있습니다. 3. **③ 주성분의 개수는 기존보다 큰 고유값(Eigenvalue)의 개수로 정할 수 있다.** - 이 설명도 적절합니다. 일반적으로 고유값이 큰 주성분을 선택하여 회귀 분석에 사용합니다. 4. **④ 개별 고유값의 분해 가능 여부를 판단하여 주성분의 개수를 정한다.** - **이 설명은 부적절합니다.** 주성분의 개수를 결정할 때 "고유값의 분해 가능 여부"는 고려하지 않습니다. 대신, 고유값의 크기를 기준으로 데이터의 변동성을 얼마나 설명할 수 있는지를 고려하여 주성분의 개수를 결정합니다. 주성분 회귀 분석에서 중요한 것은 각 주성분이 데이터의 변동성을 얼마나 설명하는지이며, 이를 기준으로 주성분을 선택합니다. ### 결론: 가장 적절하지 않은 설명은 **④ 개별 고유값의 분해 가능 여부를 판단하여 주성분의 개수를 정한다**입니다. 주성분 회귀 분석에서는 주성분의 개수를 선택할 때 고유값의 크기와 그 주성분이 설명하는 데이터의 변동성을 고려하며, "고유값의 분해 가능 여부"는 주성분의 개수 선택에 고려되지 않습니다. --- 29. 회귀분석에서 변수 선택법에 대한 설명으로 가장 부적절한 것은? ① 전진선택법은 중요하다고 생각되는 설명변수부터 차례로 선택하는 방법이다. ② 전진선택법과 후진제거법의 결과가 항상 동일하지는 않다. ③ 모든 가능한 회귀모형을 독립변수들의 조합으로 이루어진 회귀모형 중 가장 적합하게 나타난 모형을 선택하는 방법이다. ④ 전진선택법은 변수를 추가할 때 기존 변수들의 중요도는 영향을 받지 않는다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] 풀 수 있는 문제 --- 31. 두 개 이상의 독립변수를 사용해 하나의 종속변수의 변화를 설명하는 다중회귀분석을 실시할 것이다. 다음 중 모형을 적합 시킨 후, 모형이 적절하지 확인하기 위해 체크해야 할 사항으로 부적절한 것은? ① 상관계수를 통해 모형의 설명력을 확인한다. ② F-value를 통해 모형이 통계적으로 유의한지 확인한다. ③ 모형이 데이터에 잘 적합되어 있는지를 확인한다. ④ t-value, p-value를 통해 유의하지 확인한다. 정답: 1 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] 풀 수 있는 문제 --- 32. 주성분분석은 차원의 단순화를 통해 서로 상관되어 있는 변수 간의 복잡한 구조를 분석하는 것이 목적이다. 다음 중 주성분분석에 대한 설명으로 적절하지 않은 것은 무엇인가? ① 다변량 자료를 저차원의 그래프로 표시하기 이상치(Outlier) 탐색에 사용한다. ② 변수들끼리 상관성이 있는 경우, 해석상의 복잡한 구조적 문제가 발생하때 이를 해결하기 위해 사용한다. ③ 회귀분석에서 다중공선성(Multicollinearity)의 문제를 해결하기 위해 활용한다. ④ 개개의 변수를 주요한 m개의 주성분으로 표현하여 전체 변동을 설명하는 것으로 m개의 주성분은 원래 변수와는 관계없이 생성된 변수들이다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] ### 문제의 개념: 주성분 분석(PCA)은 고차원 데이터를 저차원으로 축소하여 데이터를 간결하게 표현하고, 변수 간의 상관관계로 인한 복잡성을 줄이는 데 목적이 있습니다. 이를 통해 데이터의 주요 변동성을 설명할 수 있는 주성분을 생성하며, 이러한 주성분들은 원래 변수들의 선형 결합으로 이루어집니다. ### 각 보기의 설명: 1. **① 다변량 자료를 저차원의 그래프로 표시하기 이상치(Outlier) 탐색에 사용한다.** - **설명**: 주성분 분석을 통해 고차원 데이터를 2D 또는 3D로 축소하여 시각화할 수 있으며, 이 과정에서 이상치 탐색이 가능합니다. 이상치가 주성분 플롯에서 다른 데이터 포인트들과 명확히 구별될 수 있기 때문에, PCA는 이상치 탐색에도 유용하게 사용됩니다. **이 설명은 적절합니다.** 2. **② 변수들끼리 상관성이 있는 경우, 해석상의 복잡한 구조적 문제가 발생할 때 이를 해결하기 위해 사용한다.** - **설명**: 변수들 간의 상관성이 높은 경우 다중공선성 문제가 발생할 수 있습니다. PCA는 이러한 상관관계를 제거하거나 줄이는 데 도움을 주며, 데이터의 복잡한 구조를 단순화하는 데 유용합니다. **이 설명도 적절합니다.** 3. **③ 회귀분석에서 다중공선성(Multicollinearity)의 문제를 해결하기 위해 활용한다.** - **설명**: PCA는 회귀 분석에서 다중공선성 문제를 해결하는 데 자주 사용됩니다. 다중공선성은 독립 변수들 간의 상관관계가 높을 때 발생하며, PCA를 사용하면 상관관계가 없는 주성분들을 사용하여 회귀 모델을 구축할 수 있습니다. **이 설명도 적절합니다.** 4. **④ 개개의 변수를 주요한 m개의 주성분으로 표현하여 전체 변동을 설명하는 것으로 m개의 주성분은 원래 변수와는 관계없이 생성된 변수들이다.** - **설명**: 주성분은 원래 변수들의 선형 결합으로 생성됩니다. 즉, 주성분은 원래 변수와 밀접한 관계가 있으며, "원래 변수와는 관계없이 생성된 변수들"이라는 표현은 부적절합니다. 주성분은 원래 변수들의 정보를 담고 있어야 의미가 있습니다. **이 설명은 부적절합니다.** ### 결론: 가장 적절하지 않은 설명은 **④ 개개의 변수를 주요한 m개의 주성분으로 표현하여 전체 변동을 설명하는 것으로 m개의 주성분은 원래 변수와는 관계없이 생성된 변수들이다**입니다. 주성분은 원래 변수들의 선형 결합으로 생성되며, 원래 변수와 밀접한 관계가 있습니다. 주성분이 원래 변수와 관계없이 생성된다는 설명은 PCA의 기본 개념에 부합하지 않으므로, 부적절한 설명입니다. --- 33. 아래는 데이터프레임 mtcars를 이용해 회귀분석을 수행한 R 명령의 결과이다. 다음 중 이 결과에 대한 설명으로 가장 부적절한 것은? ```R summary(lm(mpg~., data=mtcars)) Call: lm(formula = mpg ~ ., data = mtcars) Residuals: Min 1Q Median 3Q Max -3.4506 -1.6044 -0.1196 1.2193 4.6271 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 12.30337 18.71788 0.657 0.5181 cyl -0.11144 1.04502 -0.107 0.9161 disp 0.01334 0.01873 0.747 0.4635 hp -0.02148 0.02177 -0.987 0.3350 drat 0.78711 1.63357 0.481 0.6353 wt -3.71530 1.89441 -1.961 0.0633 . qsec 0.82104 0.73084 1.123 0.2739 vs 0.31776 2.10451 0.151 0.8814 am 2.52023 2.05665 1.225 0.2340 gear 0.65541 1.49326 0.439 0.6652 carb -0.19942 0.82875 -0.241 0.8122 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2.65 on 21 degrees of freedom Multiple R-squared: 0.869, Adjusted R-squared: 0.8066 F-statistic: 13.93 on 10 and 21 DF, p-value: 3.793e-07 ``` ① 오차의 표준편차 추정치는 2.65이다. ② 모든 독립변수 수준 0.1에서 유의하지 않다. ③ 후진제거법을 적용할 때 가장 먼저 제거될 독립변수는 cyl 이다 ④ 유의수준 0.01 하에서 이 회귀모형은 유의하다 정답: 2 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] ### 문제의 개념: 이 문제는 R에서 수행된 다중 회귀분석 결과를 해석하는 능력을 평가하는 것입니다. 회귀분석에서는 독립 변수들이 종속 변수에 미치는 영향을 파악하기 위해 여러 통계량을 계산합니다. 이 결과는 회귀 모델의 적합도와 각 독립 변수의 중요성을 평가하는 데 사용됩니다. ### 각 보기의 설명: 1. **① 오차의 표준편차 추정치는 2.65이다.** - **설명**: 오차의 표준편차는 **Residual standard error**로 표시되며, 이 값은 2.65로 주어져 있습니다. **이 설명은 적절합니다.** 2. **② 모든 독립변수 수준 0.1에서 유의하지 않다.** - **설명**: p-value는 독립 변수가 종속 변수에 유의한 영향을 미치는지를 나타냅니다. 여기서 유의 수준 0.1에서 p-value가 0.1보다 작은 경우 유의하다고 할 수 있습니다. `wt` 변수의 p-value는 0.0633으로 0.1보다 작기 때문에 이 변수는 유의한 변수입니다. 따라서 **이 설명은 부적절합니다.** 3. **③ 후진제거법을 적용할 때 가장 먼저 제거될 독립변수는 cyl 이다.** - **설명**: 후진제거법(Backward Elimination)은 가장 유의하지 않은 변수를 제거하는 방식입니다. `cyl` 변수의 p-value는 0.9161로 가장 크며, 가장 유의하지 않기 때문에 먼저 제거될 가능성이 큽니다. **이 설명은 적절합니다.** 4. **④ 유의수준 0.01 하에서 이 회귀모형은 유의하다.** - **설명**: 회귀모형 전체의 유의성은 F-statistic의 p-value로 판단합니다. 여기서 p-value는 3.793e-07로 0.01보다 훨씬 작으므로, 이 회귀모형은 유의수준 0.01 하에서 유의합니다. **이 설명은 적절합니다.** ### 결론: 가장 부적절한 설명은 **② 모든 독립변수 수준 0.1에서 유의하지 않다**입니다. 이 설명은 `wt` 변수가 유의수준 0.1에서 유의하므로, 이 설명이 부적절합니다. --- 41. 데이터 프레임 attitude 아래와 같이 R명령을 적용하고 결과를 얻었다. 다음 설명 중 가장 부적절한 것은? ```R > cor(attitude) rating complaints privileges learning raises critical advance rating 1.0000000 0.8254176 0.4261619 0.6236782 0.5901390 0.1564392 0.1550863 complaints 0.8254176 1.0000000 0.5588282 0.5967358 0.6691975 0.1877143 0.2245796 privileges 0.4261619 0.5588282 1.0000000 0.4933310 0.4454979 0.1476231 0.3432934 learning 0.6236782 0.5967358 0.4933310 1.0000000 0.6403144 0.1195652 0.5316198 raises 0.5901390 0.6691975 0.4454979 0.6403144 1.0000000 0.3768830 0.5741862 critical 0.1564392 0.1877143 0.1442731 0.1195652 0.3768830 1.0000000 0.2833432 advance 0.1550863 0.2245796 0.3432934 0.5316198 0.5741862 0.2833432 1.0000000 ``` ① 모든 변수들 사이에 양(+)의 상관관계가 존재한다. ② rating과 complaints 사이에 가장 강한 상관관계가 존재한다. ③ critical과 learning 사이의 상관관계가 가장 약하다. ④ 모든 변수의 분산이 1이다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] 풀 수 있는 문제 --- 43. 아래의 산점도 행렬에 대한 설명으로 가장 부적절한 것은? (변수: Ozone, Solar.R, wind, temp) ![[02회 모의고사 그림 01.png]] ① temp와 wind 간의 관계는 상대적으로 선형이다. ② Solar.R과 ozone의 관계는 명확하지 않다. ③ ozone과 wind 간에는 양의 상관관계가 있다. ④ wind와 Solar.R 간에는 비선형 관계가 있다. 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] 풀 수 있을 것 같은 문제 --- 32. 아래는 1988년 서울올림픽에서의 여자 육상 7종 경기의 기록 데이터를 사용한 주성분분석 결과이다. 다음의 설명 중 가장 부적절한 것은? ```R heptathlon_pca <- prcomp(heptathlon2[, -score], scales=TRUE) Summary(heptathlon_pca) importance of components: PC1 PC2 PC3 PC4 PC5 PC6 PC7 Standard deviation 2.079 0.948 0.911 0.641 0.544 0.317 0.242 Portion of Variance 0.618 0.128 0.119 0.044 0.042 0.016 0.009 Cumulative preportion 0.618 0.746 0.865 0.931 0.973 0.990 1.000 ``` ① 한 개의 주성분으로 자료를 축약할 때 전체 분산의 61.8%가 설명 가능하다. ② 두 개의 주성분으로 자료를 축약할 때 전체 분산의 12.8%가 설명 가능하다. ③ 정보손실을 20% 이하로 변수 축약을 한다면 세 개의 주성분을 사용하는 것이 적당하다. ④ 첫번째 주성분의 분산이 가장 크다. 정답: 2 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 --- 33. Credit 데이터는 400명의 신용카드 고객에 대한 신용카드와 관련된 변수들이 포함되어 있다. 아래 변수간의 산점도와 피어슨 상관계수를 나타내고 있다. 아래 그림을 보고 설명이 부적절한 것은? ![[ADsP 기출문제 이미지 04.png]] ① Income의 분포는 아래쪽으로 꼬리가 긴 분포를 가진다. ② Limit와 Rating은 거의 완벽한 선형관계를 가진다. ③ Balance와 가장 상관관계가 높은 변수는 Income이다. ④ Age와 Balance는 거의 상관관계가 없다. 정답: 3 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있을 것 같은 문제 --- 36. 주성분분석은 차원의 단순화를 통해 서로 상관되어 있는 변수 간의 복잡한 구조를 분석하는 것이 목적이다. 다음 중 주성분분석에 대한 설명으로 적절하지 않은 것은 무엇인가? ① 표본의 크기가 작거나 순서형 자료를 포함하는 범주형 자료에 적용이 가능하다. ② 변수들끼리 상관성이 있는 경우, 해석상의 복잡한 구조적 문제가 발생하는 이를 해결하기 위해 사용한다. ③ 다변량 자료를 저차원의 그래프로 표시하여 이상치(Outlier) 탐색에 사용한다. ④ p개의 변수를 중요화 m(p)개의 주성분으로 표현하여 전체 변동을 설명하는 것으로 m개의 주성분은 원래 변수와는 관계없이 생성된 변수들이다. 정답: 4 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 --- 37. 다음 중 상관계수에 대한 설명으로 가장 부적절한 것은? ① 피어슨 상관계수는 두 변수 간의 선형관계의 크기를 측정한다. ② 스피어만 상관계수는 두 변수 간의 비선형적인 관계도 검정이 가능하다. ③ 피어슨 상관계수와 스피어만 상관계수는 -1과 1사이의 값을 가진다. ④ 피어슨 상관계수는 두 변수를 순위를 변환시킨 후 두 순위 사이의 스피어만 상관계수로 정의된다. 정답: 4 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] ### 문제의 개념: 상관계수는 두 변수 간의 관계의 강도와 방향을 나타내는 통계적 지표입니다. 상관계수의 종류로는 피어슨 상관계수(Pearson Correlation Coefficient)와 스피어만 상관계수(Spearman Correlation Coefficient)가 있으며, 각각의 상관계수는 특정한 유형의 관계를 측정하는 데 사용됩니다. ### 각 보기의 설명: 1. **① 피어슨 상관계수는 두 변수 간의 선형관계의 크기를 측정한다.** - **설명**: 피어슨 상관계수는 두 변수 간의 선형 관계를 측정하는 데 사용됩니다. 두 변수 간의 선형성이 강할수록 피어슨 상관계수는 1 또는 -1에 가까운 값을 가집니다. **이 설명은 적절합니다.** 2. **② 스피어만 상관계수는 두 변수 간의 비선형적인 관계도 검정이 가능하다.** - **설명**: 스피어만 상관계수는 두 변수의 순위 간의 상관관계를 측정합니다. 비록 비선형적 관계를 직접적으로 측정하지는 않지만, 순위를 기반으로 하여 비선형적 관계에서도 어느 정도의 상관성을 확인할 수 있습니다. 그러나 이는 비선형 관계를 완벽하게 검정하는 방법은 아닙니다. **이 설명은 다소 부적절할 수 있습니다.** 3. **③ 피어슨 상관계수와 스피어만 상관계수는 -1과 1사이의 값을 가진다.** - **설명**: 피어슨 상관계수와 스피어만 상관계수 모두 -1에서 1 사이의 값을 가지며, -1은 완전한 음의 상관관계, 1은 완전한 양의 상관관계를 의미합니다. **이 설명은 적절합니다.** 4. **④ 피어슨 상관계수는 두 변수를 순위를 변환시킨 후 두 순위 사이의 스피어만 상관계수로 정의된다.** - **설명**: 이 설명은 부적절합니다. 피어슨 상관계수는 두 변수의 원시값을 이용하여 선형 관계를 측정하는 반면, 스피어만 상관계수는 두 변수를 순위로 변환한 후 순위 사이의 상관관계를 측정합니다. 피어슨 상관계수는 스피어만 상관계수와 다르게, 원시 데이터를 그대로 사용하며 순위로 변환하지 않습니다. **이 설명이 부적절합니다.** ### 결론: 가장 부적절한 설명은 **④ 피어슨 상관계수는 두 변수를 순위를 변환시킨 후 두 순위 사이의 스피어만 상관계수로 정의된다**입니다. 피어슨 상관계수는 원시 데이터를 그대로 사용하여 선형 관계를 측정하며, 순위로 변환하지 않습니다. 스피어만 상관계수가 순위를 기반으로 계산되는 상관계수입니다. --- 18. 아래 데이터 셋(data set) A, B간의 유사성을 맨하탄 거리로 계산하면? | | A | B | |---------|-----|-----| | 키 | 180 | 175 | | 몸무게 | 65 | 70 | ① 0 ② 10 ③ √10 ④ √50 정답:2 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 주어진 데이터 셋에서 A와 B 간의 유사성을 계산하기 위해 맨해튼 거리를 사용할 수 있습니다. 맨해튼 거리는 두 점 사이의 각 차원에서의 절대 차이의 합을 계산합니다. ### 맨해튼 거리 계산: 1. **키(Height)**: ∣180−175∣=5|180 - 175| = 5∣180−175∣=5 2. **몸무게(Weight)**: ∣65−70∣=5|65 - 70| = 5∣65−70∣=5 맨해튼 거리 ddd는 각 차원에서의 절대 차이의 합으로 계산됩니다: d=5+5=10d = 5 + 5 = 10d=5+5=10 ### 결론: A와 B 간의 맨해튼 거리는 **10**입니다. --- 46. 최적변수식을 선택하기 위한 방법 중 모든 독립변수 후보를 포함한 모형에서 시작하여 가장 적은 영향을 주는 변수를 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하는 방법은 무엇인가? ( ) 정답: 후진 제거법 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 --- 25. 다음 중 아래 수식에 해당하는 거리 계산 방법은? ![[ADsP 기출문제 이미지 13.png]]]] ① 민코우스키(Minkowski) 거리 ② 마할라노비스(Mahalanobis) 거리 ③ 유클리드(Euclidean) 거리 ④ 맨하탄(Manhattan) 거리 정답: 4 출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 --- 17. 다음 중 다차원척도법에 대한 설명으로 적절한 것은? ① 비슷한 특성을 가지는 소집단으로 묶어 패턴을 찾는 것으로 고객 세분화 등에 많이 활용된다. ② 여러 대상 간의 거리가 주어졌을 때, 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시켜 자료들의 상관적 관계를 이해하는 시각화 방법의 근간으로 주로 사용된다. ③ 상관관계가 있는 고차원 자료로 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 방법으로 독립변수 간 다중공선성 문제를 해결할 수 있다. ④ 항목 간의 '조건-결과' 식으로 표현되는 유용한 패턴을 발견할 수 있으며 흔히 장바구니 분석이라고도 한다. 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 --- 23. 사회 연결망 분석의 중심성을 측정하는 방법으로 적절하지 않은 것은? ① 링크 중심성 ② 근접 중심성 ③ 매개 중심성 ④ 연결정도 중심성 정답: 1 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] ### 사회 연결망 분석(Social Network Analysis, SNA)의 중심성 측정 방법 사회 연결망 분석에서 중심성(Centrality)은 네트워크 내에서 특정 노드(개체)가 얼마나 중요한 역할을 하는지를 측정하는 방법입니다. 중심성은 여러 가지 방법으로 측정될 수 있으며, 주로 다음과 같은 지표들이 사용됩니다: 1. **연결정도 중심성 (Degree Centrality)** - **정의**: 한 노드가 다른 노드와 얼마나 많이 연결되어 있는지를 측정합니다. 연결 정도가 높을수록 해당 노드는 네트워크에서 중요한 역할을 한다고 봅니다. - **사용 사례**: 친구 수, 팔로워 수 등. 2. **근접 중심성 (Closeness Centrality)** - **정의**: 한 노드가 네트워크의 다른 모든 노드와 얼마나 가까운지(즉, 최소 경로의 평균 길이)를 측정합니다. 근접 중심성이 높을수록 다른 노드에 빠르게 접근할 수 있는 능력이 큽니다. - **사용 사례**: 정보 전달의 효율성 측정. 3. **매개 중심성 (Betweenness Centrality)** - **정의**: 한 노드가 다른 노드 간의 경로에서 얼마나 자주 중개자 역할을 하는지를 측정합니다. 매개 중심성이 높을수록 네트워크 내에서 다른 노드를 연결하는 중요한 다리 역할을 합니다. - **사용 사례**: 정보의 중개 역할, 브로커 역할. 4. **링크 중심성 (Link Centrality)** - **정의**: "링크 중심성"은 일반적인 사회 연결망 분석에서 사용되는 표준적인 중심성 지표가 아닙니다. 대신, "연결정도 중심성"이 대표적인 중심성 지표로 사용됩니다. ### 결론: **① 링크 중심성**은 사회 연결망 분석에서 중심성을 측정하는 일반적인 방법이 아닙니다. 따라서 이 선택지가 적절하지 않습니다. 정리하면, **링크 중심성**은 사회 연결망 분석의 중심성 측정 방법으로 적절하지 않은 선택지입니다. --- 30. 주성분분석에 대한 설명으로 가장 적절하지 않은 것은? ① 차원축소 방법 중 하나이다. ② 비지도학습(Unsupervised Learning)에 해당한다. ③ 이론적으로 구성된 각 상관관계가 없다. ④ 원변수의 설명력 중 가장 분산이 작은 것을 제1주성분(PC1)으로 설정한다. 정답: 4 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 --- 35. 사회연결망분석에서 연결망을 표현하는 분석 방법으로 가장 적절하지 않은 것은? ① K-means 방법 ② 집합론적 방법 ③ 그래프 이론을 이용한 방법 ④ 행렬을 이용한 방법 정답: 1 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] ### 사회 연결망 분석(Social Network Analysis, SNA)에서 연결망을 표현하는 방법들 사회 연결망 분석에서 연결망을 표현하고 분석하는 방법은 여러 가지가 있습니다. 각 방법은 연결망의 특성을 효과적으로 표현하고 분석하는 데 도움을 줍니다. 1. **K-means 방법** - **정의**: K-means는 군집 분석(Clustering) 방법 중 하나로, 데이터를 k개의 군집으로 나누는 비지도 학습 기법입니다. 주로 데이터 포인트를 그룹으로 나누는 데 사용됩니다. - **적합성**: K-means는 연결망을 표현하는 방법이 아니라, 데이터 군집화를 위한 방법입니다. 따라서 SNA에서 연결망을 직접적으로 표현하는 데 사용되지는 않습니다. 2. **집합론적 방법** - **정의**: 집합론(Set Theory)은 수학적 집합을 이용하여 노드와 링크 간의 관계를 표현하는 방법입니다. 이를 통해 네트워크 내의 관계와 구조를 분석할 수 있습니다. - **적합성**: 집합론적 방법은 연결망 내의 집합 간의 관계를 분석하는 데 유용합니다. 예를 들어, 특정 노드 집합 간의 공통 연결이나 관계를 파악할 수 있습니다. 3. **그래프 이론을 이용한 방법** - **정의**: 그래프 이론(Graph Theory)은 노드(정점)와 엣지(변)로 구성된 그래프 구조를 사용하여 연결망을 분석하는 방법입니다. 노드는 개체를, 엣지는 개체 간의 관계를 나타냅니다. - **적합성**: 그래프 이론은 SNA에서 가장 기본적이고 널리 사용되는 방법으로, 연결망을 효과적으로 표현하고 분석할 수 있습니다. 4. **행렬을 이용한 방법** - **정의**: 행렬(Matrix)은 연결망을 수학적으로 표현하는 또 다른 방법으로, 노드 간의 연결 관계를 행렬의 형태로 나타냅니다. 예를 들어, 인접 행렬(adjacency matrix)을 사용하여 연결의 존재 여부를 0과 1로 나타낼 수 있습니다. - **적합성**: 행렬은 연결망의 구조를 분석하고 계산하는 데 매우 유용하며, SNA에서 자주 사용되는 방법입니다. ### 결론: **① K-means 방법**은 사회 연결망 분석에서 연결망을 표현하는 방법으로 적절하지 않습니다. K-means는 데이터 군집화를 위한 방법으로, SNA에서 연결망을 직접적으로 표현하는 방법은 아닙니다. 따라서 가장 적절하지 않은 방법은 **① K-means 방법**입니다. --- 38. 아래는 4개의 변수를 가진 데이터프레임 USArrests의 주성분분석 결과이다. 첫 번째 주성분 식으로 가장 적절한 것은?![[ADsP 기출문제 이미지 19.png]] ① PC 1= -0.54*Murder - 0.58*Assault - 0.28*UrbanPop - 0.54*Rape ② PC 1= 0.42*Murder + 0.19*Assault - 0.87*UrbanPop + 0.17*Rape ③ PC 1= -0.34*Murder - 0.27*Assault - 0.38*UrbanPop - 0.82*Rape ④ PC 1= 0.65*Murder - 0.74*Assault + 0.13*UrbanPop + 0.09*Rape 정답: 1 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 --- 39. 다음 중 다중공선성(Multicollinearity)에 대한 설명으로 가장 부적절한 것은? ① 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 될 수 있다. ② 높은 상관관계에 있는 설명변수에 대한 계수는 표본의 크기에 관계없이 항상 일정하다. ③ 분산 팽창 인자(VIF)가 10보다 큰 경우 해당하는 회귀계수의 측정이 다중공선성으로 정확도가 낮아질 수 있다. ④ 높은 상관관계가 있는 변수를 제거하면 높은 상관관계가 있는 다른 변수의 측정 계수에 영향을 미친다. 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] ### 다중공선성(Multicollinearity) 개념 설명: 다중공선성은 회귀 분석에서 독립 변수들 간에 높은 상관관계가 있는 경우 발생하는 문제입니다. 다중공선성이 존재하면 회귀 계수의 추정이 불안정해지고, 통계적 유의성을 판단하는 데 어려움이 생길 수 있습니다. 이는 모델 해석의 신뢰성을 떨어뜨릴 수 있습니다. #### 각 보기의 설명: 1. **① 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 될 수 있다.** - **설명**: 다중공선성이 존재하면 회귀 계수의 분산이 증가하여 추정된 회귀 계수가 불안정해지고, 해석하기 어려워집니다. **이 설명은 적절합니다.** 2. **② 높은 상관관계에 있는 설명변수에 대한 계수는 표본의 크기에 관계없이 항상 일정하다.** - **설명**: 다중공선성이 존재하면 회귀 계수의 추정이 불안정해지며, 이는 표본 크기에 따라 변동될 수 있습니다. 다중공선성은 회귀 계수의 추정에 영향을 미쳐 계수가 일정하지 않을 수 있습니다. **이 설명은 부적절합니다.** 3. **③ 분산 팽창 인자(VIF)가 10보다 큰 경우 해당하는 회귀계수의 측정이 다중공선성으로 정확도가 낮아질 수 있다.** - **설명**: VIF(Variance Inflation Factor)는 다중공선성을 진단하는 지표로, 일반적으로 VIF가 10을 넘으면 다중공선성이 있다고 판단합니다. 이 경우 회귀 계수의 신뢰성이 떨어질 수 있습니다. **이 설명은 적절합니다.** 4. **④ 높은 상관관계가 있는 변수를 제거하면 높은 상관관계가 있는 다른 변수의 측정 계수에 영향을 미친다.** - **설명**: 다중공선성 문제를 완화하기 위해 상관관계가 높은 변수를 제거하면, 다른 변수의 회귀 계수가 보다 신뢰성 있게 추정될 수 있습니다. 하지만 제거된 변수와 관련된 정보가 손실될 수도 있습니다. **이 설명은 적절합니다.** ### 결론: 가장 부적절한 설명은 **② 높은 상관관계에 있는 설명변수에 대한 계수는 표본의 크기에 관계없이 항상 일정하다**입니다. ---