36. 데이터 마이닝의 활용 예가 아닌 것은 어느 것인가?
① 병원에서 환자 데이터를 이용해 해당 환자에게 발생 가능성이 높은 병을 예측한다.
② 웹사이트에 접속한 고객 정보를 활용해 고객에게 맞는 상품과 서비스를 추천한다.
③ 대용량 데이터를 통해 선거의 후보자 인지를 확인을 위한 전화조사에 활용할 대상 리스트를 만들어 낸다.
④ 은행에서 대출 심사를 할 때, 고객 데이터를 활용해 고객의 우량/불량을 예측한다.
정답: 3
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
### 문제의 개념:
데이터 마이닝(Data Mining)은 대규모 데이터에서 유용한 정보를 발견하고, 패턴이나 관계를 분석하는 기법입니다. 다양한 분야에서 데이터 마이닝을 활용하여 예측, 분류, 군집화, 연관 분석 등을 수행할 수 있습니다.
### 각 보기의 설명:
1. **① 병원에서 환자 데이터를 이용해 해당 환자에게 발생 가능성이 높은 병을 예측한다.**
- **설명**: 데이터 마이닝을 통해 환자의 과거 병력, 유전자 정보, 생활 습관 등을 분석하여 향후 발생 가능성이 높은 병을 예측할 수 있습니다. 이는 데이터 마이닝의 전형적인 활용 사례입니다.
2. **② 웹사이트에 접속한 고객 정보를 활용해 고객에게 맞는 상품과 서비스를 추천한다.**
- **설명**: 고객의 웹사이트 행동 데이터를 분석하여 맞춤형 상품 및 서비스를 추천하는 것은 데이터 마이닝의 전형적인 활용 사례입니다. 추천 시스템은 데이터 마이닝 기법을 활용하여 고객의 취향을 분석하고, 관련 상품을 제안합니다.
3. **③ 대용량 데이터를 통해 선거의 후보자 인지를 확인을 위한 전화조사에 활용할 대상 리스트를 만들어 낸다.**
- **설명**: 이 항목은 데이터 마이닝과 직접적으로 관련이 없습니다. 전화조사 대상 리스트를 만드는 것은 일반적으로 데이터베이스에서 특정 기준에 따라 데이터를 추출하는 작업일 수 있으며, 이는 데이터 마이닝의 전형적인 예가 아닙니다. 데이터 마이닝은 패턴 발견이나 예측 모델링을 중심으로 합니다.
4. **④ 은행에서 대출 심사를 할 때, 고객 데이터를 활용해 고객의 우량/불량을 예측한다.**
- **설명**: 고객의 신용 정보를 분석하여 대출 심사 시 고객의 상환 가능성을 예측하는 것은 데이터 마이닝의 활용 예 중 하나입니다. 신용 점수 모델이나 리스크 분석 모델을 통해 고객의 신용도를 평가할 수 있습니다.
### 결론:
데이터 마이닝의 활용 예가 아닌 것은 **③ 대용량 데이터를 통해 선거의 후보자 인지를 확인을 위한 전화조사에 활용할 대상 리스트를 만들어 낸다**입니다.
이 작업은 특정 기준에 따라 데이터를 추출하는 작업으로, 데이터 마이닝의 전형적인 예측, 패턴 분석, 분류 등의 작업과는 다릅니다.
---
38. 모형의 성능을 평가할 때 사용되는 방법론 중 사후확률과 각 분류 기준값에 의해 오분류 행렬을 만든 다음, 민감도(Sensitivity)와 특이도(Specificity)를 산출하여 도표에 도식화하여 평가하는 방식은 무엇인가?
① ROC(Receive Operating Characteristics)
② 이익도표(Lift)
③ AUROC
④ 예측률(Prediction Rate)
정답: 1
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
### 문제의 개념:
모형의 성능을 평가할 때, 다양한 방법론을 사용할 수 있습니다. 특히 이 문제에서는 **민감도(Sensitivity)**와 **특이도(Specificity)**를 기반으로 도표에 도식화하여 모형의 성능을 평가하는 방법에 대해 묻고 있습니다.
### 각 보기의 설명:
1. **① ROC (Receiver Operating Characteristic)**
- **설명**: ROC 곡선은 다양한 분류 기준값에 따라 민감도와 1-특이도를 계산하여 도식화한 그래프입니다. 이 그래프를 통해 모형의 전체 성능을 평가할 수 있습니다. ROC 곡선은 모형이 긍정 클래스와 부정 클래스를 얼마나 잘 구분하는지를 시각적으로 보여줍니다. **이 설명이 적절합니다.**
2. **② 이익도표 (Lift)**
- **설명**: 이익도표는 모델이 특정 그룹에서 목표 변수를 얼마나 잘 예측하는지를 보여줍니다. 이익도표는 특정 그룹이 평균보다 더 높은 비율로 목표 변수를 가지는지 보여주는 데 사용되며, 민감도와 특이도는 직접적으로 사용되지 않습니다.
3. **③ AUROC (Area Under the ROC Curve)**
- **설명**: AUROC는 ROC 곡선 아래의 면적을 측정한 값으로, 모형의 전체적인 예측 성능을 평가하는 지표입니다. AUROC 값이 1에 가까울수록 모형의 성능이 우수함을 나타냅니다. 이 지표는 민감도와 특이도를 기반으로 하지만, ROC 곡선을 도식화하는 방법 그 자체를 의미하지는 않습니다.
4. **④ 예측률 (Prediction Rate)**
- **설명**: 예측률은 모델의 정확도를 평가하는 방법으로, 모델이 전체 데이터에서 얼마나 정확하게 예측했는지를 나타냅니다. 민감도와 특이도를 직접적으로 사용하지 않습니다.
### 결론:
모형의 성능을 평가할 때 **사후확률과 각 분류 기준값에 의해 오분류 행렬을 만든 다음, 민감도와 특이도를 도표에 도식화하여 평가하는 방식**은 **① ROC (Receiver Operating Characteristic)**입니다.
따라서, 정답은 **① ROC(Receive Operating Characteristics)**입니다.
---
44. 분류문제를 예측하기 위한 모형을 개발하여 테스트 데이터를 통해 그 결과를 분석하고자 한다. 아래 표를 활용하여 민감도를 구하려고 할 때 민감도를 산출하는 방식은 어떤 것인가?
![[01회 모의고사 그림 03.png]]
① TP/(TP+FN)
② FN/(TP+FN)
③ FP/(FP+TN)
④ TN/(FP+TN)
정답: 1
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
---
49. 다층 신경망은 여러개의 은닉층(hidden layer)을 가질 수 있는 데, 다음 중 은닉층 노드의 수가 너무 적을 경우 나타나는 특징을 설명한 것으로 가장 적절한 것은?
① 네트워크의 일반화가 어렵다.
② 네트워크가 복잡한 의사결정 경계를 만들 수 없다.
③ 오차의 역전파 알고리즘에서 기울기 소실 문제가 발생한다.
④ 훈련에 많은 시간이 소요된다.
정답: 2
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
### 문제의 개념:
다층 신경망(Multilayer Neural Network)에서 은닉층(hidden layer)의 노드 수는 모델의 학습 능력과 성능에 중요한 영향을 미칩니다. 은닉층 노드 수가 너무 적거나 많을 경우 각각의 문제가 발생할 수 있습니다. 이 문제에서는 은닉층 노드 수가 **너무 적을 때** 발생할 수 있는 문제를 묻고 있습니다.
### 각 보기의 설명:
1. **① 네트워크의 일반화가 어렵다.**
- **설명**: 일반적으로 은닉층의 노드 수가 너무 많을 때 발생할 수 있는 문제입니다. 노드 수가 많으면 모델이 훈련 데이터에 너무 잘 맞추게 되어 과적합(overfitting)이 발생하고, 새로운 데이터에 대한 일반화(generalization)가 어려워집니다. 그러나 노드 수가 적을 때는 과적합보다는 과소적합(underfitting)이 문제가 됩니다. 따라서 이 설명은 은닉층 노드 수가 너무 적을 때의 문제가 아닙니다.
2. **② 네트워크가 복잡한 의사결정 경계를 만들 수 없다.**
- **설명**: 은닉층의 노드 수가 너무 적으면 모델이 복잡한 패턴을 학습할 수 없게 됩니다. 따라서 네트워크가 단순한 의사결정 경계(decision boundary)만을 만들 수 있으며, 이는 복잡한 데이터에 대해 적절한 학습을 하지 못하게 합니다. **이 설명은 적절합니다.**
3. **③ 오차의 역전파 알고리즘에서 기울기 소실 문제가 발생한다.**
- **설명**: 기울기 소실(Vanishing Gradient) 문제는 주로 은닉층의 수가 너무 많을 때 발생합니다. 네트워크가 깊어지면서 역전파 과정에서 기울기가 점점 작아져 가중치가 제대로 업데이트되지 않는 현상을 의미합니다. 이는 은닉층 노드 수가 적을 때 발생하는 문제가 아닙니다.
4. **④ 훈련에 많은 시간이 소요된다.**
- **설명**: 은닉층 노드 수가 많을수록 훈련 시간이 길어질 수 있지만, 노드 수가 적으면 상대적으로 훈련이 빨리 이루어집니다. 따라서 이 설명도 은닉층 노드 수가 적을 때의 문제와는 관련이 없습니다.
### 결론:
가장 적절한 설명은 **② 네트워크가 복잡한 의사결정 경계를 만들 수 없다**입니다.
은닉층 노드 수가 너무 적을 경우, 모델이 데이터의 복잡한 패턴을 학습할 수 없으며, 따라서 단순한 의사결정 경계만을 만들게 됩니다. 이는 복잡한 문제를 해결하는 데 있어 중요한 문제로 작용할 수 있습니다.
---
34. 데이터 마이닝을 위한 데이터 분할에 대한 설명으로 틀린 것은 어느 것인가?
① 데이터를 구축용(Training), 검증용(Validation), 시험용(Test)으로 분리한다.
② 일반적으로 데이터 구축용, 검증용, 시험용 데이터를 50%, 30%, 20%로 정한다.
③ 데이터가 충분하지 않을 때는 구축용과 시험용 데이터만 구분하여 활용한다.
④ 통계학에 적용되는 교차확인(Cross-Validation)은 데이터 마이닝에서 활용할 수 없다.
정답: 4
출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]
### 문제의 개념:
데이터 마이닝에서 데이터 분할은 모델의 학습, 평가, 일반화 성능을 확인하기 위해 매우 중요한 단계입니다. 일반적으로 데이터를 훈련용(Training), 검증용(Validation), 시험용(Test)으로 나누어 사용합니다. 이를 통해 모델이 과적합(overfitting)되지 않고, 새로운 데이터에 대해 잘 일반화할 수 있도록 평가할 수 있습니다.
### 각 보기의 설명:
1. **① 데이터를 구축용(Training), 검증용(Validation), 시험용(Test)으로 분리한다.**
- **설명**: 데이터 마이닝에서 일반적으로 데이터를 훈련용(Training), 검증용(Validation), 시험용(Test)으로 분리하여 사용합니다. 훈련용 데이터는 모델을 학습시키는 데 사용되고, 검증용 데이터는 하이퍼파라미터 튜닝과 모델 평가에, 시험용 데이터는 최종 성능 평가에 사용됩니다. **이 설명은 적절합니다.**
2. **② 일반적으로 데이터 구축용, 검증용, 시험용 데이터를 50%, 30%, 20%로 정한다.**
- **설명**: 데이터 분할 비율은 상황에 따라 다를 수 있지만, 일반적인 분할 비율은 훈련용 60-70%, 검증용 15-20%, 시험용 15-20% 정도입니다. 50%, 30%, 20%로 나누는 것은 상대적으로 훈련 데이터가 적어 과소적합(underfitting) 가능성을 높일 수 있습니다. **이 설명은 틀릴 수 있습니다.**
3. **③ 데이터가 충분하지 않을 때는 구축용과 시험용 데이터만 구분하여 활용한다.**
- **설명**: 데이터가 부족한 경우, 훈련용(Training)과 시험용(Test) 데이터만으로 분리하여 모델을 학습시키고 평가하는 경우가 많습니다. 검증용 데이터를 따로 분리하지 않고 교차검증(Cross-Validation) 방법을 사용하기도 합니다. **이 설명은 적절합니다.**
4. **④ 통계학에 적용되는 교차확인(Cross-Validation)은 데이터 마이닝에서 활용할 수 없다.**
- **설명**: 교차검증(Cross-Validation)은 데이터 마이닝에서도 널리 사용되는 방법으로, 특히 데이터가 부족할 때 모델의 성능을 안정적으로 평가하는 데 매우 유용합니다. 따라서 **이 설명은 틀립니다.**
### 결론:
가장 틀린 설명은 **④ 통계학에 적용되는 교차확인(Cross-Validation)은 데이터 마이닝에서 활용할 수 없다**입니다.
교차검증(Cross-Validation)은 데이터 마이닝에서 매우 중요한 방법으로, 데이터가 적을 때나 모델의 성능을 보다 안정적으로 평가할 때 자주 활용됩니다.
---
1. Default 데이터는 10,000명의 신용카드 고객에 대한 체납 여부(default)와 학생여부(student), 카드 잔고(balance), 연봉(income)을 포함하고 있다. 고객의 체납 확률을 예측하기 위한 아래 결과에 대한 설명으로 가장 부적절한 것은?
```R
summary(glm(default~,data=Default,family="binomial"))
Call:
glm(formula = default ~ ., family = "binomial", data = Default)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.4691 -0.1418 -0.0557 -0.0203 3.7383
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.087e+01 4.923e-01 -22.080 < 2e-16 ***
studentYes -6.468e-01 2.363e-01 -2.738 0.00619 **
balance 5.737e-03 2.319e-04 24.738 < 2e-16 ***
income 3.033e-06 8.203e-06 0.370 0.71152
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 2920.6 on 9999 degrees of freedom
Residual deviance: 1571.5 on 9996 degrees of freedom
AIC: 1579.5
Number of Fisher Scoring iterations: 8
```
① 로지스틱 회귀모형을 사용한 결과이다.
② 카드 잔고와 연봉이 동일한 수준일 때, 학생(studentYes)이 학생이 아닌 고객보다 체납확률이 낮다.
③ 세 설명변수 모두 체납확률을 예측하는데 유의한 영향이 있다.
④ 동일한 신분과 연봉 수준일 때 카드 잔고가 높을수록 체납 확률이 높다.
정답: 3
출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]
풀 수 있는 문제
---
36. 데이터 마이닝 분석 기법 중 의사결정나무 분석의 특성으로 잘못 표현한 것은 어느 것인가?
① 의사결정나무 모형의 결과는 누구나 이해가 쉽고 설명이 용이하다.
② 의사결정나무 알고리즘의 모형 정확도는 다른 분류모형에 뒤지지 않는다.
③ 의사결정나무 알고리즘은 대용량 데이터에서도 빠르게 만들 수 있고 데이터의 분류 작업도 신속히 진행할 수 있다.
④ 의사결정나무 알고리즘은 비정상적인 잡음 데이터에서는 민감하여 분류가 쉽지 않다.
정답: 4
출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]
버리는 문제
---
39. 아래의 데이터 마이닝 분석 예제 중 비지도(Unsupervised) 분석을 수행해야 하는 예제는?
가. 우편물을 인쇄해 우편번호 판별 분석을 통해 우편물을 자동으로 분류
나. 고객의 과거 거래 구매 패턴을 분석하여 고객이 구매하지 않은 상품을 추천
다. 동일 차종의 수리 보고서 데이터를 분석하여 차량 수리에 소요되는 시간을 예측
라. 상품을 구매할 때 고유 주소한 상품을 구매한 고객들의 구매 데이터를 분석하여 쿠폰을 발행
① 나, 다
② 가, 라
③ 가, 다
④ 나, 라
정답: 4
출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]
풀 수 있는 문제
---
42. 아래의 데이터는 두 종류의 수면유도제(group)에 대해 무작위로 선정된 20명의 환자를 대상으로 수면 시간의 증가(extra)를 측정한 자료이다. 다음 중 결과에 대한 설명으로 가장 부적절 한 것은?
```R
> sleep
extra group
1 0.7 1
2 -1.6 1
3 -0.2 1
4 -1.2 1
5 -0.1 1
6 3.4 1
7 3.7 1
8 0.8 1
9 0.0 1
10 2.0 1
11 1.9 2
12 0.8 2
13 1.1 2
14 0.1 2
15 -0.1 2
16 4.4 2
17 5.5 2
18 1.6 2
19 4.6 2
20 3.4 2
> summary(sleep$extra)
Min. 1st Qu. Median Mean 3rd Qu. Max.
-1.600 -0.025 0.950 1.540 3.400 5.500
```
① 평균적으로 1.54시간의 수면시간 증가를 가져왔다.
② 3.4시간 이상 수면이 증가한 환자는 약 25%이다.
③ 모든 환자들의 수면시간이 증가하였다.
④ 가장 많이 증가한 수면시간은 5.5시간이다.
정답: 3
출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]
풀 수 있는 문제
---
44. 다음 중 과대적합(Overfitting)에 대한 설명으로 가장 부적절한 것은?
① 과대적합이 발생할 것으로 예상되면 학습을 종료하고 업데이트하는 과정을 반복해 과대적합을 방지할 수 있다.
② 과대적합은 분석 변수 수가 너무 많이 존재하고 분석 모형이 복잡할 때 발생한다.
③ 분석 데이터가 모집단의 특성을 설명하지 못하면 발생한다.
④ 생성된 모형은 분석 데이터에 최적화되었기 때문에 훈련 데이터의 작은 변화에 민감하게 반응하는 경우는 발생하지 않는다.
정답: 4
출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]
왜 설명만 보고도 오답이 보이냐
---
24. 아래 오분류표를 이용하여 계산된 정밀도는 무엇인가?
![[ADsP 기출문제 이미지 08.png]]
① 3/10
② 4/10
③ 3/9
④ 7/11
정답: 3
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
풀 수 있는 문제 : 정밀도는 탐정이다. 맞다고 예측한 것 중에 진짜 맞은 것!
---
32. 다음 중 아래 데이터 마이닝 추진 단계를 순서대로 나열한 것은?
가. 목적 정의
나. 데이터 준비
다. 데이터 가공
라. 데이터 마이닝 기법 적용
마. 검증
① 가 → 나 → 다 → 라 → 마
② 가 → 나 → 다 → 마 → 라
③ 가 → 다 → 나 → 라 → 마
④ 가 → 나 → 라 → 다 → 마
정답: 1
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
풀 수 있는 문제
---
36. 다음 중 예측모형의 과적합을 방지하기 위해 활용되는 자료 추출 방법으로 가장 적절하지 않은 것은?
① 홀드아웃 방법
② 교차검증
③ 부스트랩
④ 의사결정나무
정답: 4
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
풀 수 있는 문제
---
37. 아래 오분류표를 이용하여 계산된 특이도는 무엇인가?
![[ADsP 기출문제 이미지 11.png]]
① 0.20
② 0.25
③ 0.75
④ 0.80
정답: 2
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
풀 수 있는 문제 : 특이도는 형사다. 진짜 나쁜 놈들 중에서 맞춘 나쁜놈들.
---
47. 모형 평가방법 중 주어진 원천 데이터를 랜덤하게 두 분류로 분리하여 교차 검증을 실시하는 방법으로 하나는 모형의 학습 및 구축을 위한 훈련용 자료로, 다른 하나는 성과 평가를 위한 검증용 자료로 사용하는 방법은 무엇인가?
( )
정답: 홀드아웃 방법
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
주어진 원천 데이터를 랜덤하게 두 분류로 분리하여 교차 검증을 실시하는 방법으로, 하나는 모형의 학습 및 구축을 위한 훈련용 자료로, 다른 하나는 성과 평가를 위한 검증용 자료로 사용하는 방법은 **홀드아웃 방법(Holdout Method)**입니다.
### 홀드아웃 방법 (Holdout Method):
- **정의**: 데이터셋을 랜덤하게 두 개의 서브셋으로 분할하여, 하나는 모델을 학습시키는 훈련 데이터(Training Set)로, 다른 하나는 모델의 성능을 평가하는 검증 데이터(Validation Set)로 사용하는 방법입니다.
- **특징**:
- 훈련 데이터는 모델을 학습하는 데 사용되며, 이 데이터에서 모델이 패턴을 학습합니다.
- 검증 데이터는 학습되지 않은 데이터로, 모델이 새로운 데이터를 얼마나 잘 예측하는지를 평가하는 데 사용됩니다.
- 이 방법은 간단하고 직관적이지만, 데이터셋의 크기가 작을 경우 성능 평가가 불안정할 수 있습니다.
### 요약:
주어진 원천 데이터를 두 개의 그룹으로 랜덤하게 분리하여 하나는 훈련용, 다른 하나는 검증용으로 사용하는 이 방법은 **홀드아웃 방법(Holdout Method)**입니다.
---
3. 개인에게 내재된 경험을 객관적인 데이터로 문서나 매체에 저장, 가공, 분석하는 과정은?
① 공통화(Socialization)
② 내면화(Internalization)
③ 연결화(Combination)
④ 표출화(Externalization)
정답: 4
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
개인에게 내재된 경험을 객관적인 데이터로 문서나 매체에 저장, 가공, 분석하는 과정을 설명하는 용어는 **④ 표출화(Externalization)**입니다.
### 각 보기의 설명:
1. **① 공통화(Socialization)**:
- **정의**: 개인 간에 암묵지를 공유하여 지식을 전파하는 과정입니다. 보통 사람 간의 경험 공유를 통해 이루어지며, 문서화되기보다는 직접적인 경험과 관찰을 통해 지식이 전달됩니다.
2. **② 내면화(Internalization)**:
- **정의**: 문서화된 지식이나 객관적인 데이터를 개인이 학습하고 이해하여 자신의 암묵지로 만드는 과정입니다. 이 과정은 객관적인 데이터를 자신의 경험과 결합시켜 내재화하는 단계입니다.
3. **③ 연결화(Combination)**:
- **정의**: 이미 존재하는 명시적 지식들을 결합하여 새로운 명시적 지식을 생성하는 과정입니다. 이는 여러 가지 문서, 데이터 등을 조합하여 새로운 정보나 지식을 도출하는 단계입니다.
4. **④ 표출화(Externalization)**:
- **정의**: 개인의 내면에 있는 암묵적인 경험이나 지식을 명시적인 형태로 표현하고 문서화하는 과정입니다. 이는 암묵지(Implicit Knowledge)를 명시지(Explicit Knowledge)로 변환하는 과정으로, 문서, 데이터, 매체 등에 저장되어 다른 사람들이 접근하고 활용할 수 있게 합니다.
### 결론:
개인에게 내재된 경험을 객관적인 데이터로 문서나 매체에 저장, 가공, 분석하는 과정은 **④ 표출화(Externalization)**입니다.
---
18. 웹 데이터의 수집을 위해 웹페이지의 구조를 분석하여 데이터를 자동으로 수집하는 방법은?
① 스테밍(Stemming)
② 웹 크롤링(Web Crawling)
③ 클라우드 컴퓨팅(Cloud Computing)
④ TDM(Term-Document Matrix)
정답: 2
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
풀 수 있는 문제
---
20. 다음 중 앙상블 모형의 특징으로 적절하지 않은 것은?
① 모형의 투명성이 떨어져 원인 분석에는 적합하지 않다.
② 이상값(outlier)에 대한 대응력이 높아진다.
③ 전체적인 예측수준 변산을 감소시켜 정확도를 높일 수 있다.
④ 각 모형의 상호 연관성이 높을수록 정확도가 향상한다.
정답: 4
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
### 문제의 개념:
앙상블 모형(Ensemble Model)은 여러 개의 예측 모형을 결합하여 단일 모형보다 더 나은 성능을 얻는 기법입니다. 앙상블 기법의 목표는 각 모형의 장점을 결합하여 예측 정확도를 높이고, 단일 모형에서 발생할 수 있는 오류를 줄이는 것입니다. 일반적으로 여러 모형의 예측을 평균하거나 투표 등의 방법으로 결합합니다.
### 각 보기의 설명:
1. **① 모형의 투명성이 떨어져 원인 분석에는 적합하지 않다.**
- **설명**: 앙상블 모형은 여러 모형을 결합하기 때문에, 결과의 해석이 복잡해지고 투명성이 떨어질 수 있습니다. 따라서 원인 분석에는 단일 모형에 비해 적합하지 않을 수 있습니다. **이 설명은 적절합니다.**
2. **② 이상값(outlier)에 대한 대응력이 높아진다.**
- **설명**: 앙상블 모형은 여러 모형의 결합으로 이루어지기 때문에, 이상값에 대한 민감도가 낮아질 수 있습니다. 즉, 단일 모형이 이상값에 영향을 많이 받을 수 있는 반면, 앙상블 모형은 이를 평균화하거나 완화할 수 있는 가능성이 높습니다. **이 설명도 적절합니다.**
3. **③ 전체적인 예측수준 변산을 감소시켜 정확도를 높일 수 있다.**
- **설명**: 앙상블 모형은 여러 모형의 결과를 결합함으로써, 개별 모형의 변동성을 줄이고, 전체적인 예측수준에서 더 높은 정확도를 얻을 수 있습니다. **이 설명도 적절합니다.**
4. **④ 각 모형의 상호 연관성이 높을수록 정확도가 향상한다.**
- **설명**: **이 설명은 부적절합니다.** 앙상블 모형의 성능을 높이기 위해서는 각 모형이 서로 다른 예측을 제공해야 합니다. 즉, 모형 간의 상관관계가 낮을수록(모형들이 서로 독립적일수록) 앙상블의 효과가 더 커집니다. 만약 모형들이 서로 강하게 연관되어 있다면, 다양한 예측을 제공하지 못하고, 앙상블의 장점이 줄어들게 됩니다.
### 결론:
앙상블 모형의 특징으로 적절하지 않은 것은 **④ 각 모형의 상호 연관성이 높을수록 정확도가 향상한다**입니다.
실제로 앙상블 모형에서 각 모형의 상호 연관성이 낮을수록 다양한 예측을 제공할 수 있어 앙상블의 정확도가 향상됩니다.
---
23. 모형평가 방법으로 가장 적절하지 않은 것은?
① k-fold 교차검증(k-fold Cross validation)
② 오분류표(Confusion Matrix)
③ 엔트로피(Entropy)
④ 홀드 아웃 방법(Hold-out method)
정답: 3
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
### 문제의 개념:
모형 평가 방법은 학습된 모델의 성능을 평가하고 비교하기 위해 사용되는 다양한 기법들을 의미합니다. 이를 통해 모델이 새로운 데이터에 대해 얼마나 잘 예측하는지, 얼마나 일반화될 수 있는지를 판단할 수 있습니다.
### 각 보기의 설명:
1. **① k-fold 교차검증(k-fold Cross validation)**
- **설명**: k-fold 교차검증은 데이터를 k개의 부분으로 나누고, 그 중 하나를 검증용 데이터로 사용하며, 나머지를 훈련용 데이터로 사용하는 방법입니다. 이 과정을 k번 반복하여 각 부분이 한 번씩 검증용 데이터로 사용되도록 합니다. 이는 모형의 성능을 안정적으로 평가하는 데 유용한 방법입니다. **이 설명은 적절합니다.**
2. **② 오분류표(Confusion Matrix)**
- **설명**: 오분류표는 분류 문제에서 모델의 예측 결과를 실제 값과 비교하여 맞춘 것과 틀린 것을 표로 나타내는 방법입니다. 이를 통해 정확도, 정밀도, 민감도 등의 다양한 성능 지표를 계산할 수 있습니다. **이 설명도 적절합니다.**
3. **③ 엔트로피(Entropy)**
- **설명**: 엔트로피는 정보이론에서 불확실성을 측정하는 척도로 사용됩니다. 분류 문제에서 주로 의사결정나무의 분할 기준으로 사용되며, 모델 자체의 평가보다는 모델이 어떻게 데이터를 분할하는지(정보의 불확실성을 줄이는지) 측정하는 데 사용됩니다. **이 설명은 모형 평가 방법으로는 부적절합니다.** 엔트로피는 직접적인 모형 평가 방법이 아니기 때문입니다.
4. **④ 홀드 아웃 방법(Hold-out method)**
- **설명**: 홀드 아웃 방법은 데이터를 훈련용 데이터와 검증용 데이터로 나누어 모형을 평가하는 방법입니다. 이 방법은 간단하고 빠르게 모형을 평가하는 데 유용합니다. **이 설명은 적절합니다.**
### 결론:
모형 평가 방법으로 가장 적절하지 않은 것은 **③ 엔트로피(Entropy)**입니다.
엔트로피는 주로 정보의 불확실성을 측정하고, 의사결정나무에서 분할 기준으로 사용되지만, 직접적인 모형 평가 방법으로 사용되지는 않습니다.
---
27. 인공신경망 모형에서 활성함수인 시그모이드(sigmoid)의 함수의 결과값으로 올바른 것은?
① -1 또는 1
② 0 또는 1
③ 0 ≤ y ≤ 1
④ -1 ≤ y ≤ 1
정답: 3
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
풀 수 있는 문제
---
31. 빅데이터 분석 프로세스에서 모델링 단계에 해당하지 않는 과정은?
① 모델의 개발 설계 및 구축
② 탐색 및 분석 및 유의변수 도출
③ 분석기법 선정 및 설계
④ 모델링 성능평가
정답: 3
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
버리는 문제
---
33. 다음 중 신경망 모형에서 출력값이 여러 개이고 목표치가 다범주인 경우에 사용하는 활성화 함수는?
① 하이퍼볼린 탄젠트(Hyperbolic Tangent)
② 시그모이드(Sigmoid)
③ 리키-렐루(Leaky-ReLU)
④ 소프트 맥스(Softmax)
정답: 4
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
### 문제의 개념:
신경망 모형에서 출력값이 여러 개이고, 목표치가 다범주인 경우(즉, 다중 클래스 분류 문제)에는 **출력층에서 사용하는 활성화 함수**가 중요한 역할을 합니다. 이 함수는 각 클래스에 속할 확률을 계산하여, 총합이 1이 되도록 출력값을 정규화합니다.
### 각 보기의 설명:
1. **① 하이퍼볼린 탄젠트(Hyperbolic Tangent, Tanh)**
- **설명**: Tanh 함수는 -1에서 1 사이의 값을 출력하는 비선형 활성화 함수입니다. 주로 은닉층에서 사용되며, 다범주 분류보다는 이진 분류 문제에서 더 많이 사용됩니다. **다범주 분류 문제에는 적합하지 않습니다.**
2. **② 시그모이드(Sigmoid)**
- **설명**: 시그모이드 함수는 0과 1 사이의 값을 출력하며, 이진 분류 문제에서 출력층에서 자주 사용됩니다. 그러나 다범주 분류 문제에는 적합하지 않습니다. **이 함수는 다범주 분류 문제에 적합하지 않습니다.**
3. **③ 리키-렐루(Leaky-ReLU)**
- **설명**: Leaky-ReLU는 ReLU 함수의 변형으로, 음수 구간에서 작은 기울기를 가지도록 하여 죽은 ReLU 문제를 완화합니다. 주로 은닉층에서 사용되며, 출력층에서 다범주 분류를 위한 활성화 함수로 사용되지는 않습니다. **다범주 분류 문제에는 적합하지 않습니다.**
4. **④ 소프트맥스(Softmax)**
- **설명**: Softmax 함수는 다범주 분류 문제에서 출력층에 사용하는 활성화 함수입니다. 각 클래스에 속할 확률을 계산하며, 출력값의 총합이 1이 되도록 정규화합니다. **다범주 분류 문제에 가장 적합한 활성화 함수입니다.**
### 결론:
다범주 분류 문제에서 사용하는 활성화 함수는 **④ 소프트맥스(Softmax)**입니다.
Softmax는 출력값이 여러 개일 때, 각 클래스에 속할 확률을 계산하여 다범주 분류 문제를 해결하는 데 적합한 함수입니다.
---
34. 자료의 종류에 대한 설명으로 부적절한 것은?
① 명목척도 - 측정 대상이 어느 집단에 속하는지 분류할 때 사용하는 척도로 성별구분 등이 해당한다.
② 순서척도 - 측정 대상의 특성이 가지는 서열관계를 관측하는 척도로 특정 서비스의 선호도 등이 해당한다.
③ 구간척도 - 측정 대상이 갖는 속성의 양을 측정하는 것으로 온도 등이 해당된다.
④ 비율척도 - 비율 대상 간의 상대적인 기준으로 모든 사칙연산이 가능하나, 제로값을 가지지 않는 척도로 혈압, 학력 등이 해당된다.
정답: 4
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
풀 수 있는 문제
---
35. 다음 중 의사결정나무의 특징에 대한 설명으로 가장 적절하지 않은 것은?
① 모형의 결과는 누구에게나 설명이 용이하다.
② 만드는 방법이 계산적으로 복잡하지 않다.
③ 특정 변수와 매우 상관성이 높은 다른 불필요한 변수가 있다하도 크게 영향을 받지 않는다.
④ 비정상적인 잡음 데이터에 대해서 민감하게 분류한다.
정답: 4
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
의사결정나무의 특징에 대한 설명 중 가장 적절하지 않은 것은 **④ 비정상적인 잡음 데이터에 대해서 민감하게 분류한다** 입니다.
의사결정나무는 잡음 데이터(노이즈)에 민감하여, 과적합(overfitting) 문제가 발생할 수 있습니다. 즉, 데이터에 포함된 비정상적이거나 불필요한 노이즈에 의해 모델이 복잡해질 수 있고, 이로 인해 일반화 성능이 떨어질 수 있습니다. 나머지 설명들은 의사결정나무의 특징에 맞는 설명입니다.\
버려.
---
37. 데이터 마이닝을 위한 데이터 분할에 대한 설명으로 부적절한 것은?
① 데이터 마이닝 적용 후 결과를 검증하기 위해 데이터를 구축용(Training), 검증용(Validation), 시험용(Test)으로 분할한다.
② 검증용 데이터는 학습 과정에서 사용되지 않는다.
③ 구축용 데이터는 추정용, 훈련용이라고도 불린다.
④ 데이터 양이 충분하지 않을 때는 교차검증(Cross-Validation)을 통해 모형을 평가하기도 한다.
정답: 2
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
데이터 마이닝을 위한 데이터 분할에 대한 설명 중 **부적절한 것은** 다음입니다:
**② 검증용 데이터는 학습 과정에서 사용되지 않는다.**
검증용(Validation) 데이터는 학습 과정에서 모델의 성능을 평가하고 하이퍼파라미터를 튜닝하는 데 사용됩니다. 이 데이터는 모델을 직접 훈련하는 데 사용되지 않지만, 학습 과정 중 모델을 검증하고 평가하는 과정에서 중요한 역할을 합니다. 따라서 검증용 데이터도 학습 과정의 일부로 간주할 수 있습니다.
---
38. 변수 가공에 대한 설명으로 적절하지 않은 것은?
① 파생변수는 기존의 변수를 조합하여 새로운 변수를 만드는 방법이다.
② 연속형 변수보다 범주형 변수가 이해하기 쉬울 때 연속형 변수를 구간화하여 활용한다.
③ 변환의 중요도는 개발 중인 모형에 준비된 데이터를 기준으로 한 번에 여러 개의 변수를 평가한다.
④ 구간화의 개수가 감소하면 정밀도는 높아지지만 속도가 느려진다.
정답: 4
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
변수 가공에 대한 설명 중 **적절하지 않은 것**은 다음입니다:
**④ 구간화의 개수가 감소하면 정밀도는 높아지지만 속도가 느려진다.**
구간화의 개수가 감소하면 변수의 범주가 줄어들기 때문에, 정밀도는 오히려 낮아질 수 있으며, 일반적으로 속도는 빨라질 가능성이 큽니다. 구간화의 개수를 줄이면 모델이 다루는 정보의 양이 줄어들어 계산 복잡도가 낮아지기 때문에, 속도가 빨라지는 것이 일반적입니다.
---
39. 다차원척도법에 대한 설명으로 가장 적절하지 않은 것은?
① 데이터에 잠재해 있는 패턴이나 구조를 찾으려는 것이다.
② 찾으려는 정보가 패턴은 소수 차원의 공간에 기하학적으로 표현한다.
③ 계절을 사이의 유사성과 비유사성을 측정하여 차원을 축소하기 위해 사용한다.
④ 데이터의 축소를 목적으로 사용한다.
정답: 3
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
다차원척도법에 대한 설명 중 **가장 적절하지 않은 것**은 다음입니다:
**③ 계절을 사이의 유사성과 비유사성을 측정하여 차원을 축소하기 위해 사용한다.**
다차원척도법(Multidimensional Scaling, MDS)은 일반적으로 개체들 간의 유사성이나 비유사성을 기반으로 데이터를 저차원 공간에 시각화하는 기법입니다. 하지만 "계절" 사이의 유사성이나 비유사성을 측정하는 것과는 직접적인 관련이 없습니다. 계절의 유사성을 분석하는 것은 시계열 분석 등의 다른 분석 방법과 관련이 있습니다. 나머지 선택지는 다차원척도법의 목적이나 기능을 잘 설명하고 있습니다.
---
06. 아래에서 설명하는 앙상블 방법은?
- 배깅에 랜덤 과정을 추가한 방법
- 원자료로부터 부스트랩 샘플을 추출하고 각 부스트랩 샘플에 대해 형성해 나간다는 점에서 배깅과 유사
- 각 노드마다 예측변수를 임의로 추출하고, 추출된 변수 내에서 최적의 분할을 생성
( )
정답: 랜덤 포레스트
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
---
11. 모델링 목적에 따라 변수를 정의하고 필요한 데이터를 소프트웨어에 적용하기 위한 활동을 수행하는 데이터 마이닝 추진 단계는?
① 목적 설정 단계
② 데이터 준비 단계
③ 기법 적용 단계
④ 데이터 가공 단계
정답: 4
[[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]
모델링 목적에 따라 변수를 정의하고 필요한 데이터를 소프트웨어에 적용하기 위한 활동을 수행하는 데이터 마이닝 추진 단계는 **④ 데이터 가공 단계**입니다.
데이터 가공 단계에서는 모델링에 적합한 형태로 데이터를 정리하고, 변수를 정의하며, 변수를 변환하거나 파생변수를 생성하는 등의 작업을 수행합니다. 이 단계는 데이터의 품질을 높이고 모델링의 성능을 극대화하는 데 중요한 역할을 합니다.
---
31. 텍스트 마이닝에 대한 설명으로 가장 적절하지 않은 것은?
① 복수의 문자 집합으로 분석에 사용하고자 하는 단어의 집합을 단어 사전(dictionary)이라고 한다.
② 텍스트 마이닝의 기능으로 문서 요약, 분류, 군집, 특성 추출 등이 있다.
③ 분석 결과를 평가하기 위해 사용하는 방법으로 precision, recall 등이 있다.
④ 데이터 마이닝 절차를 거치기 전의 비구조화된 단계는 코퍼스(corpus)라고 한다.
정답: 4
[[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]
텍스트 마이닝에 대한 설명 중 **가장 적절하지 않은 것**은 다음입니다:
**④ 데이터 마이닝 절차를 거치기 전의 비구조화된 단계는 코퍼스(corpus)라고 한다.**
코퍼스(corpus)는 일반적으로 비구조화된 텍스트 데이터의 집합을 의미하며, 텍스트 마이닝에서 분석하기 위한 텍스트 데이터의 모음을 뜻합니다. 하지만 "데이터 마이닝 절차를 거치기 전의 비구조화된 단계"라는 표현은 부적절합니다. 코퍼스는 텍스트 마이닝의 출발점으로, 그 자체가 비구조화된 텍스트 데이터를 의미합니다. 코퍼스를 통해 텍스트 마이닝이 시작되며, 이후 텍스트 전처리, 분석 등의 절차를 거칩니다.
---
33. 다음 중 신경망 모형에 대한 설명으로 틀린 것은?
① 피드포워드 신경망은 정보가 전방으로 전달되는 것으로 생물학적 신경계에서 나타나는 형태이며 딥러닝에서 가장 핵심적인 구조 개념이다.
② 은닉층의 뉴런의 수와 개수는 신경망 모형에서 자동으로 설정되며, 뉴런의 수가 많으면 예측력이 좋아지지만 너무 적으면 입력 데이터를 충분히 표현하지 못하는 경우가 발생한다.
③ 일반적으로 인공신경망은 다층 퍼셉트론을 의미한다. 다층 퍼셉트론에서 정보의 흐름은 입력층에서 시작하여 은닉층을 거쳐 출력층으로 진행된다.
④ 역전파 알고리즘은 연결가중을 갱신하기 위해 예측된 결과와 실제값의 차이인 에러의 역으로 전파하여 가중치를 구한다.
정답: 2
[[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]
물론입니다. 각 보기에 대한 설명은 다음과 같습니다:
**① 피드포워드 신경망은 정보가 전방으로 전달되는 것으로 생물학적 신경계에서 나타나는 형태이며 딥러닝에서 가장 핵심적인 구조 개념이다.**
피드포워드 신경망(Feedforward Neural Network)은 정보가 한 방향으로, 즉 입력층에서 시작하여 은닉층을 거쳐 출력층으로 전달되는 구조를 가지고 있습니다. 이는 생물학적 신경계에서 나타나는 정보 전달 방식을 모방한 것입니다. 피드포워드 신경망은 딥러닝의 가장 기본적이고 핵심적인 구조 개념입니다.
**② 은닉층의 뉴런의 수와 개수는 신경망 모형에서 자동으로 설정되며, 뉴런의 수가 많으면 예측력이 좋아지지만 너무 적으면 입력 데이터를 충분히 표현하지 못하는 경우가 발생한다.**
이 설명의 오류는 앞서 지적했듯이 "은닉층의 뉴런 수와 개수는 자동으로 설정된다"는 부분입니다. 실제로 은닉층의 뉴런 수와 개수는 모델 설계자가 직접 설정해야 하는 중요한 하이퍼파라미터입니다. 또한, 뉴런의 수가 많아지면 예측력이 좋아질 가능성이 있지만, 너무 많을 경우 오버피팅(overfitting)이 발생할 수 있습니다. 반대로 뉴런의 수가 너무 적으면 모델이 입력 데이터를 충분히 표현하지 못할 수 있습니다.
**③ 일반적으로 인공신경망은 다층 퍼셉트론을 의미한다. 다층 퍼셉트론에서 정보의 흐름은 입력층에서 시작하여 은닉층을 거쳐 출력층으로 진행된다.**
인공신경망(Artificial Neural Network, ANN)은 흔히 다층 퍼셉트론(Multilayer Perceptron, MLP)을 의미합니다. MLP는 최소한 하나 이상의 은닉층을 가지며, 정보는 입력층에서 시작하여 은닉층을 거쳐 출력층으로 흐릅니다. 이 구조는 신경망이 복잡한 패턴을 학습할 수 있도록 해줍니다.
**④ 역전파 알고리즘은 연결가중을 갱신하기 위해 예측된 결과와 실제값의 차이인 에러의 역으로 전파하여 가중치를 구한다.**
역전파 알고리즘(Backpropagation)은 신경망의 학습 과정에서 중요한 역할을 합니다. 예측된 결과와 실제값의 차이를 계산한 후, 이 에러를 기반으로 가중치를 업데이트합니다. 이때 에러가 출력층에서 입력층 방향으로 전파되면서 가중치가 조정됩니다. 역전파 알고리즘은 신경망이 학습하고 최적화되는 데 필수적인 방법입니다.
---
37. 혼합분포모형에 대한 최대 가능도 추정량(Maximum Likelihood Estimation)을 위해 사용되는 알고리즘은?
① k-medoids 알고리즘
② CHAID 알고리즘
③ EM 알고리즘
④ Apriori 알고리즘
정답: 3
[[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]
혼합분포모형에 대한 최대 가능도 추정량(Maximum Likelihood Estimation)을 위해 사용되는 알고리즘은 **③ EM 알고리즘**입니다.
EM(Expectation-Maximization) 알고리즘은 혼합분포모형과 같은 상황에서 최대 가능도 추정량을 계산하기 위해 자주 사용됩니다. 이 알고리즘은 주어진 데이터에 대한 잠재적인 확률 변수 값을 추정하고, 이를 이용해 모수의 최대 가능도 추정치를 반복적으로 계산하는 과정으로 구성됩니다.
---
40. 데이터 탐색 과정에 대한 설명으로 가장 적절하지 않은 것은?
① 변수들의 유형이 char형인지 numeric형인지 등을 확인해야 한다.
② 독립변수의 개수 대비 충분한 데이터양이 확보되는지 확인해야 한다.
③ 변수별로 다양한 단위가 존재할 경우, 변수의 표준화가 필요한지 확인해야 한다.
④ 변수별로 결측치의 존재 여부를 확인하고 결측치가 존재하는 변수는 제거하는 것이 가장 바람직하다.
정답: 4
[[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]
풀 수 있는 문제