37. 데이터 마이닝 모델링 방법 중 분류(Classification) 방법으로 활용되지 않는 R 패키지는 무엇인가?
① rpart
② kmeans
③ party
④ marginTree
정답: 2
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
데이터 마이닝에서 **분류(Classification)** 방법으로 활용되지 않는 R 패키지를 찾는 문제입니다. 각 선택지에 대해 설명하겠습니다.
### 각 패키지 설명
#### ① **rpart**
- **적절한 패키지입니다.** `rpart` 패키지는 결정트리(Decision Tree)를 생성하는 데 사용되는 R 패키지로, 분류(Classification)와 회귀(Regression) 문제에 모두 활용됩니다.
#### ② **kmeans**
- **부적절한 패키지입니다.** `kmeans`는 **군집화(Clustering)** 알고리즘을 구현하는 R 함수로, 데이터를 여러 그룹으로 나누는 데 사용됩니다. 군집화는 분류와는 다른 개념입니다. 분류는 레이블이 있는 데이터에서 새로운 데이터의 레이블을 예측하는 반면, 군집화는 레이블이 없는 데이터를 그룹화하는 방법입니다.
#### ③ **party**
- **적절한 패키지입니다.** `party` 패키지는 조건부 추정 나무(Conditional Inference Trees)를 생성하는 데 사용되며, 분류(Classification) 문제에 활용됩니다.
#### ④ **marginTree**
- **적절한 패키지입니다.** `marginTree` 패키지는 결정트리와 관련된 모델링을 지원하며, 분류 문제에 사용될 수 있습니다.
### 결론
**정답은 ②번 kmeans**입니다. `kmeans`는 군집화(Clustering) 방법으로, 분류(Classification) 방법으로는 활용되지 않습니다.
---
50. 다음 중 의사결정나무 모형에서 과대적합되어 현실 문제에 적용할 수 있는 적절한 규칙이 나오지 않는 현상을 방지하기 위해 사용되는 방법으로 가장 적절한 것은?
① 가지치기(Pruning)
② 스테밍(Stemming)
③ 정지규칙(Stopping rule)
④ 랜덤포레스트(Random forest)
정답: 1
출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]
**의사결정나무 모형**에서 과대적합을 방지하기 위해 사용하는 방법 중 가장 적절한 것은 **① 가지치기(Pruning)**입니다.
### 각 선택지 설명
#### ① 가지치기(Pruning)
- **적절한 선택지입니다.** 가지치기는 의사결정나무에서 불필요하게 복잡한 부분(즉, 과대적합된 부분)을 제거하여 더 일반화된 모델을 만드는 방법입니다. 이를 통해 모델이 학습 데이터에 너무 과도하게 맞추는 것을 방지하고, 새로운 데이터에 대한 예측 성능을 향상시킬 수 있습니다.
#### ② 스테밍(Stemming)
- **부적절한 선택지입니다.** 스테밍은 자연어 처리(NLP)에서 단어의 어근을 추출하는 방법입니다. 이는 의사결정나무나 과대적합과는 관련이 없습니다.
#### ③ 정지규칙(Stopping rule)
- **적절한 선택지일 수 있지만** 이 선택지는 가지치기보다는 좀 더 일반적인 개념입니다. 정지규칙은 트리를 생성하는 도중 특정 조건이 충족되면 더 이상 트리를 확장하지 않도록 하는 규칙입니다. 과대적합을 방지하는 데 일부 역할을 할 수 있지만, 가지치기만큼 직접적인 방법은 아닙니다.
#### ④ 랜덤포레스트(Random forest)
- **적절한 선택지이긴 하지만, 구체적인 방법이 아닙니다.** 랜덤포레스트는 여러 개의 의사결정나무를 만들어서 그 결과를 앙상블(ensemble)하는 방법으로 과대적합을 방지할 수 있습니다. 그러나 이는 가지치기와는 다른 접근 방식입니다. 랜덤포레스트는 단일 나무의 과대적합을 방지하기 위한 방법이라기보다는 앙상블 기법입니다.
### 결론
**정답은 ① 가지치기(Pruning)** 입니다. 가지치기는 의사결정나무 모델에서 과대적합을 방지하기 위한 가장 직접적이고 효과적인 방법입니다.
----
20. ROC(Receiver Operating Characteristic) 그래프에서 이상적으로 완벽히 분류한 모형의 x축과 y축 값으로 옳은 것은?
① (0, 0)
② (0, 1)
③ (1, 0)
④ (1, 1)
정답: 2
출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]]
**ROC(Receiver Operating Characteristic) 그래프**는 분류 모델의 성능을 평가하는 도구로, **x축**은 **False Positive Rate (FPR)**, **y축**은 **True Positive Rate (TPR)**을 나타냅니다. 이 그래프에서 완벽한 분류 모델은 **False Positive Rate (FPR)**이 0이고, **True Positive Rate (TPR)**이 1인 지점에서 나타납니다. 이 점은 **(0, 1)**에 해당합니다.
### 선택지 분석
1. **① (0, 0)**: 이 지점은 **False Positive Rate (FPR)**과 **True Positive Rate (TPR)** 모두 0인 경우로, 모델이 아무 것도 맞추지 못했음을 의미합니다. 이는 완벽한 분류가 아닙니다.
2. **② (0, 1)**: **적절한 선택지입니다.** 이 지점은 FPR이 0이고, TPR이 1인 경우로, 모델이 False Positive를 전혀 발생시키지 않으면서 True Positive를 모두 맞추는, 즉 완벽한 분류를 의미합니다.
3. **③ (1, 0)**: 이 지점은 FPR이 1이고 TPR이 0인 경우로, 모델이 모든 것을 잘못 분류했음을 의미합니다. 이는 최악의 경우에 해당합니다.
4. **④ (1, 1)**: 이 지점은 FPR과 TPR이 모두 1인 경우로, 모델이 모든 것을 긍정적으로 예측한 상황입니다. 이는 완벽한 분류와는 거리가 있습니다.
### 결론
**정답은 ②번 (0, 1)**입니다. ROC 그래프에서 (0, 1) 지점은 모델이 완벽하게 분류를 수행한 경우를 나타냅니다.
---
23. 아래의 수식에 알맞은 함수는 무엇인가?
![[ADsP 기출문제 이미지 02.png]]
① tanh 함수
② softmax 함수
③ sigmoid 함수
④ ReLU 함수
정답: 3
출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]]
**Sigmoid 함수**는 주로 이진 분류 문제에서 사용되며, 그 이유는 다음과 같은 특성 때문입니다:
### 1. **출력 범위:**
- Sigmoid 함수는 입력 값을 0과 1 사이의 값으로 변환합니다.
- 이 출력 값은 확률로 해석될 수 있으며, 이를 통해 어떤 데이터 포인트가 특정 클래스에 속할 확률을 계산할 수 있습니다.
### 2. **이진 분류 문제에서의 활용:**
- Sigmoid 함수는 출력이 0과 1 사이에 위치하므로, 이를 이진 분류 문제에서 사용하기 적합합니다. 예를 들어, 로지스틱 회귀(Logistic Regression) 모델에서 이 함수는 특정 클래스에 속할 확률을 예측하기 위해 사용됩니다.
### 3. **연속적인 출력:**
- Sigmoid 함수는 연속적인 출력을 제공하며, 이는 모델이 입력값에 대해 부드럽게 반응하도록 합니다. 즉, 작은 입력 변화가 출력에 연속적으로 반영됩니다.
- 이를 통해 출력 값을 기반으로 역전파(Backpropagation)를 통해 모델을 학습시킬 수 있습니다.
### 4. **수학적 간결성:**
- Sigmoid 함수의 수학적 형태는 미분이 용이하고, 역전파 알고리즘에서 사용되는 미분 계산이 간단합니다.
- 이를 통해 신경망의 학습이 효율적으로 이루어질 수 있습니다.
### 5. **로지스틱 회귀에서의 사용:**
- 로지스틱 회귀에서, Sigmoid 함수는 선형 결합의 출력값을 확률로 변환하는 데 사용됩니다. 이 확률을 기반으로 데이터 포인트가 특정 클래스에 속할 가능성을 예측할 수 있습니다.
### 6. **뉴럴 네트워크에서 활성화 함수로 사용:**
- 신경망의 출력층에서 Sigmoid 함수를 사용하면, 모델의 예측값을 확률로 해석할 수 있습니다. 예를 들어, 출력값이 0.7이라면, 해당 데이터 포인트가 클래스 1에 속할 확률이 70%라는 의미가 됩니다.
### 단점:
- **Vanishing Gradient 문제**: Sigmoid 함수는 입력 값이 매우 크거나 매우 작을 때, 기울기(미분값)가 매우 작아지는 문제가 있습니다. 이로 인해 학습 속도가 느려지거나, 기울기 소실 문제로 인해 학습이 멈출 수 있습니다. 이를 극복하기 위해 ReLU와 같은 다른 활성화 함수가 자주 사용됩니다.
### 요약:
Sigmoid 함수는 이진 분류 문제에서 확률을 계산하고, 신경망에서 활성화 함수로 사용되며, 출력 값을 0과 1 사이의 확률 값으로 변환합니다. 그러나 학습 시에는 Vanishing Gradient 문제로 인해 다른 활성화 함수와 함께 사용되기도 합니다.
---
26. 다음 중 의사결정나무 모형에 대한 설명으로 부적절한 것은?
① 의사결정나무 모형은 지도학습 모형으로 상향식 의사결정 흐름을 가지고 있다는 특징을 가지고 있다.
② 이익도표 또는 검증용 자료에 의한 교차타당성 등을 이용해 의사결정나무를 평가한다.
③ 가지치기는 분류 오류를 크게 할 위험이 높거나 부적절한 규칙을 가지고 있는 가지를 제거하는 작업이다.
④ 대표적인 적용 사례는 대출신용평가, 환자 증상 추측, 채무 불이행 가능성 예측 등이다.
정답: 1
출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]]
의사결정나무 모형에 대한 설명 중 **부적절한** 것을 찾기 위해 각 선택지를 분석해보겠습니다.
### 선택지 분석
#### ① "의사결정나무 모형은 지도학습 모형으로 상향식 의사결정 흐름을 가지고 있다는 특징을 가지고 있다."
- **부적절한 설명입니다.** 의사결정나무는 **지도학습** 모델이 맞습니다. 그러나, "상향식 의사결정 흐름"이라는 표현은 부적절합니다. 의사결정나무는 보통 **하향식**으로, 즉 루트 노드에서 시작하여 리프 노드로 내려가면서 결정 규칙을 생성하는 **탑다운(Top-Down)** 방식으로 동작합니다. 상향식(Bottom-Up)이라는 표현은 잘못된 설명입니다.
#### ② "이익도표 또는 검증용 자료에 의한 교차타당성 등을 이용해 의사결정나무를 평가한다."
- **적절한 설명입니다.** 의사결정나무 모델은 이익도표(Gain chart)나 교차타당성(Cross-validation) 등을 통해 평가될 수 있습니다. 이러한 방법들은 모델의 성능을 측정하는 데 사용됩니다.
#### ③ "가지치기는 분류 오류를 크게 할 위험이 높거나 부적절한 규칙을 가지고 있는 가지를 제거하는 작업이다."
- **적절한 설명입니다.** 가지치기(Pruning)는 의사결정나무에서 과적합을 방지하기 위해 분류 오류가 클 위험이 있거나 부적절한 규칙을 가진 가지를 제거하는 작업입니다.
#### ④ "대표적인 적용 사례는 대출신용평가, 환자 증상 추측, 채무 불이행 가능성 예측 등이다."
- **적절한 설명입니다.** 의사결정나무는 대출 신용 평가, 환자 증상 추측, 채무 불이행 가능성 예측 등 다양한 실제 비즈니스 문제에서 사용됩니다.
### 결론
**정답은 ①번**입니다. 의사결정나무는 일반적으로 **하향식 의사결정 흐름**을 가지며, "상향식 의사결정 흐름"이라는 표현은 부적절합니다.
---
28. 소매점에서 물건을 배열하거나 카탈로그 및 교차판매 등에 적용하기 적합한 데이터 마이닝 기법은 무엇인가?
① 분류(classification)
② 예측(prediction)
③ 연관분석(association analysis)
④ 군집(clustering)
정답: 3
출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]]
소매점에서 물건을 배열하거나 카탈로그 및 교차판매에 적합한 데이터 마이닝 기법은 **연관분석(association analysis)**입니다.
### 이유:
- **연관분석(Association Analysis)**는 특정 항목이 함께 발생하는 빈도를 분석하여, 어떤 항목들이 서로 연관되어 나타나는지 발견하는 데 사용됩니다.
- 이 기법은 **장바구니 분석(Market Basket Analysis)**이라고도 불리며, 고객이 동시에 구매하는 상품들을 식별하는 데 사용됩니다.
- 예를 들어, "빵을 산 고객이 버터를 살 확률"과 같은 연관 규칙을 발견할 수 있으며, 이를 바탕으로 상품 배열, 교차판매 전략, 카탈로그 배치 등을 최적화할 수 있습니다.
### 다른 선택지 분석:
1. **분류(Classification)**:
- 주어진 데이터의 라벨을 예측하는 데 사용됩니다. 예를 들어, 고객이 신용 카드 대출을 상환할지 여부를 분류하는 데 사용됩니다.
2. **예측(Prediction)**:
- 미래의 값을 예측하는 데 사용됩니다. 예를 들어, 다음 달의 판매량을 예측하는 데 사용됩니다.
3. **군집(Clustering)**:
- 비슷한 특성을 가진 데이터 포인트를 그룹화하는 데 사용됩니다. 예를 들어, 고객 세그먼트를 만들기 위해 사용됩니다.
### 결론:
**정답은 ③ 연관분석(Association Analysis)**입니다. 이 기법이 소매점에서의 상품 배열, 카탈로그 설계, 교차판매 전략 등에 가장 적합합니다.
---
34. 아래 오분류표에서 재현율(Recall)로 가장 적절한 것은?
![[ADsP 기출문제 이미지 05.png]]
① 0.15
② 0.3
③ 0.4
④ 0.55
정답: 3
출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]]
![[Screenshot 2024-08-09 at 13.44.44.png]]
---
20. 다음 중 분류(Classification) 모델링에 대한 설명으로 가장 적절한 것은?
① 데이터의 이해를 더 쉽게 하기 위해 데이터를 특정 기준으로 분류 및 범주화하고 등급화하는 방법을 말한다.
② 같이 팔리는 물건과 같이 묶어 아이템을 분류하는 것을 의미한다.
③ 군집분석과 동일하게 레코드 자체가 먼저 분류 되어지지 않아도 적용할 수 있다.
④ 대표적인 분석 방법으로 장바구니 분석 기법이 존재한다.
정답: 1
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
풀 수 있는 문제
---
33. 아래에서 설명하는 활성화 함수로 가장 적절한 것은?
입력층이 직접 출력층에 연결되는 단층 신경망에서 이 활성화 함수를 사용하면 로지스틱 회귀모형의 작동원리과 유사해진다.
① 계단 함수
② tanh 함수
③ ReLU 함수
④ 시그모이드 함수
정답: 4
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
설명에 따르면, **단층 신경망**에서 이 활성화 함수를 사용하면 **로지스틱 회귀모형**의 작동 원리와 유사해진다고 합니다. 이는 바로 **시그모이드 함수(Sigmoid Function)**를 나타냅니다.
### 이유:
- **시그모이드 함수**는 로지스틱 회귀에서 사용되는 함수로, 입력을 0과 1 사이의 확률 값으로 변환합니다.
- 신경망에서 시그모이드 함수를 활성화 함수로 사용하면, 출력 값이 확률로 해석될 수 있으며, 이로 인해 로지스틱 회귀 모델의 동작과 유사한 방식으로 작동하게 됩니다.
### 각 선택지 분석:
1. **계단 함수**: 입력이 특정 임계값을 넘으면 출력이 1이 되고, 그렇지 않으면 0이 되는 함수입니다. 이는 로지스틱 회귀와 직접적인 연관은 없습니다.
2. **tanh 함수**: -1과 1 사이의 값을 출력하는 함수로, 시그모이드 함수와 유사하지만 출력 범위가 다릅니다.
3. **ReLU 함수**: 입력이 0 이하이면 0을 출력하고, 0보다 크면 그 값을 그대로 출력하는 함수입니다. 로지스틱 회귀와는 관련이 없습니다.
4. **시그모이드 함수**: 0과 1 사이의 값을 출력하는 함수로, 로지스틱 회귀에서 사용하는 활성화 함수입니다.
### 결론:
**정답은 ④ 시그모이드 함수**입니다. 이 함수는 로지스틱 회귀와 동일한 활성화 함수로, 신경망에서 사용될 때 로지스틱 회귀와 유사한 작동 원리를 가집니다.
---
34. 다음 중 로지스틱 회귀모형에 대한 설명으로 가장 적절한 것은?
① 일반적으로 반응변수가 범주형인 경우에 적용되는 모형이다.
② 시계열 예측에서 가장 많이 활용되는 모형 중 하나이다.
③ 반응변수가 비율 척도일 때, 많이 활용되는 모형 중 하나이다.
④ 로지스틱 회귀모형은 오즈의 관점에서 해석할 수 없다.
정답: 1
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
풀 수 있는 문제
---
28. 분류 모형의 평가를 위해 사용되는 방법으로 적절하지 않은 것은?
① 덴드로그램(Dendrogram)
② ROC(Receiver Operating Characteristic) 그래프
③ 리프트표(Lift Chart)
④ 향상도 곡선(Lift Curve)
정답: 1
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
분류 모형의 평가에 사용되는 방법 중 적절하지 않은 것을 찾기 위해 각 선택지를 분석해보겠습니다.
### 각 선택지 분석:
#### ① **덴드로그램(Dendrogram)**
- **부적절한 방법입니다.** 덴드로그램은 **군집화(Clustering)** 분석에서 계층적 군집을 시각화하는 데 사용되는 도구입니다. 이는 데이터를 군집으로 나누는 데 사용되며, 분류 모형의 성능을 평가하는 데는 적절하지 않습니다.
#### ② **ROC(Receiver Operating Characteristic) 그래프**
- **적절한 방법입니다.** ROC 그래프는 이진 분류 모형의 성능을 평가하는 데 사용되며, True Positive Rate와 False Positive Rate 간의 관계를 나타냅니다.
#### ③ **리프트표(Lift Chart)**
- **적절한 방법입니다.** 리프트표는 분류 모형의 성능을 평가하는 데 사용되며, 특정 확률 기준에서 예측된 긍정 사례가 실제 긍정 사례보다 얼마나 더 잘 식별되는지를 나타냅니다.
#### ④ **향상도 곡선(Lift Curve)**
- **적절한 방법입니다.** 향상도 곡선은 리프트표와 유사하게 분류 모형의 성능을 평가하며, 모형이 얼마나 더 나은 결과를 제공하는지를 나타냅니다.
### 결론:
**정답은 ① 덴드로그램(Dendrogram)**입니다. 덴드로그램은 군집화 분석에서 사용하는 도구이며, 분류 모형의 성능을 평가하는 데는 적절하지 않습니다.
---
07. 아래의 오분류표를 이용하여 계산한 F1-score 값은? (단, 값을 분수로 나타내시오.)
![[ADsP 기출문제 이미지 15.png]]]]
( )
정답: 6/19
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
08. 두 정수 x1과 x2는 다음과 같은 기본조건을 가진다. ![[ADsP 기출문제 이미지 16.png]]]]
( )
정답: A:3, B:8
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
풀 수 있는 문제
---
24. 다음 중 신경망 모형에서 입력받은 데이터를 다음 층으로 어떻게 출력할지를 결정하는 함수로 적절한 것은?
① 베타 함수
② 활성화 함수
③ 오즈 함수
④ CHAID 함수
정답: 2
[[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]
신경망 모형에서 입력받은 데이터를 다음 층으로 어떻게 출력할지를 결정하는 함수는 **활성화 함수(Activation Function)**입니다.
### 선택지 분석:
1. **베타 함수**:
- 수학에서 두 변수의 특별한 함수로, 신경망 모형에서 사용되는 함수는 아닙니다.
2. **활성화 함수(Activation Function)**:
- **적절한 선택지입니다.** 신경망의 각 뉴런에서 입력을 받아서 어떤 값을 출력할지를 결정하는 함수입니다. ReLU, Sigmoid, Tanh 등이 활성화 함수의 예입니다.
3. **오즈 함수**:
- 오즈 비율을 계산하는 데 사용되는 함수로, 신경망과는 직접적인 관련이 없습니다.
4. **CHAID 함수**:
- 분류 분석에 사용되는 의사결정나무 알고리즘인 CHAID(Chi-squared Automatic Interaction Detector)와 관련된 함수로, 신경망 모형에서 사용되지 않습니다.
### 결론:
**정답은 ② 활성화 함수(Activation Function)**입니다. 신경망 모형에서 입력 데이터를 다음 층으로 어떻게 출력할지를 결정하는 함수입니다.
---
07. 분류문제를 예측하기 위한 모형을 개발하여 그 결과를 분석하고자 할 때, 민감도를 산출하는 방식을 (a)∼(d)로 나타내시오.
![[ADsP 기출문제 이미지 21.png]]
정답: a/(a+b)
[[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]
재현율 계산과 같음.