데이터 분석 - 분류분석(Classification)

37. 데이터 마이닝 모델링 방법 중 분류(Classification) 방법으로 활용되지 않는 R 패키지는 무엇인가? ① rpart ② kmeans ③ party ④ marginTree 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] 데이터 마이닝에서 **분류(Classification)** 방법으로 활용되지 않는 R 패키지를 찾는 문제입니다. 각 선택지에 대해 설명하겠습니다. ### 각 패키지 설명 #### ① **rpart** - **적절한 패키지입니다.** `rpart` 패키지는 결정트리(Decision Tree)를 생성하는 데 사용되는 R 패키지로, 분류(Classification)와 회귀(Regression) 문제에 모두 활용됩니다. #### ② **kmeans** - **부적절한 패키지입니다.** `kmeans`는 **군집화(Clustering)** 알고리즘을 구현하는 R 함수로, 데이터를 여러 그룹으로 나누는 데 사용됩니다. 군집화는 분류와는 다른 개념입니다. 분류는 레이블이 있는 데이터에서 새로운 데이터의 레이블을 예측하는 반면, 군집화는 레이블이 없는 데이터를 그룹화하는 방법입니다. #### ③ **party** - **적절한 패키지입니다.** `party` 패키지는 조건부 추정 나무(Conditional Inference Trees)를 생성하는 데 사용되며, 분류(Classification) 문제에 활용됩니다. #### ④ **marginTree** - **적절한 패키지입니다.** `marginTree` 패키지는 결정트리와 관련된 모델링을 지원하며, 분류 문제에 사용될 수 있습니다. ### 결론 **정답은 ②번 kmeans**입니다. `kmeans`는 군집화(Clustering) 방법으로, 분류(Classification) 방법으로는 활용되지 않습니다. --- 50. 다음 중 의사결정나무 모형에서 과대적합되어 현실 문제에 적용할 수 있는 적절한 규칙이 나오지 않는 현상을 방지하기 위해 사용되는 방법으로 가장 적절한 것은? ① 가지치기(Pruning) ② 스테밍(Stemming) ③ 정지규칙(Stopping rule) ④ 랜덤포레스트(Random forest) 정답: 1 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] **의사결정나무 모형**에서 과대적합을 방지하기 위해 사용하는 방법 중 가장 적절한 것은 **① 가지치기(Pruning)**입니다. ### 각 선택지 설명 #### ① 가지치기(Pruning) - **적절한 선택지입니다.** 가지치기는 의사결정나무에서 불필요하게 복잡한 부분(즉, 과대적합된 부분)을 제거하여 더 일반화된 모델을 만드는 방법입니다. 이를 통해 모델이 학습 데이터에 너무 과도하게 맞추는 것을 방지하고, 새로운 데이터에 대한 예측 성능을 향상시킬 수 있습니다. #### ② 스테밍(Stemming) - **부적절한 선택지입니다.** 스테밍은 자연어 처리(NLP)에서 단어의 어근을 추출하는 방법입니다. 이는 의사결정나무나 과대적합과는 관련이 없습니다. #### ③ 정지규칙(Stopping rule) - **적절한 선택지일 수 있지만** 이 선택지는 가지치기보다는 좀 더 일반적인 개념입니다. 정지규칙은 트리를 생성하는 도중 특정 조건이 충족되면 더 이상 트리를 확장하지 않도록 하는 규칙입니다. 과대적합을 방지하는 데 일부 역할을 할 수 있지만, 가지치기만큼 직접적인 방법은 아닙니다. #### ④ 랜덤포레스트(Random forest) - **적절한 선택지이긴 하지만, 구체적인 방법이 아닙니다.** 랜덤포레스트는 여러 개의 의사결정나무를 만들어서 그 결과를 앙상블(ensemble)하는 방법으로 과대적합을 방지할 수 있습니다. 그러나 이는 가지치기와는 다른 접근 방식입니다. 랜덤포레스트는 단일 나무의 과대적합을 방지하기 위한 방법이라기보다는 앙상블 기법입니다. ### 결론 **정답은 ① 가지치기(Pruning)** 입니다. 가지치기는 의사결정나무 모델에서 과대적합을 방지하기 위한 가장 직접적이고 효과적인 방법입니다. ---- 20. ROC(Receiver Operating Characteristic) 그래프에서 이상적으로 완벽히 분류한 모형의 x축과 y축 값으로 옳은 것은? ① (0, 0) ② (0, 1) ③ (1, 0) ④ (1, 1) 정답: 2 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] **ROC(Receiver Operating Characteristic) 그래프**는 분류 모델의 성능을 평가하는 도구로, **x축**은 **False Positive Rate (FPR)**, **y축**은 **True Positive Rate (TPR)**을 나타냅니다. 이 그래프에서 완벽한 분류 모델은 **False Positive Rate (FPR)**이 0이고, **True Positive Rate (TPR)**이 1인 지점에서 나타납니다. 이 점은 **(0, 1)**에 해당합니다. ### 선택지 분석 1. **① (0, 0)**: 이 지점은 **False Positive Rate (FPR)**과 **True Positive Rate (TPR)** 모두 0인 경우로, 모델이 아무 것도 맞추지 못했음을 의미합니다. 이는 완벽한 분류가 아닙니다. 2. **② (0, 1)**: **적절한 선택지입니다.** 이 지점은 FPR이 0이고, TPR이 1인 경우로, 모델이 False Positive를 전혀 발생시키지 않으면서 True Positive를 모두 맞추는, 즉 완벽한 분류를 의미합니다. 3. **③ (1, 0)**: 이 지점은 FPR이 1이고 TPR이 0인 경우로, 모델이 모든 것을 잘못 분류했음을 의미합니다. 이는 최악의 경우에 해당합니다. 4. **④ (1, 1)**: 이 지점은 FPR과 TPR이 모두 1인 경우로, 모델이 모든 것을 긍정적으로 예측한 상황입니다. 이는 완벽한 분류와는 거리가 있습니다. ### 결론 **정답은 ②번 (0, 1)**입니다. ROC 그래프에서 (0, 1) 지점은 모델이 완벽하게 분류를 수행한 경우를 나타냅니다. --- 23. 아래의 수식에 알맞은 함수는 무엇인가? ![[ADsP 기출문제 이미지 02.png]] ① tanh 함수 ② softmax 함수 ③ sigmoid 함수 ④ ReLU 함수 정답: 3 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] **Sigmoid 함수**는 주로 이진 분류 문제에서 사용되며, 그 이유는 다음과 같은 특성 때문입니다: ### 1. **출력 범위:** - Sigmoid 함수는 입력 값을 0과 1 사이의 값으로 변환합니다. - 이 출력 값은 확률로 해석될 수 있으며, 이를 통해 어떤 데이터 포인트가 특정 클래스에 속할 확률을 계산할 수 있습니다. ### 2. **이진 분류 문제에서의 활용:** - Sigmoid 함수는 출력이 0과 1 사이에 위치하므로, 이를 이진 분류 문제에서 사용하기 적합합니다. 예를 들어, 로지스틱 회귀(Logistic Regression) 모델에서 이 함수는 특정 클래스에 속할 확률을 예측하기 위해 사용됩니다. ### 3. **연속적인 출력:** - Sigmoid 함수는 연속적인 출력을 제공하며, 이는 모델이 입력값에 대해 부드럽게 반응하도록 합니다. 즉, 작은 입력 변화가 출력에 연속적으로 반영됩니다. - 이를 통해 출력 값을 기반으로 역전파(Backpropagation)를 통해 모델을 학습시킬 수 있습니다. ### 4. **수학적 간결성:** - Sigmoid 함수의 수학적 형태는 미분이 용이하고, 역전파 알고리즘에서 사용되는 미분 계산이 간단합니다. - 이를 통해 신경망의 학습이 효율적으로 이루어질 수 있습니다. ### 5. **로지스틱 회귀에서의 사용:** - 로지스틱 회귀에서, Sigmoid 함수는 선형 결합의 출력값을 확률로 변환하는 데 사용됩니다. 이 확률을 기반으로 데이터 포인트가 특정 클래스에 속할 가능성을 예측할 수 있습니다. ### 6. **뉴럴 네트워크에서 활성화 함수로 사용:** - 신경망의 출력층에서 Sigmoid 함수를 사용하면, 모델의 예측값을 확률로 해석할 수 있습니다. 예를 들어, 출력값이 0.7이라면, 해당 데이터 포인트가 클래스 1에 속할 확률이 70%라는 의미가 됩니다. ### 단점: - **Vanishing Gradient 문제**: Sigmoid 함수는 입력 값이 매우 크거나 매우 작을 때, 기울기(미분값)가 매우 작아지는 문제가 있습니다. 이로 인해 학습 속도가 느려지거나, 기울기 소실 문제로 인해 학습이 멈출 수 있습니다. 이를 극복하기 위해 ReLU와 같은 다른 활성화 함수가 자주 사용됩니다. ### 요약: Sigmoid 함수는 이진 분류 문제에서 확률을 계산하고, 신경망에서 활성화 함수로 사용되며, 출력 값을 0과 1 사이의 확률 값으로 변환합니다. 그러나 학습 시에는 Vanishing Gradient 문제로 인해 다른 활성화 함수와 함께 사용되기도 합니다. --- 26. 다음 중 의사결정나무 모형에 대한 설명으로 부적절한 것은? ① 의사결정나무 모형은 지도학습 모형으로 상향식 의사결정 흐름을 가지고 있다는 특징을 가지고 있다. ② 이익도표 또는 검증용 자료에 의한 교차타당성 등을 이용해 의사결정나무를 평가한다. ③ 가지치기는 분류 오류를 크게 할 위험이 높거나 부적절한 규칙을 가지고 있는 가지를 제거하는 작업이다. ④ 대표적인 적용 사례는 대출신용평가, 환자 증상 추측, 채무 불이행 가능성 예측 등이다. 정답: 1 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] 의사결정나무 모형에 대한 설명 중 **부적절한** 것을 찾기 위해 각 선택지를 분석해보겠습니다. ### 선택지 분석 #### ① "의사결정나무 모형은 지도학습 모형으로 상향식 의사결정 흐름을 가지고 있다는 특징을 가지고 있다." - **부적절한 설명입니다.** 의사결정나무는 **지도학습** 모델이 맞습니다. 그러나, "상향식 의사결정 흐름"이라는 표현은 부적절합니다. 의사결정나무는 보통 **하향식**으로, 즉 루트 노드에서 시작하여 리프 노드로 내려가면서 결정 규칙을 생성하는 **탑다운(Top-Down)** 방식으로 동작합니다. 상향식(Bottom-Up)이라는 표현은 잘못된 설명입니다. #### ② "이익도표 또는 검증용 자료에 의한 교차타당성 등을 이용해 의사결정나무를 평가한다." - **적절한 설명입니다.** 의사결정나무 모델은 이익도표(Gain chart)나 교차타당성(Cross-validation) 등을 통해 평가될 수 있습니다. 이러한 방법들은 모델의 성능을 측정하는 데 사용됩니다. #### ③ "가지치기는 분류 오류를 크게 할 위험이 높거나 부적절한 규칙을 가지고 있는 가지를 제거하는 작업이다." - **적절한 설명입니다.** 가지치기(Pruning)는 의사결정나무에서 과적합을 방지하기 위해 분류 오류가 클 위험이 있거나 부적절한 규칙을 가진 가지를 제거하는 작업입니다. #### ④ "대표적인 적용 사례는 대출신용평가, 환자 증상 추측, 채무 불이행 가능성 예측 등이다." - **적절한 설명입니다.** 의사결정나무는 대출 신용 평가, 환자 증상 추측, 채무 불이행 가능성 예측 등 다양한 실제 비즈니스 문제에서 사용됩니다. ### 결론 **정답은 ①번**입니다. 의사결정나무는 일반적으로 **하향식 의사결정 흐름**을 가지며, "상향식 의사결정 흐름"이라는 표현은 부적절합니다. --- 28. 소매점에서 물건을 배열하거나 카탈로그 및 교차판매 등에 적용하기 적합한 데이터 마이닝 기법은 무엇인가? ① 분류(classification) ② 예측(prediction) ③ 연관분석(association analysis) ④ 군집(clustering) 정답: 3 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] 소매점에서 물건을 배열하거나 카탈로그 및 교차판매에 적합한 데이터 마이닝 기법은 **연관분석(association analysis)**입니다. ### 이유: - **연관분석(Association Analysis)**는 특정 항목이 함께 발생하는 빈도를 분석하여, 어떤 항목들이 서로 연관되어 나타나는지 발견하는 데 사용됩니다. - 이 기법은 **장바구니 분석(Market Basket Analysis)**이라고도 불리며, 고객이 동시에 구매하는 상품들을 식별하는 데 사용됩니다. - 예를 들어, "빵을 산 고객이 버터를 살 확률"과 같은 연관 규칙을 발견할 수 있으며, 이를 바탕으로 상품 배열, 교차판매 전략, 카탈로그 배치 등을 최적화할 수 있습니다. ### 다른 선택지 분석: 1. **분류(Classification)**: - 주어진 데이터의 라벨을 예측하는 데 사용됩니다. 예를 들어, 고객이 신용 카드 대출을 상환할지 여부를 분류하는 데 사용됩니다. 2. **예측(Prediction)**: - 미래의 값을 예측하는 데 사용됩니다. 예를 들어, 다음 달의 판매량을 예측하는 데 사용됩니다. 3. **군집(Clustering)**: - 비슷한 특성을 가진 데이터 포인트를 그룹화하는 데 사용됩니다. 예를 들어, 고객 세그먼트를 만들기 위해 사용됩니다. ### 결론: **정답은 ③ 연관분석(Association Analysis)**입니다. 이 기법이 소매점에서의 상품 배열, 카탈로그 설계, 교차판매 전략 등에 가장 적합합니다. --- 34. 아래 오분류표에서 재현율(Recall)로 가장 적절한 것은? ![[ADsP 기출문제 이미지 05.png]] ① 0.15 ② 0.3 ③ 0.4 ④ 0.55 정답: 3 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] ![[Screenshot 2024-08-09 at 13.44.44.png]] --- 20. 다음 중 분류(Classification) 모델링에 대한 설명으로 가장 적절한 것은? ① 데이터의 이해를 더 쉽게 하기 위해 데이터를 특정 기준으로 분류 및 범주화하고 등급화하는 방법을 말한다. ② 같이 팔리는 물건과 같이 묶어 아이템을 분류하는 것을 의미한다. ③ 군집분석과 동일하게 레코드 자체가 먼저 분류 되어지지 않아도 적용할 수 있다. ④ 대표적인 분석 방법으로 장바구니 분석 기법이 존재한다. 정답: 1 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 --- 33. 아래에서 설명하는 활성화 함수로 가장 적절한 것은? 입력층이 직접 출력층에 연결되는 단층 신경망에서 이 활성화 함수를 사용하면 로지스틱 회귀모형의 작동원리과 유사해진다. ① 계단 함수 ② tanh 함수 ③ ReLU 함수 ④ 시그모이드 함수 정답: 4 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] 설명에 따르면, **단층 신경망**에서 이 활성화 함수를 사용하면 **로지스틱 회귀모형**의 작동 원리와 유사해진다고 합니다. 이는 바로 **시그모이드 함수(Sigmoid Function)**를 나타냅니다. ### 이유: - **시그모이드 함수**는 로지스틱 회귀에서 사용되는 함수로, 입력을 0과 1 사이의 확률 값으로 변환합니다. - 신경망에서 시그모이드 함수를 활성화 함수로 사용하면, 출력 값이 확률로 해석될 수 있으며, 이로 인해 로지스틱 회귀 모델의 동작과 유사한 방식으로 작동하게 됩니다. ### 각 선택지 분석: 1. **계단 함수**: 입력이 특정 임계값을 넘으면 출력이 1이 되고, 그렇지 않으면 0이 되는 함수입니다. 이는 로지스틱 회귀와 직접적인 연관은 없습니다. 2. **tanh 함수**: -1과 1 사이의 값을 출력하는 함수로, 시그모이드 함수와 유사하지만 출력 범위가 다릅니다. 3. **ReLU 함수**: 입력이 0 이하이면 0을 출력하고, 0보다 크면 그 값을 그대로 출력하는 함수입니다. 로지스틱 회귀와는 관련이 없습니다. 4. **시그모이드 함수**: 0과 1 사이의 값을 출력하는 함수로, 로지스틱 회귀에서 사용하는 활성화 함수입니다. ### 결론: **정답은 ④ 시그모이드 함수**입니다. 이 함수는 로지스틱 회귀와 동일한 활성화 함수로, 신경망에서 사용될 때 로지스틱 회귀와 유사한 작동 원리를 가집니다. --- 34. 다음 중 로지스틱 회귀모형에 대한 설명으로 가장 적절한 것은? ① 일반적으로 반응변수가 범주형인 경우에 적용되는 모형이다. ② 시계열 예측에서 가장 많이 활용되는 모형 중 하나이다. ③ 반응변수가 비율 척도일 때, 많이 활용되는 모형 중 하나이다. ④ 로지스틱 회귀모형은 오즈의 관점에서 해석할 수 없다. 정답: 1 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 --- 28. 분류 모형의 평가를 위해 사용되는 방법으로 적절하지 않은 것은? ① 덴드로그램(Dendrogram) ② ROC(Receiver Operating Characteristic) 그래프 ③ 리프트표(Lift Chart) ④ 향상도 곡선(Lift Curve) 정답: 1 출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]] 분류 모형의 평가에 사용되는 방법 중 적절하지 않은 것을 찾기 위해 각 선택지를 분석해보겠습니다. ### 각 선택지 분석: #### ① **덴드로그램(Dendrogram)** - **부적절한 방법입니다.** 덴드로그램은 **군집화(Clustering)** 분석에서 계층적 군집을 시각화하는 데 사용되는 도구입니다. 이는 데이터를 군집으로 나누는 데 사용되며, 분류 모형의 성능을 평가하는 데는 적절하지 않습니다. #### ② **ROC(Receiver Operating Characteristic) 그래프** - **적절한 방법입니다.** ROC 그래프는 이진 분류 모형의 성능을 평가하는 데 사용되며, True Positive Rate와 False Positive Rate 간의 관계를 나타냅니다. #### ③ **리프트표(Lift Chart)** - **적절한 방법입니다.** 리프트표는 분류 모형의 성능을 평가하는 데 사용되며, 특정 확률 기준에서 예측된 긍정 사례가 실제 긍정 사례보다 얼마나 더 잘 식별되는지를 나타냅니다. #### ④ **향상도 곡선(Lift Curve)** - **적절한 방법입니다.** 향상도 곡선은 리프트표와 유사하게 분류 모형의 성능을 평가하며, 모형이 얼마나 더 나은 결과를 제공하는지를 나타냅니다. ### 결론: **정답은 ① 덴드로그램(Dendrogram)**입니다. 덴드로그램은 군집화 분석에서 사용하는 도구이며, 분류 모형의 성능을 평가하는 데는 적절하지 않습니다. --- 07. 아래의 오분류표를 이용하여 계산한 F1-score 값은? (단, 값을 분수로 나타내시오.) ![[ADsP 기출문제 이미지 15.png]]]] ( ) 정답: 6/19 출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]] 08. 두 정수 x1과 x2는 다음과 같은 기본조건을 가진다. ![[ADsP 기출문제 이미지 16.png]]]] ( ) 정답: A:3, B:8 출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 --- 24. 다음 중 신경망 모형에서 입력받은 데이터를 다음 층으로 어떻게 출력할지를 결정하는 함수로 적절한 것은? ① 베타 함수 ② 활성화 함수 ③ 오즈 함수 ④ CHAID 함수 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 신경망 모형에서 입력받은 데이터를 다음 층으로 어떻게 출력할지를 결정하는 함수는 **활성화 함수(Activation Function)**입니다. ### 선택지 분석: 1. **베타 함수**: - 수학에서 두 변수의 특별한 함수로, 신경망 모형에서 사용되는 함수는 아닙니다. 2. **활성화 함수(Activation Function)**: - **적절한 선택지입니다.** 신경망의 각 뉴런에서 입력을 받아서 어떤 값을 출력할지를 결정하는 함수입니다. ReLU, Sigmoid, Tanh 등이 활성화 함수의 예입니다. 3. **오즈 함수**: - 오즈 비율을 계산하는 데 사용되는 함수로, 신경망과는 직접적인 관련이 없습니다. 4. **CHAID 함수**: - 분류 분석에 사용되는 의사결정나무 알고리즘인 CHAID(Chi-squared Automatic Interaction Detector)와 관련된 함수로, 신경망 모형에서 사용되지 않습니다. ### 결론: **정답은 ② 활성화 함수(Activation Function)**입니다. 신경망 모형에서 입력 데이터를 다음 층으로 어떻게 출력할지를 결정하는 함수입니다. --- 07. 분류문제를 예측하기 위한 모형을 개발하여 그 결과를 분석하고자 할 때, 민감도를 산출하는 방식을 (a)∼(d)로 나타내시오. ![[ADsP 기출문제 이미지 21.png]] 정답: a/(a+b) [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 재현율 계산과 같음.