15. 데이터 분석에서 정확도(Accuracy)와 정밀도(Precision)에 대한 설명으로 가장 적절하지 않은 것은? ① 정확도는 True로 예측한 것 중 실제 True인 비율, 정밀도는 실제 True인 경우에서 True로 예측한 비율이다. ② 정확도는 모델의 실제 값 사이의 차이이고, 정밀도는 모델을 지속적으로 반복했을 때 편차의 수준이다. ③ 모형의 활용측면에서는 정확도가, 모형의 안정성측면에서는 정밀도가 중요하다. ④ 정확도와 정밀도는 트레이드-오프 관계가 되는 경우가 많다. 정답: 1 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 17. 다음 중 lasso 회귀모형에 대한 설명으로 부적절한 것은? ① 모형에 포함된 회귀계수들의 절대값의 크기가 클수록 penalty를 부여하는 방식이다. ② 자동적으로 변수선택을 하는 효과가 있다. ③ penalty의 정도를 조정하는 모수가 있다. ④ L2 penalty를 사용한다. 정답: 4 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] Lasso 회귀모형에 대한 설명 중 부적절한 것을 찾기 위해 각 선택지를 분석해 보겠습니다. ### Lasso 회귀모형 개요 Lasso (Least Absolute Shrinkage and Selection Operator) 회귀는 회귀계수에 패널티를 부여하여 회귀모델을 개선하는 방법입니다. Lasso 회귀는 회귀계수의 절대값 합에 패널티를 부과함으로써 일부 회귀계수를 0으로 만들어 변수 선택을 자동으로 수행하는 특징이 있습니다. ### 선택지 분석 #### ① "모형에 포함된 회귀계수들의 절대값의 크기가 클수록 penalty를 부여하는 방식이다." - **적절한 설명**입니다. Lasso 회귀는 회귀계수의 절대값 합 (L1L1L1 norm)에 패널티를 부여합니다. 회귀계수의 절대값이 클수록 더 큰 패널티가 적용됩니다. #### ② "자동적으로 변수선택을 하는 효과가 있다." - **적절한 설명**입니다. Lasso 회귀는 패널티로 인해 일부 회귀계수를 0으로 만들 수 있습니다. 이로 인해 모델에 중요하지 않은 변수는 자동으로 제거되며, 변수 선택의 효과를 가집니다. #### ③ "penalty의 정도를 조정하는 모수가 있다." - **적절한 설명**입니다. Lasso 회귀에는 패널티의 크기를 조정하는 모수 λ\lambdaλ가 있습니다. λ\lambdaλ가 크면 패널티가 커지고, 회귀계수가 더 작아지며, λ\lambdaλ가 작으면 패널티가 작아집니다. #### ④ "L2 penalty를 사용한다." - **부적절한 설명**입니다. Lasso 회귀는 L2L2L2 패널티가 아닌 L1L1L1 패널티를 사용합니다. L2L2L2 패널티는 Ridge 회귀에서 사용되며, 이는 회귀계수의 제곱합에 패널티를 부과합니다. ### 결론 **정답은 ④번**입니다. Lasso 회귀는 L1L1L1 패널티를 사용하며, L2L2L2 패널티는 Ridge 회귀에서 사용됩니다. --- 27. 다음 중 목표변수가 연속형인 회귀나무에서 분류 기준값의 선택 방법으로 가장 적절한 것은? ① 카이제곱 통계량, 지니지수 ② 지니지수, F-통계량 ③ F-통계량, 분산 감소량 ④ 분산 감소량, 엔트로피 지수 정답: 3 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] 목표변수가 **연속형**인 회귀나무(Regression Tree)에서 분류 기준값의 선택 방법으로 적절한 방법은 **분산 감소량**입니다. 회귀나무는 목표변수가 연속형이므로, 분류를 통해 분산이 얼마나 감소하는지를 기준으로 최적의 분할을 선택합니다. F-통계량 또한 회귀 분석에서 사용되며, 연속형 변수의 설명력을 평가하는 데 유용합니다. ### 선택지 분석 1. **① 카이제곱 통계량, 지니지수**: - 카이제곱 통계량과 지니지수는 주로 **분류나무(Classification Tree)** 에서 사용됩니다. 카이제곱 통계량은 범주형 변수를 대상으로 하고, 지니지수는 이질성을 측정하는 기준으로 사용됩니다. 2. **② 지니지수, F-통계량**: - 지니지수는 분류나무에서 사용되며, 회귀나무에서는 사용되지 않습니다. F-통계량은 연속형 변수를 평가할 때 사용될 수 있지만, 지니지수와 함께 사용되는 것은 적절하지 않습니다. 3. **③ F-통계량, 분산 감소량**: - **적절한 선택**입니다. F-통계량은 회귀 분석에서, 분산 감소량은 회귀나무에서 분할의 기준으로 사용될 수 있습니다. 4. **④ 분산 감소량, 엔트로피 지수**: - 분산 감소량은 적절하지만, 엔트로피 지수는 주로 분류나무에서 사용되며, 회귀나무에서는 사용되지 않습니다. ### 결론 **정답은 ③번**입니다. 회귀나무에서는 분산 감소량과 F-통계량이 적절한 분류 기준으로 사용될 수 있습니다. --- 이상치를 찾는 것은 데이터 분석에서 데이터 전처리를 어떻게 할지 결정할 때 사용할 수 있다. 다음 중 상자그림을 이용하여 이상치를 판정하는 방법에 대한 설명으로 가장 부적절한 것은? ① IQR=Q3-Q1이라고 할 때, Q1−1.5∗IQR<x<Q3+1.5∗IQRQ1 - 1.5*IQR < x < Q3 + 1.5*IQRQ1−1.5∗IQR<x<Q3+1.5∗IQR을 벗어나는 x를 이상치라고 규정한다. ② 평균으로부터 3*표준편차 범위를 벗어나는 것들을 비정상이라 규정하고 제거한다. ③ 이상치는 변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인할 수 있다. ④ 이상치는 분포를 왜곡할 수 있으나 실제 오류 인간인지에 대해서는 통계적으로 판단하지 못하기 때문에 제거여부는 실무자들을 통해서 결정하는 것이 바람직하다. 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] 상자그림(Box plot)을 이용한 이상치 판정은 데이터의 분포를 시각적으로 이해하고, 그 범위를 벗어나는 값들을 이상치로 식별하는 데 유용합니다. 상자그림을 통해 이상치를 식별하는 방법에 대해 정확히 이해하는 것이 중요합니다. ### 보기 설명 1. **IQR=Q3-Q1이라고 할 때, Q1−1.5∗IQR < x < Q3+1.5∗IQR을 벗어나는 x를 이상치라고 규정한다.** - IQR (Interquartile Range)은 Q1(제1사분위수)와 Q3(제3사분위수) 사이의 범위를 나타냅니다. 일반적으로 Q1−1.5_IQR보다 작거나 Q3+1.5_IQR보다 큰 값을 이상치로 간주합니다. - **적절한 설명입니다.** 2. **평균으로부터 3*표준편차 범위를 벗어나는 것들을 비정상이라 규정하고 제거한다.** - 이는 표준편차를 이용한 이상치 판정 방법으로, 상자그림을 이용한 방법이 아닙니다. 상자그림을 이용한 이상치 판정 방법과는 다른 통계적 방법입니다. - **부적절한 설명입니다.** 3. **이상치는 변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인할 수 있다.** - 상자그림은 이상치가 데이터의 분포에서 벗어난 값임을 시각적으로 보여줍니다. - **적절한 설명입니다.** 4. **이상치는 분포를 왜곡할 수 있으나 실제 오류 인간인지에 대해서는 통계적으로 판단하지 못하기 때문에 제거여부는 실무자들을 통해서 결정하는 것이 바람직하다.** - 이상치는 데이터의 분포를 왜곡할 수 있으며, 그 제거 여부는 실무자의 판단에 따라 결정하는 것이 좋습니다. 이는 데이터의 특성 및 분석 목적에 따라 다를 수 있습니다. - **적절한 설명입니다.** --- 22. K-Nearest Neighbor 방법에 대한 설명으로 틀린 것은? ① 훈련 데이터에서 미리 모형을 학습하지 않고 새로운 자료에 대한 예측 및 분류를 수행할 때 사용되는 lazy learning 기법을 사용한다. ② 구체적인 값이 가까운 K개의 데이터를 보고 데이터의 속한 그룹을 판단하는 알고리즘이다. ③ 그룹을 모르는 데이터 P에 대해 이미 그룹의 알려진 데이터 중 P와 가장 가까이 있는 K개의 데이터를 수집하여 그룹을 예측한다. ④ K값이 커질수록 과대적합(Overfitting)의 문제가 발생한다. 정답: 4 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] ### 1. 문제의 출제 의도 이 문제는 K-Nearest Neighbor (K-NN) 알고리즘에 대한 기본 개념과 특성을 평가하려는 의도로 출제되었습니다. K-NN 알고리즘의 작동 방식, 학습 방법, 그리고 K 값의 변화에 따른 모델의 성능 변화를 이해하고 있는지를 확인하는 것입니다. ### 2. 문제를 이해하기 위해서 알아야 하는 개념과 예시 및 실제 데이터 **K-Nearest Neighbor (K-NN) 알고리즘 개요:** - **기본 개념:** K-NN은 레이블이 있는 훈련 데이터를 사용하여 새로운 데이터의 레이블을 예측하는 분류 알고리즘입니다. 'K'는 새로운 데이터 포인트에 가장 가까운 'K'개의 데이터 포인트를 의미합니다. - **작동 방식:** 1. 훈련 데이터와 예측할 데이터를 준비합니다. 2. 예측할 데이터 포인트와 훈련 데이터의 모든 포인트 간의 거리를 계산합니다. 3. 가장 가까운 'K'개의 데이터 포인트를 선택합니다. 4. 이 'K'개의 데이터 포인트 중 다수결 원칙으로 예측할 데이터의 레이블을 결정합니다. **K 값의 영향:** - **작은 K 값:** 과소적합(underfitting) 문제를 일으킬 수 있습니다. 모델이 너무 세세한 패턴을 학습하여 노이즈에 민감해집니다. - **큰 K 값:** 과대적합(overfitting) 문제가 줄어들 수 있습니다. 너무 많은 데이터를 참조하게 되면 모델이 일반화되지만, 지나치게 큰 K 값은 모델이 오히려 지나치게 평탄해져 정확도가 떨어질 수 있습니다. **예시 데이터:** 훈련 데이터는 다음과 같이 주어질 수 있습니다. | 데이터 포인트 | X 좌표 | Y 좌표 | 레이블 | |---------------|--------|--------|--------| | 1 | 1 | 2 | A | | 2 | 2 | 3 | A | | 3 | 3 | 3 | B | | 4 | 6 | 7 | B | 새로운 데이터 포인트 (4, 4)에 대한 예측을 위해 K=3으로 설정하면, 거리 측정 후 가장 가까운 3개의 데이터 포인트를 확인하여 다수결로 레이블을 예측합니다. ### 3. 보기별 설명 및 문제 풀이 **① 훈련 데이터에서 미리 모형을 학습하지 않고 새로운 자료에 대한 예측 및 분류를 수행할 때 사용되는 lazy learning 기법을 사용한다.** - **설명:** K-NN은 lazy learning 기법을 사용합니다. 즉, 훈련 데이터셋을 미리 학습하지 않고, 새로운 데이터를 예측할 때 거리 계산을 수행하여 예측합니다. - **정답 여부:** 맞음 **② 구체적인 값이 가까운 K개의 데이터를 보고 데이터의 속한 그룹을 판단하는 알고리즘이다.** - **설명:** K-NN은 새로운 데이터 포인트에 대해 가장 가까운 K개의 데이터를 기준으로 그룹(레이블)을 판단합니다. - **정답 여부:** 맞음 **③ 그룹을 모르는 데이터 P에 대해 이미 그룹의 알려진 데이터 중 P와 가장 가까이 있는 K개의 데이터를 수집하여 그룹을 예측한다.** - **설명:** 새로운 데이터 P에 대해, 이미 그룹이 알려진 데이터 포인트들 중 P와 가장 가까운 K개의 데이터를 찾아 그룹을 예측합니다. - **정답 여부:** 맞음 **④ K값이 커질수록 과대적합(Overfitting)의 문제가 발생한다.** - **설명:** K 값이 커질수록 모델이 더 많은 이웃 데이터를 참조하게 되어 과대적합 문제는 오히려 줄어듭니다. K 값이 너무 작을 때 과대적합이 발생할 수 있습니다. - **정답 여부:** 틀림 따라서 정답은 **4번**입니다. --- 46. 다음 중 시계열 데이터를 조정하여 예측하는 평활법(Smoothing method)에 대한 설명으로 적절하지 않은 것은? ① 이동평균법이란 시계열 데이터가 일정한 주기를 갖고 비슷한 패턴으로 움직이고 있는 경우에 적용시킬 수 있는 방법이다. ② 이동평균법은 시계열자료에서 계절변동과 추세변동을 제거하여 순환변동만 가진 시계열자료로 변환하는 방법이다. ③ 단순지수평활법은 추세나 계절성이 없이 평균이 변화하는 시계열에 사용하는 방법이다. ④ 이중지수평활법은 평균을 평활하는 모수와 함께 추세를 나타내는 식을 다른 모수로 평활하는 방법이다. 정답: 2 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] 주어진 선택지에서 평활법(Smoothing method)에 대한 설명 중 **적절하지 않은 설명**은 **②번**입니다. ### 각 선택지 분석 #### ① "이동평균법이란 시계열 데이터가 일정한 주기를 갖고 비슷한 패턴으로 움직이고 있는 경우에 적용시킬 수 있는 방법이다." - **적절한 설명**입니다. 이동평균법은 시계열 데이터가 주기적이거나 비슷한 패턴을 가지고 있을 때, 데이터의 노이즈를 줄이고 기본적인 추세를 파악하기 위해 사용됩니다. #### ② "이동평균법은 시계열자료에서 계절변동과 추세변동을 제거하여 순환변동만 가진 시계열자료로 변환하는 방법이다." - **적절하지 않은 설명**입니다. 이동평균법은 주로 시계열 데이터에서 노이즈를 줄여 기본적인 **추세**를 파악하는 방법입니다. 이동평균법 자체는 계절변동과 추세변동을 제거하여 순환변동만을 남기는 것이 아니라, 데이터의 **단기적인 변동(노이즈)**을 제거하고 **추세를 부드럽게** 나타내기 위해 사용됩니다. 계절성이나 추세를 완전히 제거하는 것은 이동평균법의 주요 목적이 아닙니다. #### ③ "단순지수평활법은 추세나 계절성이 없이 평균이 변화하는 시계열에 사용하는 방법이다." - **적절한 설명**입니다. 단순지수평활법은 시계열 데이터에서 평균이 시간에 따라 변화하더라도, 명확한 추세나 계절성이 없는 경우에 사용됩니다. 이 방법은 최근의 관측값에 더 높은 가중치를 부여하여 평활화된 데이터를 생성합니다. #### ④ "이중지수평활법은 평균을 평활하는 모수와 함께 추세를 나타내는 식을 다른 모수로 평활하는 방법이다." - **적절한 설명**입니다. 이중지수평활법은 추세가 존재하는 시계열 데이터를 처리하기 위해 고안된 방법으로, 두 개의 평활 모수를 사용하여 데이터의 평균과 추세를 각각 평활화합니다. ### 결론 **정답은 ②번**입니다. 이동평균법은 시계열 데이터의 노이즈를 줄이고 추세를 파악하는 데 사용되는 방법으로, 계절변동과 추세변동을 제거하여 순환변동만을 남기는 방법이 아닙니다. --- 44. 분류문제를 예측하기 위한 모형을 개발하여 테스트 데이터를 통해 그 결과를 분석하고자 한다. 아래 표를 활용하여 민감도를 구하려고 할 때 민감도를 산출하는 방식은 어떤 것인가? ![[01회 모의고사 그림 03.png]] ① TP/(TP+FN) ② FN/(TP+FN) ③ FP/(FP+TN) ④ TN/(FP+TN) 정답: 1 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf 분류표(Confusion Matrix)에서 정확도, 정밀도, 민감도, 특이도를 계산하는 공식은 다음과 같습니다: ### 1. **정확도 (Accuracy)** - **정의**: 전체 예측 중에서 맞은 예측의 비율. - **공식**: Accuracy=TP+TNTP+TN+FP+FN\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}Accuracy=TP+TN+FP+FNTP+TN​ - TPTPTP = True Positive (실제로 긍정이고, 긍정으로 예측된 경우) - TNTNTN = True Negative (실제로 부정이고, 부정으로 예측된 경우) - FPFPFP = False Positive (실제로 부정이지만, 긍정으로 예측된 경우) - FNFNFN = False Negative (실제로 긍정이지만, 부정으로 예측된 경우) ### 2. **정밀도 (Precision)** - **정의**: 모델이 긍정으로 예측한 것 중에서 실제 긍정인 비율. - **공식**: Precision=TPTP+FP\text{Precision} = \frac{TP}{TP + FP}Precision=TP+FPTP​ ### 3. **민감도 (Sensitivity) / 재현율 (Recall)** - **정의**: 실제 긍정 중에서 모델이 긍정으로 예측한 비율. - **공식**: Sensitivity=TPTP+FN\text{Sensitivity} = \frac{TP}{TP + FN}Sensitivity=TP+FNTP​ ### 4. **특이도 (Specificity)** - **정의**: 실제 부정 중에서 모델이 부정으로 예측한 비율. - **공식**: Specificity=TNTN+FP\text{Specificity} = \frac{TN}{TN + FP}Specificity=TN+FPTN​ ### 요약: - **정확도(Accuracy)**: 전체 데이터에서 맞게 예측된 비율. - **정밀도(Precision)**: 모델이 긍정으로 예측한 것 중에서 실제 긍정인 비율. - **민감도(Sensitivity)**: 실제 긍정인 것 중에서 모델이 긍정으로 정확히 예측한 비율. - **특이도(Specificity)**: 실제 부정인 것 중에서 모델이 부정으로 정확히 예측한 비율. 이 공식들을 사용하여 모델의 성능을 평가하고, 각각의 지표가 의미하는 바를 이해할 수 있습니다. 4o 이걸 쉽게 외울 방법이 없을까? ChatGPT 오분류표에서 나오는 정확도, 정밀도, 민감도, 특이도를 외우는 데 도움이 되는 몇 가지 기억 방법을 소개해 드리겠습니다: ### 1. **이름과 의미를 연결하기** - **정확도(Accuracy)**: **"모두"** 얼마나 정확했는지를 물어보는 지표입니다. 전체에서 맞은 것들(TP + TN)을 전체(TP + TN + FP + FN)로 나눈다고 생각하세요. "모두에서 몇 개 맞았는가"가 핵심입니다. - **정밀도(Precision)**: **"예측의 정확성"**을 측정합니다. 모델이 긍정으로 예측한 것 중에서 얼마나 정확했는지(TP)를 보니, **"Positive Predictive Value"**라고도 불립니다. **"예측한 것 중에 몇 개가 진짜였나"**라고 외우면 도움이 됩니다. - **민감도(Sensitivity) / 재현율(Recall)**: **"실제 중에서 얼마나 잘 잡았는가"**를 측정합니다. 실제 긍정 중에서(TP + FN) 얼마나 많이 잡아냈는지(TP)를 생각하세요. **"전체 중 몇 개를 잘 잡아냈나"**로 기억하세요. - **특이도(Specificity)**: **"부정인 것을 얼마나 잘 배제했는가"**를 측정합니다. 실제 부정 중에서(TN + FP) 부정이라고 정확히 예측한 비율(TN)을 생각하세요. **"부정을 얼마나 잘 배제했는가"**로 외우면 됩니다. ### 2. **문장으로 기억하기** 다음과 같은 문장을 통해 공식의 의미를 기억할 수 있습니다: - **정확도(Accuracy)**: "전체 중에 맞춘 것은 몇 개인가?" Accuracy=맞은 것 (TP + TN)전체 (TP + TN + FP + FN)\text{Accuracy} = \frac{\text{맞은 것 (TP + TN)}}{\text{전체 (TP + TN + FP + FN)}}Accuracy=전체 (TP + TN + FP + FN)맞은 것 (TP + TN)​ - **정밀도(Precision)**: "예측한 긍정 중에 진짜는 몇 개인가?" $ Precision=진짜 긍정 (TP)예측한 긍정 (TP + FP)\text{Precision} = \frac{\text{진짜 긍정 (TP)}}{\text{예측한 긍정 (TP + FP)}}Precision=예측한 긍정 (TP + FP)진짜 긍정 (TP)​ - **민감도(Sensitivity) / 재현율(Recall)**: "실제 긍정 중에 잘 맞춘 것은 몇 개인가?" $ $Sensitivity=잘 맞춘 것 (TP)실제 긍정 (TP + FN)\text{Sensitivity} = \frac{\text{잘 맞춘 것 (TP)}}{\text{실제 긍정 (TP + FN)}}Sensitivity=실제 긍정 (TP + FN)잘 맞춘 것 (TP)​ - **특이도(Specificity)**: "실제 부정 중에 잘 걸러낸 것은 몇 개인가?"$ $ Specificity=잘 걸러낸 것 (TN)실제 부정 (TN + FP)\text{Specificity} = \frac{\text{잘 걸러낸 것 (TN)}}{\text{실제 부정 (TN + FP)}}Specificity=실제 부정 (TN + FP)잘 걸러낸 것 (TN)​ $ ### 3. **단어의 앞글자 이용하기** 각 지표의 주요 개념을 단어의 앞글자나 키워드로 연결해 기억하는 방법도 있습니다: - **정확도(Accuracy)**: **A**ll 맞춘 것 / 전체 - **정밀도(Precision)**: **P**redicted **P**ositive 중 맞춘 것 (PP: Predicted Positive) - **민감도(Sensitivity) / 재현율(Recall)**: **R**eal Positive 중 맞춘 것 (RP: Real Positive) - **특이도(Specificity)**: **N**egative 중 정확히 맞춘 것 (N: Negative) ### 4. **비유를 통해 기억하기** - **정밀도(Precision)**: 당신이 어떤 "탐정"이라고 상상해보세요. 탐정이 "범인(긍정)"을 예측한 것 중 진짜 범인이 얼마나 있었는지 확인하는 것이 정밀도입니다. - **민감도(Sensitivity)**: 당신이 "낚시꾼"이라고 상상해보세요. 실제로 물에 있는 "물고기(긍정)" 중 몇 마리를 잡았는지를 보는 것이 민감도입니다. - **특이도(Specificity)**: 당신이 "경비원"이라고 상상해보세요. 실제로 없는 "침입자(부정)"를 얼마나 잘 막아냈는지를 보는 것이 특이도입니다. 이러한 방법들로 공식의 의미를 파악하고, 조금씩 반복해서 외우면 기억에 도움이 될 것입니다. 정밀도는 탐정. 코난이 범인은 바로 당신이야! 라고 하는 상황. 실제 범인이 분자, 예측한 모든 용의자가 분모. 민감도는 낚시꾼. 실제 물고기 중에 몇 마리를 예측해서 잡았는지. 민감도. 손이 예민한 낚시꾼은, 실제 물고기 중 예측해서 잡는다. 재현율이라고도 한다. 특이도는 형사. 나쁜 놈들 중에 진짜 나쁜놈들 잡는 것. 실제로 나쁜놈들 중에서 예측해야 하는 상황. 누가 범인인인지는 몰라. 항상 그렇잖아. 마동석이 . 누가 범인인지 몰라. 실제로 근데 다 나쁜 놈들이야. 예측하는 거야.