22. K-Nearest Neighbor 방법에 대한 설명으로 틀린 것은? ① 훈련 데이터에서 미리 모형을 학습하지 않고 새로운 자료에 대한 예측 및 분류를 수행할 때 사용되는 lazy learning 기법을 사용한다. ② 구체적인 값이 가까운 K개의 데이터를 보고 데이터의 속한 그룹을 판단하는 알고리즘이다. ③ 그룹을 모르는 데이터 P에 대해 이미 그룹의 알려진 데이터 중 P와 가장 가까이 있는 K개의 데이터를 수집하여 그룹을 예측한다. ④ K값이 커질수록 과대적합(Overfitting)의 문제가 발생한다. 정답: 4 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] ### 1. 문제의 출제 의도 이 문제는 K-Nearest Neighbor (K-NN) 알고리즘에 대한 기본 개념과 특성을 평가하려는 의도로 출제되었습니다. K-NN 알고리즘의 작동 방식, 학습 방법, 그리고 K 값의 변화에 따른 모델의 성능 변화를 이해하고 있는지를 확인하는 것입니다. ### 2. 문제를 이해하기 위해서 알아야 하는 개념과 예시 및 실제 데이터 **K-Nearest Neighbor (K-NN) 알고리즘 개요:** - **기본 개념:** K-NN은 레이블이 있는 훈련 데이터를 사용하여 새로운 데이터의 레이블을 예측하는 분류 알고리즘입니다. 'K'는 새로운 데이터 포인트에 가장 가까운 'K'개의 데이터 포인트를 의미합니다. - **작동 방식:** 1. 훈련 데이터와 예측할 데이터를 준비합니다. 2. 예측할 데이터 포인트와 훈련 데이터의 모든 포인트 간의 거리를 계산합니다. 3. 가장 가까운 'K'개의 데이터 포인트를 선택합니다. 4. 이 'K'개의 데이터 포인트 중 다수결 원칙으로 예측할 데이터의 레이블을 결정합니다. **K 값의 영향:** - **작은 K 값:** 과소적합(underfitting) 문제를 일으킬 수 있습니다. 모델이 너무 세세한 패턴을 학습하여 노이즈에 민감해집니다. - **큰 K 값:** 과대적합(overfitting) 문제가 줄어들 수 있습니다. 너무 많은 데이터를 참조하게 되면 모델이 일반화되지만, 지나치게 큰 K 값은 모델이 오히려 지나치게 평탄해져 정확도가 떨어질 수 있습니다. **예시 데이터:** 훈련 데이터는 다음과 같이 주어질 수 있습니다. | 데이터 포인트 | X 좌표 | Y 좌표 | 레이블 | |---------------|--------|--------|--------| | 1 | 1 | 2 | A | | 2 | 2 | 3 | A | | 3 | 3 | 3 | B | | 4 | 6 | 7 | B | 새로운 데이터 포인트 (4, 4)에 대한 예측을 위해 K=3으로 설정하면, 거리 측정 후 가장 가까운 3개의 데이터 포인트를 확인하여 다수결로 레이블을 예측합니다. ### 3. 보기별 설명 및 문제 풀이 **① 훈련 데이터에서 미리 모형을 학습하지 않고 새로운 자료에 대한 예측 및 분류를 수행할 때 사용되는 lazy learning 기법을 사용한다.** - **설명:** K-NN은 lazy learning 기법을 사용합니다. 즉, 훈련 데이터셋을 미리 학습하지 않고, 새로운 데이터를 예측할 때 거리 계산을 수행하여 예측합니다. - **정답 여부:** 맞음 **② 구체적인 값이 가까운 K개의 데이터를 보고 데이터의 속한 그룹을 판단하는 알고리즘이다.** - **설명:** K-NN은 새로운 데이터 포인트에 대해 가장 가까운 K개의 데이터를 기준으로 그룹(레이블)을 판단합니다. - **정답 여부:** 맞음 **③ 그룹을 모르는 데이터 P에 대해 이미 그룹의 알려진 데이터 중 P와 가장 가까이 있는 K개의 데이터를 수집하여 그룹을 예측한다.** - **설명:** 새로운 데이터 P에 대해, 이미 그룹이 알려진 데이터 포인트들 중 P와 가장 가까운 K개의 데이터를 찾아 그룹을 예측합니다. - **정답 여부:** 맞음 **④ K값이 커질수록 과대적합(Overfitting)의 문제가 발생한다.** - **설명:** K 값이 커질수록 모델이 더 많은 이웃 데이터를 참조하게 되어 과대적합 문제는 오히려 줄어듭니다. K 값이 너무 작을 때 과대적합이 발생할 수 있습니다. - **정답 여부:** 틀림 따라서 정답은 **4번**입니다.