22. K-Nearest Neighbor 방법에 대한 설명으로 틀린 것은?
① 훈련 데이터에서 미리 모형을 학습하지 않고 새로운 자료에 대한 예측 및 분류를 수행할 때 사용되는 lazy learning 기법을 사용한다.
② 구체적인 값이 가까운 K개의 데이터를 보고 데이터의 속한 그룹을 판단하는 알고리즘이다.
③ 그룹을 모르는 데이터 P에 대해 이미 그룹의 알려진 데이터 중 P와 가장 가까이 있는 K개의 데이터를 수집하여 그룹을 예측한다.
④ K값이 커질수록 과대적합(Overfitting)의 문제가 발생한다.
정답: 4
출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]]
### 1. 문제의 출제 의도
이 문제는 K-Nearest Neighbor (K-NN) 알고리즘에 대한 기본 개념과 특성을 평가하려는 의도로 출제되었습니다. K-NN 알고리즘의 작동 방식, 학습 방법, 그리고 K 값의 변화에 따른 모델의 성능 변화를 이해하고 있는지를 확인하는 것입니다.
### 2. 문제를 이해하기 위해서 알아야 하는 개념과 예시 및 실제 데이터
**K-Nearest Neighbor (K-NN) 알고리즘 개요:**
- **기본 개념:** K-NN은 레이블이 있는 훈련 데이터를 사용하여 새로운 데이터의 레이블을 예측하는 분류 알고리즘입니다. 'K'는 새로운 데이터 포인트에 가장 가까운 'K'개의 데이터 포인트를 의미합니다.
- **작동 방식:**
1. 훈련 데이터와 예측할 데이터를 준비합니다.
2. 예측할 데이터 포인트와 훈련 데이터의 모든 포인트 간의 거리를 계산합니다.
3. 가장 가까운 'K'개의 데이터 포인트를 선택합니다.
4. 이 'K'개의 데이터 포인트 중 다수결 원칙으로 예측할 데이터의 레이블을 결정합니다.
**K 값의 영향:**
- **작은 K 값:** 과소적합(underfitting) 문제를 일으킬 수 있습니다. 모델이 너무 세세한 패턴을 학습하여 노이즈에 민감해집니다.
- **큰 K 값:** 과대적합(overfitting) 문제가 줄어들 수 있습니다. 너무 많은 데이터를 참조하게 되면 모델이 일반화되지만, 지나치게 큰 K 값은 모델이 오히려 지나치게 평탄해져 정확도가 떨어질 수 있습니다.
**예시 데이터:**
훈련 데이터는 다음과 같이 주어질 수 있습니다.
| 데이터 포인트 | X 좌표 | Y 좌표 | 레이블 |
|---------------|--------|--------|--------|
| 1 | 1 | 2 | A |
| 2 | 2 | 3 | A |
| 3 | 3 | 3 | B |
| 4 | 6 | 7 | B |
새로운 데이터 포인트 (4, 4)에 대한 예측을 위해 K=3으로 설정하면, 거리 측정 후 가장 가까운 3개의 데이터 포인트를 확인하여 다수결로 레이블을 예측합니다.
### 3. 보기별 설명 및 문제 풀이
**① 훈련 데이터에서 미리 모형을 학습하지 않고 새로운 자료에 대한 예측 및 분류를 수행할 때 사용되는 lazy learning 기법을 사용한다.**
- **설명:** K-NN은 lazy learning 기법을 사용합니다. 즉, 훈련 데이터셋을 미리 학습하지 않고, 새로운 데이터를 예측할 때 거리 계산을 수행하여 예측합니다.
- **정답 여부:** 맞음
**② 구체적인 값이 가까운 K개의 데이터를 보고 데이터의 속한 그룹을 판단하는 알고리즘이다.**
- **설명:** K-NN은 새로운 데이터 포인트에 대해 가장 가까운 K개의 데이터를 기준으로 그룹(레이블)을 판단합니다.
- **정답 여부:** 맞음
**③ 그룹을 모르는 데이터 P에 대해 이미 그룹의 알려진 데이터 중 P와 가장 가까이 있는 K개의 데이터를 수집하여 그룹을 예측한다.**
- **설명:** 새로운 데이터 P에 대해, 이미 그룹이 알려진 데이터 포인트들 중 P와 가장 가까운 K개의 데이터를 찾아 그룹을 예측합니다.
- **정답 여부:** 맞음
**④ K값이 커질수록 과대적합(Overfitting)의 문제가 발생한다.**
- **설명:** K 값이 커질수록 모델이 더 많은 이웃 데이터를 참조하게 되어 과대적합 문제는 오히려 줄어듭니다. K 값이 너무 작을 때 과대적합이 발생할 수 있습니다.
- **정답 여부:** 틀림
따라서 정답은 **4번**입니다.