27. 다음 중 앙상블 기법에 대한 설명으로 적절한 것은? ① 앙상블 기법을 사용하게 되면 각 모형의 상호 연관성이 높을수록 정확도가 향상된다. ② 전체적인 예측값의 분산을 유지하여 정확도를 높일 수 있다. ③ 대표적인 앙상블 기법은 배깅, 부스팅이 있다. ④ 랜덤 포레스트는 앙상블 기법 중 유일한 비지도학습 기법이다. 정답: 3 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] ### 각 선택지 분석: 1. **① 앙상블 기법을 사용하게 되면 각 모형의 상호 연관성이 높을수록 정확도가 향상된다.** - **부적절한 설명입니다.** 앙상블 기법에서는 개별 모델들의 상호 연관성이 낮을수록, 즉 모델들이 서로 독립적일수록 더 좋은 결과를 얻을 수 있습니다. 모델들이 서로 다른 부분에서 강점을 가지게 되면, 서로의 약점을 보완하여 전체적인 성능이 향상됩니다. 2. **② 전체적인 예측값의 분산을 유지하여 정확도를 높일 수 있다.** - **부적절한 설명입니다.** 앙상블 기법은 보통 개별 모델의 분산을 줄이기 위해 사용됩니다. 예측값의 분산을 줄여서 더 안정적인 예측을 가능하게 하고, 결과적으로 정확도를 높입니다. 3. **③ 대표적인 앙상블 기법은 배깅, 부스팅이 있다.** - **적절한 설명입니다.** 앙상블 기법에는 다양한 방법이 있으며, 그 중에서 **배깅(Bagging)**과 **부스팅(Boosting)**이 가장 대표적인 기법입니다. 배깅의 대표적인 예로 랜덤 포레스트(Random Forest)가 있으며, 부스팅의 대표적인 예로 그래디언트 부스팅 머신(GBM), XGBoost 등이 있습니다. 4. **④ 랜덤 포레스트는 앙상블 기법 중 유일한 비지도학습 기법이다.** - **부적절한 설명입니다.** 랜덤 포레스트(Random Forest)는 앙상블 기법 중 하나이며, **지도학습(Supervised Learning)** 기법에 해당합니다. 주어진 레이블에 기반하여 학습하는 방식입니다. ### 결론: **정답은 ③번**입니다. 앙상블 기법의 대표적인 방법으로 배깅과 부스팅이 있습니다. 이 두 기법은 서로 다른 방식으로 여러 모델을 결합하여 성능을 향상시킵니다. 38. 원데이터 집합으로부터 크기가 같은 표본을 여러 번 단순임의 복원 추출하여 각 표본에 대한 분류기를 생성한 후 그 결과를 앙상블하는 방법으로 다음 중 가장 적절한 것은? ① 배깅(bagging) ② 의사결정나무(decision tree) ③ 서포트 벡터 머신(support vector machine) ④ 유전자 알고리즘(genetic algorithm) 정답: 1 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] **배깅(Bagging, Bootstrap Aggregating)**: - 배깅은 원본 데이터 집합으로부터 크기가 같은 표본을 여러 번 **단순 임의 복원 추출**(bootstrap sampling)하여 각 표본에 대한 모델(예: 분류기)을 생성한 후, 그 결과를 앙상블하는 방법입니다. - 여러 모델의 예측 결과를 결합하여 평균을 내거나 다수결 투표를 통해 최종 예측을 도출합니다. 이 방법은 모델의 분산을 줄이고 과적합(overfitting)을 방지하는 데 효과적입니다. - 배깅의 대표적인 예로 **랜덤 포레스트(Random Forest)**가 있습니다. --- 06. 앙상블 기법 중 부스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 부여 표본을 추출하는 기법은? ( ) 정답: 부스팅 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] **부스팅(Boosting)**은 여러 약한 학습기(Weak Learners)를 결합하여 강한 학습기(Strong Learner)를 만드는 앙상블 기법 중 하나입니다. 부스팅은 순차적으로 모델을 학습시키며, 이전 모델이 잘못 예측한 데이터에 더 큰 가중치를 부여하여 다음 모델이 그 오류를 보완하도록 하는 방식으로 작동합니다. 이 과정을 반복하면서 모델의 성능을 점진적으로 개선합니다. ### 부스팅의 주요 개념 1. **약한 학습기(Weak Learner)**: - 단일로는 성능이 그다지 높지 않은 모델입니다. 보통 결정트리와 같은 간단한 모델을 사용합니다. 2. **순차적 학습**: - 부스팅에서는 모델이 순차적으로 학습됩니다. 첫 번째 모델이 학습된 후, 이 모델의 예측 오류를 보완하기 위해 두 번째 모델이 학습됩니다. 이 과정이 반복됩니다. 3. **가중치 조정**: - 각 반복에서 부스팅은 이전 모델이 잘못 예측한 데이터 포인트에 더 큰 가중치를 부여합니다. 이를 통해 다음 모델이 이전 모델의 오류를 수정할 가능성을 높입니다. 4. **결합**: - 모든 약한 학습기의 예측 결과를 결합하여 최종 예측을 만듭니다. 보통 가중치를 적용하여 다수결 투표 또는 평균을 통해 결합합니다. ### 대표적인 부스팅 알고리즘 1. **AdaBoost (Adaptive Boosting)**: - 가장 기본적인 부스팅 알고리즘 중 하나입니다. - 각 반복에서 모델은 학습 데이터의 가중치를 수정하여, 이전에 잘못 분류된 데이터 포인트에 더 많은 가중치를 부여합니다. - 최종 예측은 모든 약한 학습기의 가중치가 있는 합으로 결정됩니다. 2. **Gradient Boosting**: - 현재 모델이 예측한 값과 실제 값 간의 오차를 줄이기 위해 새 학습기를 추가하는 방식입니다. - 일반적으로 손실 함수를 최소화하는 방향으로 학습기가 추가되며, 예측 오차의 그래디언트를 기반으로 학습을 진행합니다. 3. **XGBoost (Extreme Gradient Boosting)**: - Gradient Boosting의 개선된 버전으로, 효율성과 성능을 높이기 위해 여러 최적화 기법을 적용한 알고리즘입니다. - 병렬 처리, 정규화, 조기 종료 등 여러 기능을 통해 더 빠르고 성능이 뛰어난 모델을 제공합니다. 4. **LightGBM**: - Gradient Boosting의 또 다른 구현으로, 매우 큰 데이터셋을 효율적으로 처리할 수 있도록 설계되었습니다. - 특히 대규모 데이터셋에서 성능이 뛰어나며, 메모리 사용량이 적고 속도가 빠릅니다. ### 결론 부스팅은 순차적으로 약한 학습기를 결합하여 강한 학습기를 만드는 앙상블 기법으로, 많은 데이터 과학 및 머신러닝 문제에서 성능을 향상시키는 데 효과적입니다. AdaBoost, Gradient Boosting, XGBoost와 같은 다양한 알고리즘이 있으며, 각각의 알고리즘은 특정 문제에 따라 최적의 성능을 발휘할 수 있습니다. --- 07. 인공신경망에서 동일 입력층에 대해 원하는 값이 출력되도록 개개의 가중치(weight)를 조정하는 방법은 무엇인가? ( ) 정답: 역전파 알고리즘 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] 08. 아래에서 설명하는 앙상블 기법은? ``` - 여러 개의 학습용 데이터(train data)를 만들어 각 데이터마다 매번 분류기를 생성한 뒤 그 분류기 결과를 통합한다. - 학습용 데이터는 원 데이터에서 크기가 같은 표본으로 재추출하되 이전 단계에 만들어진 분류기에서 분류가 잘 되지 않은 데이터에 그 다음 학습용 데이터 생성 시 더 큰 가중치를 준다. ( ) ``` 정답: 부스팅 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]