26. 이상치를 찾는 것은 데이터 분석에서 데이터 전처리를 어떻게 할지 결정할 때 사용할 수 있다. 다음 중 상자그림을 이용하여 이상치를 판정하는 방법에 대한 설명으로 가장 부적절한 것은?
① IQR=Q3-Q1이라고 할 때, Q1−1.5∗IQR<x<Q3+1.5∗IQRQ1 - 1.5*IQR < x < Q3 + 1.5*IQRQ1−1.5∗IQR<x<Q3+1.5∗IQR을 벗어나는 x를 이상치라고 규정한다.
② 평균으로부터 3*표준편차 범위를 벗어나는 것들을 비정상이라 규정하고 제거한다.
③ 이상치는 변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인할 수 있다.
④ 이상치는 분포를 왜곡할 수 있으나 실제 오류 인간인지에 대해서는 통계적으로 판단하지 못하기 때문에 제거여부는 실무자들을 통해서 결정하는 것이 바람직하다.
정답: 2
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
상자그림(Box plot)을 이용한 이상치 판정은 데이터의 분포를 시각적으로 이해하고, 그 범위를 벗어나는 값들을 이상치로 식별하는 데 유용합니다. 상자그림을 통해 이상치를 식별하는 방법에 대해 정확히 이해하는 것이 중요합니다.
### 보기 설명
1. **IQR=Q3-Q1이라고 할 때, Q1−1.5∗IQR < x < Q3+1.5∗IQR을 벗어나는 x를 이상치라고 규정한다.**
- IQR (Interquartile Range)은 Q1(제1사분위수)와 Q3(제3사분위수) 사이의 범위를 나타냅니다. 일반적으로 Q1−1.5_IQR보다 작거나 Q3+1.5_IQR보다 큰 값을 이상치로 간주합니다.
- **적절한 설명입니다.**
2. **평균으로부터 3*표준편차 범위를 벗어나는 것들을 비정상이라 규정하고 제거한다.**
- 이는 표준편차를 이용한 이상치 판정 방법으로, 상자그림을 이용한 방법이 아닙니다. 상자그림을 이용한 이상치 판정 방법과는 다른 통계적 방법입니다.
- **부적절한 설명입니다.**
3. **이상치는 변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인할 수 있다.**
- 상자그림은 이상치가 데이터의 분포에서 벗어난 값임을 시각적으로 보여줍니다.
- **적절한 설명입니다.**
4. **이상치는 분포를 왜곡할 수 있으나 실제 오류 인간인지에 대해서는 통계적으로 판단하지 못하기 때문에 제거여부는 실무자들을 통해서 결정하는 것이 바람직하다.**
- 이상치는 데이터의 분포를 왜곡할 수 있으며, 그 제거 여부는 실무자의 판단에 따라 결정하는 것이 좋습니다. 이는 데이터의 특성 및 분석 목적에 따라 다를 수 있습니다.
- **적절한 설명입니다.**
---
41. 다음 중 이상값 검색을 활용한 응용시스템으로 가장 적절한 것은?
① 장바구니분석 시스템
② 부정사용방지 시스템
③ 데이터 마트
④ 교차판매 시스템
정답: 2
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
이상값 검색(Outlier Detection)은 데이터 세트에서 일반적인 패턴과 현저히 다른 데이터를 식별하는 과정입니다. 이는 특히 데이터의 비정상적인 행동이나 패턴을 찾아내는 데 유용합니다.
### 보기 설명
1. **장바구니분석 시스템**
- 장바구니 분석은 고객의 구매 패턴을 분석하여 상품 간의 연관성을 찾는 데 사용됩니다. 이는 연관성 분석이 주요 목표입니다.
- **부적절한 설명입니다.**
2. **부정사용방지 시스템**
- 부정사용방지 시스템은 이상값 검색을 통해 비정상적인 사용 패턴을 감지하고, 이를 통해 사기나 부정 행위를 방지하는 데 사용됩니다. 예를 들어, 신용카드의 비정상적인 사용 패턴을 탐지하는 시스템이 여기에 해당합니다.
- **적절한 설명입니다.**
3. **데이터 마트**
- 데이터 마트는 특정 비즈니스 라인이나 부서의 요구에 맞게 데이터 웨어하우스에서 데이터를 추출하여 저장한 데이터베이스입니다. 이는 데이터 저장 및 접근의 효율성을 높이기 위한 것입니다.
- **부적절한 설명입니다.**
4. **교차판매 시스템**
- 교차판매 시스템은 고객이 구매한 상품과 연관된 다른 상품을 추천하는 시스템입니다. 이는 주로 연관성 분석이나 추천 알고리즘을 사용합니다.
- **부적절한 설명입니다.**
### 정답: 2
**부정사용방지 시스템**
부정사용방지 시스템은 이상값 검색을 활용하여 비정상적인 사용 패턴을 감지하고, 이를 통해 사기나 부정 행위를 방지하는 데 사용됩니다. 따라서 이상값 검색을 활용한 응용시스템으로 가장 적절한 것은 **부정사용방지 시스템**입니다.
---
40. 데이터 전처리 과정에 대한 설명으로 가장 적절한 것은?
① 데이터 특성을 파악하고 통찰을 얻기 위한 다각도 접근 방법을 데이터 EDA(Exploratory Data Analysis)라고 한다.
② R에서는 is.notnum() 함수를 이용해서 결측값 여부를 확인할 수 있다.
③ 모든 분석에서 이상치는 시간이 오래 걸리더라도 다 찾아내어 제거해야 한다.
④ 특정 변수에 NA 개수가 많더라도 해당 레코드를 삭제해야 한다.
정답: 1
출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]]
데이터 전처리는 데이터 분석의 중요한 단계로, 데이터의 품질을 높이고 분석의 정확성을 보장하기 위해 수행됩니다. 이 과정에서 다양한 기법과 방법을 사용합니다. 아래는 보기의 설명에 대한 평가입니다:
1. **데이터 특성을 파악하고 통찰을 얻기 위한 다각도 접근 방법을 데이터 EDA(Exploratory Data Analysis)라고 한다.**
- EDA(Exploratory Data Analysis)는 데이터의 기본 특성을 이해하고, 통찰을 얻기 위해 데이터를 시각화하고 요약하는 다각적 접근 방법입니다. 이는 데이터 분석의 초기 단계에서 매우 중요한 역할을 합니다.
- **적절한 설명입니다.**
2. **R에서는 is.notnum() 함수를 이용해서 결측값 여부를 확인할 수 있다.**
- R에서 결측값 여부를 확인하는 함수는 `is.na()`입니다. `is.notnum()`이라는 함수는 존재하지 않습니다.
- **부적절한 설명입니다.**
3. **모든 분석에서 이상치는 시간이 오래 걸리더라도 다 찾아내어 제거해야 한다.**
- 모든 분석에서 이상치를 반드시 제거해야 하는 것은 아닙니다. 이상치는 데이터에 중요한 정보를 제공할 수 있으며, 제거 여부는 분석 목적에 따라 달라집니다. 이상치를 무조건 제거하는 것은 바람직하지 않습니다.
- **부적절한 설명입니다.**
4. **특정 변수에 NA 개수가 많더라도 해당 레코드를 삭제해야 한다.**
- NA 개수가 많은 경우 해당 레코드를 삭제할지 여부는 상황에 따라 달라집니다. NA가 많은 변수나 레코드는 분석에 큰 영향을 미칠 수 있으므로, 이를 적절히 처리하는 방법을 선택해야 합니다. 무조건 삭제하는 것은 바람직하지 않습니다.
- **부적절한 설명입니다.**