26. 이상치를 찾는 것은 데이터 분석에서 데이터 전처리를 어떻게 할지 결정할 때 사용할 수 있다. 다음 중 상자그림을 이용하여 이상치를 판정하는 방법에 대한 설명으로 가장 부적절한 것은? ① IQR=Q3-Q1이라고 할 때, Q1−1.5∗IQR<x<Q3+1.5∗IQRQ1 - 1.5*IQR < x < Q3 + 1.5*IQRQ1−1.5∗IQR<x<Q3+1.5∗IQR을 벗어나는 x를 이상치라고 규정한다. ② 평균으로부터 3*표준편차 범위를 벗어나는 것들을 비정상이라 규정하고 제거한다. ③ 이상치는 변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인할 수 있다. ④ 이상치는 분포를 왜곡할 수 있으나 실제 오류 인간인지에 대해서는 통계적으로 판단하지 못하기 때문에 제거여부는 실무자들을 통해서 결정하는 것이 바람직하다. 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] 상자그림(Box plot)을 이용한 이상치 판정은 데이터의 분포를 시각적으로 이해하고, 그 범위를 벗어나는 값들을 이상치로 식별하는 데 유용합니다. 상자그림을 통해 이상치를 식별하는 방법에 대해 정확히 이해하는 것이 중요합니다. ### 보기 설명 1. **IQR=Q3-Q1이라고 할 때, Q1−1.5∗IQR < x < Q3+1.5∗IQR을 벗어나는 x를 이상치라고 규정한다.** - IQR (Interquartile Range)은 Q1(제1사분위수)와 Q3(제3사분위수) 사이의 범위를 나타냅니다. 일반적으로 Q1−1.5_IQR보다 작거나 Q3+1.5_IQR보다 큰 값을 이상치로 간주합니다. - **적절한 설명입니다.** 2. **평균으로부터 3*표준편차 범위를 벗어나는 것들을 비정상이라 규정하고 제거한다.** - 이는 표준편차를 이용한 이상치 판정 방법으로, 상자그림을 이용한 방법이 아닙니다. 상자그림을 이용한 이상치 판정 방법과는 다른 통계적 방법입니다. - **부적절한 설명입니다.** 3. **이상치는 변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인할 수 있다.** - 상자그림은 이상치가 데이터의 분포에서 벗어난 값임을 시각적으로 보여줍니다. - **적절한 설명입니다.** 4. **이상치는 분포를 왜곡할 수 있으나 실제 오류 인간인지에 대해서는 통계적으로 판단하지 못하기 때문에 제거여부는 실무자들을 통해서 결정하는 것이 바람직하다.** - 이상치는 데이터의 분포를 왜곡할 수 있으며, 그 제거 여부는 실무자의 판단에 따라 결정하는 것이 좋습니다. 이는 데이터의 특성 및 분석 목적에 따라 다를 수 있습니다. - **적절한 설명입니다.** --- 41. 다음 중 이상값 검색을 활용한 응용시스템으로 가장 적절한 것은? ① 장바구니분석 시스템 ② 부정사용방지 시스템 ③ 데이터 마트 ④ 교차판매 시스템 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] 이상값 검색(Outlier Detection)은 데이터 세트에서 일반적인 패턴과 현저히 다른 데이터를 식별하는 과정입니다. 이는 특히 데이터의 비정상적인 행동이나 패턴을 찾아내는 데 유용합니다. ### 보기 설명 1. **장바구니분석 시스템** - 장바구니 분석은 고객의 구매 패턴을 분석하여 상품 간의 연관성을 찾는 데 사용됩니다. 이는 연관성 분석이 주요 목표입니다. - **부적절한 설명입니다.** 2. **부정사용방지 시스템** - 부정사용방지 시스템은 이상값 검색을 통해 비정상적인 사용 패턴을 감지하고, 이를 통해 사기나 부정 행위를 방지하는 데 사용됩니다. 예를 들어, 신용카드의 비정상적인 사용 패턴을 탐지하는 시스템이 여기에 해당합니다. - **적절한 설명입니다.** 3. **데이터 마트** - 데이터 마트는 특정 비즈니스 라인이나 부서의 요구에 맞게 데이터 웨어하우스에서 데이터를 추출하여 저장한 데이터베이스입니다. 이는 데이터 저장 및 접근의 효율성을 높이기 위한 것입니다. - **부적절한 설명입니다.** 4. **교차판매 시스템** - 교차판매 시스템은 고객이 구매한 상품과 연관된 다른 상품을 추천하는 시스템입니다. 이는 주로 연관성 분석이나 추천 알고리즘을 사용합니다. - **부적절한 설명입니다.** ### 정답: 2 **부정사용방지 시스템** 부정사용방지 시스템은 이상값 검색을 활용하여 비정상적인 사용 패턴을 감지하고, 이를 통해 사기나 부정 행위를 방지하는 데 사용됩니다. 따라서 이상값 검색을 활용한 응용시스템으로 가장 적절한 것은 **부정사용방지 시스템**입니다. --- 40. 데이터 전처리 과정에 대한 설명으로 가장 적절한 것은? ① 데이터 특성을 파악하고 통찰을 얻기 위한 다각도 접근 방법을 데이터 EDA(Exploratory Data Analysis)라고 한다. ② R에서는 is.notnum() 함수를 이용해서 결측값 여부를 확인할 수 있다. ③ 모든 분석에서 이상치는 시간이 오래 걸리더라도 다 찾아내어 제거해야 한다. ④ 특정 변수에 NA 개수가 많더라도 해당 레코드를 삭제해야 한다. 정답: 1 출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]] 데이터 전처리는 데이터 분석의 중요한 단계로, 데이터의 품질을 높이고 분석의 정확성을 보장하기 위해 수행됩니다. 이 과정에서 다양한 기법과 방법을 사용합니다. 아래는 보기의 설명에 대한 평가입니다: 1. **데이터 특성을 파악하고 통찰을 얻기 위한 다각도 접근 방법을 데이터 EDA(Exploratory Data Analysis)라고 한다.** - EDA(Exploratory Data Analysis)는 데이터의 기본 특성을 이해하고, 통찰을 얻기 위해 데이터를 시각화하고 요약하는 다각적 접근 방법입니다. 이는 데이터 분석의 초기 단계에서 매우 중요한 역할을 합니다. - **적절한 설명입니다.** 2. **R에서는 is.notnum() 함수를 이용해서 결측값 여부를 확인할 수 있다.** - R에서 결측값 여부를 확인하는 함수는 `is.na()`입니다. `is.notnum()`이라는 함수는 존재하지 않습니다. - **부적절한 설명입니다.** 3. **모든 분석에서 이상치는 시간이 오래 걸리더라도 다 찾아내어 제거해야 한다.** - 모든 분석에서 이상치를 반드시 제거해야 하는 것은 아닙니다. 이상치는 데이터에 중요한 정보를 제공할 수 있으며, 제거 여부는 분석 목적에 따라 달라집니다. 이상치를 무조건 제거하는 것은 바람직하지 않습니다. - **부적절한 설명입니다.** 4. **특정 변수에 NA 개수가 많더라도 해당 레코드를 삭제해야 한다.** - NA 개수가 많은 경우 해당 레코드를 삭제할지 여부는 상황에 따라 달라집니다. NA가 많은 변수나 레코드는 분석에 큰 영향을 미칠 수 있으므로, 이를 적절히 처리하는 방법을 선택해야 합니다. 무조건 삭제하는 것은 바람직하지 않습니다. - **부적절한 설명입니다.**