28. 다음 표본 추출 방법에 관한 설명 중 잘못된 것은 무엇인가?
① 표본의 크기를 결정할 때 가장 중요한 부분은 표본이 모집단을 얼마나 설명하는지에 대한 대표성의 확보이다.
② 단순랜덤추출법은 모집단에서 샘플을 뽑을 때 각각의 샘플이 모두 동일한 확률을 가지고 무작위로 추출되는 방법이다.
③ 계통추출법은 모집단을 군집으로 구분하고 선정된 군집의 원소를 모두 샘플로 추출하는 다단계 추출 방법이다.
④ 층화추출법은 모집단을 몇 개의 집단으로 구분하고, 각 집단의 크기와 분산을 고려하여 각 집단마다 샘플을 추출하는 방법이다.
정답: 3
출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]
계통추출법(Systematic Sampling)과 군집추출법(Cluster Sampling)은 서로 다른 샘플링 방법입니다. 주어진 설명은 **군집추출법**에 대한 설명에 더 가깝습니다. 아래에서 두 가지 방법을 각각 설명하겠습니다.
### 1. **계통추출법 (Systematic Sampling)**
- **계통추출법**은 모집단에서 처음 하나의 샘플을 무작위로 선택한 후, 일정한 간격을 두고 다음 샘플을 선택하는 방법입니다.
- 예를 들어, 모집단의 크기가 100명이고, 10명을 샘플로 선택하려는 경우, 먼저 1부터 10 사이의 숫자 중 하나를 무작위로 선택하고, 이후 그 숫자에 일정한 간격을 더하여 샘플을 선택합니다.
- 예를 들어, 3번째 사람을 처음 선택하고, 그 이후로 10명 간격으로 선택하여 13번째, 23번째, ... , 93번째 사람을 선택하는 방식입니다.
- **단순추출법**과 달리, 간격이 일정하다는 특징이 있습니다.
### 2. **군집추출법 (Cluster Sampling)**
- **군집추출법**은 모집단을 여러 군집(Cluster)으로 나누고, 이 군집 중 일부를 무작위로 선택한 후, 선택된 군집 내의 모든 원소를 샘플로 추출하는 방법입니다.
- 이 방법은 특히 모집단이 큰 경우에 유용합니다. 예를 들어, 도시의 여러 지역을 군집으로 보고, 몇몇 지역을 무작위로 선택한 후, 선택된 지역의 모든 가구를 샘플로 추출할 수 있습니다.
- **다단계 추출법(Multistage Sampling)**으로 확장하면, 선택된 군집 내에서 다시 샘플링을 수행하는 방식으로 진행할 수 있습니다. 예를 들어, 지역을 선택한 후, 지역 내에서 다시 가구를 무작위로 선택하는 식입니다.
### 결론
주어진 설명은 정확히 **군집추출법**에 해당합니다. **계통추출법**은 간격을 두고 선택하는 방식이지만, 주어진 설명에서는 모집단을 군집으로 나누고 선택된 군집의 모든 원소를 샘플로 추출하는 과정을 설명하고 있으므로, 이는 군집추출법을 설명한 것입니다.
따라서, 주어진 설명은 **계통추출법**이 아니라 **군집추출법**을 설명한 것이라고 할 수 있습니다.
---
6. 데이터 모델링에 대한 설명으로 가장 적절한 것은?
① 데이터 웨어하우스는 데이터를 비즈니스 역할로 세분화함으로써 관련 정보에 대한 접근을 훨씬 더 빠르게 한다.
② 데이터 마트란 데이터 웨어하우스의 한 부분으로 사용자의 요구 항목에 부합하기 위한 시스템이다.
③ 기업에서 원천성 데이터베이스를 데이터 마트라고 부른다.
④ 데이터 웨어하우스와 데이터 마트의 구분 기준은 제공자의 기능 및 제공 범위이다.
정답: 4
[[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]
각 선택지에 대한 설명을 분석하여, 데이터 모델링에 대한 가장 적절한 설명을 찾겠습니다.
### 선택지 분석
#### ① "데이터 웨어하우스는 데이터를 비즈니스 역할로 세분화함으로써 관련 정보에 대한 접근을 훨씬 더 빠르게 한다."
- **부분적으로 맞는 설명이지만 정확하지는 않습니다.** 데이터 웨어하우스는 대규모 데이터를 저장하고, 분석을 위한 통합된 데이터 저장소입니다. 데이터가 비즈니스 역할로 세분화되는 것은 주로 **데이터 마트**에서 이루어집니다. 데이터 웨어하우스는 전체 기업 데이터를 포괄하며, 접근성 향상을 위해 데이터 마트를 활용할 수 있습니다.
#### ② "데이터 마트란 데이터 웨어하우스의 한 부분으로 사용자의 요구 항목에 부합하기 위한 시스템이다."
- **적절한 설명입니다.** 데이터 마트(Data Mart)는 데이터 웨어하우스의 하위 집합으로, 특정 비즈니스 부서나 사용자의 요구를 충족시키기 위해 설계된 데이터 저장소입니다. 데이터 웨어하우스에서 특정한 주제 영역에 맞게 데이터를 추출하고, 이 데이터를 신속하게 접근할 수 있도록 설계된 것이 데이터 마트입니다.
#### ③ "기업에서 원천성 데이터베이스를 데이터 마트라고 부른다."
- **부적절한 설명입니다.** 원천 데이터베이스는 기업의 운영 데이터를 저장하는 시스템으로, 일반적으로 OLTP 시스템을 의미합니다. 데이터 마트는 이와는 달리 분석을 위해 데이터 웨어하우스에서 추출된 특정 주제 영역의 데이터 저장소입니다.
#### ④ "데이터 웨어하우스와 데이터 마트의 구분 기준은 제공자의 기능 및 제공 범위이다."
- **부적절한 설명입니다.** 데이터 웨어하우스와 데이터 마트의 구분은 주로 **데이터의 범위와 목적**에 따라 이루어집니다. 데이터 웨어하우스는 전체 기업 데이터를 포괄하는 반면, 데이터 마트는 특정 부서나 주제 영역에 특화된 데이터를 제공합니다. 제공자의 기능 및 제공 범위와는 관련이 없습니다.
### 결론
**정답은 ②번**입니다. 데이터 마트는 데이터 웨어하우스의 일부로서, 특정 사용자의 요구를 충족시키기 위한 데이터 저장소를 의미합니다.
---
20. 구축된 모델의 과대 또는 과소 적합에 대한 미세조정 절차를 위해 사용되는 데이터는?
① 학습용 데이터(train data)
② 검증용 데이터(validation data)
③ 평가용 데이터(test data)
④ 추정용 데이터(estimation data)
정답: 2
[[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]
풀 수 있는 문제