06 제37회 데이터분석 준전문가 자격검정시험 복원문제

[[데이터 이해 - 데이터 사이언티스트의 역할]] 1. 다음 중 데이터 사이언티스트의 역할로 가장 적절하지 않은 것은? ① 조직 내에서 다부서 간 협력을 통해 빅데이터의 가치를 실현한다. ② 빅데이터를 다각적으로 분석해 인사이트를 도출한다. ③ 알고리즘에 의해 부당하게 피해를 입은 사람을 구제한다. ④ 데이터를 시각화해 설득력을 높이는 방식으로 정보를 전달한다. 정답: 3 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 이해 - 빅데이터의 가치와 영향]] 2. 빅데이터가 기업, 개인, 정부에 미치는 영향으로 틀린 것은? ① 기업은 투명성을 재고하여 관리 효율성을 높일 수 있다. ② 정부는 환경 탐색, 상황 분석, 미래 대응을 할 수 있다. ③ 기업은 경쟁력을 재고하고 생산성을 높일 수 있다. ④ 개인은 아직까지 활용 대상의 위치에 머물러 있어 데이터를 활용할 수 없다. 정답: 4 [[데이터 이해 - 데이터베이스 활용]] 3. 아래에서 설명하는 정보시스템으로 가장 적절한 것은? 경영 효율화를 위해 기업 전체의 경영 자원을 통합적으로 관리하는 정보시스템 ① ERP ② CRM ③ SCM ④ KMS 정답: 1 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 이해 - 데이터베이스의 정의와 특징]] 4. 데이터베이스의 특징에 대한 설명으로 가장 적절하지 않은 것은? ① 통합된 데이터로 동일한 내용의 데이터가 중복되어 저장된다. ② 변화되는 데이터로 데이터의 삽입, 삭제, 갱신에도 항상 현재의 정확한 데이터를 유지한다. ③ 공용 데이터로 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다. ④ 저장된 데이터는 컴퓨터가 접근할 수 있는 저장매체에 저장된다. 정답: 1 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 이해 - 데이터와 정보]] 5. 데이터에 대한 설명으로 가장 적절하지 않은 것은? ① 양질의 데이터를 확보하지 못하면 잘못된 분석 결과를 얻음 ② 창의적인 데이터 매시업(Mashup)은 기존에 풀기 어려웠던 문제를 해결에 도움 ③ 비정형 데이터는 데이터 내에 메타 데이터를 갖고 있으며 일반적으로 파일 형태로 저장 ④ 공공부문에서 개방하고 있는 대표적인 데이터는 교통 데이터, 물가 데이터, 의료 데이터임 정답: 3 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 데이터 마트]] 6. 데이터 모델링에 대한 설명으로 가장 적절한 것은? ① 데이터 웨어하우스는 데이터를 비즈니스 역할로 세분화함으로써 관련 정보에 대한 접근을 훨씬 더 빠르게 한다. ② 데이터 마트란 데이터 웨어하우스의 한 부분으로 사용자의 요구 항목에 부합하기 위한 시스템이다. ③ 기업에서 원천성 데이터베이스를 데이터 마트라고 부른다. ④ 데이터 웨어하우스와 데이터 마트의 구분 기준은 제공자의 기능 및 제공 범위이다. 정답: 4 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 이해 - 데이터와 정보]] 7. 아래에서 설명하는 데이터-정보-지식-지혜 계층구조와 예시가 가장 적절하게 연결된 것은? (a) : A마트는 100원에, B마트는 200원에 연필을 판매한다. (b) : A마트의 다른 상품들도 B마트보다 쌀 것이라고 판단한다. (c) : A마트의 연필이 더 싸다 (d) : 상대적으로 저렴한 A마트에서 연필을 사야겠다. ① (a): 데이터, (b): 지혜, (c): 정보, (d): 지식 ② (a): 데이터, (b): 지식, (c): 정보, (d): 지혜 ③ (a): 지혜, (b): 정보, (c): 지식, (d): 데이터 ④ (a): 지혜, (b): 데이터, (c): 정보, (d): 지식 정답: 1 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 이해 - 전략 인사이트 도출을 위한 필요 역량]] 8. 전략적 인사이트를 제공하는 가치 기반 분석을 위해 우선 고려해야 할 사항으로 가장 적절하지 않은 것은? ① 경제사회 트렌드 ② 비즈니스 성과관리 ③ 고객 니즈의 변화 ④ 인구통계학적 변화 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터분석 기획 - 마스터 플랜 수립]] 9. 마스터 플랜 수립 과정에서 데이터 분석 과제의 우선순위를 결정할 때 고려하는 요소로 적절하지 않은 것은? ① 기술 적용 수준 ② 비즈니스 성과 및 ROI ③ 실행 용이성 ④ 전략적 중요도 정답: 1 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터분석 기획 - 분석 과제 발굴]] 10. 분석 과제 발굴에 대한 설명으로 틀린 것은? ① 분석해야 할 대상이 명확하다면 상향식 접근 방식이 적절하다. ② 하향식 접근 방식은 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행한다. ③ 데이터를 활용하여 인사이트를 도출하는 상향식 접근 방식의 유용성이 점차 증가하고 있다. ④ 하향식 사고 프로세스는 분석 과제 발굴에 유용하게 활용될 수 있다. 정답: 1 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 데이터 마이닝 개요]] 11. 모델링 목적에 따라 변수를 정의하고 필요한 데이터를 소프트웨어에 적용하기 위한 활동을 수행하는 데이터 마이닝 추진 단계는? ① 목적 설정 단계 ② 데이터 준비 단계 ③ 기법 적용 단계 ④ 데이터 가공 단계 정답: 4 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 이해 - 데이터베이스의 정의와 특징]] 12. 아래에서 설명하는 데이터 거버넌스 체계는? ``` 데이터 표준 용어 설정, 명명 규칙 수립, 메타 데이터 구축, 데이터 사전 구축 등의 업무로 구성 ``` ① 데이터 표준화 ② 데이터 관리 체계 ③ 데이터 저장소 관리 ④ 표준화 활동 정답: 1 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터분석 기획 - 분석 기획 방향성 도출]] 13. 데이터 분석 기획 단계에서 수행하는 주요 태스크(task)로 적절하지 않은 것은? ① 필요 데이터의 정의 ② 프로젝트 범위 설정 ③ 프로젝트 정의 ④ 위험 식별 정답: 1 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터분석 기획 - 분석 방법론]] 14. 아래의 괄호 안에 들어갈 과제 도출 방식으로 적절한 것은? ![[Screenshot 2024-08-02 at 22.10.26.png]] ① 최적화 → 발견 → 발산 ② 발견 → 통찰 → 발산 ③ 최적화 → 솔루션 → 수렴 ④ 솔루션 → 발견 → 수렴 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 통계학 개론]] 15. 데이터 분석에서 정확도(Accuracy)와 정밀도(Precision)에 대한 설명으로 가장 적절하지 않은 것은? ① 정확도는 True로 예측한 것 중 실제 True인 비율, 정밀도는 실제 True인 경우에서 True로 예측한 비율이다. ② 정확도는 모델의 실제 값 사이의 차이이고, 정밀도는 모델을 지속적으로 반복했을 때 편차의 수준이다. ③ 모형의 활용측면에서는 정확도가, 모형의 안정성측면에서는 정밀도가 중요하다. ④ 정확도와 정밀도는 트레이드-오프 관계가 되는 경우가 많다. 정답: 1 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터분석 기획 - 분석 프로젝트 관리 방안]] 16. 기업의 분석 성숙도 진단 대상으로 가장 적절하지 않은 것은? ① 비즈니스 부문 ② 조직·역량 부문 ③ IT 부문 ④ 서비스 부문 정답: 4 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 다변량 분석]] 17. 다음 중 다차원척도법에 대한 설명으로 적절한 것은? ① 비슷한 특성을 가지는 소집단으로 묶어 패턴을 찾는 것으로 고객 세분화 등에 많이 활용된다. ② 여러 대상 간의 거리가 주어졌을 때, 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시켜 자료들의 상관적 관계를 이해하는 시각화 방법의 근간으로 주로 사용된다. ③ 상관관계가 있는 고차원 자료로 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 방법으로 독립변수 간 다중공선성 문제를 해결할 수 있다. ④ 항목 간의 '조건-결과' 식으로 표현되는 유용한 패턴을 발견할 수 있으며 흔히 장바구니 분석이라고도 한다. 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 기초 통계분석]] 18. 아래에 대한 설명으로 부적절한 것은 무엇인가?![[ADsP 기출문제 이미지 17.png]] ① 총 관측치 수는 71이다. ② feed의 중앙값을 계산할 수 없다. ③ casein이 포함된 사료를 먹인 관측치는 12개이다. ④ weight의 중앙값은 261.3이다. 정답: 4 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 통계학 개론]] 19. 통계적 가설검정에 대한 설명으로 가장 적절하지 않은 것은? ① 대립가설은 연구자가 연구를 통해 입증되기를 기대하는 가설이다. ② 귀무가설을 기각할 수 있는 검정통계량의 영역을 기각역이라고 한다. ③ p-value가 작을수록 해당 검정통계량의 관측값은 귀무가설을 더 지지하는 것으로 해석할 수 있다. ④ 다른 조건이 동일할 때 제1종 오류를 줄이면 제2종 오류는 늘어나게 된다. 정답: 3 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 데이터 마트]] 20. 구축된 모델의 과대 또는 과소 적합에 대한 미세조정 절차를 위해 사용되는 데이터는? ① 학습용 데이터(train data) ② 검증용 데이터(validation data) ③ 평가용 데이터(test data) ④ 추정용 데이터(estimation data) 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 기초 통계분석]] 21. Wage 데이터는 근로자의 임금(wage)을 포함하고 있다. 아래 결과에 대한 설명으로 가장 부적절한 것은? ```r > t.test(Wage$wage, mu=100) One Sample t-test data: Wage$wage t = 15.362, df = 2999, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 100 95 percent confidence interval: 110.2098 113.1974 sample estimates: mean of x 111.7036 ``` ① 귀무가설은 '평균 임금은 100과 같다'이다. ② 유의수준 α=0.05일 때 귀무가설이 기각되지 않는다. ③ wage의 평균은 111.7036이다. ④ 검정통계량은 분포를 따른다. 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 연관분석(Association Analysis)]] 22. 연관분석에 대한 설명으로 적절하지 않은 것은? ① Apriori 알고리즘은 최소지지도보다 큰 빈발항목집합에서 높은 속도(신뢰도, 향상도) 값을 갖는 연관규칙을 구하는 방법이다. ② 연관관 분석은 하나 이상의 제품이나 서비스를 포함하는 거래 내역을 이용하여 동시에 구매되는 제품 및 거래 빈도로부터 규칙을 찾는 데서 시작했다. ③ 품목 A와 품목 B의 구매가 상호 관련이 없다고 하향도는 1이 된다. ④ 사건들이 어떤 순서로 일어났고 이 사건들 사이에 연관성을 알아내는 것이 시차 연관분석이지만 인과관계의 형태로 해석되지는 않는다. 정답: 4 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 다변량 분석]] 23. 사회 연결망 분석의 중심성을 측정하는 방법으로 적절하지 않은 것은? ① 링크 중심성 ② 근접 중심성 ③ 매개 중심성 ④ 연결정도 중심성 정답: 1 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 분류분석(Classification)]] 24. 다음 중 신경망 모형에서 입력받은 데이터를 다음 층으로 어떻게 출력할지를 결정하는 함수로 적절한 것은? ① 베타 함수 ② 활성화 함수 ③ 오즈 함수 ④ CHAID 함수 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 시계열 예측]] 25. 적합한 ARIMA 모델 결정 방법으로 가장 적절한 것은? ① AR(2)모형에서 추정해야하는 모수는 총 3개이다. ② 모델링의 기본은 모수들이 많을수록 이해하기 쉽다. ③ ACF 값은 이후로 절단점을 가지며 PACF 값은 급격하게 감소하는 경우, ARMA(3, 0) 모델로 정의할 수 있다. ④ ACF 값은 급격히 감소하고 PACF의 절단점이 3인 경우, ARMA(2, 0) 모델로 정의할 수 있다. 정답: 4 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 통계학 개론]] 26. 아래는 변수 X와 Y에 대하여 단순선형회귀모형 Yi = β0 + β1Xi + ε, i=1,...,n을 분석한 분산분석표이다. 아래에서 얻을 수 있는 결론으로 가장 적절하지 않은 것은? (단, 기본가정은 모두 만족하는 것을 전제로 함) | 요인 | 제곱합 | 자유도 | 평균제곱 | F-value | p-value | | --- | --- | --- | ---- | ------- | ------- | | 회귀 | 100 | 1 | 100 | 50 | 0.00004 | | 잔차 | 200 | 10 | 2 | | | | 계 | 300 | 11 | | | | ① 추정된 회귀계수는 유의수준 0.05에서 유의하다. ② 오차항(e)의 분산의 불편추정값은 0.1이다. ③ 위 분석에 사용된 자료의 크기(n)는 12이다. ④ 결정계수는 $\frac{1}{3}$이다. 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 통계학 개론]] 27. 모분산의 추론에 대한 설명으로 가장 적절하지 않은 것은? ① 모분산을 추론하면 모집단의 변동성 또는 퍼짐 정도를 추정할 수 있다. ② 정규모집단으로부터 n개의 단순임의 추출한 표본의 분산은 자유도가 n-1인 분포를 따른다. ③ 모집단이 정규분포를 따르지 않더라도 중심극한정리를 통해 정규모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있다. ④ 이표본(two sample)에 의한 분산비 검정에서 두 표본의 분산이 동일한지 비교하는 검정통계량은 F-분포를 따른다. 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 회귀분석]] 28. 다음 중 회귀분석에서 확인해야 할 사항으로 틀린 것은? ① 회귀계수의 유의미함을 판단하기 위해 t-통계량과 p-value, 이들의 신뢰구간을 확인한다. ② 모형의 설명력을 확인하기 위해 1에서 1사이의 값을 갖는 결정계수를 확인한다. ③ 모형이 통계적으로 유의미한지 확인하기 위해 F-통계량을 확인한다. ④ 모형이 데이터를 잘 적합하는지 확인하기 위해 잔차 그래프를 그리고 회귀잔차를 한다. 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 기초 통계분석]] 29. 부스트랩(bootstrap) 방법을 이용하여 모형을 평가하고자 한다. d개의 관측치가 있는 데이터에서 각 관측치가 학습용 데이터(train data)로 선정될 확률은 $\frac{1}{d}$이며 학습용 데이터의 선정을 d번 반복할 때, 하나의 관측치가 선정되지 않을 확률은? ① $1 - \frac{1}{d}$ ② $(1 - \frac{1}{d})^d$ ③ $(1 - \frac{1}{d})^2$ ④ $(1 - \frac{1}{d})^4$ 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 다변량 분석]] 30. 주성분분석에 대한 설명으로 가장 적절하지 않은 것은? ① 차원축소 방법 중 하나이다. ② 비지도학습(Unsupervised Learning)에 해당한다. ③ 이론적으로 구성된 각 상관관계가 없다. ④ 원변수의 설명력 중 가장 분산이 작은 것을 제1주성분(PC1)으로 설정한다. 정답: 4 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 데이터 마이닝 개요]] 31. 텍스트 마이닝에 대한 설명으로 가장 적절하지 않은 것은? ① 복수의 문자 집합으로 분석에 사용하고자 하는 단어의 집합을 단어 사전(dictionary)이라고 한다. ② 텍스트 마이닝의 기능으로 문서 요약, 분류, 군집, 특성 추출 등이 있다. ③ 분석 결과를 평가하기 위해 사용하는 방법으로 precision, recall 등이 있다. ④ 데이터 마이닝 절차를 거치기 전의 비구조화된 단계는 코퍼스(corpus)라고 한다. 정답: 4 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 군집분석(Clustering)]] 32. 데이터셋 x는 두 개의 변수와 5개의 관측치를 가지며 아래는 데이터와 관측치 간의 유클리드 거리를 나타낸다. 최단연결법을 사용하여 계층적 군집화를 할 때 첫 단계에서 형성되는 군집과 관측치 a와의 거리를 구하시오.![[ADsP 기출문제 이미지 18.png]] ① 2.8 ② 3.2 ③ 3.6 ④ 5.0 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 데이터 마이닝 개요]] 33. 다음 중 신경망 모형에 대한 설명으로 틀린 것은? ① 피드포워드 신경망은 정보가 전방으로 전달되는 것으로 생물학적 신경계에서 나타나는 형태이며 딥러닝에서 가장 핵심적인 구조 개념이다. ② 은닉층의 뉴런의 수와 개수는 신경망 모형에서 자동으로 설정되며, 뉴런의 수가 많으면 예측력이 좋아지지만 너무 적으면 입력 데이터를 충분히 표현하지 못하는 경우가 발생한다. ③ 일반적으로 인공신경망은 다층 퍼셉트론을 의미한다. 다층 퍼셉트론에서 정보의 흐름은 입력층에서 시작하여 은닉층을 거쳐 출력층으로 진행된다. ④ 역전파 알고리즘은 연결가중을 갱신하기 위해 예측된 결과와 실제값의 차이인 에러의 역으로 전파하여 가중치를 구한다. 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 시계열 예측]] 34. 시계열 자료의 이동평균(MA) 모형에 대한 설명으로 가장 적절한 것은? ① 백색잡음의 비선형 결합이다. ② 시계열 데이터의 비선형 결합이다. ③ ACF, PACF 형태는 AR 모형의 ACF, PACF 형태와 반대이다. ④ 정상성(stationary)을 만족하기 위한 조건이 필요하다. 정답: 3 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 다변량 분석]] 35. 사회연결망분석에서 연결망을 표현하는 분석 방법으로 가장 적절하지 않은 것은? ① K-means 방법 ② 집합론적 방법 ③ 그래프 이론을 이용한 방법 ④ 행렬을 이용한 방법 정답: 1 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 회귀분석]] 36. 회귀분석에 대한 설명으로 가장 적절한 것은? ① 여러 개의 종속변수와 독립변수 사이의 관계를 분석하는 것을 단순회귀분석이라고 한다. ② 독립변수를 활용하여 종속변수가 속하는 그룹을 예측하기 위한 비선형 모델이다. ③ 관찰된 연속형 변수에 대해 두 변수 사이의 모형을 추정한 뒤 변수 간 관계를 파악한다. ④ 종속변수의 변화는 독립변수의 변화를 예측할 수 있다. 정답: 3 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 데이터 마이닝 개요]] 37. 혼합분포모형에 대한 최대 가능도 추정량(Maximum Likelihood Estimation)을 위해 사용되는 알고리즘은? ① k-medoids 알고리즘 ② CHAID 알고리즘 ③ EM 알고리즘 ④ Apriori 알고리즘 정답: 3 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 다변량 분석]] 38. 아래는 4개의 변수를 가진 데이터프레임 USArrests의 주성분분석 결과이다. 첫 번째 주성분 식으로 가장 적절한 것은?![[ADsP 기출문제 이미지 19.png]] ① PC 1= -0.54*Murder - 0.58*Assault - 0.28*UrbanPop - 0.54*Rape ② PC 1= 0.42*Murder + 0.19*Assault - 0.87*UrbanPop + 0.17*Rape ③ PC 1= -0.34*Murder - 0.27*Assault - 0.38*UrbanPop - 0.82*Rape ④ PC 1= 0.65*Murder - 0.74*Assault + 0.13*UrbanPop + 0.09*Rape 정답: 1 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 다변량 분석]] 39. 다음 중 다중공선성(Multicollinearity)에 대한 설명으로 가장 부적절한 것은? ① 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 될 수 있다. ② 높은 상관관계에 있는 설명변수에 대한 계수는 표본의 크기에 관계없이 항상 일정하다. ③ 분산 팽창 인자(VIF)가 10보다 큰 경우 해당하는 회귀계수의 측정이 다중공선성으로 정확도가 낮아질 수 있다. ④ 높은 상관관계가 있는 변수를 제거하면 높은 상관관계가 있는 다른 변수의 측정 계수에 영향을 미친다. 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 데이터 마이닝 개요]] 40. 데이터 탐색 과정에 대한 설명으로 가장 적절하지 않은 것은? ① 변수들의 유형이 char형인지 numeric형인지 등을 확인해야 한다. ② 독립변수의 개수 대비 충분한 데이터양이 확보되는지 확인해야 한다. ③ 변수별로 다양한 단위가 존재할 경우, 변수의 표준화가 필요한지 확인해야 한다. ④ 변수별로 결측치의 존재 여부를 확인하고 결측치가 존재하는 변수는 제거하는 것이 가장 바람직하다. 정답: 4 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 이해 - 데이터와 정보]] 01. 아래에서 DIKW 피라미드 계층은? ``` 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 의미를 부여한 데이터 ( ) ``` 정답: 정보 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 연관분석(Association Analysis)]] 02. 아래에서 설명하는 빅데이터 활용 분석의 기본 테크닉은? ``` A 마트는 금요일 저녁에 맥주를 사는 사람은 기저귀도 함께 구매했다는 사실을 발견하고, 두 가지 상품을 가까운 곳에 진열하기로 결정했다. ( ) ``` 정답: 연관성 분석 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터분석 기획 - 마스터 플랜 수립]] 03. 아래의 괄호 안에 들어갈 용어는? ``` 기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한 ( )(을)를 수행한다. ( )(은)는 정보 기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내·외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터플랜을 수립하는 절차이다. ( ) ``` 정답: ISP [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터분석 기획 - 분석 방법론]] 04. 아래에서 설명하는 데이터 분석 방법론 적용 모델은? ``` 진화적 프로세스 모델의 하나로 일부분을 먼저 개발하여 제공한 후 그 결과를 통해 개선하는 모델 ( ) ``` 정답: 프로토타입 모델 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 군집분석(Clustering)]] 05. 고차원 데이터를 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화하는 클러스터링 방법은? ( ) 정답: SOM(Self-Organizing Map) [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 군집분석(Clustering)]] 06. 계층적 군집분석 결과를 아래와 같이 덴드로그램으로 시각화하였다고 할 때 Tree의 높이(height)가 60일 경우 나타나는 군집의 수를 쓰시오. ( )![[ADsP 기출문제 이미지 20.png]] 정답: 3개 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 분류분석(Classification)]] 07. 분류문제를 예측하기 위한 모형을 개발하여 그 결과를 분석하고자 할 때, 민감도를 산출하는 방식을 (a)∼(d)로 나타내시오. ![[ADsP 기출문제 이미지 21.png]] 정답: a/(a+b) [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 앙상블 기법]] 08. 아래에서 설명하는 앙상블 기법은? ``` - 여러 개의 학습용 데이터(train data)를 만들어 각 데이터마다 매번 분류기를 생성한 뒤 그 분류기 결과를 통합한다. - 학습용 데이터는 원 데이터에서 크기가 같은 표본으로 재추출하되 이전 단계에 만들어진 분류기에서 분류가 잘 되지 않은 데이터에 그 다음 학습용 데이터 생성 시 더 큰 가중치를 준다. ( ) ``` 정답: 부스팅 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 회귀분석]] 09. 아래 괄호 안에 들어갈 용어는? ``` 회귀분석의 정규성이란 ( )(이)가 정규분포를 만족한다는 것을 의미한다. ( ) ``` 정답: 잔차 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] [[데이터 분석 - 연관분석(Association Analysis)]] 10. 거래 건수가 동일한 품목 A와 품목 B의 연관성을 분석하고자 한다. 두 품목의 연관규칙 A → B에 대한 지지도가 0.3이고 신뢰도가 0.6일 때, 향상도는 얼마인가? ( ) 정답: 1.2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]