[[데이터 이해 - 데이터베이스 활용]]
1. 다음 중 데이터베이스와의 통신을 위해 고안된 언어로 가장 적절한 것은?
① Java
② R
③ Python
④ SQL
정답: 4
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 이해 - 전략 인사이트 도출을 위한 필요 역량]]
2. 다음 중 데이터 사이언티스트의 필요 역량으로 가장 부적절한 것은?
① 설득력 있는 스토리텔링
② 통찰력 있는 분석
③ 네트워크 최적화
④ 다분야 간 협력을 위한 커뮤니케이션
정답: 3
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 이해 - 위기 요인과 통제 방안]]
3. 다음 중 빅데이터 위기 요인 중 사생활 침해를 막기 위한 방지 기술로 적절한 것은 무엇인가?
① 익명화
② 일반화
③ 정규화
④ 표준화
정답: 1
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 이해 - 데이터베이스 활용]]
4. 다음 중 빅데이터가 발생시키는 문제를 중간자 입장에서 중재하고 해결하는 역할을 하는 직업은 무엇인가?
① 데이터 관리자
② 알고리즘리스트
③ 정보보호 전문가
④ 애널리스트
정답: 2
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 이해 - 빅데이터의 가치와 영향]]
5. 다음 중 빅데이터 및 데이터 사이언스 등의 기술이 가치를 변화로 가장 적절하지 않은 것은?
① 해당 기술은 비용절감, 고객 서비스 향상, 내부 의사결정 지원 등에서 엄청난 가치를 발견할 것이다.
② 급변하는 환경에 예측하지 못했던 전환이나 위기에 빨리 적응할 수 있게 할 것이다.
③ 사물인터넷의 적용으로 사람의 개입이 최대화 되어 실시간으로 데이터를 수집할 것이다.
④ 디지털화된 정보와 대상들이 서로 연결되기 때문에 연결이 얼마나 원활할 지가 중요해 질 것
정답: 3
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 이해 - 빅데이터의 가치와 영향]]
6. 다음 중 빅데이터 기술의 활용에 대한 설명으로 가장 적절하지 않은 것은?
① 기업 활용 사례로서 구글 검색 기능, 알파고 매출 향상 등이 있다.
② 정부 활용 사례로서 실시간 교통 정보 제공, 기후 정보 제공, 각종 지원 활동 예측 등이 있다.
③ 정부는 이익을 목적으로 개인의 정보를 활용할 수 있는 방안을 모색한다.
④ 가수는 팬들의 음악 청취 기록을 분석해 공연의 음악 순서 방안을 모색한다.
정답:3
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 이해 - 위기 요인과 통제 방안]]
7. 빅데이터 시대 위기 요인으로 가장 부적절한 것은?
① 데이터 오용
② 사생활 침해
③ 데이터 분석 예측
④ 책임원칙 훼손
정답: 3
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 이해 - 데이터베이스의 정의와 특징]]
8. 다음 중 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 처리해주고 데이터베이스를 관리해 주는 소프트웨어는 무엇인가?
① SQL
② ERD
③ Data Dictionary
④ DBMS
정답: 4
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 이해 - 데이터베이스의 정의와 특징]]
9. 다음 중 아래의 데이터 거버넌스 체계가 설명하는 항목은?
메타데이터 관리, 데이터 사전 관리, 데이터 생명주기 관리
① 데이터 표준화
② 데이터 관리 체계
③ 데이터 저장소 관리
④ 표준화 활동
정답: 2
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 이해 - 데이터베이스의 정의와 특징]]
10. 다음 중 데이터 거버넌스의 구성 요소가 아닌 것은?
① 원칙(Principle)
② 조직(Organization)
③ 데이터 매니지먼트(Data Management)
④ 절차(Process)
정답: 3
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터분석 기획 - 분석 기획 방향성 도출]]
11. 분석 마스터 플랜 수립에서 과제 우선순위 결정과 관련된 내용으로 부적절한 것은?
① 가치는 투자비용 요소이다.
② 전략적 중요도, ROI, 실행 용이성은 분석 과제 우선순위 결정에 고려할 사항이다.
③ 시급성과 전략적 필요성은 전략적 중요도의 평가 요소이다.
④ 적용 기술의 안전성 검증은 기술 용이성의 평가 요소이다.
정답: 1
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터분석 기획 - 분석 준비도]]
12. 기업의 데이터 분석 도입 수준을 명확하게 파악하기 위한 방법으로 분석 준비도를 진단 할 수 있다. 다음 중 분석 준비도를 측정하기 위한 요소가 아닌 것은?
① 분석 목표 및 전략
② 분석 기법
③ 분석 데이터
④ 분석 인력 및 조직
정답: 1
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터분석 기획 - 분석 과제 발굴]]
13. 다음 중 난이도와 시급성을 고려하였을 때 우선적으로 추진해야 하는 분석 과제로 적절한 것은?
① 난이도 : 쉬움(Easy), 시급성 : 현재
② 난이도 : 어려움(Difficult), 시급성 : 미래
③ 난이도 : 쉬움(Easy), 시급성 : 미래
④ 난이도 : 어려움(Difficult), 시급성 : 현재
정답: 1
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터분석 기획 - 분석 기획 방향성 도출]]
14. 아래에서 설명하는 데이터 분석 조직 구조로 가장 적절한 것은?
분석 조직 인력을 첨부 부서에 배치하여 분석 업무를 수행하는 형태로서, 전사 차원에서 분석 과제의 우선 순위를 설정하여 수행할 수 있고, 분석 결과를 신속하게 실무에 적용할 수 있다.
① 집중 구조
② 기능 구조
③ 분산 구조
④ 합착 구조
정답: 3
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터분석 기획 - 분석 프로젝트 관리 방안]]
15. 분석 과제 발굴의 상향식 접근법에서 프로세스 분석을 통한 절차로 가장 적절한 것은?
① 분석 요건 정의 → 분석 요건 식별 → 프로세스 분류 → 프로세스 흐름 분석
② 분석 요건 식별 → 프로세스 흐름 분석 → 프로세스 분류 → 분석 요건 정의
③ 프로세스 흐름 분석 → 프로세스 분류 → 분석 요건 정의 → 분석 요건 식별
④ 프로세스 분류 → 프로세스 흐름 분석 → 분석 요건 식별 → 분석 요건 정의
정답: 4
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터분석 기획 - 분석 프로젝트 관리 방안]]
16. 다음 중 빅데이터 분석 방법론의 분석 기획 단계에서 프로젝트 위험 대응 계획을 수립할 때 예상되는 위험에 대한 대응 방법의 구분으로 부적절한 것은?
① 회피(Avoid)
② 관리(Manage)
③ 완화(Mitigate)
④ 수용(Accept)
정답: 2
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 회귀분석]]
17. 다음 중 lasso 회귀모형에 대한 설명으로 부적절한 것은?
① 모형에 포함된 회귀계수들의 절대값의 크기가 클수록 penalty를 부여하는 방식이다.
② 자동적으로 변수선택을 하는 효과가 있다.
③ penalty의 정도를 조정하는 모수가 있다.
④ L2 penalty를 사용한다.
정답: 4
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 다변량 분석]]
18. 아래 데이터 셋(data set) A, B간의 유사성을 맨하탄 거리로 계산하면?
| | A | B |
|---------|-----|-----|
| 키 | 180 | 175 |
| 몸무게 | 65 | 70 |
① 0
② 10
③ √10
④ √50
정답:2
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 군집분석(Clustering)]]
19. 혼합분포군집 모형의 특징으로 적절하지 않은 것은?
① 확률분포를 도입하여 군집을 수행하는 모형 기반 군집 방법이다.
② 군집을 몇 개의 모수로 표현할 수 있다.
③ 모수 추정에서 데이터가 커지면 수행하는 데 시간이 걸릴 수 있다.
④ 군집의 크기가 작을수록 추정의 정도가 쉽다.
정답: 4
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 분류분석(Classification)]]
20. 다음 중 분류(Classification) 모델링에 대한 설명으로 가장 적절한 것은?
① 데이터의 이해를 더 쉽게 하기 위해 데이터를 특정 기준으로 분류 및 범주화하고 등급화하는 방법을 말한다.
② 같이 팔리는 물건과 같이 묶어 아이템을 분류하는 것을 의미한다.
③ 군집분석과 동일하게 레코드 자체가 먼저 분류 되어지지 않아도 적용할 수 있다.
④ 대표적인 분석 방법으로 장바구니 분석 기법이 존재한다.
정답: 1
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 통계학 개론]]
21. 다음 중 아래의 표가 나타내는 확률질량함수를 가진 확률변수 X의 기댓값 E(X)로 가장 적절한 것은?
| X | 1 | 2 | 3 | 4 |
|-----|-----|-----|-----|-----|
| f(x) | 0.5 | 0.3 | 0.2 | 0 |
① 1
② 1.7
③ 2.5
④ 10
정답: 2
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 군집분석(Clustering)]]
22. EM 알고리즘을 사용하여 혼합분포 모형을 추정하고자 한다. 아래와 같은 그래프가 도출되었을 때, 다음 중 가장 적절한 해석은?
![[ADsP 기출문제 이미지 06.png]]
① 반복횟수 2회만에 로그-가능도 함수가 최대가 되었다.
② 성규혼합분포가 2가지로 판찰되었다.
③ 모수의 추정을 위해 10회 이상의 반복횟수가 필요하다.
④ 로그-가능도 함수의 최소값이 -1040이다.
정답: 1
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 통계학 개론]]
23. 확률변수 X의 확률은 아래와 같이 나타낼 수 있다. 다음 중 옳은 것은?
![[ADsP 기출문제 이미지 07.png]]
① X의 기댓값은 13/6이다.
② X가 1 혹은 2일 확률은 1/2 보다 크다.
③ X가 4일 확률은 0 보다 크다.
④ X가 1, 2, 3 중 하나의 값을 가질 확률은 1보다 작다.
정답: 1
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 데이터 마이닝 개요]]
24. 아래 오분류표를 이용하여 계산된 정밀도는 무엇인가?
![[ADsP 기출문제 이미지 08.png]]
① 3/10
② 4/10
③ 3/9
④ 7/11
정답: 3
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 회귀분석]]
25. Credit 데이터는 400명의 신용카드 고객에 대해 신용카드 대금(Balance)과 소득(Income), 학생 여부(Student=Y/N)를 포함한다. Balance를 종속변수로 하는 아래의 모형 적합 결과 중 가장 부적절한 것은?
![[ADsP 기출문제 이미지 09.png]]
① 위의 모형은 Balance를 설명하는데 통계적으로 유의하다.
② Income이 증가할수록 Balance가 증가하는 경향이 있다.
③ Income과 StudentYes의 교호작용은 유의하지 않다.
④ Income이 증가함에 따라 커지는 Balance의 증가분이 학생 여부에 따라 유의적인 차이가 있다.
정답: 4
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 회귀분석]]
26. 다음 중 회귀분석에서 모형의 설명력을 확인하기 위해 사용되는 결정계수의 특성으로 부적절한 것은?
① 결정계수는 0에서 1의 값을 가진다.
② 높은 값을 가질수록 측정된 회귀식의 설명력이 높다.
③ 종속변수와 독립변수 사이의 표본상관 계수와 같다.
④ 추정된 회귀식에 의해 설명되지 않는 변동의 비율을 나타낼 수 있다.
정답: 3
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 회귀분석]]
27. 다음 중 목표변수가 연속형인 회귀나무에서 분류 기준값의 선택 방법으로 가장 적절한 것은?
① 카이제곱 통계량, 지니지수
② 지니지수, F-통계량
③ F-통계량, 분산 감소량
④ 분산 감소량, 엔트로피 지수
정답: 3
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 군집분석(Clustering)]]
28. 다음 중 자기조직화지도(Self-Organizing Maps, SOM)에 대한 것으로 옳지 않은 것은?
① SOM 모델은 입력층과 경쟁층으로 구성되어 있다.
② 입력층이 뉴런들은 경쟁층에 있는 뉴런들과 부분적으로(locally) 연결되어 있다.
③ 단 하나의 전방 패스를 사용함으로써 속도가 매우 빠르다.
④ 경쟁 학습은 연결 강도를 반복적으로 재조정하여 학습한다.
정답: 2
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 회귀분석]]
29. 다음 중 선형회귀모형의 통계적으로 유의미한지 평가하는 통계량으로 가장 적절한 것은?
① F-statistics
② T-statistics
③ Chi-statistics
④ R-square
정답: 1
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 회귀분석]]
30. 아래 그래프는 392대의 자동차에 대한 연비(mpg)와 엔진 마력(horsepower)를 포함하고 있다. 다음 중 이에 대한 설명으로 가장 적절하지 않은 것은?
![[ADsP 기출문제 이미지 10.png]]
① mpg를 설명하기 위해 horsepower를 설명변수로 하는 단순선형회귀모형은 적절하다.
② horsepower가 증가할수록 mpg가 감소하는 경향이 있다.
③ mpg와 horsepower 간의 피어슨 상관계수는 두 변수의 관계를 잘 설명하지 못할 수도 있다.
④ mpg와 horsepower는 음의 상관관계를 가진다.
정답: 3
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 연관분석(Association Analysis)]]
31. 다음 중 연관규칙의 측정 지표 중 품목 A, B에 대한 지지도를 구하기 위한 식으로 적절한 것은?
① (A 또는 B가 포함된 거래 수)/(전체 거래 수)
② (A와 B가 동시에 포함된 거래 수)/(전체 거래 수)
③ (A와 B가 동시에 포함된 거래 수)/(A를 포함하는 거래 수)
④ (A와 B가 동시에 포함된 거래 수)/(A 또는 B가 포함된 거래 수)
정답: 2
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 데이터 마이닝 개요]]
32. 다음 중 아래 데이터 마이닝 추진 단계를 순서대로 나열한 것은?
가. 목적 정의
나. 데이터 준비
다. 데이터 가공
라. 데이터 마이닝 기법 적용
마. 검증
① 가 → 나 → 다 → 라 → 마
② 가 → 나 → 다 → 마 → 라
③ 가 → 다 → 나 → 라 → 마
④ 가 → 나 → 라 → 다 → 마
정답: 1
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 분류분석(Classification)]]
33. 아래에서 설명하는 활성화 함수로 가장 적절한 것은?
입력층이 직접 출력층에 연결되는 단층 신경망에서 이 활성화 함수를 사용하면 로지스틱 회귀모형의 작동원리과 유사해진다.
① 계단 함수
② tanh 함수
③ ReLU 함수
④ 시그모이드 함수
정답: 4
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 분류분석(Classification)]]
34. 다음 중 로지스틱 회귀모형에 대한 설명으로 가장 적절한 것은?
① 일반적으로 반응변수가 범주형인 경우에 적용되는 모형이다.
② 시계열 예측에서 가장 많이 활용되는 모형 중 하나이다.
③ 반응변수가 비율 척도일 때, 많이 활용되는 모형 중 하나이다.
④ 로지스틱 회귀모형은 오즈의 관점에서 해석할 수 없다.
정답: 1
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 군집분석(Clustering)]]
35. 다음 중 군집분석에 대한 설명으로 가장 적절하지 않은 것은?
① 분할적 군집은 모든 데이터를 단일 군집에 속한다고 정의하고 시작하는 방법으로 상위 군집에서 잘못된 결정을 하면 하위 군집에 파급되는 정도가 크다는 단점이 있다.
② k-평균군은 중심으로부터 거리를 기반으로 군집화하기 때문에 구형으로 모여져 있는 볼록(convex)한 데이터 세트에서는 비교적 잘 작동하나 오목한(non-convex) 형태의 군집 모델은 특성을 구현해내는 데 성능이 떨어진다.
③ k-medoid 모델은 실제 데이터에 있는 잡음 수집경으로 하기 때문에 이상값이나 잡음(noise) 처리에 있어 우수하나, k-평균법에 비해 계산량이 많다는 단점이 있다.
④ 밀도 기반 클러스터링(DBSCAN) 모델은 따로 있게 연결된 데이터 집합을 동일한 군집으로 판단하는 방식이지만 k-평균법 모델처럼 모양과 형태의 데이터 세트에서는 군집 특성을 잘 찾아내지 못한다.
정답: 4
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 데이터 마이닝 개요]]
36. 다음 중 예측모형의 과적합을 방지하기 위해 활용되는 자료 추출 방법으로 가장 적절하지 않은 것은?
① 홀드아웃 방법
② 교차검증
③ 부스트랩
④ 의사결정나무
정답: 4
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 데이터 마이닝 개요]]
37. 아래 오분류표를 이용하여 계산된 특이도는 무엇인가?
![[ADsP 기출문제 이미지 11.png]]
① 0.20
② 0.25
③ 0.75
④ 0.80
정답: 2
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 군집분석(Clustering)]]
38. 다음 중 군집의 개수를 미리 정하지 않아도 되어 탐색적 분석에 사용하는 군집 모형으로 적절한 것은?
① k-평균군집 모형
② SOM 모형
③ 계층적군집 모형
④ 혼합분포군집 모형
정답: 3
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 연관분석(Association Analysis)]]
39. 다음 중 연관분석의 설명으로 가장 적절한 것은?
① 품목 수와 상관없이 분석에 필요한 계산은 일정하다.
② 세분화된 품목에 대해 연관 규칙을 찾으려 할 때 적절한 방법이다.
③ 상대적으로 거래량이 적은 품목에 대해서 적용하기 좋은 방법이다.
④ 조건 문(if-then)으로 표현되는 연관분석의 결과물을 이해하기 쉽다.
정답: 4
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 시계열 예측]]
40. 다음 중 시계열 데이터의 정상성(stationary)에 대한 설명으로 가장 적절하지 않은 것은?
① 비정상 시계열 자료는 정상성을 만족하도록 데이터를 정상 시계열로 만든 후에 시계열 분석을 수행한다.
② 정상 시계열은 어떤 일정한 값을 중심으로 일정한 변동 폭을 가진다.
③ 시계열 자료가 추세를 보이는 경우에는 차분(differencing)을 통해 비정상 시계열을 정상 시계열로 바꿀 수 있다.
④ 시계열 자료가 정상성을 만족하는지 판단하기 위해 시계열 자료 그림을 통해 자료의 이상점을 살핀다.
정답: 4
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 이해 - 데이터와 정보]]
41. 아래에서 설명하는 것은 무엇인가?
문자, 기호, 음성, 화상, 영상 등 상호 연관된 다수의 콘텐츠를 정보 처리 및 정보통신 기기에 의하여 체계적으로 수집, 축적하여 다양하게 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체
( )
정답: 데이터베이스
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 이해 - 빅데이터의 가치와 영향]]
42. 아래에서 설명하고 있는 빅데이터 활용 기본 테크닉은 무엇인가?
가) 생명의 진화를 모방하여 최적해(Optimal Solution)를 구하는 알고리즘으로 존 홀랜드(John Holland)가 1975년에 개발하였다.
나) ‘최대의 시청률을 얻으려면 어떤 시간대에 방송해야 하는가?’와 같은 문제를 해결할 때 사용된다.
다) 어떤 미지의 함수 Y=f(x)를 최적화하는 해를 찾기 위해, 진화를 모방한(Simulated evolution) 탐색 알고리즘이라고 말할 수 있다.
( )
정답: 유전자알고리즘
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터분석 기획 - 분석 과제 발굴]]
43. 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 분석 과제 발굴 방식을 무엇이라고 하는가?
( )
정답: 하향식 접근 방식
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터분석 기획 - 분석 기획 방향성 도출]]
44. 아래에서 설명하는 데이터 분석 조직 구조는 무엇인가?
전사 분석업무를 별도의 분석 전담 조직에서 담당
전략적 중요도에 따라 분석과제의 우선순위를 정해서 진행 가능
현업 업무부서의 분석업무와 이중화/이원화 가능성 높음
( )
정답: 집중 구조
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 시각화]]
45. 아래에서 설명하는 시각화 방법은?
여러 대상 간의 관계에 관한 수치적 자료를 이용해 유사성에 대한 측정지름을 상대적 거리로 시각화하는 방법이다.
( )
정답: 다차원 척도법
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 다변량 분석]]
46. 최적변수식을 선택하기 위한 방법 중 모든 독립변수 후보를 포함한 모형에서 시작하여 가장 적은 영향을 주는 변수를 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하는 방법은 무엇인가?
( )
정답: 후진 제거법
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 데이터 마이닝 개요]]
47. 모형 평가방법 중 주어진 원천 데이터를 랜덤하게 두 분류로 분리하여 교차 검증을 실시하는 방법으로 하나는 모형의 학습 및 구축을 위한 훈련용 자료로, 다른 하나는 성과 평가를 위한 검증용 자료로 사용하는 방법은 무엇인가?
( )
정답: 홀드아웃 방법
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 통계학 개론]]
48. P(A)=0.3, P(B)=0.4이다. 두 사건 A와 B가 독립일 경우 P(B|A)는 얼마인가?
( )
정답: 0.4
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 통계학 개론]]
49. 이산형 확률분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률 분포는 무엇인가?
( )
정답: 포아송 분포
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]
[[데이터 분석 - 군집분석(Clustering)]]
50. 아래 빈칸에 들어갈 용어는?
( )는 계층적 군집분석 방법 중 하나로 군집과 군집, 또는 데이터와의 거리계산 시, 최단거리를 계산하여 거리가 가까운 데이터, 또는 군집을 새로운 군집으로 형성하는 방법이다. 이 방법은 사슬 구조의 군집이 생길 수 있다.
( )
정답: 최단 연결법
출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]]