[[데이터 이해 - 빅데이터의 이해]] 1. 빅데이터 시대에는 데이터를 많이 확보했거나 확보할 수 있는 기업이 혁신을 시도하거나 경쟁력과 생산성 향상을 도모하기에 유리하다. 다음 보기 중 이러한 속성에 부합되기 어려운 기업 분류는? ① 신용카드회사 ② 여행사 ③ B2B기업 ④ 이동통신사 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 이해 - 데이터와 정보]] 2. 데이터와 정보의 차이를 구분하는 것은 중요하다. 다음 중 정보에 대한 예로 가장 부적절한 것은? ① 평균 구매액 ② 주문 수량 ③ 베스트셀러 ④ 우량 고객 정답: 2 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 이해 - 위기 요인과 통제 방안]] 3. 영화 '마이너리티 리포트'에 나오는 것처럼 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포될 수도 있는 사례를 통해 알 수 있는 빅데이터 시대의 위기 요인으로 적절한 것은? ① 소셜 네트워크 ② 사생활 침해 ③ 데이터 오용 ④ 책임 원칙 훼손 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 이해 - 미래의 빅데이터]] 4. 미국을 의미하는 'The United States'는 미국의 남북전쟁이 발발하기 전까지는 아메리카 대륙의 주(州)들이 연합이라는 의미로 복수로 취급되었다는 것을 구글의 'Ngram Viewer'를 통해 확인할 수 있었는데 이와 같이 빅데이터에 거는 기대를 표현한 것은 어느 것인가? ① 산업혁명의 석탄, 철 ② 21세기의 원유 ③ 렌즈 ④ 플랫폼 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 이해 - 빅데이터의 가치와 영향]] 5. 다음 중 빅데이터의 가치 산정이 어려운 이유의 사례로 보기 어려운 것은? ① 전기차 배터리 정보를 충전소 최적지 선정과 같은 2차적 목적에 활용 ② 은행 대출심사 알고리즘 작동 원리 이해의 어려움 ③ 구글 검색에서 나타나는 것과 같은 데이터의 반복적 재사용 ④ 독자의 전자책 독서 순서 정보가 저자의 글쓰기 방식에 영향 정답: 2 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 이해 - 빅데이터 분석과 전략 인사이트]] 6. 전략적 분석을 통해 놀라운 성과를 얻은 미국의 최대 카지노 관련 회사인 하라스엔터테인먼트의 회장인 러브먼은 분석 기반 경영이 도입되지 못하는 이유를 이야기하였다. 보기에서 그 내용이 아닌 것은? ① 기존 관행을 그냥 따를 뿐 중요한 시도로 하지 않는다. ② 경영진이 의사결정 시 직관적으로 결정했을 때 성과가 나오는 것을 경영진의 진정한 재능이라고 생각한다. ③ 분석적 실험을 능숙하게 해내는 사람이 많지 않고 적절한 방법론적 지식도 제대로 익히지 못한 사람이 분석업무를 한다. ④ 사람들이 아이디어를 낸 사람이 누군지 보다는 아이디어 자체에 관심을 더 많이 가지고 있다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 이해 - 미래의 빅데이터]] 7. 인문학 열풍 중 최근 사회경제적 환경의 변화로 아닌 것은? ① 복잡한 세계화에서 단순한 세계화로 변화했다. ② 비즈니스의 중심이 제품생산에서 서비스로 이동되었다. ③ 경제 산업의 논리가 생산에서 시장창조로 바뀌었다. ④ 기존 사고의 틀을 벗어나 문제를 바라보고 창의적으로 문제를 해결하는 능력이 요구되고 있다. 정답: 1 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 이해 - 개인정보 비식별화 기술]] 8. 다음 개인정보 비식별화 기술 중 아래에서 설명하고 있는 것으로 가장 적절한 것은? * 개인정보의 주요 식별요소를 다른 값으로 대체하여 개인 식별을 어렵게 만드는 기술 ① 가명처리(Pseudonymization) ② 데이터삭제(Data Reduction) ③ 법규화(Data Suppression) ④ 데이터마스킹(Data Masking) 정답: 1 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터분석 기획 - 분석 기획 방향성 도출]] 9. 일차원적 분석을 통해서도 해당 부서나 업무 영역에서는 상당한 효과를 얻을 수 있다. 다음 중 업무 영역과 분석 사례의 연결이 가장 부적절한 것은? ① 마케팅관리 - 상점과 가게 위치 선정 ② 재무관리 - 거래처 선정 ③ 공급체인 관리 - 적정 재고량 결정 ④ 인력관리 - 이직 인력 예측 정답: 2 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 이해 - 빅데이터의 가치와 영향]] 10. 다음 중 빅데이터 분석 활용의 효과로 가장 적절하지 않은 것은? ① 서비스 산업의 확대와 제조업의 축소 ② 상품 개발과 조립 비용의 절감 ③ 운송 비용의 절감 ④ 새로운 수익원의 발굴 및 활용 정답: 1 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터분석 기획 - 마스터 플랜 수립]] 11. KDD 분석 절차 중 분석 목적에 맞는 변수를 찾고 데이터 차원을 축소하는 과정은? ① 데이터셋 선택(Selection) ② 데이터 전처리(Processing) ③ 데이터 변환(Transformation) ④ 데이터 마이닝(Data Mining) 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터분석 기획 - 분석 방법론]] 12. 데이터 분석 방법론 중 CRISP-DM에 대한 설명으로 옳지 않은 것은? ① 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되어 SPSS, NCR, Daimler Chrysler 등이 참여하였다. ② 각 단계는 폭포수 모델처럼 구성되어 있다. ③ 모델링 과정에서 데이터셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있다. ④ CRISP-DM은 계층적 프로세스 모델로서 4레벨로 구성되어 있다. 정답: 2 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터분석 기획 - 분석 기획 방향성 도출]] 13. 비즈니스 모델 캔버스를 활용한 과제 발굴 영역에 대한 설명으로 옳지 않은 것은? ① 업무 : 제품 및 서비스를 생산하기 위해 운영하는 내부 프로세스 및 주요 자원 관련 도출 ② 제품 : 생산 및 제공하는 제품·서비스를 개선하기 위한 관련 주제 도출 ③ 고객 : 제품·서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주제 도출 ④ 규제와 감사 : 분석을 수행하는 시스템 영역 및 이를 운영·관리하는 시스템의 관점에서 주제 도출 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터분석 기획 - 분석 기획 방향성 도출]] 14. 분석 과제를 도출하기 위한 상향식 접근방식에 대한 설명으로 옳지 않은 것은? ① 상향식 접근방식의 데이터 분석은 비지도 학습방법에 의해 수행된다. ② 분석적으로 사물을 인식하려는 'Why'관점에서 접근한다. ③ 인간관계로부터 상관관계분석으로의 이동이라는 변화를 만들어냈다. ④ 사물을 있는 그대로 인식하는 'What'관점에서 접근한다. 정답: 2 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터분석 기획 - 분석 기획 방향성 도출]] 15. 분석과제의 주요 관리 영역이 아닌 것은? ① Data Size ② Data Complexity ③ Speed ④ Analytic & Accessibility 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터분석 기획 - 마스터 플랜 수립]] 16. 마스터 플랜 수립 시점에서 데이터 분석의 지속적인 적용과 확산을 위한 거버넌스 체계의 구성 요소가 아닌 것은? ① Process ② System ③ Organization ④ Data Resource 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터분석 기획 - 분석 기획 방향성 도출]] 17. 기업의 데이터 분석 수준을 진단하는 과정에서 기업에 필요한 6가지 분석 구성요소를 갖추고 있고, 현재 부분적으로 도입되어 지속적인 확산이 필요한 기업들을 분석 수준을 포트폴리오 사분면으로 정의한다면 어디에 해당하는가? ① 준비형 기업 ② 도입형 기업 ③ 정착형 기업 ④ 확산형 기업 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터분석 기획 - 분석 프로젝트 관리 방안]] 18. 다음 중 분석 프로젝트 관리에 대한 설명으로 가장 부적절한 것은? ① 분석 프로젝트 관리는 프로젝트관리 지침(KSA ISO 21500:2013)을 가이드로 활용할 수 있다. ② 데이터 분석 모델의 품질을 평가하기 위해서 SPICE를 활용할 수 있다. ③ 분석 프로젝트의 일정계획 수립 시 데이터 수집에 대한 철저한 통제와 관리가 필요하다. ④ 분석 프로젝트의 최종 결과물의 분석 보고서 형태 또는 시스템인지에 따라 프로젝트 관리에 차이가 있다. 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터분석 기획 - 분석 기획 방향성 도출]] 19. 분석 과제를 발굴하기 위한 접근법 중 상향식 접근방식의 특징으로 올바른 것은? ① 타당성 검토의 과정을 거치며 경제적, 데이터 및 기술적 타당도 등이 있다. ② 일반적으로 상향식 접근 방식의 데이터 분석은 지도학습 방법에 의해 수행된다. ③ Design thinking 중 Ideate 단계에 해당한다. ④ 인사이트 도출한 후 반복적인 시행착오를 통해서 수정하며 문제를 도출하는 일련의 과정이다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터분석 기획 - 분석 기획 방향성 도출]] 20. 다음 분석 성숙도 모델의 설명 중 다른 단계는 무엇인가? ① 분석 COE 조직 운영 ② 전문 담당분석에서 수행 ③ 분석기법 도입 ④ 관리자가 분석 수행 정답: 1 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 통계학 개론]] 21. 다음 중 이산형 확률분포에 해당하지 않는 것은? ① 기하 분포 ② 이항 분포 ③ 지수 분포 ④ 초기하 분포 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - R기초]] 22. 다음 중 R에서 사용 가능한 데이터 오브젝트에 관한 설명으로 가장 부적절한 것은? ① 차원을 가진 벡터를 행렬이라고 한다. ② 리스트에서 원소들은 다른 모드여도 상관없다. ③ 벡터에서 모든 원소는 같은 모드여야 한다. ④ 데이터 프레임은 테이블로 된 데이터 구조로써 행렬로 표현된다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - R기초]] 23. 다음 중 결과가 다른 R코드는? ① a <- c(1,10) ② b <- seq(1,10,1) ③ c <- 1:10 ④ d <- seq(10,100,10)/10 정답: 1 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 통계학 개론]] 24. 중속변수를 설명하는데 가장 중요한 독립변수로 적절한 것은? ① p-value가 가장 작은 변수 ② 표준화 자료로 추정한 계수가 가장 큰 변수 ③ 원 자료로 추정한 계수가 가장 큰 변수 ④ 중속변수의 상관관계분석에서 상관계수가 가장 큰 변수 정답: 2 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 연관 분석(Association Analysis)]] 25. 아래 거래 전표에서 연관성 규칙 A → B 일 때의 지지도는? ![[Screenshot 2024-07-31 at 21.13.48.png]] ① 15% ② 20% ③ 25% ④ 30% 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 통계학 개론]] 26. 다음 중 중심극한정리(Central Limit Theorem)에 대한 설명으로 가장 부적절한 것은? ① 여러 통계적 방법론에는 정규데이터가 필요하지만 중심극한정리를 사용하면 비정규적인 모집단에도 이와 유사한 절차를 적용할 수 있다. ② 표본평균의 분포는 표본의 크기가 커짐에 따라 정규분포로 근사한다. ③ 모집단의 분포가 정규분포에 가까워져야 표본평균의 분포가 정규분포로 근사하게 된다. ④ 모집단의 분포가 대칭이면 표본의 크기가 작아도 되지만 모집단의 분포가 비대칭이면 표본의 크기가 30이상이 되어야 한다. 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 통계학 개론]] 27. 다음은 데이터의 척도에 관한 설명이다. 설명이 틀린 것은? ① 명목척도는 측정 대상이 어느 집단에 속하는지 분류할 때 사용되며, 성별, 출생지 정보가 해당된다. ② 순서척도는 측정 대상이 순서를 갖는 자료를 의미하며, 만족도, 선호도, 학력, 신용등급 정보가 해당된다. ③ 구간척도는 측정 대상의 순서와 순서 사이의 간격에 의미가 있는 자료를 의미하며, 온도, 물가지수, 주가지수 정보가 해당된다. ④ 비율척도는 측정 대상의 값이 비율로 정의되는 자료를 의미하며, 물가성장율, 흡연감소율의 정보가 해당된다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 통계학 개론]] 28. 다음은 확률변수에 관한 설명이다. 설명이 옳지 않은 것은? ① 확률변수는 특정값이 나타날 가능성이 확률적으로 주어지는 변수이며, 실수값으로 표현된다. ② 이산형 확률변수는 확률변수의 공간이 유한하거나 셀 수 있는 경우를 의미하며, 이항분포, 기하분포, 초기하분포가 해당한다. ③ 연속형 확률변수는 확률변수의 공간이 무한한 경우를 의미하며, 베르누이 확률분포, 포아송 분포, 정규분포가 해당한다. ④ 균일분포는 확률변수의 구간 [a, b] 내에서 모든 확률이 동일한 분포를 의미하며, 확률은 1/(b-a)가 된다. 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 다변량 분석]] 29. 회귀분석에서 변수 선택법에 대한 설명으로 가장 부적절한 것은? ① 전진선택법은 중요하다고 생각되는 설명변수부터 차례로 선택하는 방법이다. ② 전진선택법과 후진제거법의 결과가 항상 동일하지는 않다. ③ 모든 가능한 회귀모형을 독립변수들의 조합으로 이루어진 회귀모형 중 가장 적합하게 나타난 모형을 선택하는 방법이다. ④ 전진선택법은 변수를 추가할 때 기존 변수들의 중요도는 영향을 받지 않는다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 시계열 예측]] 30. 분해시계열에 대한 설명 중 잘못된 것은? ① 분해시계열이란 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 말한다. ② 분해시계열의 분해 요소는 추세요인, 계절요인, 순환요인, 회귀요인으로 크게 4가지로 이루어진다. ③ 추세요인은 자료의 형태가 오르거나 내리는 추세를 따르는 경우로 선형적 형태, 지수형태 등이 있다. ④ 순환요인은 경제적이나 자연적인 이유가 없이 알려지지 않은 주기를 가지고 변화하는 자료 형태이다. 정답: 2 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 다변량 분석]] 31. 두 개 이상의 독립변수를 사용해 하나의 종속변수의 변화를 설명하는 다중회귀분석을 실시할 것이다. 다음 중 모형을 적합 시킨 후, 모형이 적절하지 확인하기 위해 체크해야 할 사항으로 부적절한 것은? ① 상관계수를 통해 모형의 설명력을 확인한다. ② F-value를 통해 모형이 통계적으로 유의한지 확인한다. ③ 모형이 데이터에 잘 적합되어 있는지를 확인한다. ④ t-value, p-value를 통해 유의하지 확인한다. 정답: 1 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 다변량 분석]] 32. 주성분분석은 차원의 단순화를 통해 서로 상관되어 있는 변수 간의 복잡한 구조를 분석하는 것이 목적이다. 다음 중 주성분분석에 대한 설명으로 적절하지 않은 것은 무엇인가? ① 다변량 자료를 저차원의 그래프로 표시하기 이상치(Outlier) 탐색에 사용한다. ② 변수들끼리 상관성이 있는 경우, 해석상의 복잡한 구조적 문제가 발생하때 이를 해결하기 위해 사용한다. ③ 회귀분석에서 다중공선성(Multicollinearity)의 문제를 해결하기 위해 활용한다. ④ 개개의 변수를 주요한 m개의 주성분으로 표현하여 전체 변동을 설명하는 것으로 m개의 주성분은 원래 변수와는 관계없이 생성된 변수들이다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 다변량 분석]] 33. 아래는 데이터프레임 mtcars를 이용해 회귀분석을 수행한 R 명령의 결과이다. 다음 중 이 결과에 대한 설명으로 가장 부적절한 것은? ```R summary(lm(mpg~., data=mtcars)) Call: lm(formula = mpg ~ ., data = mtcars) Residuals: Min 1Q Median 3Q Max -3.4506 -1.6044 -0.1196 1.2193 4.6271 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 12.30337 18.71788 0.657 0.5181 cyl -0.11144 1.04502 -0.107 0.9161 disp 0.01334 0.01873 0.747 0.4635 hp -0.02148 0.02177 -0.987 0.3350 drat 0.78711 1.63357 0.481 0.6353 wt -3.71530 1.89441 -1.961 0.0633 . qsec 0.82104 0.73084 1.123 0.2739 vs 0.31776 2.10451 0.151 0.8814 am 2.52023 2.05665 1.225 0.2340 gear 0.65541 1.49326 0.439 0.6652 carb -0.19942 0.82875 -0.241 0.8122 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2.65 on 21 degrees of freedom Multiple R-squared: 0.869, Adjusted R-squared: 0.8066 F-statistic: 13.93 on 10 and 21 DF, p-value: 3.793e-07 ``` ① 오차의 표준편차 추정치는 2.65이다. ② 모든 독립변수 수준 0.1에서 유의하지 않다. ③ 후진제거법을 적용할 때 가장 먼저 제거될 독립변수는 cyl 이다 ④ 유의수준 0.01 하에서 이 회귀모형은 유의하다 정답: 2 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 데이터 마이닝 개요]] 34. 데이터 마이닝을 위한 데이터 분할에 대한 설명으로 틀린 것은 어느 것인가? ① 데이터를 구축용(Training), 검증용(Validation), 시험용(Test)으로 분리한다. ② 일반적으로 데이터 구축용, 검증용, 시험용 데이터를 50%, 30%, 20%로 정한다. ③ 데이터가 충분하지 않을 때는 구축용과 시험용 데이터만 구분하여 활용한다. ④ 통계학에 적용되는 교차확인(Cross-Validation)은 데이터 마이닝에서 활용할 수 없다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 데이터 마이닝 개요]] 35. Default 데이터는 10,000명의 신용카드 고객에 대한 체납 여부(default)와 학생여부(student), 카드 잔고(balance), 연봉(income)을 포함하고 있다. 고객의 체납 확률을 예측하기 위한 아래 결과에 대한 설명으로 가장 부적절한 것은? ```R summary(glm(default~,data=Default,family="binomial")) Call: glm(formula = default ~ ., family = "binomial", data = Default) Deviance Residuals: Min 1Q Median 3Q Max -2.4691 -0.1418 -0.0557 -0.0203 3.7383 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.087e+01 4.923e-01 -22.080 < 2e-16 *** studentYes -6.468e-01 2.363e-01 -2.738 0.00619 ** balance 5.737e-03 2.319e-04 24.738 < 2e-16 *** income 3.033e-06 8.203e-06 0.370 0.71152 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2920.6 on 9999 degrees of freedom Residual deviance: 1571.5 on 9996 degrees of freedom AIC: 1579.5 Number of Fisher Scoring iterations: 8 ``` ① 로지스틱 회귀모형을 사용한 결과이다. ② 카드 잔고와 연봉이 동일한 수준일 때, 학생(studentYes)이 학생이 아닌 고객보다 체납확률이 낮다. ③ 세 설명변수 모두 체납확률을 예측하는데 유의한 영향이 있다. ④ 동일한 신분과 연봉 수준일 때 카드 잔고가 높을수록 체납 확률이 높다. 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 데이터 마이닝 개요]] 36. 데이터 마이닝 분석 기법 중 의사결정나무 분석의 특성으로 잘못 표현한 것은 어느 것인가? ① 의사결정나무 모형의 결과는 누구나 이해가 쉽고 설명이 용이하다. ② 의사결정나무 알고리즘의 모형 정확도는 다른 분류모형에 뒤지지 않는다. ③ 의사결정나무 알고리즘은 대용량 데이터에서도 빠르게 만들 수 있고 데이터의 분류 작업도 신속히 진행할 수 있다. ④ 의사결정나무 알고리즘은 비정상적인 잡음 데이터에서는 민감하여 분류가 쉽지 않다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 통계학 개론]] 37. 다음 중 비모수적 방법에 대한 설명으로 가장 부적절한 것은? ① 관측된 자료가 주어진 분포를 따른다는 가정을 받아들일 수 없을 때 이용하는 검정법이다. ② 자료의 추출된 모집단의 분포에 대해 제약을 가하지 않고 검정을 실시하는 방법이다. ③ 관측된 자료로 구한 표본평균과 표본분산 등을 이용해 검정을 실시한다. ④ 관측된 자료가 특정 분포를 따른다고 가정할 수 없을 때 이용한다. 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 군집분석(Clustering)]] 38. 비계층적 군집분석의 장점에 대한 설명이 잘못된 것은? ① 주어진 데이터의 내부 구조에 대한 사전 정보가 없어도 의미 있는 결과를 얻을 수 있다. ② 다양한 형태의 데이터의 적용이 가능하다. ③ 분석방법의 적용이 용이하다. ④ 사전에 주어진 목적이 없으므로 결과 해석이 쉽다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 데이터 마이닝 개요]] 39. 아래의 데이터 마이닝 분석 예제 중 비지도(Unsupervised) 분석을 수행해야 하는 예제는? 가. 우편물을 인쇄해 우편번호 판별 분석을 통해 우편물을 자동으로 분류 나. 고객의 과거 거래 구매 패턴을 분석하여 고객이 구매하지 않은 상품을 추천 다. 동일 차종의 수리 보고서 데이터를 분석하여 차량 수리에 소요되는 시간을 예측 라. 상품을 구매할 때 고유 주소한 상품을 구매한 고객들의 구매 데이터를 분석하여 쿠폰을 발행 ① 나, 다 ② 가, 라 ③ 가, 다 ④ 나, 라 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 연관분석(Association Analysis)]] 40. 다음 중 연관분석에서 '항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률은 어느 정도인가'를 나타내 주는 연관성의 정도로 정의되는 척도로 가장 적절한 것은? ① 지지도 ② 신뢰도 ③ 특이도 ④ 민감도 정답: 2 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 다변량 분석]] 41. 데이터 프레임 attitude 아래와 같이 R명령을 적용하고 결과를 얻었다. 다음 설명 중 가장 부적절한 것은? ```R > cor(attitude) rating complaints privileges learning raises critical advance rating 1.0000000 0.8254176 0.4261619 0.6236782 0.5901390 0.1564392 0.1550863 complaints 0.8254176 1.0000000 0.5588282 0.5967358 0.6691975 0.1877143 0.2245796 privileges 0.4261619 0.5588282 1.0000000 0.4933310 0.4454979 0.1476231 0.3432934 learning 0.6236782 0.5967358 0.4933310 1.0000000 0.6403144 0.1195652 0.5316198 raises 0.5901390 0.6691975 0.4454979 0.6403144 1.0000000 0.3768830 0.5741862 critical 0.1564392 0.1877143 0.1442731 0.1195652 0.3768830 1.0000000 0.2833432 advance 0.1550863 0.2245796 0.3432934 0.5316198 0.5741862 0.2833432 1.0000000 ``` ① 모든 변수들 사이에 양(+)의 상관관계가 존재한다. ② rating과 complaints 사이에 가장 강한 상관관계가 존재한다. ③ critical과 learning 사이의 상관관계가 가장 약하다. ④ 모든 변수의 분산이 1이다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 데이터 마이닝 개요]] 42. 아래의 데이터는 두 종류의 수면유도제(group)에 대해 무작위로 선정된 20명의 환자를 대상으로 수면 시간의 증가(extra)를 측정한 자료이다. 다음 중 결과에 대한 설명으로 가장 부적절 한 것은? ```R > sleep extra group 1 0.7 1 2 -1.6 1 3 -0.2 1 4 -1.2 1 5 -0.1 1 6 3.4 1 7 3.7 1 8 0.8 1 9 0.0 1 10 2.0 1 11 1.9 2 12 0.8 2 13 1.1 2 14 0.1 2 15 -0.1 2 16 4.4 2 17 5.5 2 18 1.6 2 19 4.6 2 20 3.4 2 > summary(sleep$extra) Min. 1st Qu. Median Mean 3rd Qu. Max. -1.600 -0.025 0.950 1.540 3.400 5.500 ``` ① 평균적으로 1.54시간의 수면시간 증가를 가져왔다. ② 3.4시간 이상 수면이 증가한 환자는 약 25%이다. ③ 모든 환자들의 수면시간이 증가하였다. ④ 가장 많이 증가한 수면시간은 5.5시간이다. 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 다변량 분석]] 43. 아래의 산점도 행렬에 대한 설명으로 가장 부적절한 것은? (변수: Ozone, Solar.R, wind, temp) ![[02회 모의고사 그림 01.png]] ① temp와 wind 간의 관계는 상대적으로 선형이다. ② Solar.R과 ozone의 관계는 명확하지 않다. ③ ozone과 wind 간에는 양의 상관관계가 있다. ④ wind와 Solar.R 간에는 비선형 관계가 있다. 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 데이터 마이닝 개요]] 44. 다음 중 과대적합(Overfitting)에 대한 설명으로 가장 부적절한 것은? ① 과대적합이 발생할 것으로 예상되면 학습을 종료하고 업데이트하는 과정을 반복해 과대적합을 방지할 수 있다. ② 과대적합은 분석 변수 수가 너무 많이 존재하고 분석 모형이 복잡할 때 발생한다. ③ 분석 데이터가 모집단의 특성을 설명하지 못하면 발생한다. ④ 생성된 모형은 분석 데이터에 최적화되었기 때문에 훈련 데이터의 작은 변화에 민감하게 반응하는 경우는 발생하지 않는다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 군집분석(Clustering)]] 45. 거리를 이용하여 데이터 간 유사도를 측정할 수 있는 척도는 데이터의 속성과 구조에 따라 적합한 것을 사용해야 한다. 다음 중 유사도 척도에 대한 설명으로 부적절한 것은? ① 유클리드 거리는 두 점을 잇는 가장 짧은 직선거리이다. 공통으로 점수를 매긴 항목의 거리를 통해 판단하는 척도이다. ② 맨해튼 거리는 각 방향 각각의 이동 거리 합으로 계산된다. ③ 표준화 거리는 각 변수를 해당 변수의 표준편차로 변환한 후 유클리드 거리를 계산한 거리이다. 표준화가 되면 편차 척도 차이, 분석의 차이로 인해 왜곡을 피할 수 있다. ④ 마할라노비스 거리는 변수의 표준편차를 고려한 거리 척도이나 변수 간 상관성이 있는 경우에는 표준화 거리 사용을 검토해야 한다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 시계열 예측]] 46. 다음 중 시계열 데이터를 조정하여 예측하는 평활법(Smoothing method)에 대한 설명으로 적절하지 않은 것은? ① 이동평균법이란 시계열 데이터가 일정한 주기를 갖고 비슷한 패턴으로 움직이고 있는 경우에 적용시킬 수 있는 방법이다. ② 이동평균법은 시계열자료에서 계절변동과 추세변동을 제거하여 순환변동만 가진 시계열자료로 변환하는 방법이다. ③ 단순지수평활법은 추세나 계절성이 없이 평균이 변화하는 시계열에 사용하는 방법이다. ④ 이중지수평활법은 평균을 평활하는 모수와 함께 추세를 나타내는 식을 다른 모수로 평활하는 방법이다. 정답: 2 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 기초 통계분석]] 47. 다음 가설검정 용어 중 '귀무가설이 옳은데도 이를 기각하는 확률의 크기'를 나타내는 용어는 무엇인가? ① 제 2종 오류 ② 검정통계량 ③ 기각역 ④ 유의수준 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 기초 통계분석]] 48. K-평균군집은 단순하고 빠르게 수행될 수 있지만 변수의 크기에 영향을 받음에 따라 군집 분석을 수행하기 전에 정규화 과정이 필수적이다. 다음 정규화 방법 중 원 데이터의 분포를 유지하면서 정규화가 가능한 방법은 무엇인가? ① z-score 정규화 ② min-max 정규화 ③ 로그 정규화 ④ 벡터 정규화 정답: 2 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 기초 통계분석]] 49. 상품의 가격을 조사한 데이터를 나타낸 다음의 Box Plot에 대한 설명으로 옳은 것은? ![[02회 모의고사 그림 02.png]] ① 평균 -1.5*IQR ≤ 데이터 ≤ 평균 +1.5*IQR 범위를 벗어난 데이터를 이상치라고 한다. ② 평균(mean)은 160이다. ③ 3사분위수보다 높은 가격 데이터가 약 50% 이상이다. ④ 가격의 IQR(Interquartile Range)은 60이다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] [[데이터 분석 - 분류분석(Classification)]] 50. 다음 중 의사결정나무 모형에서 과대적합되어 현실 문제에 적용할 수 있는 적절한 규칙이 나오지 않는 현상을 방지하기 위해 사용되는 방법으로 가장 적절한 것은? ① 가지치기(Pruning) ② 스테밍(Stemming) ③ 정지규칙(Stopping rule) ④ 랜덤포레스트(Random forest) 정답: 1 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]]