[[데이터 이해 - 데이터베이스의 정의와 특징]] 1. 데이터베이스의 특징으로 가장 부적절한 것은? ① 데이터베이스는 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용할 수 있도록 구성되어 있다. ② 데이터베이스는 통합된 데이터(Integrated Data)다. ③ 데이터베이스는 변화하는 데이터로 데이터의 삽입, 삭제, 갱신을 한다고 하더라도 항상 현재의 정확한 데이터를 유지해야 한다. ④ 데이터베이스는 검색 기능을 가지고 있으므로 다양한 방법으로 필요한 정보를 검색할 수 있다. 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 이해 - 데이터와 정보]] 2. DIKW 피라미드의 계층 중 “B마트 보다 상대적으로 저렴한 A마트에서 연필을 사야겠다.”의 내용에 해당하는 계층은 무엇인가? ① 지혜 ② 지식 ③ 정보 ④ 데이터 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 이해 - 데이터베이스 활용]] 3. 다음 중 데이터 사이언티스트(Data Scientist)에게 요구되는 소프트 역량(Soft Skill)이 아닌 것은? ① 이론적 지식 ② 창의적 사고 ③ 커뮤니케이션 기술 ④ 비주얼라이제이션을 활용한 설득력 정답: 1 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 이해 - 데이터베이스 활용]] 4. 다음 중 빅데이터 분석에 경제성을 제공해 준 결정적인 기술로 가장 적절한 것은? ① 저장장치 비용의 지속적인 하락 ② 텍스트 마이닝 ③ 클라우드 컴퓨팅 ④ 스마트폰의 급속한 확산 정답: 3 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 이해 - 데이터베이스 활용]] 5. 아래와 같은 SQL 문장을 사용할 때, 출력되는 결과로 옳은 것은? ```sql select customer_name 고객명, e_customer_name 고객 영문명 from customer where e_customer_name like '_A%'; ``` ① 영문명이 A로 시작하는 고객들의 이름 ② 영문명에 A를 포함한 고객들의 비율 ③ 위치 상관없이 영문명에 A를 포함하는 고객들의 이름 ④ 영문명에 두 번째 문자가 A인 고객들의 이름 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 이해 - 위기 요인과 통제 방안]] 6. 인터넷 등 각종 경로로 정보를 수집하는 구글은 이미 지난 2010년에 서비스 이용자가 1시간 뒤에 어떤 일을 할지 87% 정확도로 예측할 수 있는 데이터와 분석 신뢰도를 확보하고 있다고 했다. 또, 여행사실을 트위터한 사람의 집을 강도가 노리는 고전적 사례도 발생했다. 이러한 사례를 통해 알 수 있는 빅데이터 시대의 위기 요인으로 적절한 것은? ① 소셜 네트워크 ② 책임 원칙 훼손 ③ 데이터 오용 ④ 사생활 침해 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 이해 - 빅데이터의 가치와 영향]] 7. 사물끼리 정보를 주고 받는 사물인터넷 시대를 빅데이터의 관점에서 바라볼 때 다음 중 사물인터넷의 의미로 가장 적절한 것은? ① 모든 것의 데이터화(Datacfication) ② 서비스 지능화(Intelligent Service) ③ 분석 고급화(Advanced Analytics) ④ 정보 공유화(Information Sharing) 정답: 1 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 이해 - 빅데이터의 가치와 영향]] 8. 빅데이터와 데이터 사이언스의 미래를 위한 외부 환경적 측면에서 인문학의 열풍의 원인을 설명한 것 중 옳지 않은 것은? ① 단순세계화에서 복잡한 세계화로 변화하는 과정에서 인문학의 중요성을 인식하여야 한다. ② 비즈니스의 화두가 글로벌 네트워크를 통한 대량공급으로 변함에 따라 가격 인하 정책의 성공을 위해서는 인문학이 중요하다. ③ 비즈니스 중심이 제품생산에서 서비스로 이동함에 따라 인문학의 중요성이 증가하고 있다. ④ 경제와 산업의 논리가 생산에서 시장 창조로 변화하면서 인문학의 중요성이 증가하고 있다. 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터분석 기획 - 분석 방법론]] 9. 데이터 사이언티스트가 효과적인 분석 모델 개발을 위해 고려해야 하는 사항으로 가장 부적절한 것은? ① 분석모델이 예측할 수 없는 위험을 살피기 위해 현실세계로 돌아보고 분석을 경험과 세상에 대한 통찰력과 함께 활용한다. ② 가정들과 현실의 불일치에 대해 끊임없이 고찰하고 모델의 능력에 대해 항상 의구심을 가진다. ③ 분석의 객관성에 의문을 제기하고 분석 모델에 포함된 가정과 해석 개입 등의 한계를 고려한다. ④ 넓은 시각에서 모델 범위 바깥의 요인들을 판단할 수 있도록 가능한 많은 과거 상황 데이터를 모델에 포함한다. 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터분석 기획 - 분석 방법론]] 10. 아래의 SQL 함수 중 그룹함수를 적용해서 나온 결과값 중 원하는 조건에 부합하는 자료만 산출할 때 사용하는 함수는? ① WHERE ② ORDER ③ GROUP BY ④ HAVING 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터분석 기획 - 분석 과제 발굴]] 11. 분석은 분석의 대상(What) 및 분석의 방법(How)에 따라 4가지 분석 주제로 나눌 수 있다. 분석의 대상이 명확하게 무엇인지 모르면서 기존 분석 방법으로 새로운 분석을 수행하는 방식의 분석 주제 유형은 무엇인가? ① 최적화(Optimization) ② 통찰(Insight) ③ 솔루션(Solution) ④ 발견(Discovery) 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터분석 기획 - 분석 방법론]] 12. 다음 중 성공적인 분석을 위해서 고려해야 할 요소로 가장 부적절한 것은? ① 분석 데이터에 대한 고려 ② 활용 가능한 유즈케이스 탐색 ③ 원점에서 솔루션 탐색 ④ 장애 요소에 대한 사전 계획 수립 정답: 3 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터분석 기획 - 분석 과제 발굴]] 13. 분석 과제를 발굴하기 위한 접근법 중 하향식 접근방법의 과정이 아닌 것은? ① 기업의 내/외부 환경을 포함하는 비즈니스 모델과 외부 사례를 기반으로 문제를 탐색한다. ② 기업 내부의 과거 데이터를 무조건 결합 및 활용한다. ③ 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의한다. ④ 도출된 분석 문제가 가설에 대한 대안을 과제화하기 위해 타당성을 평가한다. 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터분석 기획 - 분석 과제 발굴]] 14. 분석기회 발굴의 범위 중 시장니즈 탐색 관점에서 고객 니즈의 변화에 해당하는 것이 아닌 것은? ① 고객 ② 채널 ③ 영향자들 ④ 대체재 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 이해 - 위기 요인과 통제 방안]] 15. 거시적 관점의 메가 트렌드에서 현재의 조직과 해당 산업에 폭넓게 영향을 미치는 사회·경제적 요인인 STEEP로 폭넓게 기회를 탐색한다. STEEP 중 Political(정치영역)의 주요 관점에 대한 설명으로 가장 적절한 것은? ① 주요 정책 방향, 경제, 지정학적 동향 등 거시적인 흐름을 토대로 분석기회를 도출한다. ② 산업과 경제 구조 변화 동향에 따른 시장의 흐름을 파악하여 분석기회를 도출한다. ③ 정부, 사회단체, 시민사회의 환경에 관한 관심과 규제 동향을 파악하여 분석기회를 도출한다. ④ 과학, 기술, 의학 등 최신 기술의 등장 및 변화를 파악하여 분석기회를 도출한다. 정답: 1 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터분석 기획 - 분석 프로젝트 관리 방안]] 16. 분석 프로젝트 영역별 주요 관리 항목이 아닌 것은? ① 품질 ② 시간 ③ 가격 ④ 자원 정답: 3 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터분석 기획 - 분석 과제 발굴]] 17. 다음 중 분석 과제 관리 프로세스에 대한 설명으로 가장 적절하지 않은 것은 무엇인가? ① 분석 아이디어 발굴, 분석과제 후보제안, 분석과제 확정 프로세스는 과제 발굴 단계에 속해 있다. ② 분석과제로 확정되면 분석 과제를 풀(Pool)로 관리한다. ③ 분석과제 중에 발생된 시사점과 분석 결과물은 풀(Pool)로 관리하고 공유된다. ④ 과제 수행 단계에서는 팀 구성, 분석과제 선별, 분석과제 진행관리, 결과 공유 프로세스가 있다. 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터분석 기획 - 분석 방법론]] 18. 다음 데이터 분석 조직의 유형 중 별도의 분석 조직이 없고 해당 업무부서에서 분석을 수행하는 방식에 해당하는 것은? ① 기능형 ② 분산형 ③ 복합형 ④ 집중형 정답: 1 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터분석 기획 - 분석 과제 발굴]] 19. 다음 중 분석 기회 발굴의 범위 확장시 경쟁자 확대 관점으로 보았을 때 포함되는 영역으로 가장 적절하지 않은 것은? ① 대체재 ② 경쟁자 ③ 경쟁 채널 모델 ④ 신규 진입자 정답: 3 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터분석 기획 - 분석 방법론]] 20. 다음 중 분석 과제 발굴 중 틀린 것은? ① 다자이 사고는 상황식 접근방식과 하향식 접근방식을 반복적으로 수행하는 의사결정 방식이다. ② 상황식 접근방식의 데이터 분석은 비지도 학습방법에 의해 수행된다. ③ 하향식 접근법은 사물을 있는 그대로 인식하는 'What' 관점에서 보아야 한다. ④ 하향식 접근법은 문제탐색, 문제정의, 해결안탐색, 타당성검토의 순서로 진행된다. 정답: 3 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - R기초]] 21. 모델을 개발하여 운영상황에서 실제 테스트를 할 때 모델 개발 데이터를 통해서는 높은 적중률을 보이지만 테스트 데이터에서는 적중률이 떨어져 적중률을 유지하지 못하는 것을 무엇이라고 하는가? ① 일반화 ② 과대적합 ③ 미적합 ④ 과소평가 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 기초 통계분석]] 22. 측정대상이 갖고 있는 속성의 양을 측정하는 것으로 측정결과가 숫자로 표현되나 해당 속성이 전혀 없는 상태면 절대값이 없으며 두 관측 값 사이의 비율은 별 의미가 없게 된다. 온도, 지수 등이 해당되는 이 척도는 무엇인가? ① 명목척도 ② 순서척도 ③ 구간척도 ④ 비율척도 정답: 3 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - R기초]] 23. 다음 중 아래의 R코드를 수행한 결과에 대한 설명으로 옳은 것은? ```r > c(2, 4, 6, 8) + c(1, 3, 5, 7, 9) ``` ① 경고 메시지와 함께 결과가 출력된다. ② 4개의 숫자로 이루어진 벡터가 출력된다. ③ 9개의 숫자로 이루어진 벡터가 출력된다. ④ 에러 메시지가 출력되고, 명령 수행이 중단된다. 정답: 1 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 기초 통계분석]] 24. 다음 중 모분산의 추론에 대한 설명으로 적절하지 않은 것은 무엇인가? ① 이분산에 의한 분산비 검증은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F분포를 따른다. ② 모분산의 추론의 대상이 되는 경우는 모집단의 변동성 또는 편차의 정도에 관심이 있을 때이다. ③ 모집단이 정규분포를 따르지 않더라도 중심극한 정리를 통해 정규 모집단으로부터의 모분산에 대한 검증을 유사하게 시행할 수 있다. ④ 평균군집단에서 n개를 단순임의 추출한 표본의 분산은 자유도가 n-1인 분포를 따른다. 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 기초 통계분석]] 25. 다음 다중회귀분석을 위해 사용되는 변수선택방법에 대한 설명 중 변수선택방법과 설명이 잘못 연결되어 있는 것은? ① 전진선택법(Forward Selection)은 상수항만 포함된 모형에서 출발하여 설명력이 좋은 변수를 하나씩 추가하는 방법이다. ② 단계적 방법(Stepwise Method)은 설명력이 나쁜 변수를 제거하거나 모형에서 제외된 변수 중 모형의 설명력을 가장 잘 개선하는 변수를 추가하는 방법이다. ③ 후진제거법(Backward Elimination)은 모든 변수가 포함된 모형에서 설명력이 나쁜 변수를 하나씩 제거하는 방법이다. ④ 최적선택법(Optimum Selection)은 전진선택법과 후진제거법을 결합한 방법으로 최적의 변수를 선택하도록 하는 방법이다. 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 결측값 처리와 이상값 검색]] 26. 이상치를 찾는 것은 데이터 분석에서 데이터 전처리를 어떻게 할지 결정할 때 사용할 수 있다. 다음 중 상자그림을 이용하여 이상치를 판정하는 방법에 대한 설명으로 가장 부적절한 것은? ① IQR=Q3-Q1이라고 할 때, Q1−1.5∗IQR<x<Q3+1.5∗IQRQ1 - 1.5*IQR < x < Q3 + 1.5*IQRQ1−1.5∗IQR<x<Q3+1.5∗IQR을 벗어나는 x를 이상치라고 규정한다. ② 평균으로부터 3*표준편차 범위를 벗어나는 것들을 비정상이라 규정하고 제거한다. ③ 이상치는 변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인할 수 있다. ④ 이상치는 분포를 왜곡할 수 있으나 실제 오류 인간인지에 대해서는 통계적으로 판단하지 못하기 때문에 제거여부는 실무자들을 통해서 결정하는 것이 바람직하다. 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 통계학 개론]] 27. 통계분석에서 자료를 수집하고 그 수집된 자료로부터 어떤 정보를 얻고자 하는 경우에는 항상 수집된 자료가 특정한 확률분포를 따른다고 가정한다. 다음 중 연속형 확률분포가 아닌 것은? ① 이항분포 ② 정규분포 ③ t분포 ④ F분포 정답: 1 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 데이터 마트]] 28. 다음 표본 추출 방법에 관한 설명 중 잘못된 것은 무엇인가? ① 표본의 크기를 결정할 때 가장 중요한 부분은 표본이 모집단을 얼마나 설명하는지에 대한 대표성의 확보이다. ② 단순랜덤추출법은 모집단에서 샘플을 뽑을 때 각각의 샘플이 모두 동일한 확률을 가지고 무작위로 추출되는 방법이다. ③ 계통추출법은 모집단을 군집으로 구분하고 선정된 군집의 원소를 모두 샘플로 추출하는 다단계 추출 방법이다. ④ 층화추출법은 모집단을 몇 개의 집단으로 구분하고, 각 집단의 크기와 분산을 고려하여 각 집단마다 샘플을 추출하는 방법이다. 정답: 3 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 기초 통계분석]] 29. 다음 중 비모수검정이 아닌 것을 고르시오. ① 윌콕슨의 순위합 검정 ② 맨-휘트니 U검정 ③ 스피어만의 순위상관계수 ④ 자기상관검정 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 통계학 개론]] 30. 두 변수 X, Y의 상관분석에 관한 내용이다. 설명이 옳지 않은 것은? ① 등간척도로 측정된 두 변수 간의 상관관계는 피어슨 상관계수(Pearson Correlation)를 통해 확인할 수 있다. ② 상관계수가 0이면 두 변수 X, Y 사이에 선형관계가 없다. ③ 서열척도로 측정된 두 변수간의 상관관계는 스피어만 상관계수(Spearman Correlation)를 통해 확인할 수 있다. ④ R에서 상관계수를 구하기 위해서는 rcor() 함수를 사용하면 되고 type인자를 통해 피어슨과 스피어만 상관계수를 선택할 수 있다. 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 기초 통계분석]] 31. 다음 중 회귀분석에서 나온 결정계수(R²)에 대한 설명으로 옳지 않은 것은? ① 총제곱의 중 설명된 제곱의 합의 비율을 뜻한다. ② 종속변수에 미치는 영향이 적은 독립변수가 추가된다면 결정계수는 변하지 않는다. ③ R²의 값이 클수록 회귀선으로 실제 관찰치를 예측하는 데 정확성이 높아진다. ④ 독립변수의 숫자와 상관없이 표본상관계수 r의 제곱값과 같다. 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 시계열 예측]] 32. 다음 시계열 분석의 기초가 되는 개념인 정상성(Stationarity)의 특징에 관한 설명이 옳지 않은 것은? ① 평균이 일정하고, 즉 모든 시점에 대한 일정한 평균을 가진다. ② 시계열 분석에서 비정상 시계열 자료는 시계열 분석을 할 수 없다. ③ 분산도 시점에 의존하지 않는다. ④ 공분산은 단지 시차에만 의존하고 실제 어느 시차 t, s에 의존하지 않는다. 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 시계열 예측]] 33. 시계열에 관한 설명 중 틀린 것은? ① 대부분의 시계열은 비정상 자료이다. 그러므로 비정상 자료를 정상성 조건에 만족시키기 정상 시계열로 만든 후 시계열 분석을 한다. ② 시계열의 정상 시계열인지 비정상 시계열인지 판단하기 위해 폭발적인 추세를 보이거나 시간에 따라 분산이 변하는지 관찰해야 한다. ③ 비정상 시계열은 정상 시계열로 변형하고자 할 때 변환과 차분의 방법을 사용한다. ④ 일반적으로 평균이 일정하지 않은 비정상 시계열은 변환을 통해, 분산이 일정하지 않은 비정상 시계열은 차분을 통해 정상 시계열로 바꾼다. 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 기초 통계분석]] 34. 아래의 잔차도를 보고 회귀분석의 가정 중 어떤 가정이 위배되었다고 판단할 수 있는가? ![[01회 모의고사 그림 01.png]] ① 비상관성 ② 등분산성 ③ 선형성 ④ 독립성 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 다변량 분석]] 35. 다음 headsize 데이터는 25개 가구에서 첫 번째와 두 번째 성인 아들의 머리길이(head)와 머리폭(breadth)를 보여준다. 이에 대한 설명 중 가장 부적절한 것은? ```r > head(headsize) head1 breadth1 head2 breadth2 1, 191 155 179 145 2, 195 149 201 152 3, 181 148 195 149 4, 183 153 188 149 5, 176 144 171 142 6, 208 157 192 152 > str(headsize) num 1:25, 1:4 191 195 181 183 176 208 189 197 188 192 ... - attr(*, "dimnames")=List of 2 ..$ : NULL ..$ : chr 1:4 "head1" "breadth1" "head2" "breadth2" > out<-princomp(headsize) > print(summary(out),loadings=TRUE) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 15.1 5.42 4.12 3.000 Proportion of Variance 0.8 0.10 0.06 0.032 Cumulative Proportion 0.8 0.91 0.97 1.000 Loadings: Comp.1 Comp.2 Comp.3 Comp.4 head1 0.570 0.693 -0.442 breadth1 0.406 0.219 0.870 -0.173 head2 0.601 -0.633 -0.209 -0.441 breadth2 0.386 -0.267 -0.881 ``` ① 주성분분석의 결과를 보여준다. ② 첫 두 개의 주성분으로 전체 데이터 분산의 91%를 설명할 수 있다. ③ 두 번째 주성분은 네 개의 원변수와 양의 상관관계를 가진다. ④ 네 개의 주성분을 사용하면 전체 데이터 분산을 모두 설명할 수 있다. 정답: 3 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 데이터 마이닝 개요]] 36. 데이터 마이닝의 활용 예가 아닌 것은 어느 것인가? ① 병원에서 환자 데이터를 이용해 해당 환자에게 발생 가능성이 높은 병을 예측한다. ② 웹사이트에 접속한 고객 정보를 활용해 고객에게 맞는 상품과 서비스를 추천한다. ③ 대용량 데이터를 통해 선거의 후보자 인지를 확인을 위한 전화조사에 활용할 대상 리스트를 만들어 낸다. ④ 은행에서 대출 심사를 할 때, 고객 데이터를 활용해 고객의 우량/불량을 예측한다. 정답: 3 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 분류분석(Classification)]] 37. 데이터 마이닝 모델링 방법 중 분류(Classification) 방법으로 활용되지 않는 R 패키지는 무엇인가? ① rpart ② kmeans ③ party ④ marginTree 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 데이터 마이닝 개요]] 38. 모형의 성능을 평가할 때 사용되는 방법론 중 사후확률과 각 분류 기준값에 의해 오분류 행렬을 만든 다음, 민감도(Sensitivity)와 특이도(Specificity)를 산출하여 도표에 도식화하여 평가하는 방식은 무엇인가? ① ROC(Receive Operating Characteristics) ② 이익도표(Lift) ③ AUROC ④ 예측률(Prediction Rate) 정답: 1 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 군집분석(Clustering)]] 39. K-means 군집분석과 계층적 군집분석의 차이를 잘못 설명한 것은? ① K-means 군집분석은 계층적 군집분석과는 달리 한 개체가 처음 속한 군집에서 다른 군집으로 이동해 재배치될 수 있다. ② K-means 군집분석은 초기값에 대한 의존이 커서 초기값을 어떻게 하느냐에 따라 군집이 달라질 수 있다. ③ K-means 군집분석은 동일한 거리계산법을 적용하면 몇 번을 시행해도 동일한 결과가 나온다. ④ 계층적 군집분석은 동일한 거리계산법을 적용하면 몇 번을 시행해도 동일한 결과가 나온다. 정답: 3 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 연관분석(Association Analysis)]] 40. 데이터를 이용해 분석한 결과 “샌드위치를 사는 고객의 30%가 탄산수를 함께 산다”와 같은 결과를 얻기 위해 실행되는 데이터 마이닝 분석 방법론은 무엇인가? ① 군집분석(Clustering) ② 분류분석(Classification Analysis) ③ 장바구니분석(Market Basket Analysis) ④ 순차분석(Sequence Analysis) 정답: 3 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 결측값 처리와 이상값 검색]] 41. 다음 중 이상값 검색을 활용한 응용시스템으로 가장 적절한 것은? ① 장바구니분석 시스템 ② 부정사용방지 시스템 ③ 데이터 마트 ④ 교차판매 시스템 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 통계학 개론]] 42. 아래는 스위스의 47개 프랑스어 사용지역의 출산율(Fertility)과 관련된 변수들을 사용하여 얻은 결과이다. 회귀모형에 관한 다음 설명 중 가장 부적절한 것은? ```r > summary(lm(Fertility~., data=swiss)) Call: lm(formula = Fertility ~ ., data = swiss) Residuals: Min 1Q Median 3Q Max -15.2743 -5.2617 0.5032 4.1198 15.3213 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 66.91518 10.70604 6.250 1.91e-07 * Agriculture -0.17211 0.07030 -2.448 0.01873 * Examination -0.25801 0.25388 -1.016 0.31546 Education -0.87094 0.18343 -4.758 2.43e-05 * Catholic 0.10412 0.03526 2.953 0.00519 Infant.Mortality 1.07705 0.38172 2.822 0.00734 --- Signif. codes: 0 ‘*’ 0.001 ‘’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 7.165 on 41 degrees of freedom Multiple R-squared: 0.7067, Adjusted R-squared: 0.671 F-statistic: 19.76 on 5 and 41 DF, p-value: 5.594e-10 ``` ① 유의수준 0.05하에서 위의 회귀모형은 유의적으로 출산율을 설명한다. ② 위의 설명변수들은 출산율 변동의 원인임을 보여준다. ③ 위의 회귀모형은 출산율 변동의 70.67%를 설명한다. ④ 수정결정계수는 0.671이다. 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - R기초]] 43. 아래 데이터 셋 A, B 간의 유사성을 유클리드 거리로 계산하면? ![[01회 모의고사 그림 02.png]] ① 5 ② √5 ③ √25 ④ √50 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 데이터 마이닝 개요]] 44. 분류문제를 예측하기 위한 모형을 개발하여 테스트 데이터를 통해 그 결과를 분석하고자 한다. 아래 표를 활용하여 민감도를 구하려고 할 때 민감도를 산출하는 방식은 어떤 것인가? ![[01회 모의고사 그림 03.png]] ① TP/(TP+FN) ② FN/(TP+FN) ③ FP/(FP+TN) ④ TN/(FP+TN) 정답: 1 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 다변량 분석]] 45. 다음 중 주성분 회귀 분석에 대한 설명으로 가장 적절하지 않은 것은? ① 차원 축소된 주성분으로 회귀분석에 적용하는 방법으로 자료의 시각화에 도움을 줄 수 있다. ② 변수들의 선형결합으로 이루어진 주성분은 서로 직교하며, 기존 자료보다 적은 수의 주성분들을 회귀분석의 독립변수로 설정할 수 있다. ③ 주성분의 개수는 기존보다 큰 고유값(Eigenvalue)의 개수로 정할 수 있다. ④ 개별 고유값의 분해 가능 여부를 판단하여 주성분의 개수를 정한다. 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 군집분석(Clustering)]] 46. 군집분석은 비지도학습 기법 중 하나로 사전 정보 없이 자료를 유사한 대상끼리 묶는 방법이다. 다음 중 군집분석에 대한 설명으로 부적절한 것은? ① 군집분석에서는 군집의 개수나 구조에 대한 가정없이 다변량 데이터로부터 거리 기준에 의한 자발적인 군집화를 유도하지 않는다. ② 군집 결과에 대한 안정성을 검토하는 방법은 교차타당성을 이용하는 방법을 생각할 수 있다. ③ 다변량 데이터를 두 집단으로 나누어 각 집단에서 군집분석을 한 후 합쳐서 군집분석한 결과와 비교하여 비슷하면 결과에 대한 안정성이 있다고 할 수 있다. ④ 군집의 분리나 논리적 기반을 살펴보기 위해서는 군집 간 변동의 크기 차이를 조사한다. 정답: 1 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 기초 통계분석]] 47. 아래는 근로자의 임금 등에 대한 데이터에 대한 분석 결과이다. 다음 중 유의수준 0.05에서 이에 대한 설명으로 가장 적절하지 않은 것은? ```r > summary(Wage,c("wage", "age", "jobclass")) wage age jobclass Min. : 20.09 Min. :18.00 1. Industrial :1544 1st Qu.: 85.38 1st Qu.:33.75 2. Information:1456 Median :104.92 Median :42.00 Mean :111.70 Mean :42.41 3rd Qu.:128.68 3rd Qu.:51.00 Max. :318.34 Max. :80.00 > model<-lm(wage~age+jobclass+age*jobclass,data=Wage) > summary(model) Call: lm(formula = wage ~ age + jobclass + age * jobclass, data = Wage) Residuals: Min 1Q Median 3Q Max -105.656 -24.568 -6.104 16.433 196.810 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.52831 3.76133 19.548 < 2e-16 * age 0.71966 0.08744 8.230 2.57e-16 * jobclass2. Information 22.73086 5.63141 4.036 5.56e-05 * age:jobclass2. Information -0.16017 0.12785 -1.253 0.21 --- Signif. codes: 0 ‘*’ 0.001 ‘’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 40.16 on 2996 degrees of freedom Multiple R-squared: 0.07483, Adjusted R-squared: 0.07391 F-statistic: 80.78 on 3 and 2996 DF, p-value: < 2.2e-16 ``` ① 직업군이 동일할 때, 나이가 많을수록 임금이 올라가는 경향이 있다. ② 나이가 동일할 때, Information 직군이 Industrial 직군에 비해 평균적으로 임금이 높다. ③ 나이에 따라 두 직군 간의 임금의 평균 차이가 유의하게 변하지 않는다. ④ 위의 회귀식은 유의수준 0.05에서 임금의 변동성을 설명하는데 유의하지 않다. 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 시계열 예측]] 48. 시계열의 요소분해법은 시계열 자료가 몇 가지 변동들의 결합으로 이루어져 있다고 보고 변동요소별로 분해하여 쉽게 분석하기 위한 것이다. 다음 중 변이 요소에 대한 설명이 부적절한 것은? ① 추세변동은 장기적으로 변화하는 큰 흐름을 나타내는 것으로 자료가 장기적으로 커지거나 작아지는 변화를 나타내는 요소이다. ② 계절변동은 일정한 주기를 가지고 반복적으로 같은 패턴을 보이는 변화를 나타내는 요소이다. ③ 순환변동은 경제 전반이나 특정 산업의 부침을 나타내 주는 것을 말한다. ④ 불규칙변동은 불규칙하게 변동하는 급격한 환경변화, 천재지변 같은 것으로 발생하는 변동을 말한다. 정답: 3 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 데이터 마이닝 개요]] 49. 다층 신경망은 여러개의 은닉층(hidden layer)을 가질 수 있는 데, 다음 중 은닉층 노드의 수가 너무 적을 경우 나타나는 특징을 설명한 것으로 가장 적절한 것은? ① 네트워크의 일반화가 어렵다. ② 네트워크가 복잡한 의사결정 경계를 만들 수 없다. ③ 오차의 역전파 알고리즘에서 기울기 소실 문제가 발생한다. ④ 훈련에 많은 시간이 소요된다. 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] [[데이터 분석 - 기초 통계분석]] 50. 다음 중 자료의 중앙 50% 데이터들이 흩어진 정도를 의미하는 것은? ① 중앙값(median) ② 사분위수 범위(Interquantile Range) ③ 표준편차(Standard Deviation) ④ 평균(Mean) 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]]