데이터 분석 - 통계학 개론

27. 통계분석에서 자료를 수집하고 그 수집된 자료로부터 어떤 정보를 얻고자 하는 경우에는 항상 수집된 자료가 특정한 확률분포를 따른다고 가정한다. 다음 중 연속형 확률분포가 아닌 것은? ① 이항분포 ② 정규분포 ③ t분포 ④ F분포 정답: 1 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] 풀 수 있는 문제 --- 30. 두 변수 X, Y의 상관분석에 관한 내용이다. 설명이 옳지 않은 것은? ① 등간척도로 측정된 두 변수 간의 상관관계는 피어슨 상관계수(Pearson Correlation)를 통해 확인할 수 있다. ② 상관계수가 0이면 두 변수 X, Y 사이에 선형관계가 없다. ③ 서열척도로 측정된 두 변수간의 상관관계는 스피어만 상관계수(Spearman Correlation)를 통해 확인할 수 있다. ④ R에서 상관계수를 구하기 위해서는 rcor() 함수를 사용하면 되고 type인자를 통해 피어슨과 스피어만 상관계수를 선택할 수 있다. 정답: 4 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] 이 문제는 상관분석(correlation analysis)과 관련된 여러 개념에 대한 이해를 묻고 있습니다. 각 선택지에 나온 개념들을 이해하기 위해, 관련된 기본 개념들을 예시와 함께 설명하겠습니다. ### 1. 피어슨 상관계수(Pearson Correlation) 피어슨 상관계수는 두 변수 간의 **선형적인 관계**를 측정합니다. 이때, 변수들은 **등간척도(Interval scale)**나 **비율척도(Ratio scale)**로 측정되어야 합니다. 피어슨 상관계수는 -1과 1 사이의 값을 가지며, 다음과 같은 의미를 갖습니다: - 1: 완벽한 양의 선형 관계 (X가 증가할 때 Y도 증가) - -1: 완벽한 음의 선형 관계 (X가 증가할 때 Y는 감소) - 0: 선형 관계가 없음 **예시:** 학생들의 수학 성적(X)과 과학 성적(Y) 간의 관계를 피어슨 상관계수를 통해 분석할 수 있습니다. ### 2. 상관계수 0의 의미 상관계수가 0이면 두 변수 사이에 **선형적** 관계가 없다는 것을 의미합니다. 그러나 **비선형적**인 관계는 있을 수 있습니다. 즉, X와 Y가 어떤 비선형적 패턴을 따를 수는 있지만, 피어슨 상관계수는 이러한 패턴을 탐지하지 못합니다. **예시:** X가 Y의 제곱에 비례한다면 (예: Y = X²), 피어슨 상관계수는 0에 가까울 수 있지만, 실제로는 비선형 관계가 존재합니다. ### 3. 스피어만 상관계수(Spearman Correlation) 스피어만 상관계수는 **서열척도(Ordinal scale)**로 측정된 변수들 간의 **순위**에 기반한 상관관계를 측정합니다. 즉, 두 변수 간의 비선형 관계를 포함한 **단조적(monotonic)** 관계를 측정합니다. **예시:** 학생들의 서열(순위) 간의 관계를 측정할 때, 예를 들어 학급 내 성적 순위(X)와 운동 능력 순위(Y) 간의 상관관계를 스피어만 상관계수로 측정할 수 있습니다. ### 4. R에서 상관계수 계산 (문제의 정답) R에서 상관계수를 계산할 때는 `cor()` 함수를 사용합니다. 피어슨 상관계수와 스피어만 상관계수 모두 이 함수에서 계산할 수 있으며, `method` 인자를 통해 선택할 수 있습니다. - `method = "pearson"` (기본값): 피어슨 상관계수 - `method = "spearman"`: 스피어만 상관계수 그러나 문제에서 제시한 `rcor()` 함수는 존재하지 않으며, 잘못된 정보입니다. 따라서 4번이 정답입니다. **예시:** R 코드로 상관계수를 계산하는 방법은 다음과 같습니다: ```r cor(X, Y, method = "pearson") # 피어슨 상관계수 cor(X, Y, method = "spearman") # 스피어만 상관계수 ``` ` 이제 문제의 각 선택지를 이해할 수 있는 기본 개념들을 살펴보았으니, 4번 선택지가 틀렸다는 것을 알 수 있습니다. --- 42. 아래는 스위스의 47개 프랑스어 사용지역의 출산율(Fertility)과 관련된 변수들을 사용하여 얻은 결과이다. 회귀모형에 관한 다음 설명 중 가장 부적절한 것은? 43. ```r > summary(lm(Fertility~., data=swiss)) Call: lm(formula = Fertility ~ ., data = swiss) Residuals: Min 1Q Median 3Q Max -15.2743 -5.2617 0.5032 4.1198 15.3213 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 66.91518 10.70604 6.250 1.91e-07 * Agriculture -0.17211 0.07030 -2.448 0.01873 * Examination -0.25801 0.25388 -1.016 0.31546 Education -0.87094 0.18343 -4.758 2.43e-05 * Catholic 0.10412 0.03526 2.953 0.00519 Infant.Mortality 1.07705 0.38172 2.822 0.00734 --- Signif. codes: 0 ‘*’ 0.001 ‘’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 7.165 on 41 degrees of freedom Multiple R-squared: 0.7067, Adjusted R-squared: 0.671 F-statistic: 19.76 on 5 and 41 DF, p-value: 5.594e-10 ``` ① 유의수준 0.05하에서 위의 회귀모형은 유의적으로 출산율을 설명한다. ② 위의 설명변수들은 출산율 변동의 원인임을 보여준다. ③ 위의 회귀모형은 출산율 변동의 70.67%를 설명한다. ④ 수정결정계수는 0.671이다. 정답: 2 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] 풀 수 있는 문제 --- 21. 다음 중 이산형 확률분포에 해당하지 않는 것은? ① 기하 분포 ② 이항 분포 ③ 지수 분포 ④ 초기하 분포 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] 이 문제는 이산형 확률분포와 연속형 확률분포를 구분하는 문제입니다. 각 선택지에 대한 설명을 통해 왜 3번이 정답인지 이해해보겠습니다. ### 1. 이산형 확률분포 (Discrete Probability Distributions) 이산형 확률분포는 확률변수가 취할 수 있는 값이 **이산적**(즉, 명확히 구분되는 정수 값)인 경우에 해당하는 분포를 의미합니다. #### ① 기하 분포 (Geometric Distribution) - **이산형 확률분포**입니다. - 어떤 사건이 처음으로 성공할 때까지의 실패 횟수를 나타냅니다. 예를 들어, 동전을 던질 때 첫 번째 앞면이 나올 때까지의 뒷면이 나오는 횟수를 설명하는 데 사용됩니다. #### ② 이항 분포 (Binomial Distribution) - **이산형 확률분포**입니다. - 고정된 횟수의 독립적인 시행에서 성공 횟수를 나타냅니다. 예를 들어, 10번 동전을 던졌을 때 앞면이 나오는 횟수를 설명할 수 있습니다. #### ④ 초기하 분포 (Hypergeometric Distribution) - **이산형 확률분포**입니다. - 주어진 모집단에서 비복원 추출을 통해 특정한 특성을 가진 항목의 개수를 설명합니다. 예를 들어, 카드 뽑기에서 특정 색상의 카드가 나올 확률을 설명할 수 있습니다. ### 2. 연속형 확률분포 (Continuous Probability Distributions) 연속형 확률분포는 확률변수가 취할 수 있는 값이 **연속적**(즉, 특정 구간 내의 모든 값을 취할 수 있는 경우)인 분포를 의미합니다. #### ③ 지수 분포 (Exponential Distribution) - **연속형 확률분포**입니다. - 사건이 발생하는 시간 간격을 설명하는 데 사용됩니다. 예를 들어, 버스를 기다리는 시간이나 부품의 수명이 지수 분포를 따를 수 있습니다. ### 결론 지수 분포는 연속형 확률분포이므로, 다른 선택지와 달리 이산형 확률분포에 해당하지 않습니다. 따라서 정답은 **3번**입니다. --- 24. 중속변수를 설명하는데 가장 중요한 독립변수로 적절한 것은? ① p-value가 가장 작은 변수 ② 표준화 자료로 추정한 계수가 가장 큰 변수 ③ 원 자료로 추정한 계수가 가장 큰 변수 ④ 중속변수의 상관관계분석에서 상관계수가 가장 큰 변수 정답: 2 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] 이 문제는 중속변수(종속변수, Dependent Variable)에 가장 중요한 독립변수(Independent Variable)를 선택하는 방법에 관한 것입니다. 각 선택지의 의미를 설명한 후, 왜 2번이 정답인지 설명하겠습니다. ### 선택지 설명 #### ① p-value가 가장 작은 변수 - **p-value**는 해당 독립변수가 종속변수에 대해 통계적으로 유의미한 영향을 미치는지 여부를 판단하는 데 사용됩니다. p-value가 작을수록 해당 변수의 영향력이 통계적으로 유의미하다고 할 수 있습니다. 하지만 p-value는 영향력의 크기를 직접적으로 나타내지 않습니다. #### ② 표준화 자료로 추정한 계수가 가장 큰 변수 - **표준화 회귀계수(Standardized Regression Coefficient)**는 독립변수들이 서로 다른 척도로 측정되었을 때, 그들 간의 영향력을 비교하기 위해 사용하는 값입니다. 표준화된 계수는 모든 변수들이 같은 기준으로 평가되므로, 계수가 가장 큰 변수가 종속변수에 가장 큰 영향을 미치는 변수로 간주될 수 있습니다. #### ③ 원 자료로 추정한 계수가 가장 큰 변수 - 원 자료로 추정한 계수는 각 변수의 원래 척도에서 종속변수에 미치는 영향력을 나타냅니다. 하지만 각 변수들이 다른 척도를 가질 수 있기 때문에, 이들 간의 계수 크기를 직접 비교하는 것은 어려울 수 있습니다. #### ④ 종속변수의 상관관계분석에서 상관계수가 가장 큰 변수 - 상관계수는 두 변수 간의 선형적 관계의 강도를 나타냅니다. 상관계수가 큰 변수는 종속변수와 강한 선형적 관계를 가질 수 있지만, 이것이 곧 회귀분석에서 가장 중요한 변수임을 의미하지는 않습니다. 상관계수는 회귀계수와 다르게 변수 간의 관계의 크기와 방향성을 종합적으로 고려하지 않습니다. ### 결론 **표준화 회귀계수**는 변수들이 서로 다른 척도를 가질 때에도 각 독립변수가 종속변수에 미치는 영향을 비교할 수 있는 유일한 방법입니다. 따라서, 표준화된 계수가 가장 큰 변수가 종속변수에 가장 중요한 독립변수로 적절합니다. 따라서 정답은 **2번**입니다. --- 26. 다음 중 중심극한정리(Central Limit Theorem)에 대한 설명으로 가장 부적절한 것은? ① 여러 통계적 방법론에는 정규데이터가 필요하지만 중심극한정리를 사용하면 비정규적인 모집단에도 이와 유사한 절차를 적용할 수 있다. ② 표본평균의 분포는 표본의 크기가 커짐에 따라 정규분포로 근사한다. ③ 모집단의 분포가 정규분포에 가까워져야 표본평균의 분포가 정규분포로 근사하게 된다. ④ 모집단의 분포가 대칭이면 표본의 크기가 작아도 되지만 모집단의 분포가 비대칭이면 표본의 크기가 30이상이 되어야 한다. 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] 이 문제는 중심극한정리(Central Limit Theorem, CLT)에 대한 이해를 묻고 있습니다. 각 선택지에 대한 설명을 통해 왜 3번이 부적절한지를 알아보겠습니다. ### 중심극한정리(CLT) 개요 중심극한정리는 표본의 크기가 충분히 클 경우, 모집단의 분포가 무엇이든지 간에 **표본평균의 분포**가 정규분포에 가까워진다는 이론입니다. 이는 통계적 추론의 중요한 기초 중 하나입니다. ### 선택지 분석 #### ① 여러 통계적 방법론에는 정규데이터가 필요하지만 중심극한정리를 사용하면 비정규적인 모집단에도 이와 유사한 절차를 적용할 수 있다. - **맞는 설명입니다.** 많은 통계적 방법이 정규성을 가정하지만, 중심극한정리를 이용하면 비정규적인 모집단에서도 표본평균이 정규분포에 근사하기 때문에 이러한 절차를 적용할 수 있습니다. #### ② 표본평균의 분포는 표본의 크기가 커짐에 따라 정규분포로 근사한다. - **맞는 설명입니다.** 중심극한정리에 따르면, 표본의 크기가 커질수록 표본평균의 분포는 정규분포에 가까워집니다. #### ③ 모집단의 분포가 정규분포에 가까워져야 표본평균의 분포가 정규분포로 근사하게 된다. - **부적절한 설명입니다.** 중심극한정리는 모집단의 분포가 비정규분포일지라도 표본의 크기만 충분히 크다면, 표본평균의 분포가 정규분포에 가까워진다고 말합니다. 즉, 모집단의 분포가 정규분포에 가까워질 필요는 없습니다. 이는 중심극한정리의 핵심 개념을 잘못 설명한 것입니다. #### ④ 모집단의 분포가 대칭이면 표본의 크기가 작아도 되지만 모집단의 분포가 비대칭이면 표본의 크기가 30 이상이 되어야 한다. - **맞는 설명입니다.** 모집단의 분포가 대칭적일 경우, 작은 표본 크기에서도 표본평균이 정규분포에 잘 근사할 수 있습니다. 반면, 모집단이 비대칭일 경우, 표본 크기가 커야 표본평균이 정규분포에 근사하게 됩니다. 일반적으로 비대칭인 경우 표본 크기가 30 이상일 때 중심극한정리가 잘 적용됩니다. ### 결론 **정답은 3번입니다.** 중심극한정리의 핵심 개념을 오해한 설명입니다. 모집단의 분포가 비정규적이더라도 표본의 크기가 충분히 크면 표본평균의 분포는 정규분포에 가까워집니다. 모집단의 분포가 정규분포에 가까워져야 한다는 조건은 중심극한정리와 관련이 없습니다. --- [데이터 분석 - 통계학 개론] 27. 다음은 데이터의 척도에 관한 설명이다. 설명이 틀린 것은? ① 명목척도는 측정 대상이 어느 집단에 속하는지 분류할 때 사용되며, 성별, 출생지 정보가 해당된다. ② 순서척도는 측정 대상이 순서를 갖는 자료를 의미하며, 만족도, 선호도, 학력, 신용등급 정보가 해당된다. ③ 구간척도는 측정 대상의 순서와 순서 사이의 간격에 의미가 있는 자료를 의미하며, 온도, 물가지수, 주가지수 정보가 해당된다. ④ 비율척도는 측정 대상의 값이 비율로 정의되는 자료를 의미하며, 물가성장율, 흡연감소율의 정보가 해당된다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] 이 문제는 데이터의 척도(명목척도, 순서척도, 구간척도, 비율척도)에 대한 이해를 묻고 있습니다. 각 척도의 정의와 예시를 통해 어떤 선택지가 잘못된 것인지 확인해 보겠습니다. ### 척도의 유형 설명 #### ① 명목척도 (Nominal Scale) - **명목척도**는 데이터를 단순히 분류하는 데 사용되며, 데이터 간의 순서나 간격은 의미가 없습니다. - **예시:** 성별(남성, 여성), 출생지(서울, 부산 등). → **설명에 맞는 예시입니다.** #### ② 순서척도 (Ordinal Scale) - **순서척도**는 데이터 간의 순서나 서열이 의미가 있지만, 순서 간의 간격이 일정하지 않음을 나타냅니다. - **예시:** 만족도(매우 만족, 만족, 보통, 불만족, 매우 불만족), 학력(초등학교, 중학교, 고등학교, 대학교). → **설명에 맞는 예시입니다.** #### ③ 구간척도 (Interval Scale) - **구간척도**는 데이터 간의 순서와 간격이 의미가 있지만, 절대적인 0점이 존재하지 않습니다. 즉, 0이 존재하더라도 "없음"을 의미하지 않습니다. - **예시:** 온도(섭씨, 화씨), 물가지수, 주가지수. → **설명에 맞는 예시입니다.** #### ④ 비율척도 (Ratio Scale) - **비율척도**는 순서, 간격, 그리고 절대적인 0점이 존재하는 자료를 의미합니다. 0이 "없음"을 의미하며, 비율 계산이 가능합니다. - **예시:** 길이, 무게, 나이, 소득. 비율척도에서는 "2배"라는 표현이 가능합니다. → **틀린 설명입니다.** 물가성장율이나 흡연감소율은 비율척도가 아니라 **비율척도를 바탕으로 계산된 변화율**입니다. 비율척도는 측정 대상 자체의 값(길이, 무게 등)을 의미합니다. 비율척도에서는 값 자체가 중요하며, 변화율 같은 파생된 값은 여기에서 직접적인 예시가 되지 않습니다. ### 결론 **정답은 4번**입니다. 비율척도에 대한 설명이 틀렸습니다. 비율척도의 예시로는 길이, 무게, 나이, 소득 등이 해당되며, 물가성장율이나 흡연감소율 같은 변화율은 비율척도가 아니라 그로부터 파생된 값입니다. --- 28. 다음은 확률변수에 관한 설명이다. 설명이 옳지 않은 것은? ① 확률변수는 특정값이 나타날 가능성이 확률적으로 주어지는 변수이며, 실수값으로 표현된다. ② 이산형 확률변수는 확률변수의 공간이 유한하거나 셀 수 있는 경우를 의미하며, 이항분포, 기하분포, 초기하분포가 해당한다. ③ 연속형 확률변수는 확률변수의 공간이 무한한 경우를 의미하며, 베르누이 확률분포, 포아송 분포, 정규분포가 해당한다. ④ 균일분포는 확률변수의 구간 [a, b] 내에서 모든 확률이 동일한 분포를 의미하며, 확률은 1/(b-a)가 된다. 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] 이 문제는 확률변수의 개념과 이와 관련된 분포들에 대한 이해를 묻고 있습니다. 각 선택지에 대한 분석을 통해 잘못된 설명이 무엇인지 알아보겠습니다. ### 선택지 분석 #### ① 확률변수는 특정값이 나타날 가능성이 확률적으로 주어지는 변수이며, 실수값으로 표현된다. - **맞는 설명입니다.** 확률변수는 실수값을 가지며, 각 값이 나타날 가능성(확률)이 주어집니다. 이 설명은 확률변수의 일반적인 정의에 부합합니다. #### ② 이산형 확률변수는 확률변수의 공간이 유한하거나 셀 수 있는 경우를 의미하며, 이항분포, 기하분포, 초기하분포가 해당한다. - **맞는 설명입니다.** 이산형 확률변수는 그 값이 유한하거나 셀 수 있는 경우를 의미하며, 이항분포, 기하분포, 초기하분포는 모두 이산형 확률변수의 예입니다. #### ③ 연속형 확률변수는 확률변수의 공간이 무한한 경우를 의미하며, 베르누이 확률분포, 포아송 분포, 정규분포가 해당한다. - **틀린 설명입니다.** 연속형 확률변수는 그 값이 연속적인 경우를 의미하며, 정규분포는 연속형 확률분포에 해당합니다. 그러나 **베르누이 분포**와 **포아송 분포**는 **이산형 확률분포**입니다. 베르누이 분포는 0과 1의 두 가지 값만을 가지는 이산형 분포이고, 포아송 분포는 특정 시간 또는 공간 내에 사건이 발생하는 횟수를 모델링하는 이산형 분포입니다. 따라서 이 설명은 틀렸습니다. #### ④ 균일분포는 확률변수의 구간 [a, b] 내에서 모든 확률이 동일한 분포를 의미하며, 확률은 1/(b-a)가 된다. - **맞는 설명입니다.** 균일분포는 구간 [a, b] 내에서 모든 값이 동일한 확률을 가지는 연속형 분포로, 확률밀도 함수는 1/(b-a)로 정의됩니다. ### 결론 **정답은 3번**입니다. 베르누이 분포와 포아송 분포는 이산형 확률분포로, 연속형 확률분포가 아닙니다. 이 부분이 잘못된 설명입니다. --- 37. 다음 중 비모수적 방법에 대한 설명으로 가장 부적절한 것은? ① 관측된 자료가 주어진 분포를 따른다는 가정을 받아들일 수 없을 때 이용하는 검정법이다. ② 자료의 추출된 모집단의 분포에 대해 제약을 가하지 않고 검정을 실시하는 방법이다. ③ 관측된 자료로 구한 표본평균과 표본분산 등을 이용해 검정을 실시한다. ④ 관측된 자료가 특정 분포를 따른다고 가정할 수 없을 때 이용한다. 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] 이 문제는 비모수적 방법(Non-parametric methods)에 대한 이해를 묻고 있습니다. 비모수적 방법은 주어진 데이터가 특정한 분포를 따른다는 가정 없이 분석을 수행하는 통계적 방법을 의미합니다. ### 선택지 분석 #### ① 관측된 자료가 주어진 분포를 따른다는 가정을 받아들일 수 없을 때 이용하는 검정법이다. - **맞는 설명입니다.** 비모수적 방법은 데이터가 특정 분포를 따른다는 가정을 할 수 없을 때 사용됩니다. 따라서 이 설명은 적절합니다. #### ② 자료의 추출된 모집단의 분포에 대해 제약을 가하지 않고 검정을 실시하는 방법이다. - **맞는 설명입니다.** 비모수적 방법은 모집단의 분포에 대한 가정이 없거나 매우 적기 때문에 제약 없이 검정을 실시할 수 있습니다. 이 설명도 적절합니다. #### ③ 관측된 자료로 구한 표본평균과 표본분산 등을 이용해 검정을 실시한다. - **부적절한 설명입니다.** 비모수적 방법은 **표본평균**이나 **표본분산**과 같은 특정 통계량에 의존하지 않습니다. 대신, 데이터의 순위나 중위수, 또는 다른 비모수적인 통계량을 주로 사용합니다. 표본평균과 표본분산 등을 이용한 검정은 **모수적 방법**에 해당합니다. #### ④ 관측된 자료가 특정 분포를 따른다고 가정할 수 없을 때 이용한다. - **맞는 설명입니다.** 비모수적 방법은 특정 분포에 대한 가정 없이 사용할 수 있는 방법이므로, 이 설명은 적절합니다. ### 결론 **정답은 3번**입니다. 비모수적 방법에서는 표본평균과 표본분산을 이용하지 않고, 자료의 순위나 기타 비모수적 통계량을 사용하여 검정을 실시합니다. 따라서 3번이 비모수적 방법에 대한 부적절한 설명입니다. --- 25. 다음 중 잔차분석의 오차 정규성 검정에서 옳지 않은 것은? ① Q-Q Plot은 대략적인 확인이 가능하다. ② 잔차의 히스토그램이나 점포밀 그래프로서 정규성 문제를 검토하기도 한다. ③ 정규성을 검정하는 방법으로 Shapiro-Wilk test, Anderson-Darling test 등을 이용할 수 있다. ④ 정상성을 만족하지 않음 때는 종속변수와 상관계수가 높은 독립변수를 제거한다. 정답: 4 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] 이 문제는 잔차분석에서 오차의 정규성을 검정하는 방법에 대한 이해를 묻고 있습니다. 각 선택지를 분석하여 어떤 설명이 잘못되었는지 확인해 보겠습니다. ### 선택지 분석 #### ① Q-Q Plot은 대략적인 확인이 가능하다. - **맞는 설명입니다.** Q-Q Plot은 정규분포를 따르는지 시각적으로 확인할 수 있는 방법입니다. 잔차가 정규분포를 따를 경우, Q-Q Plot에서 점들이 대각선에 근접하게 분포하게 됩니다. #### ② 잔차의 히스토그램이나 점포밀 그래프로서 정규성 문제를 검토하기도 한다. - **맞는 설명입니다.** 잔차의 히스토그램이나 점포밀 그래프(density plot)는 잔차가 정규분포를 따르는지 확인하기 위해 자주 사용되는 시각적 도구입니다. 정규성을 띠는 잔차는 종 모양의 분포를 나타냅니다. #### ③ 정규성을 검정하는 방법으로 Shapiro-Wilk test, Anderson-Darling test 등을 이용할 수 있다. - **맞는 설명입니다.** Shapiro-Wilk test와 Anderson-Darling test는 잔차의 정규성을 검정하기 위해 사용되는 통계적 방법입니다. 이들은 잔차가 정규분포를 따르는지 여부를 검정할 수 있습니다. #### ④ 정상성을 만족하지 않음 때는 종속변수와 상관계수가 높은 독립변수를 제거한다. - **부적절한 설명입니다.** 잔차의 정규성 문제는 독립변수를 제거함으로써 해결되는 문제가 아닙니다. 잔차의 정규성이 만족되지 않을 경우, 데이터 변환(예: 로그 변환, 제곱근 변환 등), 비모수적 방법 적용, 또는 회귀모형의 수정 등을 고려해야 합니다. 종속변수와 상관계수가 높은 독립변수를 제거하는 것은 정규성 문제와는 직접적인 관련이 없습니다. ### 결론 **정답은 4번**입니다. 잔차의 정규성이 만족되지 않을 때는 독립변수를 제거하는 것이 아니라, 데이터 변환이나 모델 수정 등의 다른 방법을 고려해야 합니다. --- 39. 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석 방법은 무엇인가? ① 구간추정 ② 점추정 ③ 신뢰수준 ④ 가설검정 정답: 4 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 --- 09. 통계분석 개념 중 모집단의 특성을 단일한 값으로 추정하는 방법은 무엇인가? ( ) 정답: 점 추정 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] 10. 불순도를 측정하는 지표로 노드의 불순도를 나타내는 값이다. 클수록 이질적이며 순수도가 낮다고 볼 수 있으며, CART에서 목적변수가 범주형일 경우 사용하는 이 지표는 무엇인가? ( ) 정답: 지니 지수 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] 21. 다음 중 아래의 표가 나타내는 확률질량함수를 가진 확률변수 X의 기댓값 E(X)로 가장 적절한 것은? | X | 1 | 2 | 3 | 4 | |-----|-----|-----|-----|-----| | f(x) | 0.5 | 0.3 | 0.2 | 0 | ① 1 ② 1.7 ③ 2.5 ④ 10 정답: 2 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] 23. 확률변수 X의 확률은 아래와 같이 나타낼 수 있다. 다음 중 옳은 것은? ![[ADsP 기출문제 이미지 07.png]] ① X의 기댓값은 13/6이다. ② X가 1 혹은 2일 확률은 1/2 보다 크다. ③ X가 4일 확률은 0 보다 크다. ④ X가 1, 2, 3 중 하나의 값을 가질 확률은 1보다 작다. 정답: 1 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] 48. P(A)=0.3, P(B)=0.4이다. 두 사건 A와 B가 독립일 경우 P(B|A)는 얼마인가? ( ) 정답: 0.4 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] 두 사건 A와 B가 **독립**일 경우, 사건 B가 사건 A에 영향을 받지 않으므로, 조건부 확률 P(B∣A)P(B|A)P(B∣A)는 사건 B의 확률 P(B)P(B)P(B)와 같습니다. 따라서, 주어진 조건에서 P(B∣A)=P(B)=0.4P(B|A) = P(B) = 0.4P(B∣A)=P(B)=0.4입니다. --- 49. 이산형 확률분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률 분포는 무엇인가? ( ) 정답: 포아송 분포 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] 포아송 분포(Poisson distribution)는 특정 시간 또는 공간 내에서 사건이 발생하는 횟수를 모델링하는 이산형 확률분포입니다. 이 분포는 사건이 발생하는 확률이 매우 작고, 발생 횟수가 빈번하지 않은 상황에서 자주 사용됩니다. ### 포아송 분포의 주요 특징 1. **이산형 확률분포**: - 포아송 분포는 특정 시간 또는 공간 내에서 사건이 발생한 횟수를 세는 데 사용됩니다. 이 횟수는 이산적(정수)인 값만 가질 수 있습니다. 2. **사건 발생의 독립성**: - 포아송 분포는 사건이 시간 또는 공간 내에서 독립적으로 발생한다고 가정합니다. 즉, 어떤 순간에 사건이 발생했는지가 다른 순간에 사건이 발생할 확률에 영향을 미치지 않습니다. 3. **평균 발생률**: - 포아송 분포는 평균 발생률(λ, 람다)로 표현되며, 이 λ는 특정 시간 또는 공간 내에서 기대되는 사건의 평균 발생 횟수입니다. λ는 포아송 분포의 유일한 매개변수이며, 이를 통해 분포의 형태가 결정됩니다. 4. **확률질량함수(PMF)**: - 사건이 kkk번 발생할 확률은 다음과 같은 확률질량함수(PMF)로 표현됩니다: P(X=k)=λke−λk!P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}P(X=k)=k!λke−λ 여기서 XXX는 사건이 발생한 횟수를 나타내는 확률변수, λ\lambdaλ는 주어진 시간 또는 공간에서의 평균 발생률, kkk는 발생 횟수이며, eee는 자연로그의 밑(약 2.71828)입니다. 5. **예시**: - **전화 교환기**: 특정 시간 동안 교환기로 걸려오는 전화의 수를 모델링할 때, 포아송 분포를 사용합니다. 예를 들어, 매시간 평균 5통의 전화가 걸려온다면, 이 시간 동안 7통의 전화가 걸려올 확률을 계산할 수 있습니다. - **응급실 방문자 수**: 병원 응급실에서 한 시간 동안 방문하는 환자 수를 예측할 때도 포아송 분포를 사용할 수 있습니다. 6. **포아송 분포의 활용**: - 포아송 분포는 사건의 발생이 드문 상황에서 사용되며, 특정 시간이나 공간 내에서 사건의 발생을 모델링하는 데 매우 유용합니다. 실생활에서는 통신, 산업 공정, 의료 분야 등에서 널리 사용됩니다. ### 포아송 분포의 성질 1. **기대값과 분산**: - 포아송 분포의 기대값과 분산은 모두 λ로 동일합니다. 즉, E(X)=λ\text{E}(X) = \lambdaE(X)=λ, Var(X)=λ\text{Var}(X) = \lambdaVar(X)=λ입니다. 2. **표준 포아송 분포**: - 만약 λ = 1인 경우, 이 분포를 **표준 포아송 분포**라고 합니다. 3. **포아송 분포와 이항분포의 관계**: - 이항분포에서 사건의 발생 확률이 매우 작고, 시행 횟수가 매우 큰 경우, 이항분포는 포아송 분포로 근사할 수 있습니다. 이 경우, 포아송 분포의 평균 발생률 λ는 이항분포의 시행 횟수와 각 시행의 성공 확률의 곱으로 주어집니다. 포아송 분포는 이처럼 드문 사건의 발생 횟수를 모델링하는 데 매우 적합하며, 여러 분야에서 중요한 역할을 합니다. --- ![[ADsP 기출문제 이미지 12.png]]]] ① age와 wage의 관계가 선형인지는 위의 결과로 판단할 수 없다. ② age의 효과를 제어했을 때 각 education 그룹 간의 wage가 동일하다고 할 수 없다. ③ age와 wage는 양의 상관관계를 가진다. ④ age가 증가함에 따라 wage에 미치는 영향은 각 education 그룹에 따라 다를 것이다. 정답: 3 출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]] ### 분석 - **모델 설명**: 주어진 R 코드에서는 `lm()` 함수를 사용해 `wage`를 종속변수로 하고, `age`, `education`, 그리고 이들 간의 상호작용 항(`age:education`)을 독립변수로 하는 선형회귀모델을 구축했습니다. - **ANOVA 결과**: `aov()` 함수를 사용해 이 모델에 대한 분산분석을 수행했습니다. ### 각 선택지 분석 1. **선택지 ①: "age와 wage의 관계가 선형인지는 위의 결과로 판단할 수 없다."** - 주어진 ANOVA 결과만으로는 `age`와 `wage` 간의 관계가 선형인지 여부를 판단할 수 없습니다. 선형성 판단은 주로 잔차 분석이나 다른 진단 도구를 통해 수행됩니다. 이 선택지는 **적절한 설명**입니다. 2. **선택지 ②: "age의 효과를 제어했을 때 각 education 그룹 간의 wage가 동일하다고 할 수 없다."** - ANOVA 결과에서 `education`의 p-value가 매우 작으므로, `education` 변수는 `wage`에 유의한 영향을 미친다고 할 수 있습니다. 따라서 교육 수준에 따른 `wage`의 차이가 존재합니다. 이 선택지도 **적절한 설명**입니다. 3. **선택지 ③: "age와 wage는 양의 상관관계를 가진다."** - 이 주장은 ANOVA 결과만으로는 알 수 없습니다. ANOVA는 변수들 간의 상관관계를 보여주지 않고, 각 변수와 상호작용 항의 유의미성을 테스트합니다. **이 선택지는 적절하지 않은 설명**입니다. 4. **선택지 ④: "age가 증가함에 따라 wage에 미치는 영향은 각 education 그룹에 따라 다를 것이다."** - `age:education` 상호작용 항의 p-value가 0.0133으로, 유의미한 수준이므로 `age`가 `wage`에 미치는 영향은 `education` 그룹에 따라 달라진다고 해석할 수 있습니다. **이 선택지도 적절한 설명**입니다. ### 결론 - **정답은 ③번**입니다.** - ANOVA 결과만으로는 `age`와 `wage` 간의 상관관계의 방향(양의 상관관계 여부)을 판단할 수 없으므로, 이 선택지는 부적절합니다. --- 32. 다음 중 아래 코드 실행 결과에 대한 설명으로 가장 적절한 것은? ![[ADsP 기출문제 이미지 14.png]]]] ① 위의 모델은 2차 선형 회귀 모델이다. ② 추정된 회귀식은 weight = 7.9879*Time이다. ③ 회귀모형은 유의수준 5% 하에서 통계적으로 유의미하다. ④ Intercept는 유의수준 0.1% 하에서 통계적으로 매우 유의미하다. 정답: 3 출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 --- 15. 데이터 분석에서 정확도(Accuracy)와 정밀도(Precision)에 대한 설명으로 가장 적절하지 않은 것은? ① 정확도는 True로 예측한 것 중 실제 True인 비율, 정밀도는 실제 True인 경우에서 True로 예측한 비율이다. ② 정확도는 모델의 실제 값 사이의 차이이고, 정밀도는 모델을 지속적으로 반복했을 때 편차의 수준이다. ③ 모형의 활용측면에서는 정확도가, 모형의 안정성측면에서는 정밀도가 중요하다. ④ 정확도와 정밀도는 트레이드-오프 관계가 되는 경우가 많다. 정답: 1 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 19. 통계적 가설검정에 대한 설명으로 가장 적절하지 않은 것은? ① 대립가설은 연구자가 연구를 통해 입증되기를 기대하는 가설이다. ② 귀무가설을 기각할 수 있는 검정통계량의 영역을 기각역이라고 한다. ③ p-value가 작을수록 해당 검정통계량의 관측값은 귀무가설을 더 지지하는 것으로 해석할 수 있다. ④ 다른 조건이 동일할 때 제1종 오류를 줄이면 제2종 오류는 늘어나게 된다. 정답: 3 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 26. 아래는 변수 X와 Y에 대하여 단순선형회귀모형 Yi = β0 + β1Xi + ε, i=1,...,n을 분석한 분산분석표이다. 아래에서 얻을 수 있는 결론으로 가장 적절하지 않은 것은? (단, 기본가정은 모두 만족하는 것을 전제로 함) | 요인 | 제곱합 | 자유도 | 평균제곱 | F-value | p-value | | --- | --- | --- | ---- | ------- | ------- | | 회귀 | 100 | 1 | 100 | 50 | 0.00004 | | 잔차 | 200 | 10 | 2 | | | | 계 | 300 | 11 | | | | ① 추정된 회귀계수는 유의수준 0.05에서 유의하다. ② 오차항(e)의 분산의 불편추정값은 0.1이다. ③ 위 분석에 사용된 자료의 크기(n)는 12이다. ④ 결정계수는 $\frac{1}{3}$이다. 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 이 문제는 주어진 분산분석표(ANOVA 표)와 관련된 여러 결론을 평가하는 문제입니다. 각 선택지의 타당성을 분석하여 부적절한 결론이 무엇인지 확인해보겠습니다. ### 주어진 ANOVA 표 분석 - **회귀 제곱합 (SSR)**: 100 - **잔차 제곱합 (SSE)**: 200 - **총 제곱합 (SST)**: 300 (회귀 제곱합 + 잔차 제곱합) - **회귀 자유도**: 1 - **잔차 자유도**: 10 - **총 자유도**: 11 (회귀 자유도 + 잔차 자유도) - **회귀 평균제곱 (MSR)**: 100 - **잔차 평균제곱 (MSE)**: 2 - **F-value**: 50 - **p-value**: 0.00004 ### 선택지 분석 #### ① "추정된 회귀계수는 유의수준 0.05에서 유의하다." - **적절한 설명**입니다. p-value가 0.00004로 매우 작기 때문에 유의수준 0.05에서 회귀계수는 유의하다고 결론을 내릴 수 있습니다. #### ② "오차항(e)의 분산의 불편추정값은 0.1이다." - **부적절한 설명**입니다. 오차항의 분산에 대한 불편추정값은 **잔차 평균제곱(MSE)**입니다. 주어진 MSE는 2이므로 오차항의 분산의 불편추정값은 2가 되어야 합니다. 0.1이라는 값은 잘못된 해석입니다. #### ③ "위 분석에 사용된 자료의 크기(n)는 12이다." - **적절한 설명**입니다. 총 자유도는 n−1n - 1n−1이므로, 주어진 총 자유도가 11인 경우, n=12n = 12n=12임을 알 수 있습니다. #### ④ "결정계수는 13\frac{1}{3}31이다." - **적절한 설명**입니다. 결정계수 R2R^2R2는 회귀 제곱합(SSR)과 총 제곱합(SST)의 비율로 계산됩니다. $ R2=SSRSST=100300=13R^2 = \frac{\text{SSR}}{\text{SST}} = \frac{100}{300} = \frac{1}{3} $ --- 27. 모분산의 추론에 대한 설명으로 가장 적절하지 않은 것은? ① 모분산을 추론하면 모집단의 변동성 또는 퍼짐 정도를 추정할 수 있다. ② 정규모집단으로부터 n개의 단순임의 추출한 표본의 분산은 자유도가 n-1인 분포를 따른다. ③ 모집단이 정규분포를 따르지 않더라도 중심극한정리를 통해 정규모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있다. ④ 이표본(two sample)에 의한 분산비 검정에서 두 표본의 분산이 동일한지 비교하는 검정통계량은 F-분포를 따른다. 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 이 문제는 모분산의 추론에 관한 여러 개념을 이해하고 평가하는 것입니다. 각 선택지의 타당성을 분석하여 부적절한 결론이 무엇인지 확인해보겠습니다. ### 선택지 분석 #### ① "모분산을 추론하면 모집단의 변동성 또는 퍼짐 정도를 추정할 수 있다." - **적절한 설명**입니다. 모분산은 모집단의 변동성 또는 퍼짐 정도를 나타내는 지표이므로, 이를 추론하는 것은 모집단의 변동성을 추정하는 것과 같습니다. #### ② "정규모집단으로부터 n개의 단순임의 추출한 표본의 분산은 자유도가 n-1인 분포를 따른다." - **부적절한 설명**입니다. 정규모집단에서 단순임의추출된 표본의 분산은 자유도가 n−1n-1n−1인 **χ2\chi^2χ2 (카이제곱) 분포**를 따르는 것이 맞습니다. 그러나 이 설명에서 "분산이 자유도가 n−1n-1n−1인 분포를 따른다"는 표현은 혼동을 일으킬 수 있습니다. 자유도 n−1n-1n−1인 분포는 χ2\chi^2χ2 분포를 의미하지만, 직접적으로 분산이 분포를 따른다고 표현하는 것은 부정확합니다. #### ③ "모집단이 정규분포를 따르지 않더라도 중심극한정리를 통해 정규모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있다." - **적절한 설명**입니다. 중심극한정리에 의해, 모집단이 정규분포를 따르지 않더라도 표본의 크기가 충분히 크다면 정규분포를 근사하여 사용할 수 있습니다. 이를 통해 모분산에 대한 검정도 유사하게 시행할 수 있습니다. #### ④ "이표본(two sample)에 의한 분산비 검정에서 두 표본의 분산이 동일한지 비교하는 검정통계량은 F-분포를 따른다." - **적절한 설명**입니다. 두 집단의 분산이 동일한지 비교하는 분산비 검정에서는 F-분포를 사용합니다. F-분포는 두 표본의 분산 비율에 대한 분포입니다. ### 결론 **정답은 ②번**입니다. 설명에서 "정규모집단으로부터 n개의 단순임의 추출한 표본의 분산은 자유도가 n-1인 분포를 따른다"는 표현이 부정확하며, 정확히는 표본분산이 n−1n-1n−1 자유도의 χ2\chi^2χ2 분포와 관련이 있음을 명확히 해야 합니다. ---