40. 데이터를 이용해 분석한 결과 “샌드위치를 사는 고객의 30%가 탄산수를 함께 산다”와 같은 결과를 얻기 위해 실행되는 데이터 마이닝 분석 방법론은 무엇인가? ① 군집분석(Clustering) ② 분류분석(Classification Analysis) ③ 장바구니분석(Market Basket Analysis) ④ 순차분석(Sequence Analysis) 정답: 3 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] 풀 수 이는 문제 --- 40. 다음 중 연관분석에서 '항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률은 어느 정도인가'를 나타내 주는 연관성의 정도로 정의되는 척도로 가장 적절한 것은? ① 지지도 ② 신뢰도 ③ 특이도 ④ 민감도 정답: 2 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] 해당 질문에서 '항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률'을 나타내는 척도는 **신뢰도(Confidence)** 입니다. 따라서 정답은 **② 신뢰도**입니다. 지지도의 경우는 전체 거래 중에서 항목 A와 항목 B가 같이 포함될 확률을 나타내며, 신뢰도는 조건부 확률로, 항목 A가 포함된 거래에서 항목 B도 포함될 확률을 의미합니다. 특이도와 민감도는 주로 의학 통계나 이진 분류 문제에서 사용되는 척도입니다. --- 25. 아래 거래 전표에서 연관성 규칙 A → B 일 때의 지지도는? ![[Screenshot 2024-07-31 at 21.13.48.png]] ① 15% ② 20% ③ 25% ④ 30% 정답: 3 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] 주어진 거래 전표에서 연관성 규칙 A→BA \rightarrow BA→B일 때의 지지도를 계산하려면, AAA와 BBB가 동시에 포함된 거래 건수를 전체 거래 건수로 나누어야 합니다. 1. AAA와 BBB가 동시에 포함된 거래는 {A, B}, {A, B, C} 입니다. 이들의 거래 건수는 각각 20건과 5건으로, 총 25건입니다. 2. 전체 거래 건수는 모든 거래 건수를 더하면 됩니다. 10+5+25+5+20+20+15=10010 + 5 + 25 + 5 + 20 + 20 + 15 = 10010+5+25+5+20+20+15=100 따라서, 지지도는 다음과 같이 계산됩니다: 지지도=25100=0.25\text{지지도} = \frac{25}{100} = 0.25지지도=10025​=0.25 정답은 **0.25**입니다. --- 18. 아래의 거래 내역에서 지지도 25%, 신뢰도가 50% 이상인 규칙은? ![[ADsP 기출문제 이미지 01.png]] ① A → B ② A → C ③ C → B ④ B → C 정답: 1, 4 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] 주어진 거래 내역에서 지지도 25%, 신뢰도가 50% 이상인 규칙을 찾기 위해 다음과 같이 계산할 수 있습니다. 1. **지지도 25% 이상**: 지지도가 25% 이상이려면 해당 규칙의 거래 수가 전체 거래 수(100건)의 25% 이상이어야 하므로 최소 거래 건수는 25건이어야 합니다. 2. **신뢰도 50% 이상**: 신뢰도는 조건부 확률로, 조건 항목이 포함된 거래 중에서 규칙이 성립하는 거래의 비율입니다. ### 주어진 거래 내역을 바탕으로 가능한 규칙들: 1. **A→BA \rightarrow BA→B**: - AAA가 포함된 거래는 {A}, {A, B}, {A, B, C}, {A, C}로, 총 50건. - 이 중에서 BBB도 포함된 거래는 {A, B}와 {A, B, C}로, 총 25건. - **신뢰도**: 2550=0.5\frac{25}{50} = 0.55025​=0.5 (50%) - **지지도**: 25100=0.25\frac{25}{100} = 0.2510025​=0.25 (25%) 2. **B→CB \rightarrow CB→C**: - BBB가 포함된 거래는 {B}, {A, B}, {B, C}, {A, B, C}로, 총 50건. - 이 중에서 CCC도 포함된 거래는 {B, C}와 {A, B, C}로, 총 25건. - **신뢰도**: 2550=0.5\frac{25}{50} = 0.55025​=0.5 (50%) - **지지도**: 25100=0.25\frac{25}{100} = 0.2510025​=0.25 (25%) 3. **A→CA \rightarrow CA→C**: - AAA가 포함된 거래는 {A}, {A, B}, {A, B, C}, {A, C}로, 총 50건. - 이 중에서 CCC도 포함된 거래는 {A, C}와 {A, B, C}로, 총 20건. - **신뢰도**: 2050=0.4\frac{20}{50} = 0.45020​=0.4 (40%) - **지지도**: 20100=0.2\frac{20}{100} = 0.210020​=0.2 (20%) (해당 규칙은 제외) ### 결론 **지지도 25% 이상**이고 **신뢰도 50% 이상**인 규칙은: 1. **A→BA \rightarrow BA→B** 2. **B→CB \rightarrow CB→C** 이 두 가지 규칙이 해당 조건을 만족합니다. --- 21. 다음 중 연관분석의 장점으로 가장 부적절한 것은? ① 조건 반응(if-then)으로 표현되어 결과를 이해하기 쉽다. ② 목적지향적 분석 방향이나 목적이 없어도 적용이 가능하다. ③ 공통 세분화에 관계성에 의지 있는 규칙 발견이 가능하다. ④ 분석을 위한 계산이 상당히 간단하다. 정답: 3 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] 버리는 문제 --- 35. 아래는 Apriori 알고리즘의 분석 순서이다. 다음 중 수행 순서를 순서대로 올바르게 나열한 것은? 가. 최소 지지도를 설정한다. 나. 반복적으로 수행하여 최소 지지도 이상인 빈발품목집합을 찾는다. 다. 찾은 개별 품목만을 이용해 최소 지지도를 넘는 2가지 품목집합을 찾는다. 라. 찾은 품목 집합을 결합하여 최소 지지도를 넘는 3가지 품목집합을 찾는다. 마. 개별 품목 중에서 최소 지지도를 넘는 모든 품목을 찾는다. ① 가-나-다-라-마 ② 가-나-라-다-마 ③ 가-마-다-라-나 ④ 가-마-라-다-나 정답: 3 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] Apriori 알고리즘은 연관 규칙 학습을 위한 대표적인 알고리즘으로, 대규모 데이터베이스에서 빈발 항목 집합을 효율적으로 발견하는 데 사용됩니다. 이 알고리즘은 다음과 같은 순서로 작동합니다: ### 1. **최소 지지도 설정** (가) - 분석을 시작하기 전에, 지지도의 최소값(예: 0.5 등)을 설정합니다. 지지도는 특정 항목 집합이 전체 거래에서 얼마나 자주 나타나는지를 의미합니다. 이 값은 분석 대상이 되는 빈발 항목 집합을 결정하는 기준이 됩니다. ### 2. **개별 품목 중에서 최소 지지도를 넘는 모든 품목을 찾음** (마) - 모든 개별 항목에 대해 지지도를 계산하고, 설정한 최소 지지도를 넘는 항목들을 식별합니다. 이 단계에서는 각 항목이 개별적으로 얼마나 자주 거래에서 발생하는지를 평가합니다. ### 3. **2가지 품목 집합 탐색** (다) - 최소 지지도를 넘는 개별 항목들을 조합하여 2가지 품목으로 이루어진 집합을 만듭니다. 각 조합에 대해 지지도를 계산하여, 최소 지지도를 넘는 2가지 품목 집합을 찾습니다. ### 4. **3가지 품목 집합 탐색** (라) - 2가지 품목 집합에서 최소 지지도를 넘는 집합을 기반으로, 이들 집합을 결합하여 3가지 품목으로 이루어진 집합을 만듭니다. 마찬가지로, 이 집합들의 지지도를 계산하여 최소 지지도를 넘는 3가지 품목 집합을 찾습니다. ### 5. **반복적 수행** (나) - 위의 과정을 반복적으로 수행하여, n가지 항목으로 이루어진 집합을 확장해 나가면서, 설정된 최소 지지도를 넘는 빈발 항목 집합들을 계속해서 찾아냅니다. 이 과정은 더 이상 빈발 항목 집합이 발견되지 않을 때까지 반복됩니다. ### **결과: 연관 규칙 생성** - 발견된 빈발 항목 집합을 사용하여 신뢰도, 향상도 등의 지표를 기반으로 의미 있는 연관 규칙을 생성합니다. 예를 들어, "우유를 산 고객이 빵도 살 확률이 높다"는 규칙을 도출할 수 있습니다. Apriori 알고리즘은 데이터 마이닝에서 주로 고객 행동 분석, 마케팅 전략 수립 등 다양한 분야에 활용됩니다. 주요 장점은 연관 규칙을 이해하기 쉽게 도출할 수 있다는 점이지만, 단점으로는 큰 데이터셋에서 계산이 복잡해질 수 있다는 점이 있습니다. --- 31. 다음 중 연관규칙의 측정 지표 중 품목 A, B에 대한 지지도를 구하기 위한 식으로 적절한 것은? ① (A 또는 B가 포함된 거래 수)/(전체 거래 수) ② (A와 B가 동시에 포함된 거래 수)/(전체 거래 수) ③ (A와 B가 동시에 포함된 거래 수)/(A를 포함하는 거래 수) ④ (A와 B가 동시에 포함된 거래 수)/(A 또는 B가 포함된 거래 수) 정답: 2 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 --- 39. 다음 중 연관분석의 설명으로 가장 적절한 것은? ① 품목 수와 상관없이 분석에 필요한 계산은 일정하다. ② 세분화된 품목에 대해 연관 규칙을 찾으려 할 때 적절한 방법이다. ③ 상대적으로 거래량이 적은 품목에 대해서 적용하기 좋은 방법이다. ④ 조건 문(if-then)으로 표현되는 연관분석의 결과물을 이해하기 쉽다. 정답: 4 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] 연관분석의 설명으로 가장 적절한 것은 **④ 조건 문(if-then)으로 표현되는 연관분석의 결과물을 이해하기 쉽다**입니다. 연관분석의 결과는 "if-then" 형태의 규칙으로 표현되기 때문에, 직관적으로 해석하기 쉽고, 마케팅 전략이나 추천 시스템 등 다양한 분야에서 활용될 수 있습니다. 나머지 선택지들은 적절하지 않습니다: - ① 품목 수가 늘어날수록 분석에 필요한 계산이 증가합니다. 특히, 항목의 조합이 많아지면서 계산 복잡도가 기하급수적으로 증가할 수 있습니다. - ② 세분화된 품목에 대해서는 데이터가 희소해질 수 있으며, 이 경우 연관 규칙을 찾는 데 어려움이 있을 수 있습니다. - ③ 상대적으로 거래량이 적은 품목에 대해서는 신뢰할 만한 연관 규칙을 찾기가 어려울 수 있습니다. --- 21. 다음 중 연관분석에 대한 특징으로 가장 적절하지 않은 것은? ① 분석 방향이나 목적이 특별히 없는 경우 유용한 분석 방법이다. ② 분석을 위한 계산이 복잡하다는 단점이 있다. ③ 너무 제한된 품목을 가지고 연관규칙을 찾으려고 하면 의미 없는 결과가 나올 수 있다. ④ 연관분석의 결과는 조건 반응(if-then)으로 표현된다. 정답: 2 출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]] 22. 연관분석에 대한 설명으로 적절하지 않은 것은? ① Apriori 알고리즘은 최소지지도보다 큰 빈발항목집합에서 높은 속도(신뢰도, 향상도) 값을 갖는 연관규칙을 구하는 방법이다. ② 연관관 분석은 하나 이상의 제품이나 서비스를 포함하는 거래 내역을 이용하여 동시에 구매되는 제품 및 거래 빈도로부터 규칙을 찾는 데서 시작했다. ③ 품목 A와 품목 B의 구매가 상호 관련이 없다고 하향도는 1이 된다. ④ 사건들이 어떤 순서로 일어났고 이 사건들 사이에 연관성을 알아내는 것이 시차 연관분석이지만 인과관계의 형태로 해석되지는 않는다. 정답: 4 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 버리는 문제 --- 02. 아래에서 설명하는 빅데이터 활용 분석의 기본 테크닉은? ``` A 마트는 금요일 저녁에 맥주를 사는 사람은 기저귀도 함께 구매했다는 사실을 발견하고, 두 가지 상품을 가까운 곳에 진열하기로 결정했다. ( ) ``` 정답: 연관성 분석 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 --- 10. 거래 건수가 동일한 품목 A와 품목 B의 연관성을 분석하고자 한다. 두 품목의 연관규칙 A → B에 대한 지지도가 0.3이고 신뢰도가 0.6일 때, 향상도는 얼마인가? ( ) 정답: 1.2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 버리는 문제