39. K-means 군집분석과 계층적 군집분석의 차이를 잘못 설명한 것은? ① K-means 군집분석은 계층적 군집분석과는 달리 한 개체가 처음 속한 군집에서 다른 군집으로 이동해 재배치될 수 있다. ② K-means 군집분석은 초기값에 대한 의존이 커서 초기값을 어떻게 하느냐에 따라 군집이 달라질 수 있다. ③ K-means 군집분석은 동일한 거리계산법을 적용하면 몇 번을 시행해도 동일한 결과가 나온다. ④ 계층적 군집분석은 동일한 거리계산법을 적용하면 몇 번을 시행해도 동일한 결과가 나온다. 정답: 3 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] K-means 군집분석과 계층적 군집분석은 서로 다른 군집화 방법을 사용하며, 이들 간의 차이는 다음과 같습니다: ### 1. **K-means 군집분석:** - **군집 수 사전 설정**: 분석자가 군집의 개수 KKK를 미리 정해줘야 합니다. - **반복적 재배치**: 초기 군집 중심을 설정한 후, 각 개체를 가장 가까운 중심으로 할당하고, 중심을 다시 계산하며 이 과정을 반복합니다. 이 과정에서 개체가 처음 속했던 군집에서 다른 군집으로 이동할 수 있습니다. - **초기값 민감성**: K-means는 초기 군집 중심값에 따라 결과가 달라질 수 있으며, 다르게 실행될 수 있습니다. - **결과의 불안정성**: 동일한 거리 계산법을 사용하더라도, 초기값이 다르면 결과가 달라질 수 있습니다. ### 2. **계층적 군집분석:** - **군집 수 미리 설정하지 않음**: 데이터 구조를 기반으로 군집을 형성하며, 군집 수는 결과로 나오는 덴드로그램을 해석하며 결정합니다. - **비가역적 군집화**: 일단 형성된 군집은 다시 분리되거나 합쳐질 수 없습니다. 한 번 결합된 군집은 이후 단계에서 다른 군집과 합쳐지거나 나뉘지 않습니다. - **일관된 결과**: 동일한 거리 계산법과 동일한 데이터에 대해 수행하면 항상 동일한 결과가 나옵니다. 초기값의 영향을 받지 않기 때문에 결과가 안정적입니다. ### 문제 풀이: - **①** K-means 군집분석에서 개체가 다른 군집으로 이동할 수 있다는 설명은 맞습니다. K-means는 반복적으로 개체를 재배치하면서 최적의 군집을 찾기 때문입니다. - **②** K-means 군집분석은 초기값에 크게 의존하며, 초기 중심점 설정에 따라 결과가 달라질 수 있습니다. 이 설명도 맞습니다. - **③** K-means 군집분석은 초기 중심점 설정에 따라 결과가 달라질 수 있기 때문에, 동일한 거리 계산법을 적용하더라도 시행마다 결과가 다를 수 있습니다. **이 설명이 잘못되었습니다.** - **④** 계층적 군집분석은 초기값에 의존하지 않으며, 동일한 거리 계산법을 적용하면 항상 동일한 결과가 나옵니다. 이 설명도 맞습니다. ### 결론: 가장 잘못된 설명은 **③ K-means 군집분석은 동일한 거리계산법을 적용하면 몇 번을 시행해도 동일한 결과가 나온다**입니다. K-means 군집분석은 초기값에 따라 결과가 달라질 수 있기 때문에 이 설명은 틀렸습니다. --- 46. 군집분석은 비지도학습 기법 중 하나로 사전 정보 없이 자료를 유사한 대상끼리 묶는 방법이다. 다음 중 군집분석에 대한 설명으로 부적절한 것은? ① 군집분석에서는 군집의 개수나 구조에 대한 가정없이 다변량 데이터로부터 거리 기준에 의한 자발적인 군집화를 유도하지 않는다. ② 군집 결과에 대한 안정성을 검토하는 방법은 교차타당성을 이용하는 방법을 생각할 수 있다. ③ 다변량 데이터를 두 집단으로 나누어 각 집단에서 군집분석을 한 후 합쳐서 군집분석한 결과와 비교하여 비슷하면 결과에 대한 안정성이 있다고 할 수 있다. ④ 군집의 분리나 논리적 기반을 살펴보기 위해서는 군집 간 변동의 크기 차이를 조사한다. 정답: 1 출처: [[01 데이터분석준전문가모의고사(ADsP) 1회.pdf]] ### 군집분석 개념 설명: 군집분석(Clustering Analysis)은 비지도 학습(Unsupervised Learning) 기법 중 하나로, 사전에 정해진 정보나 레이블 없이 데이터의 유사성을 기준으로 데이터를 여러 군집으로 나누는 방법입니다. 주요 목표는 비슷한 특성을 가진 데이터를 동일한 그룹으로 묶고, 서로 다른 그룹 간의 차이를 극대화하는 것입니다. 군집분석에서 사용하는 주요 방법론과 개념은 다음과 같습니다: 1. **거리 측정**: 데이터 간의 유사성을 측정하기 위해 주로 유클리드 거리(Euclidean Distance)와 같은 거리 기준을 사용합니다. 2. **군집의 개수**: K-means 군집분석처럼 사용자가 군집의 개수를 사전에 지정할 수도 있지만, 계층적 군집분석처럼 데이터 구조에 따라 군집의 개수가 자동으로 정해지기도 합니다. 3. **안정성 검토**: 군집분석의 결과가 신뢰할 수 있는지를 평가하기 위해, 데이터를 여러 번 나누거나 다른 방법을 통해 검증할 수 있습니다. 교차타당성(Cross-validation)도 이러한 방법 중 하나입니다. ### 문제 풀이: 주어진 설명 중 부적절한 것을 찾는 문제입니다. - **①**: 군집분석은 군집의 개수나 구조에 대한 가정 없이 데이터를 자발적으로 군집화하는 기법입니다. 이 설명에서 "자발적인 군집화를 유도하지 않는다"는 표현이 부적절합니다. 군집분석은 본래 자발적인 군집화를 유도하는 분석 방법입니다. **이 설명이 부적절합니다.** - **②**: 군집 결과의 안정성을 검토하는 방법으로 교차타당성을 사용하는 것은 적절한 설명입니다. - **③**: 다변량 데이터를 두 집단으로 나누어 각각 군집분석을 수행하고, 그 결과를 합쳐서 비교하는 것은 결과의 안정성을 평가하는 좋은 방법 중 하나입니다. 이 설명도 적절합니다. - **④**: 군집의 분리나 논리적 기반을 살펴보기 위해 군집 간 변동의 크기 차이를 조사하는 것은 적절한 방법입니다. 이는 군집이 얼마나 잘 분리되었는지를 판단하는 데 중요한 요소입니다. ### 결론: 가장 부적절한 설명은 **① 군집분석에서는 군집의 개수나 구조에 대한 가정없이 다변량 데이터로부터 거리 기준에 의한 자발적인 군집화를 유도하지 않는다**입니다. 군집분석은 기본적으로 자발적인 군집화를 유도하는 기법이므로, 이 설명이 틀렸습니다. --- 38. 비계층적 군집분석의 장점에 대한 설명이 잘못된 것은? ① 주어진 데이터의 내부 구조에 대한 사전 정보가 없어도 의미 있는 결과를 얻을 수 있다. ② 다양한 형태의 데이터의 적용이 가능하다. ③ 분석방법의 적용이 용이하다. ④ 사전에 주어진 목적이 없으므로 결과 해석이 쉽다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] ### 비계층적 군집분석 개념 설명: 비계층적 군집분석은 군집의 수를 미리 정해두고, 그 군집의 중심(centroid)을 기반으로 데이터를 반복적으로 재배치하여 최적의 군집을 찾는 방식입니다. K-means 군집분석이 대표적인 예입니다. #### 비계층적 군집분석의 장점: 1. **데이터의 내부 구조에 대한 사전 정보 불필요**: 데이터의 구조에 대한 사전 정보가 없어도 의미 있는 군집을 찾을 수 있습니다. 초기 군집 중심값을 설정하고, 반복적으로 데이터를 재배치하면서 군집화합니다. 2. **다양한 형태의 데이터에 적용 가능**: 비계층적 군집분석은 다양한 형태의 데이터에 적용될 수 있으며, 특히 대규모 데이터셋에서 유용합니다. 3. **적용이 용이**: 알고리즘 자체가 비교적 단순하며, 컴퓨팅 자원을 효율적으로 사용합니다. 4. **군집 개수 설정**: 군집의 개수를 사용자가 미리 설정할 수 있으므로 특정 목적에 맞는 군집화를 할 수 있습니다. ### 문제 풀이: 주어진 설명 중 비계층적 군집분석의 장점에 대한 잘못된 설명을 찾는 문제입니다. - **①**: 비계층적 군집분석은 데이터의 내부 구조에 대한 사전 정보가 없어도 군집화를 수행할 수 있으며, 이를 통해 의미 있는 결과를 얻을 수 있습니다. 이 설명은 적절합니다. - **②**: 비계층적 군집분석은 다양한 형태의 데이터에 적용 가능하며, 특히 K-means와 같은 방법은 매우 널리 사용됩니다. 이 설명도 적절합니다. - **③**: 비계층적 군집분석은 알고리즘이 비교적 단순하고 직관적이기 때문에 적용이 용이하다는 특징이 있습니다. 이 설명 역시 적절합니다. - **④**: **사전에 주어진 목적이 없으므로 결과 해석이 쉽다**는 설명은 부적절합니다. 비계층적 군집분석은 군집의 개수를 미리 설정하는 등의 목적을 설정해야 하며, 이 과정에서 분석자가 결과를 어떻게 해석할지에 대한 목적을 가지고 있어야 합니다. 따라서 이 설명은 잘못된 것입니다. ### 결론: 비계층적 군집분석의 장점에 대한 잘못된 설명은 **④ 사전에 주어진 목적이 없으므로 결과 해석이 쉽다**입니다. 군집분석은 목적이 설정되어 있어야 하며, 결과 해석도 그 목적에 맞추어 이루어져야 합니다. 결과 해석이 쉽다는 점은 비계층적 군집분석의 장점이 아닙니다. --- 45. 거리를 이용하여 데이터 간 유사도를 측정할 수 있는 척도는 데이터의 속성과 구조에 따라 적합한 것을 사용해야 한다. 다음 중 유사도 척도에 대한 설명으로 부적절한 것은? ① 유클리드 거리는 두 점을 잇는 가장 짧은 직선거리이다. 공통으로 점수를 매긴 항목의 거리를 통해 판단하는 척도이다. ② 맨해튼 거리는 각 방향 각각의 이동 거리 합으로 계산된다. ③ 표준화 거리는 각 변수를 해당 변수의 표준편차로 변환한 후 유클리드 거리를 계산한 거리이다. 표준화가 되면 편차 척도 차이, 분석의 차이로 인해 왜곡을 피할 수 있다. ④ 마할라노비스 거리는 변수의 표준편차를 고려한 거리 척도이나 변수 간 상관성이 있는 경우에는 표준화 거리 사용을 검토해야 한다. 정답: 4 출처: [[02 데이터분석준전문가모의고사(ADsP) 2회.pdf]] ### 유사도 척도의 개념 설명: 데이터 간의 유사도를 측정하기 위해 다양한 거리 척도가 사용됩니다. 각 거리 척도는 데이터의 속성과 구조에 따라 적합성이 다를 수 있으며, 이를 이해하는 것이 중요합니다. 아래는 주요 거리 척도와 그 특성에 대한 설명입니다: 1. **유클리드 거리 (Euclidean Distance)**: - 두 점 사이의 가장 짧은 직선 거리를 의미합니다. - 수식으로는 두 점 (x1,y1)(x_1, y_1)(x1​,y1​)과 (x2,y2)(x_2, y_2)(x2​,y2​) 간의 거리가 (x2−x1)2+(y2−y1)2\sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}(x2​−x1​)2+(y2​−y1​)2​로 계산됩니다. - 모든 변수에 대해 동일한 척도를 사용할 때 적합하며, 공통적인 거리 계산 방법입니다. 2. **맨해튼 거리 (Manhattan Distance)**: - 각 방향의 이동 거리 합으로 계산됩니다. 즉, 두 점 사이의 거리를 계산할 때 축을 따라 이동한 거리를 모두 더하는 방식입니다. - 수식으로는 ∣x2−x1∣+∣y2−y1∣|x_2 - x_1| + |y_2 - y_1|∣x2​−x1​∣+∣y2​−y1​∣로 표현됩니다. - 도로망이나 격자 구조에서의 거리 계산에 적합합니다. 3. **표준화 거리 (Standardized Distance)**: - 변수를 표준화(평균을 0, 표준편차를 1로 변환)한 후 유클리드 거리를 계산한 거리입니다. - 변수들의 스케일이 다를 경우 이를 동일하게 맞춰주어 분석의 왜곡을 피할 수 있습니다. 4. **마할라노비스 거리 (Mahalanobis Distance)**: - 변수의 표준편차를 고려한 거리 척도로, 공분산 행렬을 사용하여 변수 간 상관성을 반영합니다. - 변수 간 상관관계가 있는 경우에 효과적으로 사용할 수 있습니다. ### 문제 풀이: 주어진 설명 중 유사도 척도에 대한 잘못된 설명을 찾는 문제입니다. - **①**: 유클리드 거리는 두 점을 잇는 가장 짧은 직선 거리이며, 이 설명은 적절합니다. - **②**: 맨해튼 거리는 축을 따라 이동한 거리의 합으로 계산됩니다. 이 설명도 적절합니다. - **③**: 표준화 거리는 변수를 표준화한 후 유클리드 거리를 계산하여, 스케일 차이로 인한 왜곡을 방지하는 방법입니다. 이 설명 역시 적절합니다. - **④**: 마할라노비스 거리는 변수 간 상관성을 고려한 거리 척도입니다. 하지만 변수 간 상관성이 있는 경우에 표준화 거리 대신 마할라노비스 거리를 사용해야 합니다. 이 설명이 부적절합니다. **변수 간 상관성이 있는 경우에는 표준화 거리 사용이 아니라 마할라노비스 거리 사용을 검토해야 한다**가 맞습니다. ### 결론: 유사도 척도에 대한 설명으로 부적절한 것은 **④ 마할라노비스 거리는 변수의 표준편차를 고려한 거리 척도이나 변수 간 상관성이 있는 경우에는 표준화 거리 사용을 검토해야 한다**입니다. 변수 간 상관성이 있는 경우에는 표준화 거리보다는 마할라노비스 거리를 사용하는 것이 적절합니다. --- 24. 다음 중 군집분석에 대한 설명으로 부적절한 것은? ① 군집분석에서는 군집의 개수나 구조에 대한 가정없이 다량의 데이터로부터 거리 기준에 의한 자발적인 군집화를 유도한다. ② 군집 결과에 대한 안정성을 검토하는 방법은 교차타당성을 이용하는 방법을 생각할 수 있다. ③ 군집의 분리가 논리적인가를 살펴보가 보다는 군집의 안정성이 더 중요하다고 할 수 있다. ④ 개체를 분류하기 위한 명확한 기준이 존재하지 않거나 기준이 밝혀지지 않은 상태에서 유용하게 이용할 수 있다. 정답: 3 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] 군집분석에 대한 설명으로 부적절한 것은 **③ 군집의 분리가 논리적인가를 살펴보가 보다는 군집의 안정성이 더 중요하다고 할 수 있다**입니다. ### 문제 풀이: - **①**: 군집분석은 군집의 개수나 구조에 대한 가정 없이 데이터를 자발적으로 군집화할 수 있는 기법입니다. 이 설명은 적절합니다. - **②**: 군집 결과의 안정성을 검토하기 위해 교차타당성을 사용하는 방법은 적절한 설명입니다. 안정성을 평가하는 여러 방법 중 하나로 사용할 수 있습니다. - **③**: 군집분석에서는 군집의 분리가 논리적인지, 즉 군집화된 데이터가 실제로 유의미한 군집인지가 매우 중요합니다. 군집의 안정성도 중요하지만, 군집 간의 분리가 논리적이지 않다면 그 결과를 신뢰하기 어렵습니다. 따라서 "군집의 분리가 논리적인가"를 살펴보는 것이 매우 중요하며, 이보다 군집의 안정성이 더 중요하다고 단정짓는 것은 부적절합니다. - **④**: 군집분석은 개체를 분류하기 위한 명확한 기준이 없거나 그 기준이 밝혀지지 않은 상태에서 유용하게 사용할 수 있는 분석 기법입니다. 이 설명도 적절합니다. ### 결론: 가장 부적절한 설명은 **③ 군집의 분리가 논리적인가를 살펴보가 보다는 군집의 안정성이 더 중요하다고 할 수 있다**입니다. 군집분석에서 군집의 논리적인 분리는 매우 중요한 요소로, 군집의 안정성보다 더 중요한 경우가 많습니다. --- 08. 군집분석의 품질을 정량적으로 평가하는 대표적인 지표로 군집 내의 데이터 응집도(cohesion)와 군집간 분리도(separation)를 계산하여 군집 내의 데이터의 거리가 짧을수록, 군집 간 거리가 멀수록 값이 커지며 완벽한 분리일 경우 1의 값을 가지는 지표는? ( ) 정답: 실루엣 출처: [[03 제34회데이터분석준전문가자격검정시험복원문제.pdf]] 군집분석의 품질을 정량적으로 평가하는 대표적인 지표로, 군집 내의 데이터 응집도(cohesion)와 군집 간 분리도(separation)를 계산하여 군집 내의 데이터의 거리가 짧을수록, 군집 간 거리가 멀수록 값이 커지며, 완벽한 분리일 경우 1의 값을 가지는 지표는 **실루엣 계수(Silhouette Coefficient)**입니다. ### 실루엣 계수 (Silhouette Coefficient): - 실루엣 계수는 군집 내의 데이터가 얼마나 응집되어 있는지와 군집 간의 데이터가 얼마나 잘 분리되어 있는지를 동시에 고려하는 지표입니다. - 실루엣 계수는 -1에서 1 사이의 값을 가지며, 값이 1에 가까울수록 군집이 잘 형성되었다는 것을 의미합니다. - 0에 가까운 값은 군집이 서로 겹치는 경우를 의미하고, 음수의 값은 데이터가 잘못된 군집에 할당되었을 가능성이 있음을 나타냅니다. - 이 지표는 군집분석의 결과를 평가하는 데 자주 사용됩니다. 따라서, 정답은 **실루엣 계수(Silhouette Coefficient)**입니다. --- 19. 혼합분포군집 모형의 특징으로 적절하지 않은 것은? ① 확률분포를 도입하여 군집을 수행하는 모형 기반 군집 방법이다. ② 군집을 몇 개의 모수로 표현할 수 있다. ③ 모수 추정에서 데이터가 커지면 수행하는 데 시간이 걸릴 수 있다. ④ 군집의 크기가 작을수록 추정의 정도가 쉽다. 정답: 4 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] ### 혼합분포군집 모형 (Mixture Model Clustering) 개념 설명: 혼합분포군집 모형은 데이터가 여러 개의 잠재적인 확률 분포(예: 정규 분포)의 혼합으로 구성된다고 가정하여 데이터를 군집화하는 방법입니다. 이 방법은 모형 기반 군집 방법 중 하나로, 각 군집을 하나의 확률 분포로 나타내며, 군집의 경계를 확률적으로 정의합니다. #### 주요 특징: 1. **확률분포 기반**: 각 군집은 하나의 확률 분포(예: 정규 분포)로 정의되며, 혼합된 여러 분포로 데이터를 설명합니다. 이는 모형 기반 군집 방법입니다. 2. **모수화**: 군집을 몇 개의 모수(평균, 분산 등)로 표현할 수 있어, 군집화의 수학적 모델링이 가능합니다. 3. **데이터의 크기와 연산 비용**: 데이터가 커지면 모수 추정을 수행하는 데 시간이 많이 걸릴 수 있습니다. 이는 EM(Expectation-Maximization) 알고리즘을 사용하는 경우 특히 그러합니다. 4. **군집 크기와 추정의 복잡성**: 군집의 크기가 작다고 해서 반드시 추정이 쉬운 것은 아닙니다. 오히려 군집의 크기가 너무 작으면 통계적 안정성이 낮아져 추정이 어려울 수 있습니다. ### 문제 풀이: 주어진 설명 중 혼합분포군집 모형의 특징으로 부적절한 것을 찾는 문제입니다. - **①**: 혼합분포군집 모형은 확률분포를 도입하여 군집을 수행하는 모형 기반 군집 방법입니다. 이 설명은 적절합니다. - **②**: 혼합분포군집 모형에서는 각 군집을 몇 개의 모수(예: 평균, 분산 등)로 표현할 수 있습니다. 이 설명도 적절합니다. - **③**: 데이터가 커지면 모수 추정에서 시간이 많이 걸릴 수 있습니다. 이는 특히 EM 알고리즘을 사용할 때 발생하는 문제입니다. 이 설명도 적절합니다. - **④**: **군집의 크기가 작을수록 추정의 정도가 쉽다**는 설명은 부적절합니다. 군집의 크기가 너무 작으면 추정이 어려워질 수 있으며, 통계적으로 불안정할 수 있습니다. 따라서 이 설명이 잘못되었습니다. ### 결론: 혼합분포군집 모형의 특징으로 **부적절한** 설명은 **④ 군집의 크기가 작을수록 추정의 정도가 쉽다**입니다. 실제로 군집의 크기가 작을 경우 추정의 어려움이 생길 수 있으며, 통계적으로 불안정해질 수 있습니다. --- 22. EM 알고리즘을 사용하여 혼합분포 모형을 추정하고자 한다. 아래와 같은 그래프가 도출되었을 때, 다음 중 가장 적절한 해석은? ![[ADsP 기출문제 이미지 06.png]] ① 반복횟수 2회만에 로그-가능도 함수가 최대가 되었다. ② 성규혼합분포가 2가지로 판찰되었다. ③ 모수의 추정을 위해 10회 이상의 반복횟수가 필요하다. ④ 로그-가능도 함수의 최소값이 -1040이다. 정답: 1 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] 버리는 문제 --- 28. 다음 중 자기조직화지도(Self-Organizing Maps, SOM)에 대한 것으로 옳지 않은 것은? ① SOM 모델은 입력층과 경쟁층으로 구성되어 있다. ② 입력층이 뉴런들은 경쟁층에 있는 뉴런들과 부분적으로(locally) 연결되어 있다. ③ 단 하나의 전방 패스를 사용함으로써 속도가 매우 빠르다. ④ 경쟁 학습은 연결 강도를 반복적으로 재조정하여 학습한다. 정답: 2 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] ### 자기조직화지도(Self-Organizing Maps, SOM) 개념 설명: 자기조직화지도(SOM)는 비지도 학습 기법 중 하나로, 고차원 데이터를 저차원(보통 2차원) 공간으로 매핑하여 데이터의 구조를 시각적으로 표현하는 데 사용됩니다. SOM은 주로 데이터 시각화, 군집화, 패턴 인식 등에 활용됩니다. #### 주요 특징: 1. **구조**: SOM은 **입력층**과 **경쟁층**으로 구성됩니다. - **입력층**: 입력 데이터를 받아들이는 층으로, 각 입력 벡터가 들어오는 곳입니다. - **경쟁층**: 입력 데이터를 학습하고, 그에 대응하는 지도를 형성하는 뉴런들의 배열입니다. 이 층에서 뉴런들은 서로 경쟁하여 입력 벡터에 가장 가까운 뉴런이 승자가 됩니다. 2. **뉴런 연결**: 입력층의 뉴런들은 경쟁층의 모든 뉴런들과 연결되어 있습니다. 이 연결은 **전역적(globally)**으로 이루어지며, 각 입력 벡터는 모든 경쟁층 뉴런들과 연결됩니다. 3. **경쟁 학습**: SOM의 학습 과정은 경쟁 학습을 기반으로 합니다. 경쟁층의 뉴런들이 입력 벡터에 대해 경쟁을 벌여, 가장 가까운 뉴런(승자 뉴런)이 선택됩니다. 이후 승자 뉴런과 그 이웃의 뉴런들이 입력 벡터에 더 가까워지도록 가중치가 조정됩니다. 이 과정이 반복되면서 지도가 형성됩니다. 4. **속도**: SOM은 여러 번의 반복(iteration)을 통해 학습을 진행하므로, 일반적으로 전방 패스 한 번으로 학습이 완료되는 것이 아니라 반복적인 학습 과정이 필요합니다. 따라서 속도가 매우 빠르다고 말하기 어렵습니다. ### 문제 풀이: 주어진 설명 중 SOM에 대한 부적절한 설명을 찾는 문제입니다. - **①**: SOM 모델이 입력층과 경쟁층으로 구성되어 있다는 설명은 정확합니다. - **②**: 입력층의 뉴런들은 경쟁층의 모든 뉴런들과 연결되어 있으며, 전역적으로 연결됩니다. "부분적으로(locally) 연결"된다는 설명은 부적절합니다. 이 부분이 틀린 설명입니다. - **③**: SOM은 여러 번의 반복(iteration)을 통해 학습이 이루어지며, 전방 패스 한 번으로 학습이 끝나지 않습니다. 따라서 속도가 매우 빠르다고 할 수 없습니다. 이 설명도 부적절합니다. - **④**: 경쟁 학습에서 연결 강도를 반복적으로 조정하여 학습한다는 설명은 정확합니다. ### 결론: SOM에 대한 설명 중 **부적절한** 설명은 **② 입력층이 뉴런들은 경쟁층에 있는 뉴런들과 부분적으로(locally) 연결되어 있다**입니다. 실제로는 입력층의 뉴런들이 경쟁층의 모든 뉴런들과 **전역적으로 연결**됩니다. --- 35. 다음 중 군집분석에 대한 설명으로 가장 적절하지 않은 것은? ① 분할적 군집은 모든 데이터를 단일 군집에 속한다고 정의하고 시작하는 방법으로 상위 군집에서 잘못된 결정을 하면 하위 군집에 파급되는 정도가 크다는 단점이 있다. ② k-평균군은 중심으로부터 거리를 기반으로 군집화하기 때문에 구형으로 모여져 있는 볼록(convex)한 데이터 세트에서는 비교적 잘 작동하나 오목한(non-convex) 형태의 군집 모델은 특성을 구현해내는 데 성능이 떨어진다. ③ k-medoid 모델은 실제 데이터에 있는 잡음 수집경으로 하기 때문에 이상값이나 잡음(noise) 처리에 있어 우수하나, k-평균법에 비해 계산량이 많다는 단점이 있다. ④ 밀도 기반 클러스터링(DBSCAN) 모델은 따로 있게 연결된 데이터 집합을 동일한 군집으로 판단하는 방식이지만 k-평균법 모델처럼 모양과 형태의 데이터 세트에서는 군집 특성을 잘 찾아내지 못한다. 정답: 4 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] 버리는 문제 --- 38. 다음 중 군집의 개수를 미리 정하지 않아도 되어 탐색적 분석에 사용하는 군집 모형으로 적절한 것은? ① k-평균군집 모형 ② SOM 모형 ③ 계층적군집 모형 ④ 혼합분포군집 모형 정답: 3 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] 풀 수 있는 문제 --- 50. 아래 빈칸에 들어갈 용어는? ( )는 계층적 군집분석 방법 중 하나로 군집과 군집, 또는 데이터와의 거리계산 시, 최단거리를 계산하여 거리가 가까운 데이터, 또는 군집을 새로운 군집으로 형성하는 방법이다. 이 방법은 사슬 구조의 군집이 생길 수 있다. ( ) 정답: 최단 연결법 출처: [[04 제35회데이터분석준전문가자격검정시험복원문제.pdf]] 30. 다음 중 군집분석에 대한 설명으로 가장 적절하지 않은 것은? ① 군집화의 방법에는 분리 군집, 밀도기반 군집, SOM(Self-Organizing Map)등이 있다. ② 군집분석은 집단 간 이질성과 집단 내 동질성이 모두 낮아지는 방향으로 군집을 만든다. ③ 특정한 군집을 형성하는 방법에는 병합적방법과 분할적 방법이 있다. ④ 군집분석의 이용되는 다변량 자료는 별도의 반응 변수가 요구되지 않는다. 정답: 2 출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]] 주어진 설명 중 군집분석에 대한 가장 적절하지 않은 설명을 찾는 문제입니다. 1. **군집화 방법**: 군집화의 방법에는 분리 군집, 밀도기반 군집, 그리고 SOM(Self-Organizing Map) 등이 포함됩니다. 이 설명은 적절합니다. 2. **군집분석의 목표**: 군집분석의 목표는 **집단 간 이질성을 최대화하고, 집단 내 동질성을 최대화**하는 것입니다. 이는 군집이 서로 잘 구별되도록 하고, 같은 군집 내의 데이터가 최대한 비슷하도록 만드는 것을 의미합니다. 따라서 "집단 간 이질성과 집단 내 동질성이 모두 낮아지는 방향으로 군집을 만든다"는 설명은 **부적절합니다**. 군집분석은 이질성을 낮추고 동질성을 높이는 것이 목표이기 때문입니다. 3. **군집 형성 방법**: 특정한 군집을 형성하는 방법에는 병합적 방법(agglomerative)과 분할적 방법(divisive)이 있습니다. 이 설명도 적절합니다. 4. **다변량 자료**: 군집분석에 이용되는 다변량 자료는 별도의 반응 변수를 요구하지 않습니다. 즉, 군집분석은 비지도 학습으로, 사전 레이블 없이 데이터를 군집화하는 것이 목표입니다. 이 설명 역시 적절합니다. ### 결론: 가장 적절하지 않은 설명은 **② 군집분석은 집단 간 이질성과 집단 내 동질성이 모두 낮아지는 방향으로 군집을 만든다**입니다. 군집분석의 목표는 **집단 간 이질성을 최대화**하고, **집단 내 동질성을 최대화**하는 것입니다. --- 36. 군집분석 기법으로 적절하지 않은 것은? ① PAM(Partitioning Around Medoids) ② Density based Clustering ③ Silhouette Coefficient ④ Fuzzy Clustering 정답: 3 출처: [[05 제36회데이터분석준전문가자격검정시험복원문제.pdf]] 1. **PAM (Partitioning Around Medoids)**: PAM은 군집분석 기법 중 하나로, K-medoids라고도 불립니다. 이 방법은 데이터 포인트 중 실제 데이터 포인트를 군집의 중심으로 선택하여 군집화하는 기법입니다. 이 설명은 군집분석 기법으로 적절합니다. 2. **Density-based Clustering**: DBSCAN과 같은 밀도 기반 군집화 기법은 데이터 포인트의 밀도를 기반으로 군집을 형성하는 방법입니다. 이 설명도 군집분석 기법으로 적절합니다. 3. **Silhouette Coefficient**: 실루엣 계수는 군집화의 품질을 평가하는 지표로, 각 데이터 포인트가 자신의 군집 내에서 얼마나 잘 맞는지, 그리고 다른 군집과 얼마나 잘 구별되는지를 평가하는 데 사용됩니다. 실루엣 계수는 군집분석 기법이 아니라, **군집의 품질을 평가하는 지표**입니다. 따라서 이 옵션은 군집분석 기법으로 적절하지 않습니다. 4. **Fuzzy Clustering**: 퍼지 클러스터링은 데이터 포인트가 여러 군집에 속할 수 있도록 허용하는 군집화 기법입니다. 각 데이터 포인트는 각 군집에 대한 소속도(멤버십 값)를 가지며, 소속도가 높을수록 해당 군집에 더 가깝다는 의미입니다. 이 설명도 군집분석 기법으로 적절합니다. ### 결론: 가장 적절하지 않은 군집분석 기법은 **③ Silhouette Coefficient**입니다. Silhouette Coefficient는 군집분석 기법이 아니라, 군집화의 품질을 평가하는 지표입니다. --- 32. 데이터셋 x는 두 개의 변수와 5개의 관측치를 가지며 아래는 데이터와 관측치 간의 유클리드 거리를 나타낸다. 최단연결법을 사용하여 계층적 군집화를 할 때 첫 단계에서 형성되는 군집과 관측치 a와의 거리를 구하시오.![[ADsP 기출문제 이미지 18.png]] ① 2.8 ② 3.2 ③ 3.6 ④ 5.0 정답: 2 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] ### 최단 연결법(Single Linkage) 설명: 최단 연결법은 두 군집 간의 최소 거리를 기준으로 군집을 형성합니다. 가장 가까운 두 개의 관측치 또는 군집을 묶어 새로운 군집을 만듭니다. ### 첫 번째 단계에서 군집 형성: 1. 거리 행렬에서 가장 짧은 거리를 찾습니다. - 여기서 가장 짧은 거리는 2.2로, 관측치 **d**와 **e** 간의 거리입니다. 2. 따라서 **d**와 **e**가 첫 번째 단계에서 군집화됩니다. ![[Screenshot 2024-08-09 at 15.19.47.png]] --- 05. 고차원 데이터를 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화하는 클러스터링 방법은? ( ) 정답: SOM(Self-Organizing Map) [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]] 06. 계층적 군집분석 결과를 아래와 같이 덴드로그램으로 시각화하였다고 할 때 Tree의 높이(height)가 60일 경우 나타나는 군집의 수를 쓰시오. ( )![[ADsP 기출문제 이미지 20.png]] 정답: 3개 [[06 제37회데이터분석준전문가자격검정시험복원문제.pdf]]