지도학습 VS 비지도 학습
- 지도학습의 특징으로는 "미래를 예측한다" 이다. 여러 X 독립변수들을 가지고 하나의 종속 변수 Y를 예측하는 모형을 모형화시킨다.
- 비지도학습의 큰 특징으로는 "분류" 이다. 비지도학습에는 군집 분석, 요인 분석, 신뢰성 분석이 있고 크게 보면 군집분석과 요인+신뢰성 분석이다.
- 군집분석은 사람들을 분류하여 각 군집의 특성을 파악하고, 특성에 맞는 계획을 수립한다.
- 요인분석은 변수(요인, Factor)들을 분류하여 유사한 변수들끼리 묶는다. 10개 변수로 분석할 일을 3개의 변수로 단순화할 수 있다.
Q 왜 군집분석에는 신뢰성 검사를 하지 않을까?
A 계층적 군집분석을 예시로, 군집분석은 단계적으로 진행이 되기 때문에, 신뢰성 검사가 따로 필요하지 않다.
★ 신뢰성 분석은 시험에 출제되므로 유심히 보자! ★
데이터 (분석)
- 사실(FACTS)의 집합
- 적절한 데이터 분석을 위해서는, 무엇으로부터, 어떻게 수집할 것인지, 어떻게 측정할지를 결정해야 한다.
- 데이터는 올바르게 측정된 것인지 점검해볼 필요가 있다.
[수업 보충 필기]
군집분석(cluster analysis)
- 자료의 개별 케이스(사람)를 서로 간의 상호 관련성을 토대로 동질적인 집단으로 묶어주는 통계기법
- 군집(cluster) : 유사한 특징을 지니거나 유사한 답변을 한 케이스들을 동일한 집단으로 분류하며 이러한 집단을 군집
- 특정 군집 내의 분석대상들은 서로 동질적인 특성을 갖는 반면, 군집 간에는 서로 이질적인 모습을 보이게 됨
(1분단 내의 사람들은 특성이 비슷하지만 1분단과 2분단은 서로 이질적인 모습을 보인다.) - (중요) 요인분석은 변수 간의 관련성(사람을 묶으면 군집분석, 변수를 묶으면 요인분석)으로부터 유사변수들을 하나의 동질적인 요인으로 묶어주는 반면, 군집분석은 응답값이나 관측값 등을 토대로 유사한 특성을 갖는 케이스들을 동질적인 집단으로 분류한다.
- 판별분석은 개별 케이스에 대한 귀속집단을 미리 알고 있어야 한다.
- ▶이미 서버에 데이터가 있어야(존재하여야) 한다.
- 이러한 개별 케이스와 귀속집단 간의 관계를 통해 집단의 분류규칙을 도출하는 것을 목표로 하나, 군집분석은 개별 케이스가 속할 집단이 사전에 결정되어 있지 않으며 케이스들을 통해 실제의 집단을 찾아내는 것을 목표로 함
- ▶서버에 데이터가 (존재하지 않는다)없다, 미리 알 필요가 없다, 실제 서버에 있는 사람을 통해서 집단을 찾아내는 것
군집분석 방법
- 계층적 군집분석
- k-mean (k-평균 군집분석)
계층적 군집분석 → 병합 계층적 군집분석과 분할 계층적 군집분석이 있음
- 병합 : 20명이 20개의 cluster가 되는 것
- → 거기서 유사한 사람끼리 묶는 것, 퍼져 있는 것을 하나씩 모으는 것
- 분할 : 20명이 하나의 cluster
- → 거기서 떨어져 나간 것끼리 묶는 것, 모아져 있는 것을 필요 없는 것으로 하나씩 버리는 것
'빅데이터 분석 > 수업 필기' 카테고리의 다른 글
빅데이터분석 필기 (14) (1) | 2024.06.09 |
---|---|
빅데이터분석 필기 (13) (0) | 2024.06.09 |
빅데이터분석 필기 (11) (0) | 2024.06.09 |
빅데이터분석 필기 (10, 개념추가 + 실습) (0) | 2024.06.09 |
빅데이터분석 필기 (10) (1) | 2024.06.09 |