지도학습 (관리학습)
- 모형화 (y와 x1, x2, ... , xn)
- 회귀 (다중/단순 선형, 로지스틱(2분형))
비지도학습 (비관리학습, 자율학습)
※ 판별분석 ~ 로지스틱 공통 : y값이 범주형 문자형
판별분석
- 지도학습
- y값은 목표변수, x1 ~ xn값은 독립변수
- y값은 양호, 보통, 불량으로 나뉘어지는 3분형 이상의 명목척도이다.
- 2분형도 가능은 하다!
오분류율
- 잘못 분류한 비율, 오분류율을 낮춰야 한다.
- ▶ 방법
- 1) 판별함수 → 판별점수
- 2) 분류함수
- → 양호의 함수, y = x ~ = 분류점수
- → 보통의 함수, y = x ~ = 분류점수
- → 불량의 함수, y = x ~ = 분류점수
- 각 분류점수를 계산하고, 분류점수가 높은 쪽으로 분류
판별분석 절차 [시험 출제]
- 예측변수 선정
- 판별함수 도출
- 케이스별 판별점수
- 판별점수에 따라 소속집단 분류 (예측)
다이어트 식품 구매예측
변수 | 검정통계량 | 유의확률 |
나이 | 17.896 | 0.000 |
- 요약
- 가설검정 H0 : 나이는 유의하지 않다.
- 검정통계량 F : 17.896
- 기각역 : 유의확률 0.000 < 유의수준 0.05
- 결론 : H0 기각한다.
판별점수 = b0 + b1 * x1 + b2 * x2 + ... + bn * xn
집단중심값 : 집단 별 계산된 판별점수 평균
< 다이어트 식품구매 집단중심값 >
0 | -0.351 |
1 | 0.351 |
▶ 판별점수가 -0.351에 가까우면 0 (NO), 0.351에 가까우면 1 (YES)로 예측한다.
분류표
예측값 0 | 예측값 1 | 정확도 | |
실제 값 0 | 298 | 192 | 60.8% |
실제 값 1 | 173 | 317 | 64.7% |
▶ 정확도는 (60.8 + 64.7) / 2 = 62.8%이다.
※ 분류함수, 표준화 개념은 필기(9) 참고
표준화 계수
- 판별점수 계산에 어느 예측변수가 상대적으로 큰 기여를 하는지 알 수 있다.
구조행렬
- 각 예측변수 값과 판별점수 간 상관계수
판별점수에 대한 ANOVA(분산분석) : 다이어트 식품 구매
자유도 (df) | 제곱합 (SS) | 평균제곱 (MS) | 검정통계량 (F) | 유의확률 | |
집단 간 | 1 | 120.968 | 120.968 | 120.968 | 0.000 |
집단 내 | 978 | 978 | 1.000 | ||
전체 | 979 | 1098.968 |
모형의 타당성 검정
- 계수는 T검정
- 모형은 F검정
분포 - 표본
- Z분포 - 대표본, Z~N(0, 1)
- T분포 - 소표본, T~N(n - 1)
- F분포, F~F(n - 1, m - 1), 데이터 수 0이상
- 카이제곱 분포, X^2~X^2(n - 1), 데이터 수 0이상
- T분포, F분포, 카이제곱 분포 모두 샘플이 커지면 Z분포를 따른다.
고유값
- 판별함수의 판별력이 좋을수록 커진다.
정준상관
- 판별함수의 판별력이 좋을수록 1에 가까워진다.
판별분석은 집단들의 모집단 공분산행렬이 동일해야 한다.
Box의 M검정은 집단의 공분산이 모집단에서도 동일하다는 귀무가설을 검정한다.
표본의 크기가 크면 이를 무시하고 그냥 판별분석을 하기도 한다.
지도학습은 모형을 예측을 하고 관리학습이다.
- 예측모형 : 수치적 ex) 선형회귀
- 분류모형 : 문자적 ex) 로지스틱, 판별분석
비지도학습은 분류를 하고, 비관리학습, 자율학습이라고 한다. 예를 들어, 군집분석은 사람을 분류하고, 요인분석은 변수를 분류한다.
판별분석 : 3분형 이상
- 판별함수 → 판별점수가 집단별 판별점수 평균에 가까운 쪽으로 분류한다.
- 분류함수
- → 분류의 개수만큼 분류함수가 존재한다.
- → 분류 함수들에 값을 넣었을 때 결과가 큰 쪽으로 분류한다.
y = B0 + B1 * x (모집단, 모수) → y = b0 + b1 * x (표본)
모형
- 1) 계수평가
- 1-1) H0 : B1 = 0
- 1-1) H1 : B1 ≠ 0
- 1-2) 표본 b1을 가지고 T-검정통계량 → 유의확률
- 1-3) 유의확률 < 유의수준 (0.05)
- 2) 모형 전체 평가 → F-검정으로 ANOVA
군집분석 : 비지도학습
군집학습
- 각 케이스를 상호 관련성을 토대로 집단으로 묶는것을 말한다.
- 특정 군집 내는 서로 비슷하나, 군집 간에는 서로 이질적이다.
- 자료의 개별 케이스를 서로 간의 상호 관련성을 토대로 동질적인 집단으로 묶어주는 통계기법
- 군집(cluster) : 서로 유사한 특징을 지니거나 유사한 답변을 한 케이스들을 동일한 집단으로 분류하며 이러한 집단
- 비지도 학습으로, Y값이 존재하지 않는다. (큰 차이점)
- 모형화X
- x만의 데이터를 가지고 분석하는 것이 자율학습
판별분석 VS 군집분석
- 판별분석은 개별 케이스에 대한 귀속 집단(Y)를 미리 알고 이런 케이스와 귀속 집단 간 관계를 통해 집단의 분류 규칙을 찾는다.
- 군집분석은 개별 케이스가 속한 집단이 사전에 정해져 있지 않고 케이스들을 통해 실제의 집단을 찾아낸다.
- → 계층적 군집분석 (이론적 설명에 좋다.)
- → K-Means 군집분석
군집분석 VS 요인분석 차이
- 사람 (CASE)을 묶으면, 군집분석
- → 비지도학습(자율학습), 예측이 아닌 분류!!!
- 변수 (VARIABLE)를 묶으면, 요인분석
계층적 군집분석 : 병합과 분할의 2가지
- 계층적 군집화 과정을 통해 군집을 도출하기 위한 검토 결정 사항
- ▶케이스 간의 유사성 또는 거리 / 상이성을 측정하기 위한 기준
- ▶어느 군집과 어느 군집이 다음 단계에서 서로 결합될 것인지 정하는 기준
- ▶군집의 개수 결정 기준
계층적 군집화 과정을 통해 군집을 도출하기 위한 검토 결정 사항
- 케이스 간의 유사성 또는 거리/상이성을 측정하기 위한 기준 (유클리디안 거리)
- 어느 군집과 어느 군집이 다음 단계에서 서로 결합될 것인지를 결정하는 기준
- → 이 사람이랑 이 사람은 친한데 또 어떤 사람이 나랑 같은 군집으로 들어 올 것인가?
- 군집의 개수 결정 기준
- ★ 군집의 개수는 결정된 것이 없다. 과거 경험에 따라 분류자가 군집의 개수를 결정
예시로, 김연아 선수 피겨 프로그램 점수
▶J1과 J2 간 제곱 유클리드 거리
▶D12 = 4.25, 제곱 유클리드 거리가 가까운 것끼리 한 군집으로 묶는다.
제곱 유클리드 거리가 작아야 한 군집으로 묶인다! = 유사성이 높음
- 제곱유클리드거리
- 제곱을 하는 이유 : 0이 되는 것을 방지하기 위함
- D12 = (J1의 기술점수 - J2의 기술점수)제곱 + (J1의 예술점수 - J2의 예술점수)제곱
= (13 - 11)제곱 + (41.25 - 41.75)제곱 = 4.25 - 덴드로그램이 보기 더 좋음
K-평균 군집분석 VS 계층적 군집분석 차이
- 원하는 군집 개수를 미리 알아야 한다. = 'K' 는 군집의 개수를 의미한다.
- 계층적 군집분석에서는 한번 특정 군집에 할당되면 끝까지 변경하지 않는다.
- 반면에 K-평균 군집분석은 케이스의 소속 군집이 진행 단계마다 변경된다.
- 계층적 군집분석은 군집화를 위해 모든 케이스 간 거리를 측정해야 한다. 케이스가 많을수록, 근접행렬이 상당히 커지게 된다.
- 반면에 K-평균 군집분석은 모든 케이스 간 거리 또는 유사성 측정을 요구하지는 않는다.
K-평균 군집분석
- 개별 케이스와 K개 군집 평균과의 거리를 측정해 이 가운데 가장 가까운 거리를 갖는 군집에 개별 케이스를 할당하는 방식으로 군집화를 한다.
K-평균 군집분석 절차
- 최초의 K-중심점을 선택한다.
- 이를 중심점과 개별 케이스 간 거리를 근거로 케이스를 분류한다.
- 각 군집에 할당된 케이스들을 이용해 새 군집 평균 (즉 중심점)을 계산하고, 이를 토대로 모든 케이스를 다시 분류한다.
- 군집 평균에 더 이상 큰 변화가 없을 때까지 반복한다.
- 계층적은 이론적으로 하기 편한 것에 비해 k-평균은 이론적이 어려움
- k-평균은 데이터가 많아야 하기 때문에 데이터가 적을 때는 설명이 어려움
분산분석 = F-Test
'빅데이터 분석 > 수업 필기' 카테고리의 다른 글
빅데이터분석 필기 (11) (0) | 2024.06.09 |
---|---|
빅데이터분석 필기 (10, 개념추가 + 실습) (0) | 2024.06.09 |
빅데이터분석 필기 (9) (1) | 2024.06.09 |
빅데이터분석 필기 (8) (0) | 2024.04.21 |
빅데이터분석 필기 (7) (0) | 2024.04.21 |