다중공선성 확인?
- 정량적 방법으로 vif()가 있다.
※ 독립변수가 마냥 많다고 좋은 것은 아니다.
상관계수가 -0.85값에서 편상관계수가 -0.307로 바뀌었다는 걸 해석하자면, 두 변수간의 제 3변수 영향을 받으면 음의 상관관계가 있는데, 제 3변수를 제거하면 관계성이 떨어진다는 얘기이다. 근데 여기서 유의하게 봐야할 점은 p.value값인데, p.value값이 0.05보다 큰 0.09값으로, 통계적으로 유의함이 떨어진다는 얘기이다.
로지스틱 회귀분석(Logistic Regression)
- 선형 회귀분석과는 다르게 종속 변수가 범주형 데이터를 대상으로 하며, 데이터의 결과가 특정 분류로 나뉘기 때문에 일종의 분류 (Classification) 기법이다. [확률(오즈값) = 독립변수1 + 독립변수2 + 독립변수3 + ...]
- 목적은, 종속변수와 독립변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용하는 것이다.
- 로지스틱 회귀분석은 확률을 다루는 분석법이다.
- 새로운 데이터에 대해 "분류를 예측" 하거나 "예측변수 프로파일링"을 할 수 있다.
How to use in R, 로지스틱 회귀분석?
- R에서 로지스틱 회귀분석에 사용되는 함수는 glm() 함수이다.
- glm() 함수를 사용하여 로지스틱 회귀분석을 수행하려면 family 인수가 필수이다.
- family인수는 종속변수의 분포를 지정한다. 로지스틱 회귀분석의 경우 family = binomial()을 지정해야 한다.
로지스틱 회귀분석은 확률을 다루는 분석이기 때문에 분류 모델이 실제로 얼마나 맞추었는가? 를 평가하는 지표가 따로 있다. 확률 관점에서 모델의 성능을 평가하기 위해서는 얻어진 로지스틱 회귀 모델에 의한 확률을 추정하고 그 결과를 평가 해야 한다. 로지스틱 회귀분석 모델의 적합도와 성능을 평가하는 방법은 다음과 같다.
- Deviance(이탈도) 값이 작을수록 모형의 적합도가 올라간다.
- AIC값이 작을수록 모형이 더 간결하다.
- 정확도, 민감도, 특이도에 의해 평가한다.
- 정확도는 전체 정확도를 의미한다.
- 민감도는 실제 값 중에서 모형이 얼마나 예측값과 실제값이 같은지에 대한 지표이다.
- 특이도는 실제 값이 아닌 값 중에서 모형이 얼마나 예측값과 실제값이 다른지(?)에 대한 지표이다. 이렇게 이해하기 어렵다면 그냥, 실제 Negative 중에서 모형이 Negative를 맞추었는가에 대한 지표이다.
로지스틱 회귀분석의 변수선택법
- 전진 대입법
- 후진 제거법
- 단계적 방법
- → 유의한 변수만 선택하는 방법이다. R에서는 step() 함수를 이용한다.
- 변수가 유의한 지를 판단하는 기준은 단계별로 이탈도 (Deviance)를 이용하여 판단한다.
tenure의 -0.0671 회귀계수 의미
- tenure의 회귀계수가 마이너스이므로, tenure가 1단위 증가하면 통신 서비스사를 변경할 확률이 6% 감소한다는 의미이다.
MonthlyCharges의 +0.03 회귀계수 의미
- MonthlyCharges의 회귀계수가 플러스이므로, MonthlyCharges가 1단위 증가하면 통신 서비스사를 변경할 확률이 3% 증가한다는 의미이다.
▶ 변수의 유의성 여부와 변수의 영향력(오즈값 크기)간에는 상관이 없다.
로지스틱 회귀분석에서 처음 모델과 개선 후 모델 간의 효과를 분석하기 위해 어떠한 방법을 사용하나?
- ROC 커브 비교
- AUC 비교
- ANOVA분석: 지적적 차이 검정은 두 모형의 분류 정확도 차이가 통계적으로 유의한지 검정하는 방법이다.
모델 성능평가 방법
- confusionMatrix: 학습한 모델의 성능을 평가하는데 사용되는 지표이다.
ROC Curve
- X축은 FPR을 의미한다. 실제 Negative를 Positive로 예측하여 판정 결과가 False인 비율을 말한다.
- Y축은 TPR을 의미한다. 실제 Positive를 Positive로 예측하여 판정 결과가 True인 비율을 말한다.
'머신러닝을 위한 통계학2 > 수업 필기' 카테고리의 다른 글
머신러닝을 위한 통계학2 14주차(2) (0) | 2024.12.09 |
---|---|
머신러닝을 위한 통계학2 14주차(1) (0) | 2024.12.08 |
머신러닝을 위한 통계학2 12주차 (0) | 2024.12.08 |
머신러닝을 위한 통계학2 11주차 (0) | 2024.12.08 |
머신러닝을 위한 통계학2 10주차 (0) | 2024.12.08 |