머신러닝을 위한 통계학2/수업 필기

머신러닝을 위한 통계학2 11주차

코딩입문시작 2024. 12. 8. 19:08

소프트맥스 함수

  • 로지스틱 함수의 다차원 일반화 개념이다. 종속변수 상태가 3개 이상인 멀티 클래스 분류 문제에서 인공 신경망의 최종 Layer로 활용되는 함수이다.

로짓 값을 그대로 사용하지 않고 확률값으로 변환하는 이유 (지수함수를 취하는 이유)

  • 값들 간의 차이를 더욱 두드러지게 하여 신경망 학습이 잘 되도록 하기 위해서이다.

로지스틱 회귀분석이 필요한 경우

  • 종속변수가 이항 변수인 경우
  • 종속변수가 이항 변수의 특징을 갖는 경우

회귀식의 설명력 의미

  • 종속변수의 변동을 어느 정도 설명하는가를 의미한다.

편상관계수 ?

  • 다른 독립변수의 효과를 제거한 후 한 독립변수와 종속변수의 상관관계이다. 
  • 다중 공선성의 해결방안으로 편상관계수가 있다.

편상관분석이 필요한 경우 및 목적 

  • 종속변수를 설명하는 독립변수로 고려하는 두 변수 간에도 명백히 강한 상관관계를 갖는 경우에 하나의 독립변수의 영향력을 제한하고 남은 다른 독립변수만의 결과에 대한 영향력을 평가하고자 하는 경우에 분석하는 방법이다. 편상관분석은 가짜 상관관계를 찾아내는 데에 유용하다. 

다중 공선성이란?

  • 회귀분석에서의 다중 공선성은 독립변수 간에 상관관계가 존재하는 것을 말한다. 다중 공선성이 존재하면 회귀분석의 결과가 왜곡될 수 있다.
  • 다중 공선성으로 인하여 회귀계수의 신뢰구간이 넓어지고 모델의 예측력이 감소한다.

회귀분석 시 독립변수들에 대해서, 선형성, 정규성, 독립성, 등분산성을 가정한다.

  • 회귀분석 모델의 정확도를 평가할 때 사용하는 대표적인 지표 중 하나가 AIC이다.
  • AIC는 주어진 데이터 셋에 대한 통계 모델의 상대적인 품질을 평가하는 지표로서, 낮을수록 좋다.

회귀분석이란 ?

  • 종속변수의 분산을 독립변수로 설명하는 과정이다.

다중 공선성 VS 편상관 관계

  • 다중 공선성은 독립변수 간에 선형적인 관계가 존재하지만, 편상관 관계는 독립변수 간에 비선형적인 관계가 존재한다. 
  • 다중공선성은 VIF를 통해 확인하는데, VIF가 10이상일 경우 다중공선성이 존재한다고 본다. 또는 공차를 통해 확인하는데 공차가 0.1 미만이면 다중공선성이 존재한다고 본다.

편상관 계수

  • 제 3의 변수가 두 변수에 미치는 영향을 제거한 후, 두 변수 간의 순수한 상관관계를 나타내는 계수이다.
  • 편상관 계수는 산점도 행렬을 통해 확인할 수 있다. 산점도 행렬을 통해 독립변수 간에 비선형적인 관계가 있다면, 편상관관계가 있다고 볼 수 있다.