회귀 (Regression)
- 극단값이 다음 세대에서 평균 또는 평균에 더 가까워지는 경향을 설명하기 위해 사용하는 것
회귀분석
- 독립변수가 종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속변수 값을 예측하는 선형모형을 산출하는 방법
- 예시) 매출액은 광고횟수에 따라 어떻게 변하는가?
- ▶이때, 독립변수: 광고횟수, 종속변수: 매출액
회귀식의 도출 및 활용
- 회귀식을 이용하여 몸무게에 따른 키를 예측한다.
회귀선이란?
- 잔차의 절대값을 모든 관측치에 대하여 구한 다음, 그 합을 최소화하는 직선
최소자승법
- 관측치와 회귀선과의 거리인 잔차 제곱의 합을 최소화하는 직선식을 찾는 방법
- 잔차제곱의 합을 최소화하는 직선식을 구하는 방법
회귀식의 계수는 과연 HOW 어떻게 정할까? → 활성화 함수
결정계수
- 추정된 회귀선이 실제값과 평균 사이의 편차를 얼마나 줄여주는가를 나타내는 지수
- 일반적으로 R^2으로 나타낸다.
추정값의 표준오차
- 실제 관측치와 추정된 회귀선의 예측값과의 차이, 즉 오차 혹은 잔차의 표준편차라고 한다.
검정통계량 F (MSR/MSE)
- 객관적으로 도출된 회귀식이 통계적으로 유의한가를 평가하는 방법이다.
- 회귀선의 설명력이 아무리 높아도 통계적으로 유의하지 않으면 일반화하여 사용하기 어렵다.
- 분산분석에서와 같은 방법으로 회귀식의 통계적 유의성을 검정한다.
- 여기서 제곱합을 자유도(데이터의 크기)로 나누는 이유는, 데이터 크기로 인한 영향력을 배제하기 위해서이다.
앙상블 기법
- 사람 얼굴을 인식하는 과제를 인공 신경망이 수행해야 한다고 가정하자. 심층 신경망은 복잡한 과제를 작은 업무의 조합으로 구분하고 이를 각 Layer(층)가 분할하여 담당하도록 한다. 이러한 기법을 앙상블 기법이라고 한다.
활성화 함수
- 신경망에서 입력신호를 총합하여 출력신호로 변환하는 역할을 한다. 활성 함수는 비선형 함수를 사용한다.
- 비선형 함수를 사용하기 때문에 신경망이 더 복잡한 패턴을 학습할 수 있도록 표현력을 높여준다.
- 활성화 함수로는 시그모이드 함수, 하이퍼볼릭 탄젠트 함수, 렐루 함수, 소프트맥스 함수가 있다.
시그모이드 함수
- 신경망에 사용되는 회귀식을 분류(Classification)에 활용하기 위해 간단히 y를 p로 바꾼다.
- y를 연속형 값이라면, p는 0~1로 제한되는 확률값이다.
- p값이 0.5 이상이면 1로, 0.5 미만이면 0으로 분류한다.
오즈비의 등장 배경
- 선형관계가 있는 실수의 입력 값들을 토대로 확률을 예측하는 회귀모델은 p = B0 + B1 * X1 + B2 * X2 + ...이다. 근데 여기서 p는 확률값이고, 우변의 선형 회귀식은 연속형 실수 값이다. 이 때문에 좌변과 우변 간에 값의 범위가 다른 미스 매치가 발생한다. 이로 인해 우변의 실수값을 확률 값으로 변환해주기 위해 나온 것이 오즈이다.
- 오즈: 실패 확률에 대한 성공 확률의 비이다.
로짓(변환)
- 로짓은 승산에 로그값을 취한 함수이다.
- 로짓변환을 사용하면 회귀분석을 통해 확률을 예측할 수 있다.
- 로짓변환이란, 어떤 사건이 벌어질 확률 p가 0에서 1사이의 값일 때, 이를 연속형 실수 값으로 변환하는 과정을 로짓변환이라고 한다.
로지스틱 함수
- 시그모이드 함수의 x 대신 p로 표현된 회귀식으로 대입한 함수이다.
- 로지스틱 함수를 이용하여 선형 회귀식이 이진 분류에 사용하는 것이 가능해졌다.
'머신러닝을 위한 통계학2 > 수업 필기' 카테고리의 다른 글
머신러닝을 위한 통계학2 12주차 (0) | 2024.12.08 |
---|---|
머신러닝을 위한 통계학2 11주차 (0) | 2024.12.08 |
머신러닝을 위한 통계학2 6주차 (0) | 2024.10.28 |
머신러닝을 위한 통계학2 5주차 (0) | 2024.10.28 |
머신러닝을 위한 통계학2 4주차 (0) | 2024.10.28 |