머신러닝2/수업 필기

머신러닝2 5주차

코딩입문시작 2024. 10. 23. 02:02

머신러닝2

- 지도학습 (기계학습의 회귀분석) -


지도학습

  • 다중 회귀분석 (Regression)
  • 로지스틱 회귀분석 (Logistic Regression)
  • 신경망
  • 서포트 벡터 머신
  • 의사결정나무
  • 앙상블
  • K-근접 이웃기법 

회귀분석의 검정은 유의수준 (p-value) 로 한다. 기계학습의 검정은 예측의 정확도 이다.

최소제곱법은 회귀모형의 오차 제곱의 합 (SSE)을 최소로 하는 회귀계수를 이들의 추정치로 하는 것이다.

다수의 요소를 가지고 y를 예측하고 싶을 때, 이를 다중 선형 회귀분석이라고 한다. 

다중 회귀분석

  • 가설 (Hypothesis)에 대한 최적의 W와 b를 찾아 실제값과 예측값에 대한 오차 식비용함수 (Cost Function)이라고 한다.
  • 회귀 문제의 경우에는, 주로 평균 제곱 오차(MSE)를 사용한다.

 

[매우 중요!!!]

경사하강법

  • 회귀모형의 비용함수 MSE 최소화로 하는 반복적 접근 방식으로 회귀계수를 이들의 추정치로 하는 것이다.
  • MSE와 SSE의 차이는 SSE는 데이터 값의 총합이지만, MSE는 데이터 값의 총합을 한 다음, 데이터 수만큼 나누어 준다.
  • SSE : 데이터 셋의 모든 관측치에 대한 전체 오류를 제공한다.
  • MSE : 관측치 수에 걸쳐 총 오류를 평균화한다.

비용 함수 (Cost Function) - 평균 제곱 오차 (MSE)

  • 가설에서 세워진 식을 통해 예측값을 도출한다.
  • MSE를 최소로 만드는 W와 b를 찾아서 회귀분석 식을 도출한다.
  • 회귀 → 다양한 변수 → 표준화 (잔차)

Optimizer - backward

  • Cost function을 최소화하는 매개 변수인 W와 b를 찾기 위한 작업을 할 때 사용되는 알고리즘을 Optimizer이라고 한다.
  • 이를 머신러닝에서는 학습이라고 한다. 
  • 가장 기본적인 Optimizer 방법경사 하강법이다.
  • Y = Wx + b에서 W의 크기가 지나치게 커지거나 작아질 때, 오차가 커지는 것을 알 수 있다.

  • Cost가 가장 최소값을 가지게 하는 W를 찾아야 하는 것이 목적이므로, 볼록한 맨 아래 부분의 W값을 찾아야 한다.
  • 접선의 기울기가 0 이 되는 지점Cost가 최소화 되는 지점이다. 

Optimizer - 학습률 (learning rate)

  • W의 값을 변경할 때, 얼마나 크게 변경할지를 결정하는 값이다.
  • 접점의 기울기가 0인 지점을 찾는 것에 있어, 어떤 크기의 폭으로 이동할지를 결정한다.

Optimizer - 학습률 (learning rate)

  • 학습률을 적당하게 잡는 것이 매우 중요하다.
  • 학습 횟수 (Epoch)를 통해 최적의 Low Cost를 찾는 것이 중요하다.

Optimizer - 최적의 Cost 결정의 문제

  • 기계학습의 회귀분석 목적은 최적의 파라미터로 최소의 Cost (MSE)를 구하는 것이다. 

 

 

Cost Function - 경사하강법의 프로세스 (Gradient Descent)

  • 비용함수 : 예측 오류 또는 손실에 대한 정량적 측정을 제공하여 모델 성능을 수치적으로 평가
  • → 최적의 매개변수를 찾는 것을 목표로 한다.
  • STEP 1) 비용함수 정의
  • STEP 2) 매개변수 편미분
  • STEP 3) 매개변수 업데이트
  • STEP 4) 반복한다. 
  • 데이터를 회귀 모델에 넣어 가중치를 업데이트하여 결과 값이 나오면 최소의 MSE를 구하기 위해 W값을 조정하며 반복한다.