머신러닝2/수업 필기

머신러닝2 2주차

코딩입문시작 2024. 10. 22. 21:07

머신러닝2

- 기계학습 (단순 회귀분석) -


 

추론 통계

  • 주로 샘플을 기반으로 모집단에 대한 결론을 도출하는 것을 목표 
  • 샘플이 있고 더 넓은 모집단을 이해하려고 함
  • 예를 들어 평균 또는 표준 편차와 같은 모집단 매개변수를 추정하거나 해당 매개변수에 대한 가설을 테스트하는데 사용이 가능하다.
  • 신뢰 구간을 구성하거나 가설 테스트를 수행하여 수행된다.

기계학습

  • 기계학습의 주요 목표는 예측을 하거나 새로운 보이지 않는 데이터를 분류할 수 있는 모델을 개발하는 것
  • 샘플이 있고 새로운 데이터에 대해 정확한 예측 함  
  • 표본 집단을 사용하지만 모집단의 속성을 추론하기보다는 새로운 데이터의 일반화에 초점
  • 주의 : 과대적합은 기계 학습의 주요 관심사이다. 모델이 노이즈 및 이상값을 포함하여 훈련 데이터를 너무 잘 학습하여 새 데이터에 대한 성능을 손상시키는 경우에 발생한다.

회귀분석의 구조

  • 하나의 종속 변수와 하나 이상의 독립 변수의 함수적인 관련성을 규명하기 위하여 어떤 수학적 모형을 가정
  • 변수들의 자료로부터 가정된 모형의 미지의 회귀계수를 추정하여 현상을 설명하고 예측하는 통계적 분석 방법
  • 독립 변수와 종속 변수 간에 설명과 예측을 위해 상수와 오차항이 존재한다. 

 

변수 

  • 개체의 어떤 특징을 나타내는 것이다.
  • 변수에는 양적 변수질적 변수가 있다. 양적 변수에는 연속형 변수와 이산형 변수가 있고, 질적 변수에는 순위형 변수와 명목형 변수가 있다.

  • 독립 변수 : 예측 변수 또는 설명 변수라고도 하는 독립 변수는 종속 변수에 영향을 미칠 것으로 가정되는 변수
  • 종속 변수 : 하나 이상의 독립 변수의 변화에 의해 변화가 설명되거나 예측되는 변수

회귀식에서의 상수

  • 독립변수가 없거나 0일 때, 종속 변수의 기준 수준을 제공한다.
  • 다시 말해, 독립변수가 0일때, 시작값 및 시작점을 의미한다.

최소자승법 : SSE, 오차 제곱의 합을 최소로 하는 직선을 구하는 방법이다.

  • SST : 종속변수의 전체 변동량 → SST는 모델이 데이터의 변동성을 얼마나 잘 설명하는지 평가하는데 필요한 컨텍스트를 제공한다. 
  • SSE : 오차를 최소화하는 과정에서 사용 (가장 적합한 선 찾기)

오차항

  • 독립 변수에 의해 포착되지 않는 종속 변수에 영향을 미치는 요인을 설명
  • 완전성 : 모델이 모든 것을 포착X
  • 복잡성 : 데이터 제한 또는 알 수 없는 요인이 결과에 영향 미치는 모든 변수를 모델에 포함할 수 없다.
  • 유연성 : 설명할 수 없는 구성 요소가 있음을 인식 → 알려진 독립 변수와 종속 변수 간의 체계적인 관계를 포착
  • 통찰력 : 오류 패턴을 분석하면 모델에서 누락된 부분에 대한 통찰력을 얻을 수 있음

회귀분석 사용

  • 변수 간의 관계 파악
  • 예측 모델 구축
  • 변수의 영향력 파악
  • 이상치 탐지
  • 다중공선성 검사 (다중공선성은 독립 변수 간에 강한 상관관계가 있는 경우에 발생하는 문제)

 

회귀분석이란, 변수들 간의 상관관계를 찾는 것이다. 연속적인 데이터로부터 결과를 예측하는 것이다. 

[이번에 중간고사 범위에 배운 것]

  • 단순회귀 : 독립변수 X가 하나이고, 종속변수 Y와의 관계가 직선이다.
  • 다중회귀 : 독립변수 Xk가 2개 이상이고, 종속변수 Y와의 관계가 1차 선형 함수이다. 

  • R-Square : 상관계수의 제곱값으로, 독립변수에 의해 설명되는 종속변수의 분산 비율
  • R-Squared : 회귀 모델에서 독립변수가 종속변수를 얼마만큼 잘 설명해주는지를 판단하는 지표이다.
  • → 다르게 말하자면, 설명력이다. If 만약에 R-Squared 값이 0.67이 나왔다면 67%만큼의 설명력을 지니고 있다고 해석할 수 있다. R-Squared는 1 - SSR/SST  = 1 - 공변량 측정/변동성 측정 

R-Squared : R-Squared에는 문제가 있었다. 독립변수의 수가 증가하면 실제로 값이 상승한다는 것이다. 즉, 결정계수만 가지고 회귀 모델의 유용성을 판단하지 못하는 것이다. 그래서 새롭게 나온 것이 조정된 결정계수이다. 조정된 결정계수, Adjusted R-Squared자유도를 감안한 방법이다. 

  • 유심히 봐야할 점은, 여기서 그냥 종속변수와 독립변수와의 관련성이 있냐라고 물었을 때, p-value값이 0.05보다 낮으므로 관련성이 있다고 볼 수 있고, 여기서 얼만큼의 신뢰도? 설명력이 있어? 라고 물어보면 64%만큼 있다고 얘기할 수 있다.
  • 두 번째로, 회귀모델을 단순화하여 절편을 0으로 고정하면 p-value가 이 역시 0.05보다 작으므로 관련성이 있다고 볼 수 있고, 설명력으로는 89%만큼 있다라고 말할 수 있다. 하지만 이건 예시일 뿐, 모형의 성능 평가 지표로는 부적절하다. 

 

'머신러닝2 > 수업 필기' 카테고리의 다른 글

머신러닝2 7주차 (1)  (0) 2024.10.23
머신러닝2 5주차  (0) 2024.10.23
머신러닝2 4주차(2)  (0) 2024.10.23
머신러닝2 4주차(1) (3주차는 추석일정으로 휴강)  (0) 2024.10.22
머신러닝2 1주차  (1) 2024.10.22