머신러닝1/수업 필기

머신러닝1 필기 (9)

코딩입문시작 2024. 6. 9. 00:04

머신러닝

-단순 회귀분석-


 

  • 정리 
  • 평균은 데이터의 개수만큼 나눠준다. (그 데이터 집단의 중앙을 의미한다)
  • 카이제곱 분포는 반드시 적합성 검정독립성 검정을 해줘야 한다. 여기선 관측값과 예측값이 핵심이다. 
  • 상관관계 분석은 공분산 / sqrt(두 집단의 분산의 곱) 를 하여 상관계수를 결과로 내는데, 여기서 상관계수는 연속적인 두 변수의 관계성을 의미한다. 상관계수는 -1에서 1사이의 값을 갖는다. 
  • F-Test는 두 집단의 분산비율을 구한다. → 분산의 차이가 있는지를 알아본다. 
  • 회귀분석은 미리 얘기하자면, 공분산 / 분산 식과 비슷하다. 

추론통계

  • 목적 : 추론 통계는 주로 샘플을 기반으로 모집단에 대한 결론을 도출하는 것을 목표(예를 들어 평균 또는 표준 편차와 같은 모집단 매개변수를 추정하거나 해당 매개변수에 대한 가설을 테스트하는데 사용 가능)
  • 방법 : 이는 종종 신뢰 구간을 구성하거나 가설 테스트를 수행하여 수행됨
  • 결과 : 추론 통계는 종종 불확실성을 정량화 하여 처리함(예: "우리는 모집단 평균이 이 구간에 있다고 95% 확신함)

머신러닝

  • 목적:머신러닝의 주요 목표는 예측을 하거나 새로운 보이지 않는 데이터를 분류/군집 할 수 있는 모델을 개발하는 것 
  • 표본 집단을 사용하지만 모집단의 속성을 추론하기보다는 새로운 데이터의 일반화에 초점
  • 방법 : 표본 집단에서 모델을 훈련시킨 다음 별도의 세트(테스트 세트)에서 성능을 평가함

추론통계와 머신러닝 모두 샘플 데이터를 사용하지만 목표는 다음과 같이 다름

  • 추론통계 : 샘플이 있고 더 넓은 모집단을 이해하려고 함
  • 머신러닝에서의 예측 : 샘플이 있고 새로운 데이터에 대해 정확한 예측 함
  • 데이터 과학에서는 전통적인 통계와 기계 학습 사이의 경계가 흐려질 수 있음

추론통계

  • 분산분석 → n개 이상의 그룹의 평균을 비교하여 적어도 하나의 그룹 평균이 다른 그룹과 유의미하게 다른지 여부를 결정함

머신러닝

  • 회귀분석 → 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링함
  • 이러한 관계의 강도와 방향을 정량화하고 예측에 사용될 수 있음

회귀분석은 유사한 데이터를 수집한다. 여기서의 변수는 개체의 어떤 특징을 나타내는 것이다. 

 

회귀분석의 구조 (독립변수와 종속변수) 

하나의 문제와 하나의 종속변수 OR 하나의 문제와 여러 개의 독립변수

  • 변수 : 변수는 주어진 상황에서 다양하거나 다른 값을 가질 수 있는 특성, 속성 또는 수량을 나타냄
  • 종속변수 : 하나 이상의 독립변수의 변화에 의해 변화가 설명되거나 예측되는 변수
  • 독립변수 : 예측 변수 또는 설명 변수라고도 하는 독립 변수는 종속 변수에 영향을 미칠 것으로 가정되는 변수

매우 중요!!

회귀분석은 변수들의 자료로부터 가정된 모형의 미지의 회귀계수를 추정하여 현상을 설명하고 예측하는 통계적 분석 방법이다. 이때 여기서, y는 종속변수 (예측값)이며, 베타 0은 x가 0일때의 초기값 (+오차항)이다. 베타 1은 독립변수의 지분이고, 오차항은 영향은 가지만 전체 데이터에게 영향은 미치지 않으며 예측이 불가능한 것들이다. (잔차) 

 

계수

  • 각 독립변수가 종속변수에 얼마나 많은 방향으로 영향을 미치는지 보여준다.
  • 양수이면 독립변수가 증가할 때, 종속변수도 증가한다.
  • 음수이면 독립변수가 증가할 때, 종속변수는 감소한다. 

 

회귀분석의 구조 → 오차항 (관찰 불가능)

오차항의 특징 

  • 완전성 : 모델이 모든 것을 포착하지 못함
  • 복잡성, 유연성, 통찰력 

 

다중공선성 검사 : 회귀분석은 독립변수 간의 다중공선성을 검사하는데 사용되고, 다중공선성은 독립변수 간에 강한 상관관계가 있는 경우 발생하는 문제로, 이를 회귀분석을 통해 검사하고 처리할 수 있다! 

 

 

★ 중요 ★

R-Square : 상관계수의 제곱값으로, 독립변수에 의해 설명되는 종속변수의 분산 비율이다. 

R-Squared의 값이 떨어진다는 것은 관계성이 떨어진다는 것으로, R-Squared는 회귀 모델에서 독립변수가 종속변수를 얼마만큼 잘설명해주는지를 판단하는 지표이다. 즉 설명력이라고도 할 수 있다. 예를 들어, R-Squared의 값이 0.87이 나왔다면, 87%만큼의 설명력을 가지고 있다는 의미이다.

근데 잠깐! 

R-Squared → 독립변수의 수가 증가하면 실제로 값이 상승한다. 즉 결정계수 R-Squared만 가지고 회귀 모델의 유용성을 판단하지 못하므로, 조정된 결정계수인 Adjusted R-Squared까지 같이 보아야 한다. 

 

여기서 유심히 봐야할 것은, 

  • 오차가 5.545이며, 결정계수가 0.8825, 조정된 결정계수는 0.8708로 이 회귀분석 식의 설명력은 87%만큼의 설명력을 보이고 있다는 것이다. F-통계량은 75.14가 나왔으며 p-value값이 0.05보다 훨씬 작은 0.000에 가까운 수치로, 귀무가설을 기각한다는 것이다! 

 

매우 중요!!

 

'머신러닝1 > 수업 필기' 카테고리의 다른 글

머신러닝1 필기 (11)  (0) 2024.06.09
머신러닝1 필기 (10, 기말 대비 실습)  (0) 2024.06.09
머신러닝1 필기 (8)  (0) 2024.06.08
머신러닝1 필기 (7)  (0) 2024.06.08
머신러닝1 필기 (6)  (0) 2024.06.08