머신러닝1/수업 필기

머신러닝1 필기 (8)

코딩입문시작 2024. 6. 8. 22:21

추론통계 (분산의 분포 - 상관관계)


상관관계 분석 (두 개의 연속적인 집단)

  • 상관관계 테스트(Correlation Test) : 상관 테스트는 두 연속 변수 사이의 연관성이 있는지 확인하는 데 사용됨 
  • Pearson 상관관계선형 관계에 적합하고 Spearman 순위 상관관계는 비선형 관계에 사용됨
  • 상관 분석 :상관 분석은 두 연속 변수 간의 선형 관계의 강도와 방향을 측정하는 데 사용됨
  • Pearson의 상관 계수(선형 관계의 경우) 또는 Spearman의 순위 상관 계수(단조 관계의 경우)를 사용하여 평가됨
  • 상관 계수는 -1과 1 사이의 값을 가지며, 여기서 -1은 완벽한 음의 선형 관계를 나타내고, 1은 완벽한 양의 선형 관계를 나타 내고, 0은 선형 관계가 없음을 나타냄

 

  • 공분산(Covariance) : 두 개의 변수 사이의 관계를 숫자로 알려줄 수 있는 값
  • 두 변수의 독립일 때, Cov(X, Y) = 0
  • Cov(X, Y) = 0일 때, 반드시 독립이라고 할 순 없음
  • 𝑯𝟎: 상관계수가 0이다. (독립이다.)
  • 𝑯𝟏: 상관계수가 0이 아니다. (독립이 아니다.)

Z 분포로 봤을 때 이는 표준화!
공분산

 

 

▶ 여기까지 정리를 하자면 ... 

  • 상관관계는 두 연속적인 변수 사이의 연관성이 있는지 확인하는 것이다. 
  • Pearson 상관관계는 선형관계에 적합하다. 
  • 상관관계는 -1에서 1사이의 값을 가지고, -1이라고 해서 선형관계를 안 갖는 것이 아니라, 음의 선형 관계를 가지며 상관계수가 0일 때 선형관계가 없음이라고 얘기한다. 
  • 또 여기서, 두 변수 사이 관계가 독립일 때 상관계수가 0이지만 상관계수가 0이라고 해서 두 변수가 독립인 것은 아니다!!! 매우 중요! 
  • 상관분석을 통해 검정을 할 때에는, 귀무가설을 상관계수가 0이다 또는 독립이다 라고 하며, 대립가설은 상관계수가 0이 아니다 또는 독립이 아니다라고 한다. 

 

상관관계 분석

  • 데이터를 기계 학습 알고리즘에 제공하기 전에 데이터를 이해하고 전처리하는 것이 중요
  • T-test, Z-test, 카이제곱, 상관 분석 및 ANOVA와 같은 통계 테스트는 데이터 탐색 및 준비를 위한 유용한 도구 역할을 하여 데이터의 전반적인 이해를 알리는 데 도움됨
  • 기술통계는 데이터세트의 특성을 요약하고 정리하는 것
  • 추론통계는 데이터의 기본 구조를 이해하고, 데이터들 간의 관계를 통해 모집단에 대해 추론
  • 기계 학습은 데이터에서 통찰력을 추출하고 예측을 수행하기 위한 강력한 접근 방식

[기말고사 출제]

'머신러닝1 > 수업 필기' 카테고리의 다른 글

머신러닝1 필기 (10, 기말 대비 실습)  (0) 2024.06.09
머신러닝1 필기 (9)  (1) 2024.06.09
머신러닝1 필기 (7)  (0) 2024.06.08
머신러닝1 필기 (6)  (0) 2024.06.08
머신러닝1 필기 (5)  (0) 2024.04.18