추론통계 (분산의 분포 - 상관관계)
상관관계 분석 (두 개의 연속적인 집단)
- 상관관계 테스트(Correlation Test) : 상관 테스트는 두 연속 변수 사이의 연관성이 있는지 확인하는 데 사용됨
- Pearson 상관관계는 선형 관계에 적합하고 Spearman 순위 상관관계는 비선형 관계에 사용됨
- 상관 분석 :상관 분석은 두 연속 변수 간의 선형 관계의 강도와 방향을 측정하는 데 사용됨
- Pearson의 상관 계수(선형 관계의 경우) 또는 Spearman의 순위 상관 계수(단조 관계의 경우)를 사용하여 평가됨
- 상관 계수는 -1과 1 사이의 값을 가지며, 여기서 -1은 완벽한 음의 선형 관계를 나타내고, 1은 완벽한 양의 선형 관계를 나타 내고, 0은 선형 관계가 없음을 나타냄
- 공분산(Covariance) : 두 개의 변수 사이의 관계를 숫자로 알려줄 수 있는 값
- 두 변수의 독립일 때, Cov(X, Y) = 0
- Cov(X, Y) = 0일 때, 반드시 독립이라고 할 순 없음
- 𝑯𝟎: 상관계수가 0이다. (독립이다.)
- 𝑯𝟏: 상관계수가 0이 아니다. (독립이 아니다.)
▶ 여기까지 정리를 하자면 ...
- 상관관계는 두 연속적인 변수 사이의 연관성이 있는지 확인하는 것이다.
- Pearson 상관관계는 선형관계에 적합하다.
- 상관관계는 -1에서 1사이의 값을 가지고, -1이라고 해서 선형관계를 안 갖는 것이 아니라, 음의 선형 관계를 가지며 상관계수가 0일 때 선형관계가 없음이라고 얘기한다.
- 또 여기서, 두 변수 사이 관계가 독립일 때 상관계수가 0이지만 상관계수가 0이라고 해서 두 변수가 독립인 것은 아니다!!! 매우 중요!
- 상관분석을 통해 검정을 할 때에는, 귀무가설을 상관계수가 0이다 또는 독립이다 라고 하며, 대립가설은 상관계수가 0이 아니다 또는 독립이 아니다라고 한다.
상관관계 분석
- 데이터를 기계 학습 알고리즘에 제공하기 전에 데이터를 이해하고 전처리하는 것이 중요함
- T-test, Z-test, 카이제곱, 상관 분석 및 ANOVA와 같은 통계 테스트는 데이터 탐색 및 준비를 위한 유용한 도구 역할을 하여 데이터의 전반적인 이해를 알리는 데 도움됨
- 기술통계는 데이터세트의 특성을 요약하고 정리하는 것
- 추론통계는 데이터의 기본 구조를 이해하고, 데이터들 간의 관계를 통해 모집단에 대해 추론
- 기계 학습은 데이터에서 통찰력을 추출하고 예측을 수행하기 위한 강력한 접근 방식
[기말고사 출제]
'머신러닝1 > 수업 필기' 카테고리의 다른 글
머신러닝1 필기 (10, 기말 대비 실습) (0) | 2024.06.09 |
---|---|
머신러닝1 필기 (9) (1) | 2024.06.09 |
머신러닝1 필기 (7) (0) | 2024.06.08 |
머신러닝1 필기 (6) (0) | 2024.06.08 |
머신러닝1 필기 (5) (0) | 2024.04.18 |