추론통계 (분산의 분포 - ANOVA)
F-distribution
- F-분포(Fisher–Snedecor distribution) : F-value는 분산의 비율 (분산분포, F-분포)
- X축은 두 분산의 비율, Y축은 지정된 F값에 대해
- 어떠한 유사 속성이 비슷한 두 집단 → 비율로 비교한다.
분산분석(F-test)
- F-분포(Fisher–Snedecor distribution) : F-value는 분산의 비율
- ▶ 따라서 분산분석이라 부름
- 전체 평균으로부터 각 집단의 평균 까지의 분산(Between Variance) → 집단 간의 차이
- ▶ 전체 평균으로부터 각 집단의 평균값이 멀리 떨어져 있음 → 적어도 하나의 집단은 한 개는 다른 집단과 평균이 다를 수 있음
- 전체 ~ 각각 : 평균
- 각각의 집단의 한 지점이 해당 집단으로부터 얼마나 떨어져 있는지의 분산(Within Variance) →집단 내의 차이
- Between Variance가 Within Variance보다 커야 Between Variance가 통계적으로 유의하다 말할 수 있음
- 이것이 한 그룹의 평균값이 전체 평균값과는 다르다고 할 수 있음
- F-분포(Fisher–Snedecor distribution) : 두 표본의 분산비에 대한 분포
- 집단 간 분산(Between Variance)을 집단 내 분산(Within Variance)으로 나눈 것 → 분산을 활용해 평균을 비교
- (분산 - 평균) 비교
- F-분포도 양수를 가짐
- 기준이 1 이고, 값이 커지면 집단간 분산과 집단 내 분산의 차이가 큰 것
- 차이 : (집단 간) 사이, 내부
- F-값 (2개 비율)은 두 개의 분산의 비율이므로 두 개의 평균이 필요함
- 독립변수는 하나이고, 이 안에 속하는 집단이 4개
- 두 가지의 분산을 구할 수 있음
- Between Variance (A, B, C, D 의 평균 그리고 그 사이): 전체평균에서 각 평균이 얼마나 멀리 떨어져 있나?
- Within Variance : 각 집단의 데이터가 각 집단의 평균에서 얼마나 떨어져 있나?
- Between Variance가 Within Variance보다 크면 적어도 어느 한 그룹의 평균값이 전체 평균과는 다르다고 할 수 있음
분산분석(F-test) → 그룹 간의 차이가 얼마나 큰지 모르기 때문에, 그룹 내 차이를 이용해 판단
- 등분산에 대한 F-검정은 두 모집단의 분산이 동일하다는 귀무가설을 검정함
- 𝑯𝟎:두 변수의 분산은 차이가 없다.
- 𝑯𝟏:두 변수의 분산은 차이가 있다.
※ F-test VS T-test 차이
▶ F-test는 분산을 이용하고, T-test는 평균을 이용한다.
예를 들어, (분산분석)
- 가설 설정
- 𝑯𝟎: 모집단의 분산은 = 표본집단의 분산이다. (분산이 같다. (𝑯𝟎 : 𝜎^2 = 0.01) )
- 𝑯𝟏: 모집단의 분산은 ≠ 표본집단의 분산이다. (분산이 다르다. (𝑯𝟏 : 𝜎^2 > 0.01) )
Q : 그룹을 비교할 때 세 개 이상의 그룹을 비교할 수는 없을까?
A : 분산분석 (ANOVA)는 세 개 이상의 그룹의 분산을 활용해 평균을 비교하는데 사용한다.
가설 검정 및 추론 통계
- 독립변수 : 가설의 원인이 되는 변수, 종속변수에 영향을 미치는 변수
- 종속변수 : 가설의 결과가 되는 변수, 독립변수로 영향을 받는 변수
- 분산분석(ANOVA)의 종속변수는 연속형이다.
- ANOVA는 데이터 그룹 간의 차이가 통계학적으로 유의한지 알아낼 수 있도록 도와 준다.
- 분산분석의 목표는 연속 변수의 평균이 독립 변수의 범주(그룹)에 따라 크게 다른지 확인하는 것이다.
분산분석(ANOVA)
- 분산분석(ANOVA) : ANOVA는 3(n)개 이상의 그룹 또는 범주 간에 유의한 차이가 있는지 테스트하는 데 사용됨
- 하나의 연속 종속 변수와 하나 이상의 범주형 독립 변수가 있을 때 적용됨
- → 각 그룹 내 분산량을 조사해 그룹 간 평균차이
- ANOVA는 종속 변수의 변동이 집단 간 변동으로 인한 것인지 집단 내 변동으로 인한 것인지 평가
- 분산분석(ANOVA) : 세 개이상의 그룹 평균을 비교하여 평균의 차이가 존재하는지 판단하는 방법
- 집단 간 분산을 집단 내 분산으로 나눈 것 → 분산을 활용해 평균을 비교
- F-분포도 양수를 가짐
- 기준이 1 이고, 값이 커지면 집단 간 분산과 집단 내 분산의 차이가 큰 것
분산분석(ANOVA)
- 일원 분산분석(one-way ANOVA) :두 개 이상의 수준 또는 범주가 있는 하나의 독립변수가 있고, 이를 종속변수와 비교
- 이원 분산분석(Two-way ANOVA) : 두 개의 독립 변수가 존재하며, 이 변수들은 개별적으로, 연관적으로 종속변수에 영향을 미치는지 판단하는 것
- ex) 식이요법과 운동 수준이 체중 감량에 어떤 영향을 미치는지 알고 싶을 때
분산분석(ANOVA)
- 등분산에 대한 F-검정은 두 모집단의 분산이 동일하다는 귀무가설을 검정함
- 𝑯𝟎 : 모든 평균은 차이가 없다.
- 𝑯𝟏 : 적어도 한 그룹의 평균은 차이가 있다.
분산분석(ANOVA)
- 분산분석(ANOVA) : ANOVA는 3개 이상의 그룹 또는 범주 간에 유의한 차이가 있는지 테스트하는 데 사용됨
- 하나의 연속 종속 변수와 하나 이상의 범주형 독립 변수가 있을 때 적용됨
- → 각 그룹 내 분산량을 조사해 그룹 간 평균차이
- ANOVA는 종속 변수의 변동이 집단 간 변동으로 인한 것인지 집단 내 변동으로 인한 것인지 평가
분산분석(ANOVA)
- 분산분석은 측정하고자 하는 값에 영향을 미치는 요인의 수에 따라서 구분됨
- 작업자에 따라서 생산량의 차이가 있는지 비교 분석
- ▶ 요인(Factor) = 작업자
- ▶ 측정값에 영향을 미치는 요인(factor)이 1개인 실험 : 일원분산분석(one-way ANOVA)
- ▶ 일원 분산 분석은 종속 변수의 평균 사이에 유의한 차이가 있는지 알아볼 수 있도록 함
분산분석(ANOVA)
- 측정값에 영향을 미치는 요인(factor)이 1개인 실험 : 일원분산분석(one-way ANOVA)
- ▶ 다중비교
- 𝑯𝟎: 𝜇𝟏=𝜇𝟐=𝜇𝟑 (집단 간의 평균의 차이가 없다.)
- 𝑯𝟏: not 𝑯𝟎 → 어느 집단의 평균에 차이가 발생하고 있는지를 파악하기 위해
- ▶ 어느 집단 간의 평균의 차이가 있다.
- 𝜇𝟏≠𝜇𝟐=𝜇𝟑
- 𝜇𝟏=𝜇𝟐≠𝜇𝟑
- 𝜇𝟏≠𝜇𝟑=𝜇𝟐
분산분석(ANOVA)
- 측정값에 영향을 미치는 요인(factor)이 2개인 실험 : 이원분산분석(two-way ANOVA)
- ▶ 다중비교
- 𝑯𝟎 : 𝛼𝟏 = 𝛼𝟐 = ⋯ =𝟎 (𝒂𝑭𝒂𝒄𝒕𝒐𝒓)
- 𝑯𝟏 : 요인 a의 평균 중 하나 이상이 다른 평균과 다름
- 𝑯𝟎 : 𝜷𝟏 = 𝜷𝟐 = ⋯ =𝜷𝒃 =𝟎 (𝒃𝑭𝒂𝒄𝒕𝒐𝒓)
- 𝑯𝟏 : 요인 b의 평균 중 하나 이상이 다른 평균과 다름
- 𝑯𝟎: 요인 a와 요인 b 사이에는 연관관계가 없다.
- 𝑯𝟏: 요인 a와 요인 b 사이에는 연관관계가 있습니다.
분산분석(ANOVA)
일원 분산분석
- 세 개 이상의 독립적인 그룹의 평균 간에 통계적으로 유의미한 차이가 있는지 여부를 테스트함
- 기본적으로 데이터의 전체 분산을 "그룹 간" 분산과 "그룹 내" 분산으로 분해한 다음 F-통계량을 둘의 비율로 계산함
이원 분산분석
- 양방향 ANOVA에서는 각 개별 요인의 효과를 테스트하는 것뿐만 아니라 종속 변수에 대한 두 요인 사이에 상호 작용이 있는지를 확인하는데 사용됨
- 즉, 한 요인의 효과가 다른 요인의 수준에 따라 달라지는가 궁금한 것
분산 분석이 끝났다면, 사후 검정을 진행한다 ... !!
사후검정 (→ 자세하게 대립가설을 설정함)
ex) H1 : A, B, C 집단이 있다는 가정 하에, A 집단과 B집단 간의 차이가 존재한다!
- 단순히 ANOVA 분석의 결과로 어떤 그룹이 어떻게 평균이 다른지 알 수 없음
- ANOVA에서는 귀무가설을 기각하는 결과가 나오면 자동으로 사후검정을 진행해야 함
- 사후검정이란?
- 모든 경우의 T-test하는 것
- 여러가지의 사후검정이 존재하지만 큰 차이가 없음(Sheffe, Turkey, Duncan …)
연속형 → T, Z, F TEST 떠올리기
명목형, 명목형 → 카이제곱 분석 떠올리기
연속형, 명목형 → ANOVA 분석 떠올리기
※ 참고 ※
[기말고사 출제]
'머신러닝1 > 수업 필기' 카테고리의 다른 글
머신러닝1 필기 (9) (1) | 2024.06.09 |
---|---|
머신러닝1 필기 (8) (0) | 2024.06.08 |
머신러닝1 필기 (6) (0) | 2024.06.08 |
머신러닝1 필기 (5) (0) | 2024.04.18 |
머신러닝1 필기 (4) (0) | 2024.04.17 |