머신러닝1/수업 필기

머신러닝1 필기 (7)

코딩입문시작 2024. 6. 8. 21:34

추론통계 (분산의 분포 - ANOVA)


F-distribution 

  • F-분포(Fisher–Snedecor distribution) : F-value는 분산의 비율 (분산분포, F-분포) 
  • X축두 분산의 비율, Y축지정된 F값에 대해
  • 어떠한 유사 속성이 비슷한 두 집단 → 비율로 비교한다. 

F-분포

분산분석(F-test)

  • F-분포(Fisher–Snedecor distribution) : F-value는 분산의 비율
  • ▶ 따라서 분산분석이라 부름
  • 전체 평균으로부터 각 집단의 평균 까지의 분산(Between Variance)집단 간의 차이
  • ▶ 전체 평균으로부터 각 집단의 평균값이 멀리 떨어져 있음 → 적어도 하나의 집단은 한 개는 다른 집단과 평균이 다를 수 있음
  • 전체 ~ 각각 : 평균
  • 각각의 집단의 한 지점이 해당 집단으로부터 얼마나 떨어져 있는지의 분산(Within Variance) →집단 내의 차이 
  • Between Variance가 Within Variance보다 커야 Between Variance가 통계적으로 유의하다 말할 수 있음
  • 이것이 한 그룹의 평균값이 전체 평균값과는 다르다고 할 수 있음
  • F-분포(Fisher–Snedecor distribution) : 두 표본의 분산비에 대한 분포
  • 집단 간 분산(Between Variance)을 집단 내 분산(Within Variance)으로 나눈 것 → 분산을 활용해 평균을 비교
  • (분산 - 평균) 비교 
  • F-분포도 양수를 가짐 
  • 기준이 1 이고, 값이 커지면 집단간 분산과 집단 내 분산의 차이가 큰 것
  • 차이 : (집단 간) 사이, 내부

 

  • F-값 (2개 비율)두 개의 분산의 비율이므로 두 개의 평균이 필요
  • 독립변수는 하나이고, 이 안에 속하는 집단이 4개
  • 두 가지의 분산을 구할 수 있음
  • Between Variance (A, B, C, D 의 평균 그리고 그 사이): 전체평균에서 각 평균이 얼마나 멀리 떨어져 있나?

  • Within Variance : 각 집단의 데이터가 각 집단의 평균에서 얼마나 떨어져 있나?
  • Between Variance가 Within Variance보다 크면 적어도 어느 한 그룹의 평균값이 전체 평균과는 다르다고 할 수 있음

 

분산분석(F-test) → 그룹 간의 차이가 얼마나 큰지 모르기 때문에, 그룹 내 차이를 이용해 판단 

  • 등분산에 대한 F-검정은 두 모집단의 분산이 동일하다는 귀무가설을 검정함
  • 𝑯𝟎:두 변수의 분산은 차이가 없다. 
  • 𝑯𝟏:두 변수의 분산은 차이가 있다.

※ F-test VS T-test 차이

F-test는 분산을 이용하고, T-test는 평균을 이용한다. 

 

예를 들어, (분산분석)

  • 가설 설정
  • 𝑯𝟎: 모집단의 분산은 = 표본집단의 분산이다. (분산이 같다. (𝑯𝟎 : 𝜎^2 = 0.01) )
  • 𝑯𝟏: 모집단의 분산은 ≠ 표본집단의 분산이다. (분산이 다르다. (𝑯𝟏 : 𝜎^2 > 0.01) )

 

Q : 그룹을 비교할 때 세 개 이상의 그룹을 비교할 수는 없을까?

A :  분산분석 (ANOVA)세 개 이상의 그룹의 분산을 활용해 평균을 비교하는데 사용한다. 

 

가설 검정 및 추론  통계

  • 독립변수 : 가설의 원인이 되는 변수, 종속변수에 영향을 미치는 변수
  • 종속변수 : 가설의 결과가 되는 변수, 독립변수로 영향을 받는 변수

  • 분산분석(ANOVA)의 종속변수는 연속형이다.
  • ANOVA는 데이터 그룹 간의 차이가 통계학적으로 유의한지 알아낼 수 있도록 도와 준다. 
  • 분산분석의 목표연속 변수의 평균이 독립 변수의 범주(그룹)에 따라 크게 다른지 확인하는 것이다.

 

분산분석(ANOVA)

  • 분산분석(ANOVA) : ANOVA는 3(n)개 이상의 그룹 또는 범주 간에 유의한 차이가 있는지 테스트하는 데 사용됨
  • 하나의 연속 종속 변수하나 이상의 범주형 독립 변수가 있을 때 적용됨
  • 각 그룹 내 분산량을 조사그룹 간 평균차이
  • ANOVA는 종속 변수의 변동이 집단 간 변동으로 인한 것인지 집단 내 변동으로 인한 것인지 평가

  • 분산분석(ANOVA) : 세 개이상의 그룹 평균을 비교하여 평균의 차이가 존재하는지 판단하는 방법
  • 집단 간 분산을 집단 내 분산으로 나눈 것 → 분산을 활용해 평균을 비교
  • F-분포도 양수를 가짐
  • 기준이 1 이고, 값이 커지면 집단 간 분산과 집단 내 분산의 차이가 큰 것

 

분산분석(ANOVA)

  • 일원 분산분석(one-way ANOVA) :두 개 이상의 수준 또는 범주가 있는 하나의 독립변수가 있고, 이를 종속변수와 비교
  • 이원 분산분석(Two-way ANOVA) : 두 개의 독립 변수가 존재하며, 이 변수들은 개별적으로, 연관적으로 종속변수에 영향을 미치는지 판단하는 것
  • ex) 식이요법과 운동 수준이 체중 감량에 어떤 영향을 미치는지 알고 싶을 때

 

분산분석(ANOVA)

  • 등분산에 대한 F-검정은 두 모집단의 분산이 동일하다는 귀무가설을 검정
  • 𝑯𝟎 : 모든 평균은 차이가 없다.
  • 𝑯𝟏 : 적어도 한 그룹의 평균은 차이가 있다.

 

분산분석(ANOVA)

  • 분산분석(ANOVA) : ANOVA는 3개 이상의 그룹 또는 범주 간에 유의한 차이가 있는지 테스트하는 데 사용됨
  • 하나의 연속 종속 변수와 하나 이상의 범주형 독립 변수가 있을 때 적용됨
  • → 각 그룹 내 분산량을 조사해 그룹 간 평균차이
  • ANOVA는 종속 변수의 변동집단 간 변동으로 인한 것인지 집단 내 변동으로 인한 것인지 평가

 

분산분석(ANOVA)

  • 분산분석은 측정하고자 하는 값에 영향을 미치는 요인의 수에 따라서 구분됨
  • 작업자에 따라서 생산량의 차이가 있는지 비교 분석
  • ▶ 요인(Factor) = 작업자 
  • ▶ 측정값에 영향을 미치는 요인(factor)이 1개인 실험 : 일원분산분석(one-way ANOVA)
  • ▶ 일원 분산 분석은 종속 변수의 평균 사이에 유의한 차이가 있는지 알아볼 수 있도록 함

 

분산분석(ANOVA)

  • 측정값에 영향을 미치는 요인(factor)이 1개인 실험 : 일원분산분석(one-way ANOVA)
  • ▶ 다중비교
  • 𝑯𝟎: 𝜇𝟏=𝜇𝟐=𝜇𝟑 (집단 간의 평균의 차이가 없다.)
  • 𝑯𝟏: not 𝑯𝟎 → 어느 집단의 평균에 차이가 발생하고 있는지를 파악하기 위해
  • ▶ 어느 집단 간의 평균의 차이가 있다. 
  • 𝜇𝟏≠𝜇𝟐=𝜇𝟑
  • 𝜇𝟏=𝜇𝟐≠𝜇𝟑
  • 𝜇𝟏≠𝜇𝟑=𝜇𝟐

 

 

분산분석(ANOVA) 

  • 측정값에 영향을 미치는 요인(factor)이 2개인 실험 : 이원분산분석(two-way ANOVA)
  • ▶ 다중비교
  • 𝑯𝟎 : 𝛼𝟏 = 𝛼𝟐 = ⋯ =𝟎 (𝒂𝑭𝒂𝒄𝒕𝒐𝒓)
  • 𝑯𝟏 : 요인 a의 평균 중 하나 이상이 다른 평균과 다름
  • 𝑯𝟎 : 𝜷𝟏 = 𝜷𝟐 = ⋯ =𝜷𝒃 =𝟎 (𝒃𝑭𝒂𝒄𝒕𝒐𝒓)
  • 𝑯𝟏 : 요인 b의 평균 중 하나 이상이 다른 평균과 다름 
  • 𝑯𝟎: 요인 a와 요인 b 사이에는 연관관계가 없다.
  • 𝑯𝟏: 요인 a와 요인 b 사이에는 연관관계가 있습니다.

분산분석(ANOVA)

일원 분산분석

  • 세 개 이상의 독립적인 그룹의 평균 간에 통계적으로 유의미한 차이가 있는지 여부를 테스트함
  • 기본적으로 데이터의 전체 분산 "그룹 간" 분산"그룹 내" 분산으로 분해한 다음 F-통계량을 둘의 비율로 계산

이원 분산분석

  • 양방향 ANOVA에서는 각 개별 요인의 효과를 테스트하는 것뿐만 아니라 종속 변수에 대한 두 요인 사이에 상호 작용이 있는지를 확인하는데 사용됨
  • 즉, 한 요인의 효과가 다른 요인의 수준에 따라 달라지는가 궁금한 것

분산 분석이 끝났다면, 사후 검정을 진행한다 ... !! 

사후검정 (→ 자세하게 대립가설을 설정함)

ex) H1 : A, B, C 집단이 있다는 가정 하에, A 집단과 B집단 간의 차이가 존재한다! 

  • 단순히 ANOVA 분석의 결과로 어떤 그룹이 어떻게 평균이 다른지 알 수 없음
  • ANOVA에서는 귀무가설을 기각하는 결과가 나오면 자동으로 사후검정을 진행해야 함
  • 사후검정이란?
  • 모든 경우의 T-test하는 것
  • 여러가지의 사후검정이 존재하지만 큰 차이가 없음(Sheffe, Turkey, Duncan …)

 

분석 판단 기준

연속형 → T, Z, F TEST 떠올리기

명목형, 명목형 → 카이제곱 분석 떠올리기

연속형, 명목형 → ANOVA 분석 떠올리기 


※ 참고 ※

 


[기말고사 출제]

'머신러닝1 > 수업 필기' 카테고리의 다른 글

머신러닝1 필기 (9)  (1) 2024.06.09
머신러닝1 필기 (8)  (0) 2024.06.08
머신러닝1 필기 (6)  (0) 2024.06.08
머신러닝1 필기 (5)  (0) 2024.04.18
머신러닝1 필기 (4)  (0) 2024.04.17