머신러닝1/수업 필기

머신러닝1 필기 (6)

코딩입문시작 2024. 6. 8. 18:35

기말고사 범위 


분산의 분포

  • 분산 분포는 확률 변수의 분산(또는 동등하게 표준 편차의 제곱)을 설명하는 통계적 분포를 나타냄 ➔ 변동성
  • 통계적 추론에서, 특히 작은 표본을 다룰 때 분산 분포를 아는 것은 가설 검정과 모집단 분산에 대한 신뢰 구간 구성에 중요하다!
  • 임상 시험 : 두 가지 치료법의 효과를 비교하는 경우 어떤 치료법이 더 나은 평균 결과를 나타내는지 뿐만 아니라 어떤 치료법 이 더 일관된(더 낮은 분산) 결과를 나타내는지 알고 싶음 ➔ 더 안정적이고 효과적인 걸로!
  • 교육 : 서로 다른 두 가지 교육 중재 간의 시험 점수를 비교할 때 일관된 차이를 이해하면 해당 중재가 학생 전체에 걸쳐 얼마나 잘 작동하는지 나타낼 수 있음
  • 제조 : 품질 관리에서는 단순히 높은 평균 품질이 아닌 일관되게 높은 품질의 제품을 원하기 때문에 평균 품질 수준 뿐만 아니 라 편차도 아는 것이 중요한 경우가 많음 ➔ 품질은 올라가고 불량률은 떨어지게! 
  • 재무: 포트폴리오 관리에서 평균은 기대 수익을 제공할 수 있지만 분산 또는 표준 편차는 관련 위험에 대한 아이디어를 제공함

 

가설 검정 및 추론통계 (연관관계 파악)

  • 카이제곱분포(Chi-Square Distribution) : 카이제곱 검정은 두 범주형 변수 사이에 유의미한 연관성을 확인하는 데 사용 ➔ 두 범주형 (명목형 변수) 사이에 연관성이 있는지 없는지 ? 
  • > 분할표를 분석하고 관찰된 빈도 분포가 예상 빈도 분포와 다른지 여부를 테스트하는 데 자주 사용! 

 

  • 분산 분석(ANOVA)  : 여러 그룹을 비교하여 이러한 그룹 간의 분산(변동성)에 통계적으로 유의미한 차이가 있는지 확인
  • > 관찰된 평균 차이가 무작위 변동으로 인한 것인지, 아니면 그룹 간의 실제 차이를 반영하는지를 판단
  • > 목표는 그룹 간 변동성이 그룹 내 변동성보다 훨씬 큰지 확인하는 것

 

  • 상관관계 테스트 : 상관 테스트는 두 연속 변수 사이의 관계의 강도와 방향을 측정하는 데 사용
  • > Pearson 상관관계선형 관계에 적합하고 Spearman 순위 상관관계는 비선형 관계에 사용

Chi-Square Test 

  • Chi-Square Test : 카이제곱 검정은 두 범주형 변수 사이에 유의미한 연관성이 있는지 확인하는 데 사용됨 
  • 분할표를 분석하고 관찰된 빈도 분포가 예상 빈도 분포와 다른지 여부를 테스트하는 데 자주 사용됨
  • 이는 명목 또는 순서 측정값이 있는 변수 간의 관계를 연구하는 데 특히 유용함

 

가설 설정 방법

  • 귀무가설(𝑯𝟎) : 두 범주형 변수 사이에 유의미한 관계나 연관이 없다.
  • 대립가설(𝑯𝟏) : 두 범주형 변수 사이에 중요한 관계 또는 연관성이 있다.

 

Chi-Square Test

  • 카이제곱 분포는 정규분포를 따르는 독립적인 확률 변수들을 각각 제곱하여 합한 분포
  • 양의 정수 k에 대해 k개의 독립적인 표준 정규분포를 따르는 확률변수 𝑿𝟏,…𝑿𝒌를  정의하면 자유도 k의 카이제곱 분포는 확률 변수의 분포 ➔ Q가 따르는 분포를 카이제곱 분포라 함

 

Chi-Square Test

  • 카이제곱 분포는 오차 혹은 편차를 분석할 때 사용
  • 카이제곱 분포를 이용해 오차나 편차 검증하면 ➔ 우연히 발생하는 오차인지 숨겨진 의미가 있는 오차나 편차 인지 알 수 있음
  • 두 가지 검정 (100% 시험출제 ➔ R언어) 
  • 1) 적합도 검정(goodness-of-fit-test) ➔ 기대되는 빈도의 분포와 관찰한 빈도의 분포를 비교
  • 2) 독립성 검정(chi-square independence test) ➔ 범주형 변수가 여러 개인 경우에 사용하는 분석방법
  • 두 경우 모두 다음의 아래의 통계량 공식을 사용함

 

Chi-Square Test : 적합도 검정(goodness-of-fit-test)

  • 적합도 검정(goodness-of-fit-test) ➔ 기대되는 빈도의 분포와 관찰한 빈도의 분포를 비교
  • 분석하려는 범주형 변수의 각 범주에 대해 기대되는 빈도를 계산함
  • 실제 데이터에서 각 범주의 관찰된 빈도와 예상 빈도를 비교하고, 이를 통해 각 범주 간의 차이를 계산
  • 적합도 검정(goodness-of-fit-test) 독립변수가 하나이고, 기대되는 빈도의 분포와 관찰한 빈도의 분포를 비교

 

가설 설정 방법

  • 귀무가설(𝑯𝟎) : 주어진 데이터는 분포가 적합하지 않다. ➔ 실제 관찰된 빈도와 기대되는 이론적인 빈도 간에는 유의미한 차이가 없다.
  • 대립가설(𝑯𝟏) : 주어진 데이터는 분포가 적합하다. 실제 관찰된 빈도와 기대되는 이론적인 빈도 간에 유의미한 차이가 있다.

 

➔ p-value값이 0.0009이므로 0.05보다 작은 수치이기에 귀무가설을 기각, 차이가 있다! 

 

Chi-Square Test : 독립성 검정(chi-square independence test) : 두 개 이상의 변수, 관련성 여부를 따진다! 

  • 교차 분석(cross tabulation analysis) 범주형 변수가 여러 개인 경우에 사용하는 분석방법
  • 여러 범주형 변수의 범주 간 차이가 기대값에서 유의하게 벗어나는지를 판단 변수 간의 연관관계 파악

예시

Chi-Square Test : 독립성 검정(chi-square independence test)

  • 두 개의 변수가 범주형을 가질 경우 두 개의 범주형 요인들을 카운트해 서로 연관성이 있는지 판단함
  • 두 개 이상도 가능함
  • 변수가 가지는 고유의 값 범주형
  • 범주형 변수의 연관관계를 파악

 

➔ p-value 값이 0.4이므로, 0.05보다 크기에 귀무가설을 채택한다.

좋아하는 색깔과 선호하는 아이스크림 맛은 서로 관련성이 없다! 

 

 

43번째 줄 코드

➔ p-value 값이 0.3679이므로, 0.05보다 크기에 귀무가설을 채택한다.

성별에 따라 좋아하는 음식은 서로 관련성이 없다! 

 

Chi-Square Test : 사후 검정

  • 어떤 성별이 어떤 음식을 더 선호하는가를 판단하기 위해
  • 카이제곱 분석의 사후검정 방법으로 그룹과 그룹의 차이를 비교
  • Bonferroni Correction Method 방법론을 사용해 그룹 간에 더 큰 영향력이 있는 집단을 판단함

사후검정 패키지 알아두기 : chisq.posthoc.test
bonferroni : 사후 분석


[시험 출제]

'머신러닝1 > 수업 필기' 카테고리의 다른 글

머신러닝1 필기 (8)  (0) 2024.06.08
머신러닝1 필기 (7)  (0) 2024.06.08
머신러닝1 필기 (5)  (0) 2024.04.18
머신러닝1 필기 (4)  (0) 2024.04.17
머신러닝1 필기 (3)  (0) 2024.04.17