기말고사 범위
분산의 분포
- 분산 분포는 확률 변수의 분산(또는 동등하게 표준 편차의 제곱)을 설명하는 통계적 분포를 나타냄 ➔ 변동성
- 통계적 추론에서, 특히 작은 표본을 다룰 때 분산 분포를 아는 것은 가설 검정과 모집단 분산에 대한 신뢰 구간 구성에 중요하다!
- 임상 시험 : 두 가지 치료법의 효과를 비교하는 경우 어떤 치료법이 더 나은 평균 결과를 나타내는지 뿐만 아니라 어떤 치료법 이 더 일관된(더 낮은 분산) 결과를 나타내는지 알고 싶음 ➔ 더 안정적이고 효과적인 걸로!
- 교육 : 서로 다른 두 가지 교육 중재 간의 시험 점수를 비교할 때 일관된 차이를 이해하면 해당 중재가 학생 전체에 걸쳐 얼마나 잘 작동하는지 나타낼 수 있음
- 제조 : 품질 관리에서는 단순히 높은 평균 품질이 아닌 일관되게 높은 품질의 제품을 원하기 때문에 평균 품질 수준 뿐만 아니 라 편차도 아는 것이 중요한 경우가 많음 ➔ 품질은 올라가고 불량률은 떨어지게!
- 재무: 포트폴리오 관리에서 평균은 기대 수익을 제공할 수 있지만 분산 또는 표준 편차는 관련 위험에 대한 아이디어를 제공함
가설 검정 및 추론통계 (연관관계 파악)
- 카이제곱분포(Chi-Square Distribution) : 카이제곱 검정은 두 범주형 변수 사이에 유의미한 연관성을 확인하는 데 사용 ➔ 두 범주형 (명목형 변수) 사이에 연관성이 있는지 없는지 ?
- > 분할표를 분석하고 관찰된 빈도 분포가 예상 빈도 분포와 다른지 여부를 테스트하는 데 자주 사용!
- 분산 분석(ANOVA) : 여러 그룹을 비교하여 이러한 그룹 간의 분산(변동성)에 통계적으로 유의미한 차이가 있는지 확인
- > 관찰된 평균 차이가 무작위 변동으로 인한 것인지, 아니면 그룹 간의 실제 차이를 반영하는지를 판단
- > 목표는 그룹 간 변동성이 그룹 내 변동성보다 훨씬 큰지 확인하는 것
- 상관관계 테스트 : 상관 테스트는 두 연속 변수 사이의 관계의 강도와 방향을 측정하는 데 사용
- > Pearson 상관관계는 선형 관계에 적합하고 Spearman 순위 상관관계는 비선형 관계에 사용
Chi-Square Test
- Chi-Square Test : 카이제곱 검정은 두 범주형 변수 사이에 유의미한 연관성이 있는지 확인하는 데 사용됨
- 분할표를 분석하고 관찰된 빈도 분포가 예상 빈도 분포와 다른지 여부를 테스트하는 데 자주 사용됨
- 이는 명목 또는 순서 측정값이 있는 변수 간의 관계를 연구하는 데 특히 유용함
가설 설정 방법
- 귀무가설(𝑯𝟎) : 두 범주형 변수 사이에 유의미한 관계나 연관이 없다.
- 대립가설(𝑯𝟏) : 두 범주형 변수 사이에 중요한 관계 또는 연관성이 있다.
Chi-Square Test
- 카이제곱 분포는 정규분포를 따르는 독립적인 확률 변수들을 각각 제곱하여 합한 분포
- 양의 정수 k에 대해 k개의 독립적인 표준 정규분포를 따르는 확률변수 𝑿𝟏,…𝑿𝒌를 정의하면 자유도 k의 카이제곱 분포는 확률 변수의 분포 ➔ Q가 따르는 분포를 카이제곱 분포라 함
Chi-Square Test
- 카이제곱 분포는 오차 혹은 편차를 분석할 때 사용함
- 카이제곱 분포를 이용해 오차나 편차 검증하면 ➔ 우연히 발생하는 오차인지 숨겨진 의미가 있는 오차나 편차 인지 알 수 있음
- 두 가지 검정 (100% 시험출제 ➔ R언어)
- 1) 적합도 검정(goodness-of-fit-test) ➔ 기대되는 빈도의 분포와 관찰한 빈도의 분포를 비교
- 2) 독립성 검정(chi-square independence test) ➔ 범주형 변수가 여러 개인 경우에 사용하는 분석방법
- 두 경우 모두 다음의 아래의 통계량 공식을 사용함
Chi-Square Test : 적합도 검정(goodness-of-fit-test)
- 적합도 검정(goodness-of-fit-test) ➔ 기대되는 빈도의 분포와 관찰한 빈도의 분포를 비교
- 분석하려는 범주형 변수의 각 범주에 대해 기대되는 빈도를 계산함
- 실제 데이터에서 각 범주의 관찰된 빈도와 예상 빈도를 비교하고, 이를 통해 각 범주 간의 차이를 계산함
- 적합도 검정(goodness-of-fit-test) ➔ 독립변수가 하나이고, 기대되는 빈도의 분포와 관찰한 빈도의 분포를 비교
가설 설정 방법
- 귀무가설(𝑯𝟎) : 주어진 데이터는 분포가 적합하지 않다. ➔ 실제 관찰된 빈도와 기대되는 이론적인 빈도 간에는 유의미한 차이가 없다.
- 대립가설(𝑯𝟏) : 주어진 데이터는 분포가 적합하다. ➔ 실제 관찰된 빈도와 기대되는 이론적인 빈도 간에 유의미한 차이가 있다.
➔ p-value값이 0.0009이므로 0.05보다 작은 수치이기에 귀무가설을 기각, 차이가 있다!
Chi-Square Test : 독립성 검정(chi-square independence test) : 두 개 이상의 변수, 관련성 여부를 따진다!
- 교차 분석(cross tabulation analysis) ➔ 범주형 변수가 여러 개인 경우에 사용하는 분석방법
- 여러 범주형 변수의 범주 간 차이가 기대값에서 유의하게 벗어나는지를 판단 ➔ 변수 간의 연관관계 파악
Chi-Square Test : 독립성 검정(chi-square independence test)
- 두 개의 변수가 범주형을 가질 경우 ➔ 두 개의 범주형 요인들을 카운트해 서로 연관성이 있는지 판단함
- ➔ 두 개 이상도 가능함
- 변수가 가지는 고유의 값 ➔ 범주형
- 범주형 변수의 연관관계를 파악함
➔ p-value 값이 0.4이므로, 0.05보다 크기에 귀무가설을 채택한다.
좋아하는 색깔과 선호하는 아이스크림 맛은 서로 관련성이 없다!
➔ p-value 값이 0.3679이므로, 0.05보다 크기에 귀무가설을 채택한다.
성별에 따라 좋아하는 음식은 서로 관련성이 없다!
Chi-Square Test : 사후 검정
- 어떤 성별이 어떤 음식을 더 선호하는가를 판단하기 위해
- 카이제곱 분석의 사후검정 방법으로 그룹과 그룹의 차이를 비교함
- Bonferroni Correction Method 방법론을 사용해 그룹 간에 더 큰 영향력이 있는 집단을 판단함
[시험 출제]
'머신러닝1 > 수업 필기' 카테고리의 다른 글
머신러닝1 필기 (8) (0) | 2024.06.08 |
---|---|
머신러닝1 필기 (7) (0) | 2024.06.08 |
머신러닝1 필기 (5) (0) | 2024.04.18 |
머신러닝1 필기 (4) (0) | 2024.04.17 |
머신러닝1 필기 (3) (0) | 2024.04.17 |