머신러닝1 필기 (6)

머신러닝1/수업 필기

머신러닝1 필기 (6)

코딩입문시작 2024. 6. 8. 18:35

기말고사 범위

분산의 분포

분산 분포는 확률 변수의 분산(또는 동등하게 표준 편차의 제곱)을 설명하는 통계적 분포를 나타냄 ➔ 변동성
통계적 추론에서, 특히 작은 표본을 다룰 때 분산 분포를 아는 것은 가설 검정과 모집단 분산에 대한 신뢰 구간 구성에 중요하다!
임상 시험 : 두 가지 치료법의 효과를 비교하는 경우 어떤 치료법이 더 나은 평균 결과를 나타내는지 뿐만 아니라 어떤 치료법 이 더 일관된(더 낮은 분산) 결과를 나타내는지 알고 싶음 ➔ 더 안정적이고 효과적인 걸로!
교육 : 서로 다른 두 가지 교육 중재 간의 시험 점수를 비교할 때 일관된 차이를 이해하면 해당 중재가 학생 전체에 걸쳐 얼마나 잘 작동하는지 나타낼 수 있음
제조 : 품질 관리에서는 단순히 높은 평균 품질이 아닌 일관되게 높은 품질의 제품을 원하기 때문에 평균 품질 수준 뿐만 아니 라 편차도 아는 것이 중요한 경우가 많음 ➔ 품질은 올라가고 불량률은 떨어지게!
재무: 포트폴리오 관리에서 평균은 기대 수익을 제공할 수 있지만 분산 또는 표준 편차는 관련 위험에 대한 아이디어를 제공함

가설 검정 및 추론통계 (연관관계 파악)

카이제곱분포(Chi-Square Distribution) : 카이제곱 검정은 두 범주형 변수 사이에 유의미한 연관성을 확인하는 데 사용 ➔ 두 범주형 (명목형 변수) 사이에 연관성이 있는지 없는지 ?
> 분할표를 분석하고 관찰된 빈도 분포가 예상 빈도 분포와 다른지 여부를 테스트하는 데 자주 사용!

분산 분석(ANOVA) : 여러 그룹을 비교하여 이러한 그룹 간의 분산(변동성)에 통계적으로 유의미한 차이가 있는지 확인
> 관찰된 평균 차이가 무작위 변동으로 인한 것인지, 아니면 그룹 간의 실제 차이를 반영하는지를 판단
> 목표는 그룹 간 변동성이 그룹 내 변동성보다 훨씬 큰지 확인하는 것

상관관계 테스트 : 상관 테스트는 두 연속 변수 사이의 관계의 강도와 방향을 측정하는 데 사용
> Pearson 상관관계는 선형 관계에 적합하고 Spearman 순위 상관관계는 비선형 관계에 사용

Chi-Square Test

Chi-Square Test : 카이제곱 검정은 두 범주형 변수 사이에 유의미한 연관성이 있는지 확인하는 데 사용됨
분할표를 분석하고 관찰된 빈도 분포가 예상 빈도 분포와 다른지 여부를 테스트하는 데 자주 사용됨
이는 명목 또는 순서 측정값이 있는 변수 간의 관계를 연구하는 데 특히 유용함

가설 설정 방법

귀무가설(𝑯𝟎) : 두 범주형 변수 사이에 유의미한 관계나 연관이 없다.
대립가설(𝑯𝟏) : 두 범주형 변수 사이에 중요한 관계 또는 연관성이 있다.

Chi-Square Test

카이제곱 분포는 정규분포를 따르는 독립적인 확률 변수들을 각각 제곱하여 합한 분포
양의 정수 k에 대해 k개의 독립적인 표준 정규분포를 따르는 확률변수 𝑿𝟏,…𝑿𝒌를 정의하면 자유도 k의 카이제곱 분포는 확률 변수의 분포 ➔ Q가 따르는 분포를 카이제곱 분포라 함

Chi-Square Test

카이제곱 분포는 오차 혹은 편차를 분석할 때 사용함
카이제곱 분포를 이용해 오차나 편차 검증하면 ➔ 우연히 발생하는 오차인지 숨겨진 의미가 있는 오차나 편차 인지 알 수 있음
두 가지 검정 (100% 시험출제 ➔ R언어)
1) 적합도 검정(goodness-of-fit-test) ➔ 기대되는 빈도의 분포와 관찰한 빈도의 분포를 비교
2) 독립성 검정(chi-square independence test) ➔ 범주형 변수가 여러 개인 경우에 사용하는 분석방법
두 경우 모두 다음의 아래의 통계량 공식을 사용함

Chi-Square Test : 적합도 검정(goodness-of-fit-test)

적합도 검정(goodness-of-fit-test) ➔ 기대되는 빈도의 분포와 관찰한 빈도의 분포를 비교
분석하려는 범주형 변수의 각 범주에 대해 기대되는 빈도를 계산함
실제 데이터에서 각 범주의 관찰된 빈도와 예상 빈도를 비교하고, 이를 통해 각 범주 간의 차이를 계산함
적합도 검정(goodness-of-fit-test) ➔ 독립변수가 하나이고, 기대되는 빈도의 분포와 관찰한 빈도의 분포를 비교

가설 설정 방법

귀무가설(𝑯𝟎) : 주어진 데이터는 분포가 적합하지 않다. ➔ 실제 관찰된 빈도와 기대되는 이론적인 빈도 간에는 유의미한 차이가 없다.
대립가설(𝑯𝟏) : 주어진 데이터는 분포가 적합하다. ➔ 실제 관찰된 빈도와 기대되는 이론적인 빈도 간에 유의미한 차이가 있다.

➔ p-value값이 0.0009이므로 0.05보다 작은 수치이기에 귀무가설을 기각, 차이가 있다!

Chi-Square Test : 독립성 검정(chi-square independence test) : 두 개 이상의 변수, 관련성 여부를 따진다!

교차 분석(cross tabulation analysis) ➔ 범주형 변수가 여러 개인 경우에 사용하는 분석방법
여러 범주형 변수의 범주 간 차이가 기대값에서 유의하게 벗어나는지를 판단 ➔ 변수 간의 연관관계 파악

Chi-Square Test : 독립성 검정(chi-square independence test)

두 개의 변수가 범주형을 가질 경우 ➔ 두 개의 범주형 요인들을 카운트해 서로 연관성이 있는지 판단함
➔ 두 개 이상도 가능함
변수가 가지는 고유의 값 ➔ 범주형
범주형 변수의 연관관계를 파악함

➔ p-value 값이 0.4이므로, 0.05보다 크기에 귀무가설을 채택한다.

좋아하는 색깔과 선호하는 아이스크림 맛은 서로 관련성이 없다!

➔ p-value 값이 0.3679이므로, 0.05보다 크기에 귀무가설을 채택한다.

성별에 따라 좋아하는 음식은 서로 관련성이 없다!

Chi-Square Test : 사후 검정

어떤 성별이 어떤 음식을 더 선호하는가를 판단하기 위해
카이제곱 분석의 사후검정 방법으로 그룹과 그룹의 차이를 비교함
Bonferroni Correction Method 방법론을 사용해 그룹 간에 더 큰 영향력이 있는 집단을 판단함

[시험 출제]

저작자표시 비영리 변경금지 (새창열림)

'머신러닝1 > 수업 필기' 카테고리의 다른 글

머신러닝1 필기 (8) (0)	2024.06.08
머신러닝1 필기 (7) (0)	2024.06.08
머신러닝1 필기 (5) (0)	2024.04.18
머신러닝1 필기 (4) (0)	2024.04.17
머신러닝1 필기 (3) (0)	2024.04.17

현재글머신러닝1 필기 (6)

비즈니스커뮤니케이션1 #4주차, 머신러닝1 #anova분석, 머신러닝1 #카이제곱분석, 빅데이터분석 #anova분석, 머신러닝1 #상관분석 #실습, 머신러닝1 #상관분석, 머신러닝1 #z_test #t_test #평균이용분석, 비즈니스_커뮤니세이션1, R언어 #기본함수, 빅데이터분석, R언어 #평균 #표준편차 #분산, 통계학, R언어 #도수분포표 #생성코드, 이산수학 #수, 머신러닝, 머신러닝1 #회귀분석, 빅데이터분석 #판별분석 #분산분석, 머신러닝1 #데이터구조 #r언어, 빅데이터분석 #요인분석, 비즈니스커뮤니케이션,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

코딩포트폴리오