머신러닝을 위한 통계학2 5주차

머신러닝을 위한 통계학2/수업 필기

머신러닝을 위한 통계학2 5주차

코딩입문시작 2024. 10. 28. 08:28

input --- 작동계(=시스템) --- output
input : 10g 및 10kg 돌, 독립변수 (원인)
작동계 : 호수
output : 파장 = 결과, 종속변수(결과)

평균, 분산
분산 → 종속변수(결과)에 대한!
10g에 대한 파장의 크기 <<<< 10kg에 대한 파장의 크기
파장의 크기 = 분산

* 분산 * → 크기 → 원인의 영향력 (중요성)

예시) 전략A → 판매량의 변화(분산) → 평균, 분산
v1벡터가 v2벡터보다 영향력의 크기가 크므로 (분산의 폭이 크므로) v1벡터가 고유벡터가 그 폭의 크기가 고윳값이다. 분산 → 고유벡터, 고유값 연관

모집단-- 샘플링 → 표본
모집단 형태(특징)에 상관없이 형태는 정규분포 형태

데이터 처리 → AI, 머신러닝

AI 전 : Rule-based (규칙 기반) → IF ~ than ~
AI 후 : probability (확률 기반) → 상황에 따른 확률이 높은 행동으로 !

머신러닝은 크게 3가지, 지도학습, 비지도학습, 강화학습이 있다.

Supervised → 데이터 : 꼬리표 (태그가 있는) 있는 데이터, 피드백 O 또는 X을 통해 학습
UnSupervised → 태그가 없는 데이터, 데이터 구조의 특징을 분석함 (ex. 소비자들을 그룹화, 군집화), Clustering, 피드백이 없음
Reinforcement → 피드백이 존재, 단 O 또는 X로 피드백하는 것이 아닌 Reward 보상을 통해 학습 (점수를 주는 방식을 통해)

사전확률 VS 사후확률

데이터로부터 추정된 확률 = 사후 확률 → 베이지안 확률

*** 반드시 기억 ***
집단 특성 통계적으로 분석 [집단은 반드시 분포(모양)을 갖는다!!!!]
반드시 알아야하는 통계량 2가지
1. 집중되는 값 : 중심(정성적) -- (객관화) → 평균(정량적)
2. 흩어진정도(크기) : 산포(정성적) -- (객관화) → 분산(정량적) = 표준편차

객관화를 해야만 표준화가 가능하고 → 코드화가 가능하다.

표준화를 하는 이유 2가지

스케일 영향 방지를 위해서이다.
평균이 0, 분산이 1이 되어 데이터 분석 처리할 때 간편하다.

추정(Estimate) VS 검정(Test)

추정 : 통계량에 대해 추정 (평균, 분산)
점추정 : 하나의 값
구간추정 : 하나의 값을 기준으로 일정한 간격으로 되어있는 범위
| <--- -a --- X --- +a ---> |
범위가 넓을수록 신뢰수준 증가
A , 신뢰수준: 90%
|<--------------X-------------->|
B , 신뢰수준: 90%
|<----X----->|
구간추정 = 점추정 +- (신뢰수준 * 표준편차)
검정 : 데이터를 통해 전략(요인, 특성)의 영향력(효과)를 평과하는 데 활용
예시) 전략 : 약 복용, 영향력 : 약 효과가 있다/없다

★ 시험 출제

가설검정 -- 검정대상?
모집단의 평균 (중심값 : 위치) 이냐, 모집단의 분산 (산포) 이냐
모집단의 평균을 검정하고, 모집단의 수가 2개일때 표본 → t검정, 모집단 → z검정 (수업에서는 t검정만 다룰 예정)
집단의 특성을 비교할 때, 평균값/중심값을 가지고 비교
집단의 수가 3개이상이다 --> 분산분석(ANOVA분석)
모집단의 분산을 검정하고 모집단의 수가 3개이상이라면, ANOVA분산분석을 하면 되는데 잘 사용은 안한다.

(가설)검정의 대상? → 가설은 검정의 대상!
가설에는,

귀무가설 H0 : 과거에서부터 현재까지 알고 있던 사실 = 통계량 값 → 변하지 않았다.
대립가설 H1 : 과거에서부터 현재까지 알고 있던 사실 != 통계량 값 → 변하였다.
(귀무가설이 거짓이라는 주장으로, 어떤 차이, 효과, 또는 관계가 존재한다는 것)
귀무가설은 변화가 없다는 가정이며, 대립가설은 변화가 있음을 주장한다.
통계적 검정의 목적은 귀무가설을 기각할 수 있는지를 평가하는 것이다.

비교하는 값 : 성적 (공부를 열심히 하는가? 에 대한 척도)
중심값을 해석할 때에는, 분산값과 함께 해석해야 한다. 표본평균이 높아도 표준편차(분산)가 크다면 평균이 높은거지, 집단이 공부를 열심히 하는가는 아닐 수 있다.
→ 검정을 해보자. 집단의 개수가 2개이고, 검정의 대상이 특성치 (평균) 이므로 t검정을 해보자.

연관성분석 : 2개 변수들 간의 연관성을 파악하는 분석방법
예시) iris 꽃 데이터에서 변수로는 꽃잎 폭/넓이,꽃받침(폭/넢이)이 있는데 이 변수들은 계량적 변수이다. (계수X)
계량이면, 상관계수와 산점도를 구할 수 있다. (2023년 기출)

명목 및 서열척도 → 순서 → 교차분석
서열 → 스피어만 서열상관분석
등간 및 비율척도 → 등급이 나뉘어져 있음
→ 통제여부에 따라 → 통제가 있으면 "편상관분석", 통제가 없으면 "피어슨 상관분석"
교차분석 : 명목 척도로 측정된 두 변수 간의 상호연관성을 알아보기 위한 분석
명목 예시) 성별, 연령, 학력, 직무만족도, 이동통신서비스사
연령수준에 따라 직무만족도가 다른가? → 검정
가설 H0 : 직무만족도가 같다.
가설 H1 : 직무만족도가 다르다. → 카이제곱 검정
특정치를 가지고 분석을 하는 것이기 때문에 표본의 크기가 같아야 한다. 25명/25명/25명/25명 이렇게말이다!

공분산 : 변수가 두 개이다. → 방향 (+, -)는 알지만 크기는 모른다.
→ X와 Y 동시에 편차를 고려한다

상관계수 : 공분산 값을 표준화한 값 → 방향과 크기를 둘 다 알 수 있다.
상관계수 : 데이터의 크기에 상관없이 동일한 값을 갖는다.

저작자표시 비영리 변경금지 (새창열림)

'머신러닝을 위한 통계학2 > 수업 필기' 카테고리의 다른 글

머신러닝을 위한 통계학2 10주차 (0)	2024.12.08
머신러닝을 위한 통계학2 6주차 (0)	2024.10.28
머신러닝을 위한 통계학2 4주차 (0)	2024.10.28
머신러닝을 위한 통계학2 3주차 (0)	2024.10.28
머신러닝을 위한 통계학2 2주차 (0)	2024.10.27

현재글머신러닝을 위한 통계학2 5주차

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

코딩포트폴리오