input --- 작동계(=시스템) --- output
input : 10g 및 10kg 돌, 독립변수 (원인)
작동계 : 호수
output : 파장 = 결과, 종속변수(결과)
평균, 분산
분산 → 종속변수(결과)에 대한!
10g에 대한 파장의 크기 <<<< 10kg에 대한 파장의 크기
파장의 크기 = 분산
* 분산 * → 크기 → 원인의 영향력 (중요성)
예시) 전략A → 판매량의 변화(분산) → 평균, 분산
v1벡터가 v2벡터보다 영향력의 크기가 크므로 (분산의 폭이 크므로) v1벡터가 고유벡터가 그 폭의 크기가 고윳값이다. 분산 → 고유벡터, 고유값 연관
모집단-- 샘플링 → 표본
모집단 형태(특징)에 상관없이 형태는 정규분포 형태
데이터 처리 → AI, 머신러닝
- AI 전 : Rule-based (규칙 기반) → IF ~ than ~
- AI 후 : probability (확률 기반) → 상황에 따른 확률이 높은 행동으로 !
머신러닝은 크게 3가지, 지도학습, 비지도학습, 강화학습이 있다.
- Supervised → 데이터 : 꼬리표 (태그가 있는) 있는 데이터, 피드백 O 또는 X을 통해 학습
- UnSupervised → 태그가 없는 데이터, 데이터 구조의 특징을 분석함 (ex. 소비자들을 그룹화, 군집화), Clustering, 피드백이 없음
- Reinforcement → 피드백이 존재, 단 O 또는 X로 피드백하는 것이 아닌 Reward 보상을 통해 학습 (점수를 주는 방식을 통해)
사전확률 VS 사후확률
- 데이터로부터 추정된 확률 = 사후 확률 → 베이지안 확률
*** 반드시 기억 ***
집단 특성 통계적으로 분석 [집단은 반드시 분포(모양)을 갖는다!!!!]
반드시 알아야하는 통계량 2가지
1. 집중되는 값 : 중심(정성적) -- (객관화) → 평균(정량적)
2. 흩어진정도(크기) : 산포(정성적) -- (객관화) → 분산(정량적) = 표준편차
객관화를 해야만 표준화가 가능하고 → 코드화가 가능하다.
표준화를 하는 이유 2가지
- 스케일 영향 방지를 위해서이다.
- 평균이 0, 분산이 1이 되어 데이터 분석 처리할 때 간편하다.
추정(Estimate) VS 검정(Test)
- 추정 : 통계량에 대해 추정 (평균, 분산)
- 점추정 : 하나의 값
- 구간추정 : 하나의 값을 기준으로 일정한 간격으로 되어있는 범위
- | <--- -a --- X --- +a ---> |
- 범위가 넓을수록 신뢰수준 증가
- A , 신뢰수준: 90%
|<--------------X-------------->| - B , 신뢰수준: 90%
|<----X----->| - 구간추정 = 점추정 +- (신뢰수준 * 표준편차)
- 검정 : 데이터를 통해 전략(요인, 특성)의 영향력(효과)를 평과하는 데 활용
예시) 전략 : 약 복용, 영향력 : 약 효과가 있다/없다
★ 시험 출제
가설검정 -- 검정대상?
모집단의 평균 (중심값 : 위치) 이냐, 모집단의 분산 (산포) 이냐
모집단의 평균을 검정하고, 모집단의 수가 2개일때 표본 → t검정, 모집단 → z검정 (수업에서는 t검정만 다룰 예정)
집단의 특성을 비교할 때, 평균값/중심값을 가지고 비교
집단의 수가 3개이상이다 --> 분산분석(ANOVA분석)
모집단의 분산을 검정하고 모집단의 수가 3개이상이라면, ANOVA분산분석을 하면 되는데 잘 사용은 안한다.
(가설)검정의 대상? → 가설은 검정의 대상!
가설에는,
- 귀무가설 H0 : 과거에서부터 현재까지 알고 있던 사실 = 통계량 값 → 변하지 않았다.
- 대립가설 H1 : 과거에서부터 현재까지 알고 있던 사실 != 통계량 값 → 변하였다.
- (귀무가설이 거짓이라는 주장으로, 어떤 차이, 효과, 또는 관계가 존재한다는 것)
- 귀무가설은 변화가 없다는 가정이며, 대립가설은 변화가 있음을 주장한다.
- 통계적 검정의 목적은 귀무가설을 기각할 수 있는지를 평가하는 것이다.
- 비교하는 값 : 성적 (공부를 열심히 하는가? 에 대한 척도)
- 중심값을 해석할 때에는, 분산값과 함께 해석해야 한다. 표본평균이 높아도 표준편차(분산)가 크다면 평균이 높은거지, 집단이 공부를 열심히 하는가는 아닐 수 있다.
- → 검정을 해보자. 집단의 개수가 2개이고, 검정의 대상이 특성치 (평균) 이므로 t검정을 해보자.
연관성분석 : 2개 변수들 간의 연관성을 파악하는 분석방법
예시) iris 꽃 데이터에서 변수로는 꽃잎 폭/넓이,꽃받침(폭/넢이)이 있는데 이 변수들은 계량적 변수이다. (계수X)
계량이면, 상관계수와 산점도를 구할 수 있다. (2023년 기출)
- 명목 및 서열척도 → 순서 → 교차분석
- 서열 → 스피어만 서열상관분석
- 등간 및 비율척도 → 등급이 나뉘어져 있음
→ 통제여부에 따라 → 통제가 있으면 "편상관분석", 통제가 없으면 "피어슨 상관분석" - 교차분석 : 명목 척도로 측정된 두 변수 간의 상호연관성을 알아보기 위한 분석
명목 예시) 성별, 연령, 학력, 직무만족도, 이동통신서비스사
연령수준에 따라 직무만족도가 다른가? → 검정 - 가설 H0 : 직무만족도가 같다.
- 가설 H1 : 직무만족도가 다르다. → 카이제곱 검정
특정치를 가지고 분석을 하는 것이기 때문에 표본의 크기가 같아야 한다. 25명/25명/25명/25명 이렇게말이다!
공분산 : 변수가 두 개이다. → 방향 (+, -)는 알지만 크기는 모른다.
→ X와 Y 동시에 편차를 고려한다
상관계수 : 공분산 값을 표준화한 값 → 방향과 크기를 둘 다 알 수 있다.
상관계수 : 데이터의 크기에 상관없이 동일한 값을 갖는다.
'머신러닝을 위한 통계학2 > 수업 필기' 카테고리의 다른 글
머신러닝을 위한 통계학2 10주차 (0) | 2024.12.08 |
---|---|
머신러닝을 위한 통계학2 6주차 (0) | 2024.10.28 |
머신러닝을 위한 통계학2 4주차 (0) | 2024.10.28 |
머신러닝을 위한 통계학2 3주차 (0) | 2024.10.28 |
머신러닝을 위한 통계학2 2주차 (0) | 2024.10.27 |