머신러닝을 위한 통계학2/수업 필기

머신러닝을 위한 통계학2 5주차

코딩입문시작 2024. 10. 28. 08:28

더보기

input --- 작동계(=시스템) --- output
input : 10g 및 10kg 돌, 독립변수 (원인)
작동계 : 호수
output : 파장 = 결과, 종속변수(결과)

 

평균, 분산
분산 종속변수(결과)에 대한! 
10g에 대한 파장의 크기 <<<< 10kg에 대한 파장의 크기
파장의 크기 = 분산 

 

* 분산 * 크기 원인의 영향력 (중요성)

 

예시) 전략A 판매량의 변화(분산) 평균, 분산 
v1벡터가 v2벡터보다 영향력의 크기가 크므로 (분산의 폭이 크므로) v1벡터가 고유벡터가 그 폭의 크기가 고윳값이다. 분산 고유벡터, 고유값 연관

모집단-- 샘플링 표본
모집단 형태(특징)에 상관없이 형태는 정규분포 형태

데이터 처리 → AI, 머신러닝 

  • AI 전 : Rule-based (규칙 기반) → IF ~ than ~ 
  • AI 후 : probability (확률 기반) → 상황에 따른 확률이 높은 행동으로 !

머신러닝은 크게 3가지, 지도학습, 비지도학습, 강화학습이 있다.

  • Supervised → 데이터 : 꼬리표 (태그가 있는) 있는 데이터, 피드백 O 또는 X을 통해 학습
  • UnSupervised → 태그가 없는 데이터, 데이터 구조의 특징을 분석함 (ex. 소비자들을 그룹화, 군집화), Clustering, 피드백이 없음
  • Reinforcement → 피드백이 존재, 단 O 또는 X로 피드백하는 것이 아닌 Reward 보상을 통해 학습 (점수를 주는 방식을 통해)

사전확률 VS 사후확률 

  • 데이터로부터 추정된 확률 = 사후 확률 → 베이지안 확률 

*** 반드시 기억 ***
집단 특성 통계적으로 분석 [집단은 반드시 분포(모양)을 갖는다!!!!]
반드시 알아야하는 통계량 2가지 
1. 집중되는 값 : 중심(정성적) -- (객관화) → 평균(정량적)
2. 흩어진정도(크기) : 산포(정성적) -- (객관화) → 분산(정량적) = 표준편차

 

객관화를 해야만 표준화가 가능하고 → 코드화가 가능하다.

 

표준화를 하는 이유 2가지

  • 스케일 영향 방지를 위해서이다.
  • 평균이 0, 분산이 1이 되어 데이터 분석 처리할 때 간편하다.

추정(Estimate) VS 검정(Test) 

  • 추정 : 통계량에 대해 추정 (평균, 분산)
  • 점추정 : 하나의 값
  • 구간추정 : 하나의 값을 기준으로 일정한 간격으로 되어있는 범위  
  • | <--- -a --- X --- +a ---> |
  • 범위가 넓을수록 신뢰수준 증가 
  • A , 신뢰수준: 90%
    |<--------------X-------------->|
  • B , 신뢰수준: 90%
    |<----X----->|
  • 구간추정 = 점추정 +- (신뢰수준 * 표준편차)
  • 검정 : 데이터를 통해 전략(요인, 특성)의 영향력(효과)를 평과하는 데 활용
    예시) 전략 : 약 복용, 영향력 : 약 효과가 있다/없다

★ 시험 출제

가설검정 -- 검정대상?
모집단의 평균 (중심값 : 위치) 이냐, 모집단의 분산 (산포) 이냐
모집단의 평균을 검정하고, 모집단의 수가 2개일때 표본 → t검정, 모집단 → z검정 (수업에서는 t검정만 다룰 예정)
집단의 특성을 비교할 때, 평균값/중심값을 가지고 비교 
집단의 수가 3개이상이다 --> 분산분석(ANOVA분석)
모집단의 분산을 검정하고 모집단의 수가 3개이상이라면, ANOVA분산분석을 하면 되는데 잘 사용은 안한다.

(가설)검정의 대상? → 가설은 검정의 대상!
가설에는,

  • 귀무가설 H0 : 과거에서부터 현재까지 알고 있던 사실 = 통계량 값 → 변하지 않았다.
  • 대립가설 H1 : 과거에서부터 현재까지 알고 있던 사실 != 통계량 값 → 변하였다.
  • (귀무가설이 거짓이라는 주장으로, 어떤 차이, 효과, 또는 관계가 존재한다는 것)
  • 귀무가설은 변화가 없다는 가정이며, 대립가설은 변화가 있음을 주장한다.
  • 통계적 검정의 목적은 귀무가설을 기각할 수 있는지를 평가하는 것이다.

 

  • 비교하는 값 : 성적 (공부를 열심히 하는가? 에 대한 척도)
  • 심값을 해석할 때에는, 분산값과 함께 해석해야 한다. 표본평균이 높아도 표준편차(분산)가 크다면 평균이 높은거지, 집단이 공부를 열심히 하는가는 아닐 수 있다. 
  • → 검정을 해보자. 집단의 개수가 2개이고, 검정의 대상이 특성치 (평균) 이므로 t검정을 해보자. 

연관성분석 : 2개 변수들 간의 연관성을 파악하는 분석방법
예시) iris 꽃 데이터에서 변수로는 꽃잎 폭/넓이,꽃받침(폭/넢이)이 있는데 이 변수들은 계량적 변수이다. (계수X) 
계량이면, 상관계수와 산점도를 구할 수 있다. (2023년 기출)

  • 명목 및 서열척도 → 순서 →  교차분석 
  • 서열 →  스피어만 서열상관분석
  • 등간 및 비율척도 → 등급이 나뉘어져 있음
    →  통제여부에 따라 → 통제가 있으면 "편상관분석", 통제가 없으면 "피어슨 상관분석"
  • 교차분석 : 명목 척도로 측정된 두 변수 간의 상호연관성을 알아보기 위한 분석
    명목 예시) 성별, 연령, 학력, 직무만족도, 이동통신서비스사 
    연령수준에 따라 직무만족도가 다른가? → 검정
  • 가설 H0 : 직무만족도가 같다. 
  • 가설 H1 : 직무만족도가 다르다. 카이제곱 검정
    특정치를 가지고 분석을 하는 것이기 때문에 표본의 크기가 같아야 한다. 25명/25명/25명/25명 이렇게말이다!

공분산 : 변수가 두 개이다. → 방향 (+, -)는 알지만 크기는 모른다. 
→  X와 Y 동시에 편차를 고려한다

상관계수 : 공분산 값을 표준화한 값 → 방향과 크기를 둘 다 알 수 있다. 
상관계수 : 데이터의 크기에 상관없이 동일한 값을 갖는다.