머신러닝을 위한 통계학1/수업 필기

머신 러닝을 위한 통계학 필기 (10)

코딩입문시작 2024. 6. 17. 01:08

[저번 수업 복습]

이항분포 VS 초기하분포 (헷갈림 주의)

  • 이항분포는 확률p가 일정하다.
  • 초기하분포는 확률p가 변한다.
  • 이항분포는 애초에 기대값, 분산을 구하려면 (np 또는 npq) 문제에서 확률의 개념이 주어진다.
  • 반면에, 초기하 분포는 총 개수 중 불량품의 개수가 몇 개인데, 임의로 몇 개를 택한다와 같은 유형의 문제가 다수이다. 

카이제곱 분포 & F분포

  • 카이제곱 분포와 F분포는 집단의 변동의 정도를 사용한다. (변동성)
  • F분포는 집단 여러 개를 대상으로 한다. F는 분산 제곱끼리의 비를 의미한다. 


초기하분포의 관심은 표본의 성공개수이다. + 비복원추출

 

포아송분포

  • 일정한 단위시간과 거리 혹은 면적 등에서 발생하는 관심있는 사건의 횟수를 변수값으로 하는 확률변수의 확률분포를 말한다.
  • 포아송분포하는 확률변수 예시의 특징으로는 최대 얼마인지 모르는 경우이다.

포아송분포 평균과 분산 특징을 알아두자

 


[연속확률분포]

정규분포 (Z)

  • 연속확률분포 중에 가장 대표적인 분포
  • 종모양으로 좌우대칭인 분포
  • 평균과 분산에 따라 구체적인 분포의 위치와 모양이 결정된다.
  • 평균을 중심으로 종모양의 좌우대칭인 분포
  • 확률밀도함수 곡선과 X축 사이의 전체 면적의 합은 1이 된다.
  • 종모양의 중앙이 볼록할수록, 정규분포에 더 가까워진다.

Q. 집단의 특성을 파악하는 통계량은? (2개)

  • 평균(중앙 및 중심파악)과 편차(변동성 파악)

Q. 변동성이 큰 집단과 변동성이 작은 집단을 통계적으로 해석할 때, 신뢰도 차이가 있는가?

  • 있다, 변동성이 큰 집단일수록 신뢰도는 떨어지고 변동성이 작은 집단일수록 신뢰도는 올라간다.
  • 그 이유는, 오차가 줄어들고 예시로는 양궁 과녁의 정확도가 있다.

확률VS통계

  • 확률은 하나의 사건에 대한 것이고, 통계는 사건이 합쳐진 집단을 의미한다.

 

정규분포를 표준화시켜 표준정규분포로 변환시키면, 구하고자 하는 확률값을 비교적 용이하게 구할 수 있다.

표준정규분포는 평균이 0이고, 분산이 1인 분포를 말한다. 

표준정규분포 (Z분포)

  • 정규분포하는 확률변수 X를 표준화한 값을 변수값으로 하는 확률변수 Z의 분포

t분포

  • 자유도(df)에 따라 그 모양이 변하고, 표본의 개수가 30개 미만이여야 한다.
  • 그 이유는 표본의 크기가 커질수록, 표본정규분포에 가까워지기 때문이다. 
  • df 자유도에서 n-1을 하는 이유는, 표본으로 산출된 값은 항상 모수보다 작게 나오기 때문에, 보정해주는 개념이다. 
  • 평균이 0, 자유도가 증가함에 따라 분산은 1에 접근한다.

포아송분포 VS 지수분포 (헷갈림 주의)

  • 포아송분포 : 일정한 시간이나 구간에서 발생하는 특정한 사건의 수를 변수값으로 하는 확률변수의 분포
  • X : 건수 / 단위시간 
  • 지수분포 : 한 사건이 발생한 후에 다음 사건이 발생할 때까지의 시간이나 면적을 변수값으로 하는 확률변수의 분포
  • X : 시간 / 건수, ex) 1건당 20분 (20분 / 1건)

포아송 VS 지수 (기대값)

  • 포아송의 기대값은 (람다) 이지만, 지수의 기대값은 (1 / 람다) 이다.

지수분포 식 : (람다) * e^(-람다 * x), 평균 = 표준편차 = 1 / 람다 

람다 : 일정한 단위시간이나 단위면적 등에서 발생하는 사건의 평균발생 횟수 


[분산 관련 확률분포]

F-분포의 모양은 분자의 자유도(df)와 분모의 자유도(df)에 따라 달라진다. 

 

F-분포 특징

  • 확률변수 F는 항상 양의 값만을 갖는 연속확률변수이다.
  • 카이제곱분포와 다르게 2개의 자유도를 갖는다. (집단이 2개니까)
  • 2개의 자유도에 따라 분포의 모양이 변한다.

[시험 전, 한번 확인해보자]