머신러닝을 위한 통계학1 20

머신 러닝을 위한 통계학 필기 (10)

[저번 수업 복습]이항분포 VS 초기하분포 (헷갈림 주의)이항분포는 확률p가 일정하다.초기하분포는 확률p가 변한다.이항분포는 애초에 기대값, 분산을 구하려면 (np 또는 npq) 문제에서 확률의 개념이 주어진다.반면에, 초기하 분포는 총 개수 중 불량품의 개수가 몇 개인데, 임의로 몇 개를 택한다와 같은 유형의 문제가 다수이다. 카이제곱 분포 & F분포카이제곱 분포와 F분포는 집단의 변동의 정도를 사용한다. (변동성)F분포는 집단 여러 개를 대상으로 한다. F는 분산 제곱끼리의 비를 의미한다. 초기하분포의 관심은 표본의 성공개수이다. + 비복원추출 포아송분포일정한 단위시간과 거리 혹은 면적 등에서 발생하는 관심있는 사건의 횟수를 변수값으로 하는 확률변수의 확률분포를 말한다.포아송분포하는 확률변수 예시의 ..

머신 러닝을 위한 통계학 필기 (9)

[여기서부터 매우 중요, 기말고사 직접연계 부분][Chap. 7 : 확률변수 & 확률분포][기말고사 시험 : 6장 ~ 8장, 유인물, 확률분포, 확률변수, 확률밀도함수, 각 분포들, 기댓값 및 분산, 표준편차 부분 확인]도수분포표는 계급(구간)에 있는 실제 수(개수)를 의미하며, 상대도수분포표는 비율의 개념이 들어간 것이다. 변수 VS 확률변수 (확률변수 정의 : 시험출제 가능성)변수는 변하는 수정도의 개념이다. 하지만 확률변수는 아니다.확률변수는 변하긴 하나, 예측이 불가능한 변수이다. 뽑을 때마다, 규모가 바뀌어 변하긴 하는데 예측이 되지 않는 것이다.추가로, 상수는 항상 같은 수를 말한다.P(A ∩ B) ≠ P(A) * P(B) → 독립이 아니다 라는 의미를 담고 있다. ※ 뒤에서 다루겠지만, 주변..

머신 러닝을 위한 통계학 필기 (8)

[ 기말 범위 ]확률 & 확률변수 분포 (이산형, 연속형)기댓값 (분산, 표준편차)[2학기 통계학2에서는 ?]선형대수 개념 → AI (머신러닝)고윳값, 고유벡터분산(공분산) → 상관계수, 회귀분석주성분 분석(PCA), SVA 베이지안 모델 불확실성을 확률분포로 나타내고, 이를 데이터와 결합하여 모델링하는 방법 모델의 불확실성을 사전분포로 나타낸다. 데이터를 통해 사후분포를 계산할 수 있다. 사후분포 = 사전분포와 데이터를 결합한 분포★ 베이지안 통계학 ★기존의 불확실성을 최대한 줄이고, 더 정확한 결론을 도출할 수 있게 된다. 가지고 있는 정보 : 사전확률, 시도 결과 : 사후확률 이전의 확률에 새로운 정보를 반영하여 더 정확한 결과를 얻게 되는 것이다.빈도확률론 VS 베이즈확률론 빈도확률론은 장기적으로..

통계학 R언어 실습 (7)

결합확률 : 확률변수가 2개 인 경우에 정의되는 확률이고, 확률변수가 취할 수 있는 모든 경우에 대한 빈도, 또는 이것으로부터 동일하게 확률로 변환하면 된다. 빈도로 표현하거나 확률로 동일하게 표현하면 된다. 한계확률 : 변수가 2개인 상황에서 한 개만을 확률변수로 취급하는 것 조건부 확률 : 여전히 2개가 확률변수이다. 문제에서, 불량 제품이라는 조건 하에서 대전에서 생산된 제품일 확률을 구하시오. 가 나오면 P(불량) = P(대전∩불량) + P(광주∩불량) + P(대구∩불량) = 0.053 P(대전|불량) = P(대전∩불량) * P(불량) = 0.035 / 0.053 = 0.6603 각각 구분 할 줄 알아야 한다. 독립은 복원추출이다, 영향을 주지 않는다. 이항분포 종속은 비복원추출이다, 영향을 준다..

통계학 R언어 실습 (6)

표본공간과 사상 표본공간 : 확률실험을 실시하여 나타낼 수 있는 모든 결과의 집합 예시 : 주사위 한 개를 던지는 확률 실험에서의 표본공간은 S = {1, 2, 3, 4, 5, 6} 사상 : 표본공간을 구성하고 있는 원소 중에서 관심의 대상이 되는 원소들의 집합 (표본공간의 부분집합) 예시 : 주사위를 던지는 실험에서 “홀수가 나오는 사상”을 A 라고 하면 A = {1, 3, 5} 조건부 확률 확률 : 어떤 사상이 발생할 수 있는 가능성을 수치로 나타낸 것 조건부 확률 : 어떤 사상 B가 발생했다는 조건 하에서 또 다른 사상 A가 발생할 확률 P(B|A) : 사건 A가 일어났을 때 B가 일어날 확률 P(A∩B) : A와 B가 동시에 일어날 확률 expand.grid( ) : 주어진 벡터들로부터 가능한 모..

통계학 R언어 실습 (4)

최빈값 table() 함수로 빈도를 산출한 후, 빈도가 가장 많은 Factor를 반환하도록 한다. value ← table(data1) mode ← as.numeric(names(value[value == max(value)])) mode R에는 4가지 정규분포와 관련된 함수가 내장되어 있다. 난수 함수 rnorm 확률밀도함수 dnorm 누적분포함수 pnorm 분위수함수 qnorm 난수함수 정규분포함수의 변수에 해당하는 값을 임의로 생성해주는 함수이다. 디폴트(기본셋팅)은 ‘표준정규분포’이고, 평균과 표준편차를 설정해줄 수 있다. 확률밀도함수 확률밀도함수는 확률밀도함수의 함수값을 구해줍니다. 확률밀도함수 이기 때문에 값 자체가 확률을 의미하지는 않습니다. 디폴트 평균이 0이므로 최대값은 0에서 발생한다...