머신러닝을 위한 통계학1/수업 필기 12

머신 러닝을 위한 통계학 필기 (10)

[저번 수업 복습]이항분포 VS 초기하분포 (헷갈림 주의)이항분포는 확률p가 일정하다.초기하분포는 확률p가 변한다.이항분포는 애초에 기대값, 분산을 구하려면 (np 또는 npq) 문제에서 확률의 개념이 주어진다.반면에, 초기하 분포는 총 개수 중 불량품의 개수가 몇 개인데, 임의로 몇 개를 택한다와 같은 유형의 문제가 다수이다. 카이제곱 분포 & F분포카이제곱 분포와 F분포는 집단의 변동의 정도를 사용한다. (변동성)F분포는 집단 여러 개를 대상으로 한다. F는 분산 제곱끼리의 비를 의미한다. 초기하분포의 관심은 표본의 성공개수이다. + 비복원추출 포아송분포일정한 단위시간과 거리 혹은 면적 등에서 발생하는 관심있는 사건의 횟수를 변수값으로 하는 확률변수의 확률분포를 말한다.포아송분포하는 확률변수 예시의 ..

머신 러닝을 위한 통계학 필기 (9)

[여기서부터 매우 중요, 기말고사 직접연계 부분][Chap. 7 : 확률변수 & 확률분포][기말고사 시험 : 6장 ~ 8장, 유인물, 확률분포, 확률변수, 확률밀도함수, 각 분포들, 기댓값 및 분산, 표준편차 부분 확인]도수분포표는 계급(구간)에 있는 실제 수(개수)를 의미하며, 상대도수분포표는 비율의 개념이 들어간 것이다. 변수 VS 확률변수 (확률변수 정의 : 시험출제 가능성)변수는 변하는 수정도의 개념이다. 하지만 확률변수는 아니다.확률변수는 변하긴 하나, 예측이 불가능한 변수이다. 뽑을 때마다, 규모가 바뀌어 변하긴 하는데 예측이 되지 않는 것이다.추가로, 상수는 항상 같은 수를 말한다.P(A ∩ B) ≠ P(A) * P(B) → 독립이 아니다 라는 의미를 담고 있다. ※ 뒤에서 다루겠지만, 주변..

머신 러닝을 위한 통계학 필기 (8)

[ 기말 범위 ]확률 & 확률변수 분포 (이산형, 연속형)기댓값 (분산, 표준편차)[2학기 통계학2에서는 ?]선형대수 개념 → AI (머신러닝)고윳값, 고유벡터분산(공분산) → 상관계수, 회귀분석주성분 분석(PCA), SVA 베이지안 모델 불확실성을 확률분포로 나타내고, 이를 데이터와 결합하여 모델링하는 방법 모델의 불확실성을 사전분포로 나타낸다. 데이터를 통해 사후분포를 계산할 수 있다. 사후분포 = 사전분포와 데이터를 결합한 분포★ 베이지안 통계학 ★기존의 불확실성을 최대한 줄이고, 더 정확한 결론을 도출할 수 있게 된다. 가지고 있는 정보 : 사전확률, 시도 결과 : 사후확률 이전의 확률에 새로운 정보를 반영하여 더 정확한 결과를 얻게 되는 것이다.빈도확률론 VS 베이즈확률론 빈도확률론은 장기적으로..

머신 러닝을 위한 통계학 필기 (6)

[ 중간고사 공지 ] 시험범위 : Chap 4까지 이론 20% R로 푸는 문제 80% 이론문제 ex) 척도 , 평균이 무엇인지 평균과 분산 등, 통계량을 구하는 문제 R로 조건부확률, 베이즈 정리 관련 문제 풀기 R로 데이터 시각화 (막대 그래프, 상자그림, 히스토그램, 산점도) 시험시간은 1시간, 답안지는 한글 파일로 작성, R코드는 txt 파일로 작성 4/22 14:00 시험시작 조건부 확률 VS 베이즈 정리 참고 : https://statisticsplaybook.tistory.com/30 [CONNIE'S] 베이즈 정리(Bayes' rule) 완벽히 정리하기 오늘은 조건부 확률의 개념과 베이즈 정리에 대한 글을 써보려 합니다. 베이즈 정리는 사전 확률과 사후 확률의 관계를 조건부 확률의 개념을 통..

머신 러닝을 위한 통계학 필기 (5)

결합확률 VS 조건부확률 결합확률 : 남학생이면서 사과를 좋아하는 학생일 확률 조건부확률 : 남학생 중에서 사과를 좋아하는 학생일 확률 독립 : 결과에 서로 영향을 주지 않는다! 사후확률을 구할 때에는 Decision Tree를 이용하자!! 베이즈 정리 베이즈 정리는 사전확률 (prior probability) 을 이용하여 사후확률 (posterior probability) 을 추정하는 데에 활용되는 정리이다. [ 시험 출제 예상 문제 ] [ 필기 ] 분포 (Distribution) 특징을 정량화하는 데에 사용되는 값 : 중심, 산포 분포 : 집단의 특성을 나타내는 것 → 집단의 특성을 정량화하는 데에 사용되는 값 : 중심과 산포 표나 그래프에서 중심은 무엇을 뜻하나 ? ▶ "목표" 에 대응한다. 통계의..

머신 러닝을 위한 통계학 필기 (4)

[ 배경 지식 ] 모수 ↔ 통계량 확률적 관점 : 이미 알고 있는 모집단에서 어떤 사건이 일어날 확률에 관심이 있다. ※ 이미 알고 있는 모집단 이라면, 시점, 대상, 알고있는 특성을 말한다. 여기서 중심, 산포를 가지고 모수(특성)를 파악한다. 통계적 관점 : 표본에서 얻은 정보를 이용하여 미지의 모집단을 미루어 짐작하는 추론에 관심이 있다. ※ 데이터 (DATA)를 가지고 통계 (PROCESS) 를 거쳐 정보 (INFORMATION) 을 알아낸다. 통계를 적용할 때 한 가지 주의해야 할 점 통계는 목적에 따라 다르게 이용될 수 있다는 점이다. 이러한 통계적 해석의 오류를 범하지 않기 위해서는 상황을 고려하여 해석되어야 한다는 점이다. ★ 통계학에 사용되는 가정은 크게 두 가지 : 1) 데이터에 대한 ..

머신 러닝을 위한 통계학 필기 (3)

다시 한번, 복습하자. 데이터란 무엇인가? 대상이 되는 집단을 구성하는 객체 (개체)들의 특징을 나타내는 변수들의 측정값 (FACT) 이다. 자료 : 사람, 물건, 조건, 상황을 묘사하는 것으로 기본적인 사실들의 집합 정보 : 의사결정에 도움이 되도록 가공되거나 요약된 형태의 자료 → 데이터 확률 (Probability) VS 통계 (Statistics) 확률 : 하나의 사건, 개별적인 x 통계 : 집단의 사건, 여러 x들의 합 통계의 예시를 보자. 동전 던지기를 10회 시행했을 때, 개별 동전이 앞면이 나올 확률 1/2과 뒷면이 나올 확률 1/2을 신경을 쓰는가? 아니다. 앞면이 몇번 나왔고, 뒷면이 몇번 나왔는지를 신경쓴다. 조사에는 두 가지가 있다. 전수 조사 : 모집단 구성원 전체를 조사 및 분석..