머신러닝을 위한 통계학1 20

통계학 R언어 실습 (3)

▶ 평균 코드 무조건 알아두기! 학생 5명의 시험 점수 평균 계산 코드 scores ← c(90, 85, 70, 45, 20) mean ← mean(scores) mean rnorm 을 사용하여 n개의 값을 임의 추출하여 정규분포를 작성한다. ex) rnorm(data = n, mean = , sd = ) 데이터 값, 평균, 표준편차값을 변경하여 여러 분포를 확인 할 수 있다. par(mfrow=c(2,2)) Plots창(그림)을 2x2로 띄어준다 연습1. R 기본 패키지에 있는 ‘iris’ 데이터셋에서 ▶ Sepal.Length(꽃받침 길이)의 상자그림을 작성하시오. boxplot(iris$Sepal.Length) ▶ Sepal.Length를 Species(종)에 따라 나타내는 상자 그림을 작성하시오...

머신 러닝을 위한 통계학 필기 (6)

[ 중간고사 공지 ] 시험범위 : Chap 4까지 이론 20% R로 푸는 문제 80% 이론문제 ex) 척도 , 평균이 무엇인지 평균과 분산 등, 통계량을 구하는 문제 R로 조건부확률, 베이즈 정리 관련 문제 풀기 R로 데이터 시각화 (막대 그래프, 상자그림, 히스토그램, 산점도) 시험시간은 1시간, 답안지는 한글 파일로 작성, R코드는 txt 파일로 작성 4/22 14:00 시험시작 조건부 확률 VS 베이즈 정리 참고 : https://statisticsplaybook.tistory.com/30 [CONNIE'S] 베이즈 정리(Bayes' rule) 완벽히 정리하기 오늘은 조건부 확률의 개념과 베이즈 정리에 대한 글을 써보려 합니다. 베이즈 정리는 사전 확률과 사후 확률의 관계를 조건부 확률의 개념을 통..

머신 러닝을 위한 통계학 필기 (5)

결합확률 VS 조건부확률 결합확률 : 남학생이면서 사과를 좋아하는 학생일 확률 조건부확률 : 남학생 중에서 사과를 좋아하는 학생일 확률 독립 : 결과에 서로 영향을 주지 않는다! 사후확률을 구할 때에는 Decision Tree를 이용하자!! 베이즈 정리 베이즈 정리는 사전확률 (prior probability) 을 이용하여 사후확률 (posterior probability) 을 추정하는 데에 활용되는 정리이다. [ 시험 출제 예상 문제 ] [ 필기 ] 분포 (Distribution) 특징을 정량화하는 데에 사용되는 값 : 중심, 산포 분포 : 집단의 특성을 나타내는 것 → 집단의 특성을 정량화하는 데에 사용되는 값 : 중심과 산포 표나 그래프에서 중심은 무엇을 뜻하나 ? ▶ "목표" 에 대응한다. 통계의..

머신 러닝을 위한 통계학 필기 (4)

[ 배경 지식 ] 모수 ↔ 통계량 확률적 관점 : 이미 알고 있는 모집단에서 어떤 사건이 일어날 확률에 관심이 있다. ※ 이미 알고 있는 모집단 이라면, 시점, 대상, 알고있는 특성을 말한다. 여기서 중심, 산포를 가지고 모수(특성)를 파악한다. 통계적 관점 : 표본에서 얻은 정보를 이용하여 미지의 모집단을 미루어 짐작하는 추론에 관심이 있다. ※ 데이터 (DATA)를 가지고 통계 (PROCESS) 를 거쳐 정보 (INFORMATION) 을 알아낸다. 통계를 적용할 때 한 가지 주의해야 할 점 통계는 목적에 따라 다르게 이용될 수 있다는 점이다. 이러한 통계적 해석의 오류를 범하지 않기 위해서는 상황을 고려하여 해석되어야 한다는 점이다. ★ 통계학에 사용되는 가정은 크게 두 가지 : 1) 데이터에 대한 ..

머신 러닝을 위한 통계학 필기 (3)

다시 한번, 복습하자. 데이터란 무엇인가? 대상이 되는 집단을 구성하는 객체 (개체)들의 특징을 나타내는 변수들의 측정값 (FACT) 이다. 자료 : 사람, 물건, 조건, 상황을 묘사하는 것으로 기본적인 사실들의 집합 정보 : 의사결정에 도움이 되도록 가공되거나 요약된 형태의 자료 → 데이터 확률 (Probability) VS 통계 (Statistics) 확률 : 하나의 사건, 개별적인 x 통계 : 집단의 사건, 여러 x들의 합 통계의 예시를 보자. 동전 던지기를 10회 시행했을 때, 개별 동전이 앞면이 나올 확률 1/2과 뒷면이 나올 확률 1/2을 신경을 쓰는가? 아니다. 앞면이 몇번 나왔고, 뒷면이 몇번 나왔는지를 신경쓴다. 조사에는 두 가지가 있다. 전수 조사 : 모집단 구성원 전체를 조사 및 분석..

통계학 R언어 실습 (2)

데이터 유형별 우선순위 : 논리형 < 정수형 ~ 요인형 < 실수형 < 복소수형 < 문자형 [ 자료구조 ] 벡터(vector) : 동일한 데이터 유형으로 구성된 데이터 집합 행렬(matrix) : 동일한 종류로 구성된 2차원 데이터 집합 배열(array) : 동일한 데이터 종류로 구성된 2차원 이상의 구조 데이터프레임(data frame) : 각 열마다 같은 길이의 벡터를 가짐 리스트(list) : 여러 유형의 변수를 자유롭게 결합한 구조 → 벡터, 행렬, 배열, 데이터프레임을 원소로 갖는 리스트

통계학 R언어 실습 (1)

※ 실습한 것이라, 변수 설정이 잘못되어 있는 경우가 있다. [ 시험 출제 가능성 매우 높음 ] mean(x, na.rm=FALSE) : x의 평균 sd(x, na.rm=FALSE) : x의 표준편차 median(x, na.rm=FALSE) : x의 중앙값(중위수) quantile(x, na.rm=FALSE) : x의 분위수 na.rm : 결측치 제거 R언어 실습할 때 도움이 필요하다면, 도움말 키를 사용하자. (내부 도움말) 예시로, ?sum help(sum)

머신 러닝을 위한 통계학 필기 (2)

Chap.1 : Data & Statistics 통계학은 왜 필요한가 ? 기업 (또는 우리)는 항상 의사결정 (선택)을 하게 된다. 의사결정의 결과가 중요할수록 ↑, 정확한 선택↑ 을 해야 한다. 만족도는 올리고, 불확실성은 줄이기 위해 여러 변수들을 고려하여 의사결정을 한다. 의사결정은 목적이 있어야 하는데, 이익 측면에서 최대화하고 손실 측면에서는 최소화해야 한다. 미래에 대한 의사결정을 정확히 하기 위해서는 먼저, 의사결정 대상(집단)의 특징을 파악하는 것이 선행되어야 한다. 대상의 특징을 객관적으로 파악하기 위해서는 정량적으로 파악해야 하며, 이때에 정량적으로 파악한 자료를 데이터 라고 한다. 이처럼, 데이터를 통해서 대상의 특징을 체계적으로 파악(분석, 해석)하는 방법이 통계학이다. 통계가 머신..

머신 러닝을 위한 통계학 필기 (1)

DT : 모든 것이 디지털화 되는 시대 정보시대 → 디지털전환시대 (Digital Transformation Era) Digital = Data ↔ Analog 2022년도의 모바일 데이터 트래픽이 2016년 대비 6년 만에 10배 정도 증가 AI : → 생성형 검색 패러다임 ChatGpt 구글이 왜 지배했느냐? 검색엔진 ! 구글 : 모든 데이터를 실시간으로 가지고 있다. Q 데이터를 왜 수집을 하느냐? A 데이터를 갖고, 가공하여 정보를 얻고자 수집을 한다. 정보에게 있어, 중요한 것은 "정확성, 대표성, 신뢰성, 시간" → 이것을 가지고, 경영자의 의사 결정 불확실성을 낮추고 의사 결정을 하기 위해서 도입되는 것이 AI (Artificial Intelligence) : 인공지능 ↔ 인간지능 인공지능 ..