머신러닝을 위한 통계학1/R언어 실습 8

통계학 R언어 실습 (7)

결합확률 : 확률변수가 2개 인 경우에 정의되는 확률이고, 확률변수가 취할 수 있는 모든 경우에 대한 빈도, 또는 이것으로부터 동일하게 확률로 변환하면 된다. 빈도로 표현하거나 확률로 동일하게 표현하면 된다. 한계확률 : 변수가 2개인 상황에서 한 개만을 확률변수로 취급하는 것 조건부 확률 : 여전히 2개가 확률변수이다. 문제에서, 불량 제품이라는 조건 하에서 대전에서 생산된 제품일 확률을 구하시오. 가 나오면 P(불량) = P(대전∩불량) + P(광주∩불량) + P(대구∩불량) = 0.053 P(대전|불량) = P(대전∩불량) * P(불량) = 0.035 / 0.053 = 0.6603 각각 구분 할 줄 알아야 한다. 독립은 복원추출이다, 영향을 주지 않는다. 이항분포 종속은 비복원추출이다, 영향을 준다..

통계학 R언어 실습 (6)

표본공간과 사상 표본공간 : 확률실험을 실시하여 나타낼 수 있는 모든 결과의 집합 예시 : 주사위 한 개를 던지는 확률 실험에서의 표본공간은 S = {1, 2, 3, 4, 5, 6} 사상 : 표본공간을 구성하고 있는 원소 중에서 관심의 대상이 되는 원소들의 집합 (표본공간의 부분집합) 예시 : 주사위를 던지는 실험에서 “홀수가 나오는 사상”을 A 라고 하면 A = {1, 3, 5} 조건부 확률 확률 : 어떤 사상이 발생할 수 있는 가능성을 수치로 나타낸 것 조건부 확률 : 어떤 사상 B가 발생했다는 조건 하에서 또 다른 사상 A가 발생할 확률 P(B|A) : 사건 A가 일어났을 때 B가 일어날 확률 P(A∩B) : A와 B가 동시에 일어날 확률 expand.grid( ) : 주어진 벡터들로부터 가능한 모..

통계학 R언어 실습 (4)

최빈값 table() 함수로 빈도를 산출한 후, 빈도가 가장 많은 Factor를 반환하도록 한다. value ← table(data1) mode ← as.numeric(names(value[value == max(value)])) mode R에는 4가지 정규분포와 관련된 함수가 내장되어 있다. 난수 함수 rnorm 확률밀도함수 dnorm 누적분포함수 pnorm 분위수함수 qnorm 난수함수 정규분포함수의 변수에 해당하는 값을 임의로 생성해주는 함수이다. 디폴트(기본셋팅)은 ‘표준정규분포’이고, 평균과 표준편차를 설정해줄 수 있다. 확률밀도함수 확률밀도함수는 확률밀도함수의 함수값을 구해줍니다. 확률밀도함수 이기 때문에 값 자체가 확률을 의미하지는 않습니다. 디폴트 평균이 0이므로 최대값은 0에서 발생한다...

통계학 R언어 실습 (3)

▶ 평균 코드 무조건 알아두기! 학생 5명의 시험 점수 평균 계산 코드 scores ← c(90, 85, 70, 45, 20) mean ← mean(scores) mean rnorm 을 사용하여 n개의 값을 임의 추출하여 정규분포를 작성한다. ex) rnorm(data = n, mean = , sd = ) 데이터 값, 평균, 표준편차값을 변경하여 여러 분포를 확인 할 수 있다. par(mfrow=c(2,2)) Plots창(그림)을 2x2로 띄어준다 연습1. R 기본 패키지에 있는 ‘iris’ 데이터셋에서 ▶ Sepal.Length(꽃받침 길이)의 상자그림을 작성하시오. boxplot(iris$Sepal.Length) ▶ Sepal.Length를 Species(종)에 따라 나타내는 상자 그림을 작성하시오...

통계학 R언어 실습 (2)

데이터 유형별 우선순위 : 논리형 < 정수형 ~ 요인형 < 실수형 < 복소수형 < 문자형 [ 자료구조 ] 벡터(vector) : 동일한 데이터 유형으로 구성된 데이터 집합 행렬(matrix) : 동일한 종류로 구성된 2차원 데이터 집합 배열(array) : 동일한 데이터 종류로 구성된 2차원 이상의 구조 데이터프레임(data frame) : 각 열마다 같은 길이의 벡터를 가짐 리스트(list) : 여러 유형의 변수를 자유롭게 결합한 구조 → 벡터, 행렬, 배열, 데이터프레임을 원소로 갖는 리스트

통계학 R언어 실습 (1)

※ 실습한 것이라, 변수 설정이 잘못되어 있는 경우가 있다. [ 시험 출제 가능성 매우 높음 ] mean(x, na.rm=FALSE) : x의 평균 sd(x, na.rm=FALSE) : x의 표준편차 median(x, na.rm=FALSE) : x의 중앙값(중위수) quantile(x, na.rm=FALSE) : x의 분위수 na.rm : 결측치 제거 R언어 실습할 때 도움이 필요하다면, 도움말 키를 사용하자. (내부 도움말) 예시로, ?sum help(sum)