분류 전체보기 156

빅데이터분석 필기 (4)

H1 에는 무슨 내용이 들어가야 할까? 일반적 사항 상식적 사항 바라는 사항 ex) H1 : 신약은 효과가 있다. 상관관계 ? 두 변수간의 인과관계를 말해주지 않는다. 상관관계는 인과관계가 되기 위한 요건 중의 하나이다. 인과관계 ? 인과 원인과 결과, Input & Output → 회귀분석 잔차VS오차 잔차 : 예측값과 참값의 차 (Sample) 오차 : 예측값과 참값의 차 (모집단) ★ 최소자승법 ? 계수 구하는 방법 (잔차를 최소화하는 방법)

빅데이터 분석 필기 (3)

중요한 건 다시 복습! 빅데이터 - 기획, 탐색, 분석, 해석 빅데이터 3V + 1V Volume, Variety, Velocity, Value 하둡 (플랫폼) 의 구성 : 분산 처리, 병렬 처리 하둡공통 HDFS(병렬 처리할 수 있게끔 분산 저장) MapReduce (처리) R을 이용한 빅데이터 고급 분석 작업의 유연성 확보 R의 In-memory 기반 (데이터의 크기 제한) R과 하둡의 결합으로 인메모리 한계 극복 R에서 맵리듀스를 프로그래밍 가능하게 해주는 Rhipe 개발 (오픈소스) RHadoop (R하둡) ? 상업용 병렬처리 R을 개발, 개인 사용자는 무료 R에서 편하게 맵리듀스를 가능하게 해줌 4개의 패키지로 제공 (Rhdfs, rmr, Rhbase, plyrmr) Rhdfs : R에서 HDF..

통계학 R언어 실습 (7)

결합확률 : 확률변수가 2개 인 경우에 정의되는 확률이고, 확률변수가 취할 수 있는 모든 경우에 대한 빈도, 또는 이것으로부터 동일하게 확률로 변환하면 된다. 빈도로 표현하거나 확률로 동일하게 표현하면 된다. 한계확률 : 변수가 2개인 상황에서 한 개만을 확률변수로 취급하는 것 조건부 확률 : 여전히 2개가 확률변수이다. 문제에서, 불량 제품이라는 조건 하에서 대전에서 생산된 제품일 확률을 구하시오. 가 나오면 P(불량) = P(대전∩불량) + P(광주∩불량) + P(대구∩불량) = 0.053 P(대전|불량) = P(대전∩불량) * P(불량) = 0.035 / 0.053 = 0.6603 각각 구분 할 줄 알아야 한다. 독립은 복원추출이다, 영향을 주지 않는다. 이항분포 종속은 비복원추출이다, 영향을 준다..

통계학 R언어 실습 (6)

표본공간과 사상 표본공간 : 확률실험을 실시하여 나타낼 수 있는 모든 결과의 집합 예시 : 주사위 한 개를 던지는 확률 실험에서의 표본공간은 S = {1, 2, 3, 4, 5, 6} 사상 : 표본공간을 구성하고 있는 원소 중에서 관심의 대상이 되는 원소들의 집합 (표본공간의 부분집합) 예시 : 주사위를 던지는 실험에서 “홀수가 나오는 사상”을 A 라고 하면 A = {1, 3, 5} 조건부 확률 확률 : 어떤 사상이 발생할 수 있는 가능성을 수치로 나타낸 것 조건부 확률 : 어떤 사상 B가 발생했다는 조건 하에서 또 다른 사상 A가 발생할 확률 P(B|A) : 사건 A가 일어났을 때 B가 일어날 확률 P(A∩B) : A와 B가 동시에 일어날 확률 expand.grid( ) : 주어진 벡터들로부터 가능한 모..

통계학 R언어 실습 (4)

최빈값 table() 함수로 빈도를 산출한 후, 빈도가 가장 많은 Factor를 반환하도록 한다. value ← table(data1) mode ← as.numeric(names(value[value == max(value)])) mode R에는 4가지 정규분포와 관련된 함수가 내장되어 있다. 난수 함수 rnorm 확률밀도함수 dnorm 누적분포함수 pnorm 분위수함수 qnorm 난수함수 정규분포함수의 변수에 해당하는 값을 임의로 생성해주는 함수이다. 디폴트(기본셋팅)은 ‘표준정규분포’이고, 평균과 표준편차를 설정해줄 수 있다. 확률밀도함수 확률밀도함수는 확률밀도함수의 함수값을 구해줍니다. 확률밀도함수 이기 때문에 값 자체가 확률을 의미하지는 않습니다. 디폴트 평균이 0이므로 최대값은 0에서 발생한다...

통계학 R언어 실습 (3)

▶ 평균 코드 무조건 알아두기! 학생 5명의 시험 점수 평균 계산 코드 scores ← c(90, 85, 70, 45, 20) mean ← mean(scores) mean rnorm 을 사용하여 n개의 값을 임의 추출하여 정규분포를 작성한다. ex) rnorm(data = n, mean = , sd = ) 데이터 값, 평균, 표준편차값을 변경하여 여러 분포를 확인 할 수 있다. par(mfrow=c(2,2)) Plots창(그림)을 2x2로 띄어준다 연습1. R 기본 패키지에 있는 ‘iris’ 데이터셋에서 ▶ Sepal.Length(꽃받침 길이)의 상자그림을 작성하시오. boxplot(iris$Sepal.Length) ▶ Sepal.Length를 Species(종)에 따라 나타내는 상자 그림을 작성하시오...

머신 러닝을 위한 통계학 필기 (6)

[ 중간고사 공지 ] 시험범위 : Chap 4까지 이론 20% R로 푸는 문제 80% 이론문제 ex) 척도 , 평균이 무엇인지 평균과 분산 등, 통계량을 구하는 문제 R로 조건부확률, 베이즈 정리 관련 문제 풀기 R로 데이터 시각화 (막대 그래프, 상자그림, 히스토그램, 산점도) 시험시간은 1시간, 답안지는 한글 파일로 작성, R코드는 txt 파일로 작성 4/22 14:00 시험시작 조건부 확률 VS 베이즈 정리 참고 : https://statisticsplaybook.tistory.com/30 [CONNIE'S] 베이즈 정리(Bayes' rule) 완벽히 정리하기 오늘은 조건부 확률의 개념과 베이즈 정리에 대한 글을 써보려 합니다. 베이즈 정리는 사전 확률과 사후 확률의 관계를 조건부 확률의 개념을 통..

머신 러닝을 위한 통계학 필기 (5)

결합확률 VS 조건부확률 결합확률 : 남학생이면서 사과를 좋아하는 학생일 확률 조건부확률 : 남학생 중에서 사과를 좋아하는 학생일 확률 독립 : 결과에 서로 영향을 주지 않는다! 사후확률을 구할 때에는 Decision Tree를 이용하자!! 베이즈 정리 베이즈 정리는 사전확률 (prior probability) 을 이용하여 사후확률 (posterior probability) 을 추정하는 데에 활용되는 정리이다. [ 시험 출제 예상 문제 ] [ 필기 ] 분포 (Distribution) 특징을 정량화하는 데에 사용되는 값 : 중심, 산포 분포 : 집단의 특성을 나타내는 것 → 집단의 특성을 정량화하는 데에 사용되는 값 : 중심과 산포 표나 그래프에서 중심은 무엇을 뜻하나 ? ▶ "목표" 에 대응한다. 통계의..