빅데이터 분석/수업 필기 15

빅데이터분석 필기 (5)

우선, 분석에는 기술통계와 추론통계가 있으며 이걸 통하여 추정과 검정을 한다. 상관분석 : 상관계수를 계산해야 한다. 확률변수 X와 Y의 변수 구분이 없다. 똑같은 입장에서 연관성을 찾는 분석이다. 회귀분석 :회귀분석은 회귀모형의 계수를 찾는 분석이다. 이 때 X는 독립변수, Y는 종속변수로 구분을 하며, 수많은 데이터 X를 가지고 Y에 근접하게 나오는 식을 구하는 것이다. 이것을 모델링이라 하며, 계수를 찾는 방법을 최소자승법이라고 한다. 수많은 데이터 X에 거의 근접하게 나오는 Y를 구하는 식을 구했다면, New Data를 넣음으로 상수, 계수가 올바른지, 신뢰성이 있는지 평가를 해야 한다. 이것을 검정이라고 한다. 검정은 계수의 검정이 있고, 모형 전체의 검정이 있다. 회귀분석에는 식 모형에 따라,..

빅데이터분석 필기 (4)

H1 에는 무슨 내용이 들어가야 할까? 일반적 사항 상식적 사항 바라는 사항 ex) H1 : 신약은 효과가 있다. 상관관계 ? 두 변수간의 인과관계를 말해주지 않는다. 상관관계는 인과관계가 되기 위한 요건 중의 하나이다. 인과관계 ? 인과 원인과 결과, Input & Output → 회귀분석 잔차VS오차 잔차 : 예측값과 참값의 차 (Sample) 오차 : 예측값과 참값의 차 (모집단) ★ 최소자승법 ? 계수 구하는 방법 (잔차를 최소화하는 방법)

빅데이터 분석 필기 (3)

중요한 건 다시 복습! 빅데이터 - 기획, 탐색, 분석, 해석 빅데이터 3V + 1V Volume, Variety, Velocity, Value 하둡 (플랫폼) 의 구성 : 분산 처리, 병렬 처리 하둡공통 HDFS(병렬 처리할 수 있게끔 분산 저장) MapReduce (처리) R을 이용한 빅데이터 고급 분석 작업의 유연성 확보 R의 In-memory 기반 (데이터의 크기 제한) R과 하둡의 결합으로 인메모리 한계 극복 R에서 맵리듀스를 프로그래밍 가능하게 해주는 Rhipe 개발 (오픈소스) RHadoop (R하둡) ? 상업용 병렬처리 R을 개발, 개인 사용자는 무료 R에서 편하게 맵리듀스를 가능하게 해줌 4개의 패키지로 제공 (Rhdfs, rmr, Rhbase, plyrmr) Rhdfs : R에서 HDF..

빅데이터분석 필기 (2)

이번 수업에서 꼭 알아가야 할 것 ? 빅데이터란 무엇인가 ? 빅데이터 (처리) 기술 하둡의 의미와 구성요소 빅데이터 분석 단계에는 크게 4가지가 있다. 기획, 탐색, 분석, 해석 빅데이터의 특징을 언급할 때 가트너그룹의 "3V" 에서 분석의 정확성 부분을 추가하여 흔히 4V 가 거론된다. 가트너그룹에서 빅데이터의 특성을 3V (Volume, Variety, Velocity)로 정의하였으며, 학계와 산업계의 지속적인 연구와 개념정의를 하다 보니 빅데이터에 대한 정의가 추가되고 있는 것이다. 빅데이터는 활용되는 목적에 따라 정의가 달라질 수 있으므로 우선은 빅데이터에 대하여 포괄적이고 개념적으로 이해하는 것이 필요하다. Volume : 대용량, 규모 (엄청난 크기의 데이터) 일례로 페이스북이 하둡(Hadoo..

빅데이터 분석 필기(1)

빅데이터 분석이란? 기획 탐색 분석 해석 여기서 분석과 해석을 집중적으로 다루게 된다면, 데이터 마이닝 이라고 한다. 데이터 마이닝이란 ? 실무 (R과 파이썬) 를 통해 분석과 해석 ※ 관련 자격증 : 사회조사 분석기사, 빅데이터 분석기사 → 올해 끝나고, 졸업년도에 꼭 도전하기 ! 실무에서는, 코딩도 물론 해야 하지만 엑셀은 필수적으로 하는 것이 좋다! 1. 시각화 (그림, Chart) : 빅데이터 D.B. 2. 분석 및 해석 : 빅데이터 분석 (계산) 분석이란 ? 모델링 (데이터의 형태를 식으로 만드는 작업) x1, x2, x3, ... , xn → Y = aX + b 모델링이 되는 것이 있고, 안되는 것이 있다 ! 정형 데이터 데이터 수치형 연속형 데이터 이산형 데이터 데이터 문자형 명목형 데이터 ..