빅데이터 분석 15

빅데이터분석 필기 (13)

교차표 (crosstabulation)범주형 변수(categorical variable, 범주유형을 값으로 갖는 변수, 명목변수) 간의 관계를 파악하고자 할 때 유용독립성검정(independence test)을 통해 범주형 변수 간의 관계에 대한 가설검정을 수행두 변수의 범주별 조합 빈도 수를 조사하여 작성한 표이다.수집한 데이터에 오류가 있는지를 파악하는데 활용이 가능하다.교차표에 두 변수를 조합하였을 때, 발생할 가능성이 없거나 희박한 경우가 나타난다면 데이터에 오류가 있을 수도 있음을 의미한다. [실습]

빅데이터 분석 필기 (12)

지도학습 VS 비지도 학습지도학습의 특징으로는 "미래를 예측한다" 이다. 여러 X 독립변수들을 가지고 하나의 종속 변수 Y를 예측하는 모형을 모형화시킨다.비지도학습의 큰 특징으로는 "분류" 이다.  비지도학습에는 군집 분석, 요인 분석, 신뢰성 분석이 있고 크게 보면 군집분석과 요인+신뢰성 분석이다. 군집분석은 사람들을 분류하여 각 군집의 특성을 파악하고, 특성에 맞는 계획을 수립한다. 요인분석은 변수(요인, Factor)들을 분류하여 유사한 변수들끼리 묶는다. 10개 변수로 분석할 일을 3개의 변수로 단순화할 수 있다.   Q 왜 군집분석에는 신뢰성 검사를 하지 않을까? A 계층적 군집분석을 예시로, 군집분석은 단계적으로 진행이 되기 때문에, 신뢰성 검사가 따로 필요하지 않다.  ★ 신뢰성 분석은 시험..

빅데이터분석 필기 (11)

군집분석 유사한 속성끼리 사람을 묶어 분석하여 효율성을 증가시킨다.1) 계층적 방법 1-1) 분할 계층적 방법 : 하나의 CLUSTER에서 여러 개의 CLUSTER로 분할하여 군집화1-2) 병합 계층적 방법 : 여러 개의 CLUSTER에서 하나의 CLUSTER로 병합하여 군집화2) K-means (평균, 중심) 방법 : 반복적 평균계산 [요인분석 & 신뢰도 분석]  요인분석을 할 때, 항상 신뢰도 분석을 같이 진행해야 한다. 요인분석에서 핵심은 상관계수이다. 상관계수의 값이 커질수록 연관성 또한 커진다. (연관성이 있다는 뜻)신뢰도 분석을 하는 이유는, 예시로 복지와 월급은 만족도라는 변수 안에 잘 들어갔는지, 측정하기에 잘 묶인 것인지 판단을 해야 하기 때문에 TEST를 해봐야 한다. 신뢰도 분석은 크..

빅데이터분석 필기 (10, 개념추가 + 실습)

[군집분석]ANOVA (분산분석) 표 F - 검정유의확률 (유의성 검정)기술점수3.5560.101이걸 봤을 때, 해석은 이렇게 할 수 있다. (시험출제)1. 가설 검정 (모집단에 대해서!!)심판 전체에 대한 ~H0 : 유의하지 않다. (== 군집을 나누는데 유의하지 않다.)H1 : 유의하다. (== 군집을 나누는데 유의하다.) ※ 유의하다는 것은 '의미가 있다'는 말과 동일하다. 2. 검정 통계량 : F - 검정 = 3.556 3. 기각역 : p -value = 0.101 > 유의수준 = 0.05 (Accept H0)4. 결론 : 모든 심판의 기술점수는 군집분석하는 데 유의한 역할을 하지 않은 것으로 나타났다. OR 기여도가 없었다.  유의성 검정을 하는 이유는? 표본 계산을 통해 모집단을 알아보기 위해..

빅데이터분석 필기 (10)

지도학습 (관리학습) 모형화 (y와 x1, x2, ... , xn)회귀 (다중/단순 선형, 로지스틱(2분형))비지도학습 (비관리학습, 자율학습) ※ 판별분석 ~ 로지스틱 공통 : y값이 범주형 문자형  판별분석 지도학습y값은 목표변수, x1 ~ xn값은 독립변수y값은 양호, 보통, 불량으로 나뉘어지는 3분형 이상의 명목척도이다. 2분형도 가능은 하다! 오분류율잘못 분류한 비율, 오분류율을 낮춰야 한다.▶ 방법 1) 판별함수 → 판별점수2) 분류함수 → 양호의 함수, y = x ~  = 분류점수 → 보통의 함수, y = x ~ = 분류점수 → 불량의 함수, y = x ~ = 분류점수 각 분류점수를 계산하고, 분류점수가 높은 쪽으로 분류 판별분석 절차 [시험 출제]예측변수 선정판별함수 도출케이스별 판별점수판..

빅데이터분석 필기 (9)

[기말고사 범위]회귀분석 단순선형회귀다중선형회귀 (Y → 수치형)로지스틱(logistic)회귀 (Y → 문자형, 이분형)  상관분석 (2개의 데이터, 독립과 종속으로 구분된 2개의 데이터 이상)판별함수 (로지스틱의 이웃) → 양인지 음인지 구분  모수 (모집단의 평균, 분산, 등...) 을 모르니까, 추정과 검정을 한다!추정 : 하나의 값을 추정검정 (← 유의확률) : Output에 유의확률 (p-value) 이 나올 때, 검정판별분석 (판별함수) : y = w0 + w1 * x1 + w2 * x2 + ... → 판별점수를 계산한다.▶ 판별분석 : 데이터의 변수값 토대로 서로 구분되는 2개 이상의 집단에 대한 판별규칙을 도출하는 통계기법이다.  여기서 w1, w2, w3, ... 는 판별계수라고 한다. ..

빅데이터분석 필기 (8)

회귀분석 선형회귀식(linear regression equation)을 도출하여 변수(독립변수 및 종속변수) 간의 연관성을 분석하는 통계기법 단순회귀분석(simple regression analysis) : 독립변수가 한 개인 경우 다중회귀분석(multiple regression analysis) : 독립변수가 두 개 이상인 경우 최소자승법(least-squares method) : 산점도상의 관측된 각 좌표점과 임의의 직선 사이의 수직거리를 제곱하여 합한 값이 가장 작게 되는 직선을 찾는 방법 도출된 회귀선이 두 변수 간의 관계를 얼마나 잘 설명하는지 혹은 한 변수를 통해 다른 변수를 얼마나 정확히 예측하는지는 그 직선과 데이터와의 적합도(goodness of fit) 수준을 이용하여 평가 R을 제곱한..

빅데이터분석 필기 (7)

1. 기존 데이터(확률표본)로 예측 확률 계산 → 왜 계산 ? 서버의 참값과 비교하기 위하여 (모형의 타당성과 정확도) 2. 실제 데이터 (New Data) → P값을 구한다. Z-분포 : 한 집단 검정할 때 쓰인다. T-분포 : 두 집단 검정할 때 쓰인다. → 계수(를 찾기 위해) F-분포 : 모형검정 카이제곱 분포 : 문자형들에 대한 적합도를 구하기 위해 ANOVA : 세 집단 이상의 비교를 할 때, 분산분석 (아노바) 을 한다. [ 중간고사 출제 가능성 Top ] 1. 빅데이터분석의 정의 및 개요 (4V, 정형데이터, 비정형데이터 엮어서) 2. 하둡의 정의와 구성요소 3. 맵리듀스 과정 풀어쓰시오. 4. 그림 표주고 유의한지 안한지 해석하시고 표에서 알 수 있는 것들 적으시오. 5. 오즈비 6. 검..

빅데이터분석 필기 (6)

[ 복습 ] 산점도 두 변수의 관계를 알 수 있다. 상관관계를 알고 상관분석을 할 수 있다. 관계를 숫자로 나타낸 것이 상관계수이다. (상관계수 : r) 빅데이터 분석 : 표본의 상관계수로 전체를 분석 및 미래를 예측하는 것 회귀분석 : 참값에 유사한 근삿값을 갖는 직선 (회귀직선) 을 그리도록 모형화하는 것 상관관계 두 변수 간 인과관계를 알려주지는 않는다. 인과관계 두 변수 간의 상관이 존재한다. 원인이 되는 변수가 결과가 되는 변수에 시간적으로 선행한다. 원인 변수 외에 영향을 미치는 제 3의 변수가 제거되어야 한다. 회귀분석 상관분석 지도학습 : 종속변수, 독립변수 비지도학습 : 변수의 구분이 없다. 모집단에서 랜덤 샘플링해서 표본의 상관계수로 모집단의 상관계수 추정 및 검정하는 것 회귀분석 지도..