분류 전체보기 156

빅데이터 분석 필기 (12)

지도학습 VS 비지도 학습지도학습의 특징으로는 "미래를 예측한다" 이다. 여러 X 독립변수들을 가지고 하나의 종속 변수 Y를 예측하는 모형을 모형화시킨다.비지도학습의 큰 특징으로는 "분류" 이다.  비지도학습에는 군집 분석, 요인 분석, 신뢰성 분석이 있고 크게 보면 군집분석과 요인+신뢰성 분석이다. 군집분석은 사람들을 분류하여 각 군집의 특성을 파악하고, 특성에 맞는 계획을 수립한다. 요인분석은 변수(요인, Factor)들을 분류하여 유사한 변수들끼리 묶는다. 10개 변수로 분석할 일을 3개의 변수로 단순화할 수 있다.   Q 왜 군집분석에는 신뢰성 검사를 하지 않을까? A 계층적 군집분석을 예시로, 군집분석은 단계적으로 진행이 되기 때문에, 신뢰성 검사가 따로 필요하지 않다.  ★ 신뢰성 분석은 시험..

빅데이터분석 필기 (11)

군집분석 유사한 속성끼리 사람을 묶어 분석하여 효율성을 증가시킨다.1) 계층적 방법 1-1) 분할 계층적 방법 : 하나의 CLUSTER에서 여러 개의 CLUSTER로 분할하여 군집화1-2) 병합 계층적 방법 : 여러 개의 CLUSTER에서 하나의 CLUSTER로 병합하여 군집화2) K-means (평균, 중심) 방법 : 반복적 평균계산 [요인분석 & 신뢰도 분석]  요인분석을 할 때, 항상 신뢰도 분석을 같이 진행해야 한다. 요인분석에서 핵심은 상관계수이다. 상관계수의 값이 커질수록 연관성 또한 커진다. (연관성이 있다는 뜻)신뢰도 분석을 하는 이유는, 예시로 복지와 월급은 만족도라는 변수 안에 잘 들어갔는지, 측정하기에 잘 묶인 것인지 판단을 해야 하기 때문에 TEST를 해봐야 한다. 신뢰도 분석은 크..

빅데이터분석 필기 (10, 개념추가 + 실습)

[군집분석]ANOVA (분산분석) 표 F - 검정유의확률 (유의성 검정)기술점수3.5560.101이걸 봤을 때, 해석은 이렇게 할 수 있다. (시험출제)1. 가설 검정 (모집단에 대해서!!)심판 전체에 대한 ~H0 : 유의하지 않다. (== 군집을 나누는데 유의하지 않다.)H1 : 유의하다. (== 군집을 나누는데 유의하다.) ※ 유의하다는 것은 '의미가 있다'는 말과 동일하다. 2. 검정 통계량 : F - 검정 = 3.556 3. 기각역 : p -value = 0.101 > 유의수준 = 0.05 (Accept H0)4. 결론 : 모든 심판의 기술점수는 군집분석하는 데 유의한 역할을 하지 않은 것으로 나타났다. OR 기여도가 없었다.  유의성 검정을 하는 이유는? 표본 계산을 통해 모집단을 알아보기 위해..

빅데이터분석 필기 (10)

지도학습 (관리학습) 모형화 (y와 x1, x2, ... , xn)회귀 (다중/단순 선형, 로지스틱(2분형))비지도학습 (비관리학습, 자율학습) ※ 판별분석 ~ 로지스틱 공통 : y값이 범주형 문자형  판별분석 지도학습y값은 목표변수, x1 ~ xn값은 독립변수y값은 양호, 보통, 불량으로 나뉘어지는 3분형 이상의 명목척도이다. 2분형도 가능은 하다! 오분류율잘못 분류한 비율, 오분류율을 낮춰야 한다.▶ 방법 1) 판별함수 → 판별점수2) 분류함수 → 양호의 함수, y = x ~  = 분류점수 → 보통의 함수, y = x ~ = 분류점수 → 불량의 함수, y = x ~ = 분류점수 각 분류점수를 계산하고, 분류점수가 높은 쪽으로 분류 판별분석 절차 [시험 출제]예측변수 선정판별함수 도출케이스별 판별점수판..

빅데이터분석 필기 (9)

[기말고사 범위]회귀분석 단순선형회귀다중선형회귀 (Y → 수치형)로지스틱(logistic)회귀 (Y → 문자형, 이분형)  상관분석 (2개의 데이터, 독립과 종속으로 구분된 2개의 데이터 이상)판별함수 (로지스틱의 이웃) → 양인지 음인지 구분  모수 (모집단의 평균, 분산, 등...) 을 모르니까, 추정과 검정을 한다!추정 : 하나의 값을 추정검정 (← 유의확률) : Output에 유의확률 (p-value) 이 나올 때, 검정판별분석 (판별함수) : y = w0 + w1 * x1 + w2 * x2 + ... → 판별점수를 계산한다.▶ 판별분석 : 데이터의 변수값 토대로 서로 구분되는 2개 이상의 집단에 대한 판별규칙을 도출하는 통계기법이다.  여기서 w1, w2, w3, ... 는 판별계수라고 한다. ..

머신러닝1 필기 (11)

-기초통계-추론 통계 (평균의 분포)추론통계 : 샘플의 데이터를 기반으로 더 큰 모집단에 대해 예측하거나 결론을 도출할 수 있다. → 두 모집단의 평균, 분산(편차), 데이터 수가 다를 때 두 모집단의 평균이 차이가 있는지 판단하기 위해서목적 : 추론 통계는 의미 있는 결론을 도출하고 샘플 데이터를 기반으로 모집단에 대한 예측을 수행하는 역할을 함이러한 방법을 통해 모집단 매개변수에 대한 정보에 입각한 추측을 하고 가설을 테스트하며 결과의 신뢰성을 평가할 수 있음측정 유형 : 추론 통계는 범주형 측정과 연속 측정 모두에 적용가능 데이터의 특성과 연구 질문에 적응하여 다양한 분야와 시나리오에 적용이 가능하다표현 : 추론 통계는 수학 공식과 확률 모델을 활용하여 모집단 매개변수를 추정하거나 관찰된 결과의 가..

머신러닝1 필기 (9)

머신러닝-단순 회귀분석- 정리 평균은 데이터의 개수만큼 나눠준다. (그 데이터 집단의 중앙을 의미한다)카이제곱 분포는 반드시 적합성 검정과 독립성 검정을 해줘야 한다. 여기선 관측값과 예측값이 핵심이다. 상관관계 분석은 공분산 / sqrt(두 집단의 분산의 곱) 를 하여 상관계수를 결과로 내는데, 여기서 상관계수는 연속적인 두 변수의 관계성을 의미한다. 상관계수는 -1에서 1사이의 값을 갖는다. F-Test는 두 집단의 분산비율을 구한다. → 분산의 차이가 있는지를 알아본다. 회귀분석은 미리 얘기하자면, 공분산 / 분산 식과 비슷하다. 추론통계목적 : 추론 통계는 주로 샘플을 기반으로 모집단에 대한 결론을 도출하는 것을 목표(예를 들어 평균 또는 표준 편차와 같은 모집단 매개변수를 추정하거나 해당 매개변..

머신러닝1 필기 (8)

추론통계 (분산의 분포 - 상관관계) 상관관계 분석 (두 개의 연속적인 집단)상관관계 테스트(Correlation Test) : 상관 테스트는 두 연속 변수 사이의 연관성이 있는지 확인하는 데 사용됨  Pearson 상관관계는 선형 관계에 적합하고 Spearman 순위 상관관계는 비선형 관계에 사용됨상관 분석 :상관 분석은 두 연속 변수 간의 선형 관계의 강도와 방향을 측정하는 데 사용됨Pearson의 상관 계수(선형 관계의 경우) 또는 Spearman의 순위 상관 계수(단조 관계의 경우)를 사용하여 평가됨상관 계수는 -1과 1 사이의 값을 가지며, 여기서 -1은 완벽한 음의 선형 관계를 나타내고, 1은 완벽한 양의 선형 관계를 나타 내고, 0은 선형 관계가 없음을 나타냄 공분산(Covariance) :..