빅데이터 분석/수업 필기

빅데이터분석 필기 (6)

코딩입문시작 2024. 4. 21. 16:32

[ 복습 ]

 

산점도 

  • 두 변수의 관계를 알 수 있다. 
  • 상관관계를 알고 상관분석을 할 수 있다. 
  • 관계를 숫자로 나타낸 것이 상관계수이다. (상관계수 : r)

빅데이터 분석 : 표본의 상관계수로 전체를 분석 및 미래를 예측하는 것

회귀분석 : 참값에 유사한 근삿값을 갖는 직선 (회귀직선) 을 그리도록 모형화하는 것 

 

상관관계

  • 두 변수 간 인과관계를 알려주지는 않는다. 

인과관계

  • 두 변수 간의 상관이 존재한다. 
  • 원인이 되는 변수가 결과가 되는 변수에 시간적으로 선행한다. 
  • 원인 변수 외에 영향을 미치는 제 3의 변수가 제거되어야 한다.

회귀분석

 

상관분석

  • 지도학습 : 종속변수, 독립변수 
  • 비지도학습 : 변수의 구분이 없다. 
  • 모집단에서 랜덤 샘플링해서 표본의 상관계수로 모집단의 상관계수 추정 및 검정하는 것

회귀분석

  • 지도학습 (관리학습) : 변수구분 (종속, 독립) 
  • 지도학습 1) 단순선형회귀 : 독립변수 1개
  • 지도학습 2) 다중선형회귀 : 독립변수 여러 개
  • 비지도학습 (비관리 학습, 자율학습) : 변수구분X 

회귀분석에서의 b0, b1을 찾았다면 적합 (fitting) 

  1. 계수검정 : 회귀계수 검정
  2. 모형검정 : 모형 (식) 전체 검정 → 모형 사용

 

회귀식의 설명력 

  • r : 상관계수
  • r제곱 : 결정계수, 회귀식의 data설명력, 회귀식이 얼마나 데이터를 잘 표현했는가를 보여준다. 

[ 6주차의 핵심 : 오즈비, 로지스틱 회귀 분석 ]

[ 시험문제 출제 : 빅데이터의 정의 및 개요, 하둡의 구성 ]

 

 

  • 상관분석 : 모델링 X, 추정 및 검정
  • 회귀분석 (Regression) : 수치형 데이터를 이용하여 분석한다. Input으로 수치형 데이터를 넣으면, Output으로 수치형 데이터 또는 문자형 데이터 (Good = 1, Bad =0) 으로 나온다. 
  • 이 식을 우리는 모델이라 부르며 이 과정을 모델링이라고 한다. 
  • 모델링이란 ? 예측함수를 생성하는 것이다. 독립변수와 종속변수를 가지고 계수들을 추정한다. 
  • 1. B0, B1의 추정 2. b0, b1의 신뢰성 및 타당성 검정 3. 모델의 타당성 검정 
  • 로지스틱회귀분석 (비선형)
  • 판별분석

[ ★ 매우 중요, 시험 출제 ]

오즈비 : 성공확률과 실패확률의 비, 실패에 대한 성공의 확률, 1-p에 대한 p의 확률

 

 

 

로지스틱 회귀계수는 DB의 확률표본에 의하여 계산한다.

  • 1. 계수검정 → t-검정 (이유: t분포하는 데이터라고 가정하는 것)
  • 2. 모형검정 → F-검정 (모형검정, 모형 적합도 검정)
  • 3. 새로운 데이터 적용

z의 크기 변화는 특정 계수만큼의 변화이다. 그 이유는 특정 계수가 기여도를 의미하기 때문이다. 

 

 

로지스틱회귀는 S곡선으로 이루어져 있으며 비선형회귀분석이다. p(성공할 확률) (이)가 0.5보다 같거나 크면 1로 판정하고, 0.5보다 작으면 0으로 판정한다. 

 

 

'빅데이터 분석 > 수업 필기' 카테고리의 다른 글

빅데이터분석 필기 (8)  (0) 2024.04.21
빅데이터분석 필기 (7)  (0) 2024.04.21
빅데이터분석 필기 (5)  (0) 2024.04.21
빅데이터분석 필기 (4)  (0) 2024.04.21
빅데이터 분석 필기 (3)  (0) 2024.04.21