빅데이터 분석/수업 필기

빅데이터분석 필기 (9)

코딩입문시작 2024. 6. 9. 13:08

[기말고사 범위]


< Review >

회귀분석 

  • 단순선형회귀
  • 다중선형회귀 (Y → 수치형)
  • 로지스틱(logistic)회귀 (Y → 문자형, 이분형)

로지스틱

 

 

상관분석 (2개의 데이터, 독립과 종속으로 구분된 2개의 데이터 이상)


판별함수 (로지스틱의 이웃) → 양인지 음인지 구분 

 

모수 (모집단의 평균, 분산, 등...) 을 모르니까, 추정검정을 한다!

  • 추정 : 하나의 값을 추정
  • 검정 (← 유의확률) : Output에 유의확률 (p-value) 이 나올 때, 검정

판별분석 (판별함수) : y = w0 + w1 * x1 + w2 * x2 + ...판별점수를 계산한다.

▶ 판별분석 : 데이터의 변수값 토대로 서로 구분되는 2개 이상의 집단에 대한 판별규칙을 도출하는 통계기법이다.  

  • 여기서 w1, w2, w3, ... 는 판별계수라고 한다. 
  • 판별점수를 계산해서 양호 (+), 보통 ( * ), 불량 (-) 으로 판단한다. 
  • 판별함수를 분류의 갯수가 적을 때 유용하다. 
  • 반면에, 분류함수는 분류의 갯수가 많을 때 좋다. 
  • y3분형 (이상)의 문자 데이터를 예측한 값이며, 양호 또는 보통 또는 불량으로 판단되는 값이다. 

 

로지스틱 VS 판별분석 차이 ? 

  • 로지스틱 : 2분형 (→ 지금은, 확장되어 3분형 이상도 가능하다.)
  • 판별분석 : 3분형 (→ 지금은 2분형 또한 가능하다.) 
  • 하지만, 로지스틱과 차별화를 두기 위해 '정규분포'를 사용 + 등분산성 

 

판별분석? 도대체 무엇인데? 

  • 과거의 기존 DATA를 가지고 모델링을 생성한다. 그런 다음 NEW DATA, Y를 예측한다. 
  • y = w0 + w1 * x1 + w2 * x2 + ... → 판별함수를 도출하여, 케이스별 판별점수를 계산한다. 계산이 끝났다면, 소속집단으로 분류한다. 
  • 예측모형의 핵심은,  새로운 데이터를 식(x, y)에 적용시켜서 추정, 검정, 분류표를 만들어 타당성을 만들다. 
  • 여기서 w1, w2, ... 는 판별계수이며, x1, x2, ... 는 예측변수이다.

 

※ 판별분석 절차 [기말고사 시험 100%출제]

  • 1) 예측변수 x1, x2, ... 선정 (전제조건 : 2분형의 명목척도)
  • ex) 변수 : 다이어트 식품구매 여부 (1 : 구매, 0 : 비구매)
  • 2) 판별함수 도출 
  • 3) 케이스별 판별점수 계산
  • 4) 케이스별 판별점수에 따라 소속집단 분류 (예측) 

 

판별분석을 위한 전제 조건

  • 데이터의 각 개별 케이스가 어느 집단으로 분류되는지를 사전에 알고 있어야 한다.
  • 종속변수는 집단을 구분하는 명목변수이어야 한다. 

[기말고사 출제 100%]

판별분석 정의

  • 판별분석(discriminant analysis)은 데이터의 변수값을 토대로 서로 구분되는 두 개 이상의 집단에 대한 판별규칙을 도출하는 통계기법이다. 
  • 집단이 두 개인 경우의 판별분석을 두 집단 판별분석(two-group discriminant analysis)이라 하고, 집단이 세 개 이상인 경우를 다중판별분석(multiple discriminant analysis)이라 한다.

 

※ 집단 간 차이분석 

람다값이 커지면 F값(검정)이 작아진다 → 유의확률이 커진다

1. 가설 검정 (나이)

  • H0 : 나이에서 구매, 비구매 비율이 같다.
  • H1 : 나이에서 구매, 비구매 비율이 다르다.

2. 검정통계량 

  • F = 17.896 → p-value = 0.000

3. 기각역

  • 1 - (0에서 17.896까지 f(F) dF 적분) = 0.000
  • p-value = 0.000 < 유의수준 = 0.05
  • H0를 기각한다. 

4. 결론

  • 나이에 있어서 구매와 비구매가 다르다.

 

 

 

집단 중심값 (group centroid) : 집단별로 계산된 판별점수의 평균 

 

※ 판별분석

  • 판별함수 : 판별계수 → 판별점수 → 집단중심값
  • 분류함수 : 분류집단의 갯수만큼 분류함수가 존재
  • 1) 비구매 분류함수 → 분류 점수
  • 2) 구매 분류함수 → 분류 점수 
  • → 분류 점수를 비교하여 큰 값으로 분류한다.

표준화 Z-Score (Z = (X - U) / 편차) 

  • 표준화 점수 : 상대적 위치 및 크기, 상대적 중요도 및 기여도를 알 수 있다. 

분산분석 : 판별점수의 평균이 집단별로 유의한 차이가 있는지를 통계적으로 검정 

  • 1. 가설검정
  • 1) H0 : 판별함수는 유의하지 않다.
  • 2) H1 : 판별함수는 유의하다.
  • 2. 검정 통계량 
  • F = 120.968 → p-value : 0.000
  • 3. 기각역 (H0의 기각역)
  • p-value = 0.000 < 유의수준 = 0.05 → H0를 기각한다.
  • 4. 결론 
  • 980명의 표본 데이터에서는 판별함수의 판별점수가 구매와 비구매를 판별하는데 유의하다. 

 

판별함수가 로지스틱과의 차이점 중에 등분산을 이용한다는 것이다. 그걸 이용하여 검정을 해도 된다. 

  • 1. 가설 검정
  • 1) H0 : 모집단의 동일한 분산이다. (등분산이다.)
  • 2) H1 : 모집단의 동일한 분산이 아니다.
  • 2. 검정 통계량
  • F = 9.371 → p-value = 0.000
  • 3. 기각역 (H0의 기각역) 
  • p-value = 0.000 < 유의수준 = 0.05 → H0를 기각한다.
  • 4. 결론
  • → 모집단의 동일한 분산이 아니다라는 결론을 얻었다.

 

 


 

 

[판별함수의 도출]

  • 계수를 예측하는 방법 → 최소자승법 (least square)
  • 모형화에서 가장 쉽게 계수를 구할 수 있는 방법 → 계수들을 계산하여 나온 표 (12-6 그림)

 

 

 

모든 모형은 자기 서버의 데이터를 판별식에 넣어서 판별 점수를 구한 것

→ 예측값, 참값이 실제 결과와 판별점수에 따른 결과값을 구분하여 오분류 or 정확도 차이 구별한다.


집단 중심값 → 비구매한 사람들의 평균점수의 중심값 → 중요한 것은 집단중심값에 의해서 계산이 되어야 한다.    


오분류율, 정확도율 → 오분류율이 작아야 정확도가 높다.

분류표   문자형 데이터일때는 항상 분류표가 나온다. 얼마나 오분류율이 작으냐 ?

 

판별분석은 두 가지 방법이 있다.

  • 1) 판별함수
    집단중심값 / 1차로 판별계수를 계산 → 2차로 판별점수 계산 → 3차로 집단중심값을 계산
  • 2) 분류함수
    집단의 함수 개수 만큼 분류함수가 존재한다. 
  • ex 비구매분류함수, 구매분류함수
  • 분류점수 == 판별점수 (시험에서는, 분류점수라고 표기)
    →  분류점수로 비교하여 큰 값으로 분류한다. ex 658.310, 659.527 → 더 큰 것을 선택
  • 양호, 보통, 분량 → 많아질 수록 복잡해진다. 그리하여 분류함수를 이용한다.

표준화 

  • Z score → 표준화점수 → 어떤 값의 상대적 위치 즉 상대적 중요도를 알 수 있다.
  • 어떤 x란 값의 상대적 크기
  • y에 미치는 상대적 중요도 (기여도)
  • → 가장 높은 것이 식사대용식품경험
  • 판별점수의 평균이 집단별로 유의한 차이가 있는지를 검정

착한데이터 : 이상치가 없는 것 → trim 한다 (이상치를 제거하는 것) → 모델의 정확도를 더 높이기 위해서
공분산행렬 → 동일한 분산이어야 한다 == 같은 크기의 분산들 (데이터들의 이상치가 없다는 의미)