빅데이터 분석/수업 필기

빅데이터분석 필기 (11)

코딩입문시작 2024. 6. 9. 17:26

군집분석 

  • 유사한 속성끼리 사람을 묶어 분석하여 효율성을 증가시킨다.
  • 1) 계층적 방법 
  • 1-1) 분할 계층적 방법 : 하나의 CLUSTER에서 여러 개의 CLUSTER로 분할하여 군집화
  • 1-2) 병합 계층적 방법 : 여러 개의 CLUSTER에서 하나의 CLUSTER로 병합하여 군집화
  • 2) K-means (평균, 중심) 방법 : 반복적 평균계산 

[요인분석 & 신뢰도 분석]

 

 

요인분석을 할 때, 항상 신뢰도 분석을 같이 진행해야 한다. 

  • 요인분석에서 핵심은 상관계수이다. 상관계수의 값이 커질수록 연관성 또한 커진다. (연관성이 있다는 뜻)
  • 신뢰도 분석을 하는 이유는, 예시로 복지와 월급은 만족도라는 변수 안에 잘 들어갔는지, 측정하기에 잘 묶인 것인지 판단을 해야 하기 때문에 TEST를 해봐야 한다. 
  • 신뢰도 분석은 크롬바크의 알파로 판단한다. 이것은 상관계수를 이용한 계산이다.

요인분석 

  • 관측 가능한 여러 변수로부터 소수의 잠재요인을 추출하여, 이들 요인을 통해 변수 간의 관련성을 설명하려는 통계기법이다. 
  • 잠재요인을 확인함으로써 복잡한 사회현상에 대한 설명 및 이해를 크게 단순화할 수 있다.
  • 변수들 간의 관련성을 바탕으로 공통요인을 도출하기 때문에 변수들 간의 유의미한 상관관계가 존재해야 한다. 
  • 추가로, 검정의 대상은 모집단이다. 검정이나 추정이나 가장 중요한 것은 모집단이 나와야 한다.

요인 예시

※ KMO 표본적합도의 크기 기준은 0.7이다.

 

 

요인 회전 (~ ROTATION, 확실한 구분)은 요인분석에서 MAIN이다. 

  • 요인회전은 여러 변수들 중 낮은 요인적재값을 제거를 하기 위해 신뢰성, 실용성, 효용성으로 묶는다.
  • (신뢰성, 실용성, 효용성)

[모집단 전체에 대한 신뢰성, 실용성, 효용성 TEST] (시험출제)

  • 1. 가설 검정 (신뢰성에 대해)
  • 1-1) H0 : 모집단에서 신뢰성의 계수는 유의하지 않다.
  • 1-2) H1 : 모집단에서 신뢰성의 계수는 유의하다. 
  • 2. 검정통계량 
  • t = 0.974 → p-value = 0.333 (t-검정)
  • 3. 기각역 (H0의 기각역) 
  • p = 0.333 > 유의수준 = 0.05 (귀무가설 H0 채택)
  • 4. 결론 (계수의 크기↑ = 기여도↑)
  • 주어진 표본에서는 신뢰성 계수가 모집단을 따르지 않는다. 
  • 신뢰성은 실묭성과 효용성에 비해 구매의향에 대해서 유의성은 떨어진다. 


[기말고사 100% 출제]

 

성분행렬 → 회전된 성분행렬 

  • 회전된 성분행렬이 핵심이다.
  • 성분행렬의 계수상관계수이다. ex) 고품질과 성분1에 대한 상관계수
  • 회전 : 각 성분이 어떤 변수에 속하는지 알아보기 위해 회전을 시킨다. (?)
  • ex) Case1 : f1 = 고품질 * 0.216 + 고가치 * 0 + 0.265 * 품질 브랜드 + ...
  • 구매의향을 y라 하고, 요인 9개를 요인 '신뢰성', '효용성', '실용성' 3개로 함축하여 계산한다.

주성분분석 (PCA) : 요인 추출 → 요인의 갯수

  • 요인 개수 → 고윳값 검토; 1보다 큰 고윳값을 갖는 요인의 개수만큼 요인을 추출한다. 
  • 주성분 분석의 목적은 상관관계를 갖는 다수의 변수에 포함된 정보를 가능한 많이 포착하면서, 이 다수의 변수를 상관관계를 갖지 않는 그보다 더 적은 개수의 새로운 변수로 대체하는 것 
  • 주성분 분석에서는 변수 개수만큼의 주성분을 도출할 수 있으나, 가장 많은 양의 총 분산을 설명해주는 최소한의 주성분만을 추출하여 사용한다. 

[ 공통성 ]

  • 초기에는 1.000 값을 준 다음 추출된 값이 0.3 이하일 경우, 그 변수는 무시가 된다.
    0.4 이상이여야, 공통성을 가진다. 

[ 설명된 총분산 ] → 추출된 요인들에 의해 설명된 정도 

  • 성분이 9개일 때, 초기 고윳값 부분 전체 합은 9이다. 
  • 이 때 1보다 큰 값들만 추출하여 성분을 줄인다. 고윳값은 요인의 계수를 결정한다. 

 

 

 

요인적재값, 요인회전 

 

요인적재값 정의 [시험 출제가능성]

  • 요인들을 결합하기 위해 사용된 계수
  • 각 요인에 할당된 가중치로서의 역할을 수행한다.