빅데이터 분석/수업 필기

빅데이터 분석 필기 (12)

코딩입문시작 2024. 6. 9. 19:17

 

지도학습 VS 비지도 학습

  • 지도학습의 특징으로는 "미래를 예측한다" 이다. 여러 X 독립변수들을 가지고 하나의 종속 변수 Y를 예측하는 모형을 모형화시킨다.
  • 비지도학습의 큰 특징으로는 "분류" 이다.  비지도학습에는 군집 분석, 요인 분석, 신뢰성 분석이 있고 크게 보면 군집분석요인+신뢰성 분석이다. 
  • 군집분석사람들을 분류하여 각 군집의 특성을 파악하고, 특성에 맞는 계획을 수립한다. 
  • 요인분석변수(요인, Factor)들을 분류하여 유사한 변수들끼리 묶는다. 10개 변수로 분석할 일을 3개의 변수로 단순화할 수 있다.   

Q 왜 군집분석에는 신뢰성 검사를 하지 않을까? 

A 계층적 군집분석을 예시로, 군집분석은 단계적으로 진행이 되기 때문에, 신뢰성 검사가 따로 필요하지 않다. 

신뢰성 분석은 시험에 출제되므로 유심히 보자! ★

 

데이터 (분석)

  • 사실(FACTS)의 집합
  • 적절한 데이터 분석을 위해서는, 무엇으로부터, 어떻게 수집할 것인지, 어떻게 측정할지를 결정해야 한다. 
  • 데이터는 올바르게 측정된 것인지 점검해볼 필요가 있다.


[수업 보충 필기]

군집분석(cluster analysis)

  • 자료의 개별 케이스(사람)를 서로 간의 상호 관련성을 토대로 동질적인 집단으로 묶어주는 통계기법
  • 군집(cluster) : 유사한 특징을 지니거나 유사한 답변을 한 케이스들을 동일한 집단으로 분류하며 이러한 집단을 군집
  • 특정 군집 내의 분석대상들은 서로 동질적인 특성을 갖는 반면, 군집 간에는 서로 이질적인 모습을 보이게 됨
    (1분단 내의 사람들은 특성이 비슷하지만 1분단과 2분단은 서로 이질적인 모습을 보인다.)
  • (중요) 요인분석은 변수 간의 관련성(사람을 묶으면 군집분석, 변수를 묶으면 요인분석)으로부터 유사변수들을 하나의 동질적인 요인으로 묶어주는 반면, 군집분석은 응답값이나 관측값 등을 토대로 유사한 특성을 갖는 케이스들을 동질적인 집단으로  분류한다.
  • 판별분석은 개별 케이스에 대한 귀속집단을 미리 알고 있어야 한다.
  • ▶이미 서버에 데이터가 있어야(존재하여야) 한다.
  • 이러한 개별 케이스와 귀속집단 간의 관계를 통해 집단의 분류규칙을 도출하는 것을 목표로 하나, 군집분석은 개별 케이스가 속할 집단이 사전에 결정되어 있지 않으며 케이스들을 통해 실제의 집단을 찾아내는 것을 목표로 함
  • 서버에 데이터가 (존재하지 않는다)없다, 미리 알 필요가 없다, 실제 서버에 있는 사람을 통해서 집단을 찾아내는 것

군집분석 방법

  1. 계층적 군집분석
  2. k-mean (k-평균 군집분석)

계층적 군집분석 → 병합 계층적 군집분석과 분할 계층적 군집분석이 있음

  • 병합 : 20명이 20개의 cluster가 되는 것
  • → 거기서 유사한 사람끼리 묶는 것, 퍼져 있는 것을 하나씩 모으는 것
  • 분할 : 20명이 하나의 cluster
  • → 거기서 떨어져 나간 것끼리 묶는 것, 모아져 있는 것을 필요 없는 것으로 하나씩 버리는 것