우선, 분석에는 기술통계와 추론통계가 있으며 이걸 통하여 추정과 검정을 한다.
- 상관분석 : 상관계수를 계산해야 한다. 확률변수 X와 Y의 변수 구분이 없다. 똑같은 입장에서 연관성을 찾는 분석이다.
- 회귀분석 :회귀분석은 회귀모형의 계수를 찾는 분석이다. 이 때 X는 독립변수, Y는 종속변수로 구분을 하며, 수많은 데이터 X를 가지고 Y에 근접하게 나오는 식을 구하는 것이다. 이것을 모델링이라 하며, 계수를 찾는 방법을 최소자승법이라고 한다. 수많은 데이터 X에 거의 근접하게 나오는 Y를 구하는 식을 구했다면, New Data를 넣음으로 상수, 계수가 올바른지, 신뢰성이 있는지 평가를 해야 한다. 이것을 검정이라고 한다. 검정은 계수의 검정이 있고, 모형 전체의 검정이 있다. 회귀분석에는 식 모형에 따라, 단순선형회귀, 다중선형회귀, 다항회귀가 있다.
비표준화 계수 VS 표준화 계수
- 비표준화 계수 : 원래 데이터를 이용하여 회귀계수를 계산한다.
- 표준화 계수 : 원래 데이터를 표준화 (z-score) 하여 회귀계수를 계산한다.
- 표준화 ? 원래 데이터의 상대적 위치를 구하는 것
회귀분석에서 모델의 계수값이 크면 그 계수를 가지고 있는 변수의 기여도가 크다는 의미이다.
R VS R제곱 ?
- R은 상관계수이다. R제곱은 결정계수이다.
- R제곱이 그 회귀식이 데이터를 얼마나 잘 표현했는가를 의미하므로, R제곱이 커질수록 유의하다.
- 즉 R제곱이 커지면 (F ↑), p-value 유의확률은 0에 가까워진다. 그럼, 회귀모형은 유의하다.
'빅데이터 분석 > 수업 필기' 카테고리의 다른 글
빅데이터분석 필기 (7) (0) | 2024.04.21 |
---|---|
빅데이터분석 필기 (6) (0) | 2024.04.21 |
빅데이터분석 필기 (4) (0) | 2024.04.21 |
빅데이터 분석 필기 (3) (0) | 2024.04.21 |
빅데이터분석 필기 (2) (0) | 2024.03.31 |