회귀분석
- 선형회귀식(linear regression equation)을 도출하여 변수(독립변수 및 종속변수) 간의 연관성을 분석하는 통계기법
- 단순회귀분석(simple regression analysis) : 독립변수가 한 개인 경우
- 다중회귀분석(multiple regression analysis) : 독립변수가 두 개 이상인 경우
- 최소자승법(least-squares method) : 산점도상의 관측된 각 좌표점과 임의의 직선 사이의 수직거리를 제곱하여 합한 값이 가장 작게 되는 직선을 찾는 방법
-
도출된 회귀선이 두 변수 간의 관계를 얼마나 잘 설명하는지 혹은 한 변수를 통해 다른 변수를 얼마나 정확히 예측하는지는 그 직선과 데이터와의 적합도(goodness of fit) 수준을 이용하여 평가
-
R을 제곱한 R제곱(R2, R square)은 종속변수의 분산(변동성) 가운데 회귀식에 의해 설명되는 비율을 나타내며 결정계수(determination coefficient)라고 한다.
-
수정된 R제곱(adjusted R square)은 동일한 모집단으로부터 수집된 다른 표본의 데이터를 현재의 회귀식으로 설명할 수 있는 설명력 정도를 나타내며 과적합된 설명력을 보정하는 역할을 한다.
다중회귀분석
- 종속변수와 두 개 이상의 독립변수 간의 선형관계를 도출하는 통계분석기법
-
다중회귀식에서 특정 독립변수의 회귀계수는 다른 독립변수의 변화가 없다는 가정하에서 그 변수가 한 단위만큼 변화할 때의 종속변수의 변화량을 나타낸다.
-
각 독립변수의 회귀계수 및 유의성은 불변이 아니며 모델에 함께 투입된 독립변수가 무엇이냐에 따라서 달라질 수 있다.
-
회귀계수의 크기는 대개 변수의 측정단위와 관계가 있기 때문에 변수의 설명력 정도와 큰 관련이 없다.
-
변수 간의 비교를 위해서는 표준화 계수(standardized coefficient)인 베타(beta)를 사용한다.
'빅데이터 분석 > 수업 필기' 카테고리의 다른 글
빅데이터분석 필기 (10) (1) | 2024.06.09 |
---|---|
빅데이터분석 필기 (9) (1) | 2024.06.09 |
빅데이터분석 필기 (7) (0) | 2024.04.21 |
빅데이터분석 필기 (6) (0) | 2024.04.21 |
빅데이터분석 필기 (5) (0) | 2024.04.21 |