빅데이터 분석/수업 필기

빅데이터분석 필기 (8)

코딩입문시작 2024. 4. 21. 17:29

회귀분석

  • 선형회귀식(linear regression equation)을 도출하여 변수(독립변수 및 종속변수) 간의 연관성을 분석하는 통계기법
  • 단순회귀분석(simple regression analysis) : 독립변수가 한 개인 경우
  • 다중회귀분석(multiple regression analysis) : 독립변수가 두 개 이상인 경우
  • 최소자승법(least-squares method) : 산점도상의 관측된 각 좌표점과 임의의 직선 사이의 수직거리를 제곱하여 합한 값이 가장 작게 되는 직선을 찾는 방법
  • 도출된 회귀선이 두 변수 간의 관계를 얼마나 잘 설명하는지 혹은 한 변수를 통해 다른 변수를 얼마나 정확히 예측하는지는 그 직선과 데이터와의 적합도(goodness of fit) 수준을 이용하여 평가
  • R을 제곱한 R제곱(R2, R square)은 종속변수의 분산(변동성) 가운데 회귀식에 의해 설명되는 비율을 나타내며 결정계수(determination coefficient)라고 한다.
  • 수정된 R제곱(adjusted R square)은 동일한 모집단으로부터 수집된 다른 표본의 데이터를 현재의 회귀식으로 설명할 수 있는 설명력 정도를 나타내며 과적합된 설명력을 보정하는 역할을 한다.

 

 

다중회귀분석

  • 종속변수와 두 개 이상의 독립변수 간의 선형관계를 도출하는 통계분석기법
  • 다중회귀식에서 특정 독립변수의 회귀계수는 다른 독립변수의 변화가 없다는 가정하에서 그 변수가 한 단위만큼 변화할 때의 종속변수의 변화량을 나타낸다.
  • 각 독립변수의 회귀계수 및 유의성은 불변이 아니며 모델에 함께 투입된 독립변수가 무엇이냐에 따라서 달라질 수 있다.
  • 회귀계수의 크기는 대개 변수의 측정단위와 관계가 있기 때문변수의 설명력 정도와 큰 관련이 없다.
  • 변수 간의 비교를 위해서는 표준화 계수(standardized coefficient)인 베타(beta)를 사용한다.

 

 

'빅데이터 분석 > 수업 필기' 카테고리의 다른 글

빅데이터분석 필기 (10)  (1) 2024.06.09
빅데이터분석 필기 (9)  (1) 2024.06.09
빅데이터분석 필기 (7)  (0) 2024.04.21
빅데이터분석 필기 (6)  (0) 2024.04.21
빅데이터분석 필기 (5)  (0) 2024.04.21