머신러닝2 12

머신러닝2 14주차

▶ 이번 학습 시간에는 Decision Tree, 결정트리에 배워볼 예정이다. 교수님께서 특별히 앙상블이랑 결정트리는 더더욱 코드 부분에 신경을 쓰라고 하셨다. 여기 부분도 개념이 상당히 이해하기 (?) 어려웠기 때문에 개념과 코드에 집중해볼 예정이다. 모델 해석 : Black Box VS White Box [시험출제 PART]Black Box는 딮러닝에서의 모델을 말한다. 결과값을 원하는 형태로 도출할 수 있지만 특정 근거를 들어 결과가 왜, 어떻게 나왔는지 설명하기 어렵고 알 수 없다. 그래서 설명하지 못할 경우, 신뢰도를 잃는다는 단점 및 한계가 존재한다.White Box는 머신러닝에서의 모델을 말한다. 결과값을 원하는 형태로 도출할 수 있으며, 판단의 근거를 제시할 수 있고 과정을 확인할 수 있다..

머신러닝2 13주차

▶이번 시간엔 앙상블이다. 여기서는 수업때 듣기로(?) 느낌으로, booting? voting? 그 개념만 확실히 잡으면 된다. 차차 같이 보자. 앙상블 (Ensemble)여러 모델이 동일한 문제를 해결하고 더 나은 결과를 얻도록 훈련시키는 기계 학습 패러다임이다. 주된 가설은, "약한 모델이 결합되면 더 좋은 모델을 얻을 수 있다" 이다.정밀도가 높다예측값들이 실제 정답(빨간 점)과 가까운 위치에 몰려 있는 상태를 의미한다.즉, 모델이 얼마나 정확히 정답에 가까운 값을 내놓는지를 나타낸다.편향(Bias)이 낮다고도 표현한다. 재현율이 높다예측값들이 서로 흩어져 넓게 퍼져 있는 상태를 의미한다.이는 모델이 얼마나 다양한 경우를 고려할 수 있는지를 나타낸다.분산(Variance)이 높다고도 표현한다.▶편향..

머신러닝2 12주차

※ 제일 수업때 이해하기 어려웠던 부분이지 않을까 싶다... 정리를 하면서 우선 이해하는데에 초점을 맞출 예정이다...!!▶ 서포트 벡터 머신은 우선, 분류를 위한 지도학습 방법이다. 그리고 이상치가 많거나 데이터의 결과 형태가 다양할 때 사용된다.▶ 데이터가 다양하게 흩어져 있고 그 데이터들을 두 집단으로 가장 잘 구분하도록 선을 그어보는 것이 목적이다.서포트 벡터 머신 (SVM)퍼셉트론의 확장된 개념이다. 퍼셉트론 학습은 분류오차의 최소화이다. 하지만, 서포트 벡터 머신의 학습은 마진의 최대화이다. 장점으로는, 과적합되는 경우가 적고 고차원 분류 문제에 좋은 성능을 보이며 구조적이여서 매번 수행하여도 결과가 어느정도 비슷하다는 것이다.서포트 벡터 머신(SVM) [시험출제 PART]목적: 두 집단끼리 ..

머신러닝2 11주차

▶ 이번 시간에는, 기계학습의 방법 (지도학습) 중 신경망(Artificial Neural Network)에 대해 배워보았다.▶ 지도학습 중에서, 종속변수가 수치형 변수이고 모델을 통해 예측을 수행할 때에는 회귀분석으로 주로 하지만, 종속변수가 범주형 변수이고 모델을 통해 분류를 수행할 때에는 인공신경망, 서포트 벡터 머신, 결정트리, 등의 알고리즘이 있다.인공신경망 회귀분석을 확장하는 모델 Perceptron :하나의 뉴런을 가지는 간단한 형태의 신경망이다.→ 이진분류에 특화가 되어 있다. 퍼셉트론(Perceptron)은 인공신경망(Artificial Neural Network, ANN)의 기본 단위로, 인공신경망은 여러 퍼셉트론이 계층적으로 연결된 구조이다.신경망 [그림을 유심히 보자, 중간고사때처럼..

머신러닝2 10주차

▶ 이번 시간에는, 지도 학습 중에서 기계학습의 회귀분석을 다뤄볼 예정이다.회귀분석으로는, 크게 2가지로 나뉠 수 있다.다중 회귀분석 (Regression) → 종속변수가 연속형이며, 예측을 목적으로 수행한다.로지스틱 회귀분석 (Logistic Regression) → 종속변수가 범주형이며, 분류를 목적으로 수행한다.로지스틱 회귀분석: 로지스틱 회귀 모델은 시그모이드 함수라고도 알려진 로지스틱 함수를 사용하여 예측값을 확률에 매핑해 0과 1로 도출한다.※ 코드는 뒤에 실습때 할 예정이다.모델 검정 [시험출제 가능성!! + 개념과 각각 구하는 방법을 알아야 한다.]종속변수가 수치형인 모델에서는 RMSE 값이나 R-Squared (설명력) 값을 통해 검정을 하지만, 범주형인 모델에서는 Accuracy(정확도..

머신러닝2 7주차 (2) - 코드 부분

library(MASS) : MASS 라이브러리를 로드library(car) : car 패키지를 로드합니다. 이 패키지는 선형 회귀 모델에 대한 다양한 진단 도구를 제공, vif 함수가 대표적library(skimr) : skimr 패키지를 로드합니다. 이 패키지는 데이터셋을 빠르게 요약하고 분석하는 기능을 제공Boston 데이터셋을 로드한다. 이 데이터는 보스턴 지역의 주택 가격과 관련된 변수를 포함한 데이터셋이다. 그 이후, Boston 데이터셋을 df라는 데이터프레임에 저장한다. 이는 이후 코드에서 더 쉽게 참조하기 위해서이다.  skim함수를 사용해서 df 데이터프레임의 요약 통계를 표시한다. 이는 데이터의 분포, 결측값, 변수 유형 등을 간단하게 요약하여 보여준다.initial_predictor..

머신러닝2 7주차 (1)

머신러닝2 - 지도학습 (기계학습의 회귀분석) -통계의 방법 (회귀분석)데이터 : 소수의 표본 데이터가정 : 통계적 가정 필요검정 : 유의수준 (p-value)학습 방법 : 모든 데이터를 사용기계학습의 방법 (머신러닝)데이터 : 대용량의 빅데이터가정 : 필요없음방법 : 데이터의 특징을 찾아 스스로 학습검정 : 예측의 정확도 → R-Squared 값학습 방법 : Train data & Test data 구분하여 사용경사하강법는 회귀모형의 비용함수 최소화로 하는 반복적 접근 방식으로 회귀계수를 이들의 추정치로 하는 것이다.이 때 학습률, Running Rate을 업데이트하여 하이퍼 파라미터를 조정하고 최적의 하이퍼 파라미터를 구하는 것이 목적이다.

머신러닝2 5주차

머신러닝2- 지도학습 (기계학습의 회귀분석) -지도학습다중 회귀분석 (Regression)로지스틱 회귀분석 (Logistic Regression)신경망서포트 벡터 머신의사결정나무앙상블K-근접 이웃기법 회귀분석의 검정은 유의수준 (p-value) 로 한다. 기계학습의 검정은 예측의 정확도 이다.최소제곱법은 회귀모형의 오차 제곱의 합 (SSE)을 최소로 하는 회귀계수를 이들의 추정치로 하는 것이다.다수의 요소를 가지고 y를 예측하고 싶을 때, 이를 다중 선형 회귀분석이라고 한다. 다중 회귀분석가설 (Hypothesis)에 대한 최적의 W와 b를 찾아 실제값과 예측값에 대한 오차 식을 비용함수 (Cost Function)이라고 한다.회귀 문제의 경우에는, 주로 평균 제곱 오차(MSE)를 사용한다. [매우 중요..

머신러닝2 4주차(2)

durbinWatsonTest() : 독립성 검정vif() : 다중공선성 체크influencePlot() : 이상치 검정 → cook's D 값이 높으면 문제 및 제거이상치 제거는 df = df[-c(121), ] AIC : AIC 값이 줄어들면 그 변수는 의미가 있다.F-통계량 : F-통계량이 클수록 회귀 모델이 데이터에 더 적합함을 나타낸다. → 모델의 적합도F-통계량은 회귀 분석에서 모형의 유의성을 평가하는 지표이다. 실제로는 MSR/MSE의 비율로 계산이를 통해 회귀 모형이 통계적으로 유의미한지, 즉 독립 변수들이 종속 변수를 설명하는 데 유의미한 기여를 하는지를 판단이 가능하다.F-통계량 = MSR/MSE, MSR은 모델이 설명하는 변동을 나타내고 MSE는 잔차의 변동, 즉 모델이 설명하지 못하..

머신러닝2 4주차(1) (3주차는 추석일정으로 휴강)

MSR : 회귀의 평균 제곱 → 회귀모델이 설명하는 변동성을 나타낸다.MSE : 오차의 평균 제곱 → 회귀모델이 설명하지 못하는 변동성을 나타낸다.F = MSR/MSE RMSE : 오류 지표를 실제 값과 유사한 단위로 변환하여 해석을 쉽게 변환한다. MAE : 모델의 예측값과 실제값의 차이를 더해 절댓값을 취하는 지표MAPE : MAE를 퍼센트로 변환한 것이다.MPE : MAPE에서 절댓값을 제외한 지표이다. 퍼센트로 변환한 것은 맞다. 더 관련된 것은, [Python] 성능 측정 지표 :: MAE, MSE, RMSE, MAPE, MPE, MSLE 여기를 참고하길 바란다.R-Squared : 모델의 독립변수에 의해 설명되는 종속변수의 분산비율을 측정한다→ 종속변수의 변화를 잘 설명했는지를 판단한다. 즉,..