분류 전체보기 156

머신러닝2 14주차

▶ 이번 학습 시간에는 Decision Tree, 결정트리에 배워볼 예정이다. 교수님께서 특별히 앙상블이랑 결정트리는 더더욱 코드 부분에 신경을 쓰라고 하셨다. 여기 부분도 개념이 상당히 이해하기 (?) 어려웠기 때문에 개념과 코드에 집중해볼 예정이다. 모델 해석 : Black Box VS White Box [시험출제 PART]Black Box는 딮러닝에서의 모델을 말한다. 결과값을 원하는 형태로 도출할 수 있지만 특정 근거를 들어 결과가 왜, 어떻게 나왔는지 설명하기 어렵고 알 수 없다. 그래서 설명하지 못할 경우, 신뢰도를 잃는다는 단점 및 한계가 존재한다.White Box는 머신러닝에서의 모델을 말한다. 결과값을 원하는 형태로 도출할 수 있으며, 판단의 근거를 제시할 수 있고 과정을 확인할 수 있다..

머신러닝2 13주차

▶이번 시간엔 앙상블이다. 여기서는 수업때 듣기로(?) 느낌으로, booting? voting? 그 개념만 확실히 잡으면 된다. 차차 같이 보자. 앙상블 (Ensemble)여러 모델이 동일한 문제를 해결하고 더 나은 결과를 얻도록 훈련시키는 기계 학습 패러다임이다. 주된 가설은, "약한 모델이 결합되면 더 좋은 모델을 얻을 수 있다" 이다.정밀도가 높다예측값들이 실제 정답(빨간 점)과 가까운 위치에 몰려 있는 상태를 의미한다.즉, 모델이 얼마나 정확히 정답에 가까운 값을 내놓는지를 나타낸다.편향(Bias)이 낮다고도 표현한다. 재현율이 높다예측값들이 서로 흩어져 넓게 퍼져 있는 상태를 의미한다.이는 모델이 얼마나 다양한 경우를 고려할 수 있는지를 나타낸다.분산(Variance)이 높다고도 표현한다.▶편향..

머신러닝2 12주차

※ 제일 수업때 이해하기 어려웠던 부분이지 않을까 싶다... 정리를 하면서 우선 이해하는데에 초점을 맞출 예정이다...!!▶ 서포트 벡터 머신은 우선, 분류를 위한 지도학습 방법이다. 그리고 이상치가 많거나 데이터의 결과 형태가 다양할 때 사용된다.▶ 데이터가 다양하게 흩어져 있고 그 데이터들을 두 집단으로 가장 잘 구분하도록 선을 그어보는 것이 목적이다.서포트 벡터 머신 (SVM)퍼셉트론의 확장된 개념이다. 퍼셉트론 학습은 분류오차의 최소화이다. 하지만, 서포트 벡터 머신의 학습은 마진의 최대화이다. 장점으로는, 과적합되는 경우가 적고 고차원 분류 문제에 좋은 성능을 보이며 구조적이여서 매번 수행하여도 결과가 어느정도 비슷하다는 것이다.서포트 벡터 머신(SVM) [시험출제 PART]목적: 두 집단끼리 ..

머신러닝2 11주차

▶ 이번 시간에는, 기계학습의 방법 (지도학습) 중 신경망(Artificial Neural Network)에 대해 배워보았다.▶ 지도학습 중에서, 종속변수가 수치형 변수이고 모델을 통해 예측을 수행할 때에는 회귀분석으로 주로 하지만, 종속변수가 범주형 변수이고 모델을 통해 분류를 수행할 때에는 인공신경망, 서포트 벡터 머신, 결정트리, 등의 알고리즘이 있다.인공신경망 회귀분석을 확장하는 모델 Perceptron :하나의 뉴런을 가지는 간단한 형태의 신경망이다.→ 이진분류에 특화가 되어 있다. 퍼셉트론(Perceptron)은 인공신경망(Artificial Neural Network, ANN)의 기본 단위로, 인공신경망은 여러 퍼셉트론이 계층적으로 연결된 구조이다.신경망 [그림을 유심히 보자, 중간고사때처럼..

머신러닝2 10주차

▶ 이번 시간에는, 지도 학습 중에서 기계학습의 회귀분석을 다뤄볼 예정이다.회귀분석으로는, 크게 2가지로 나뉠 수 있다.다중 회귀분석 (Regression) → 종속변수가 연속형이며, 예측을 목적으로 수행한다.로지스틱 회귀분석 (Logistic Regression) → 종속변수가 범주형이며, 분류를 목적으로 수행한다.로지스틱 회귀분석: 로지스틱 회귀 모델은 시그모이드 함수라고도 알려진 로지스틱 함수를 사용하여 예측값을 확률에 매핑해 0과 1로 도출한다.※ 코드는 뒤에 실습때 할 예정이다.모델 검정 [시험출제 가능성!! + 개념과 각각 구하는 방법을 알아야 한다.]종속변수가 수치형인 모델에서는 RMSE 값이나 R-Squared (설명력) 값을 통해 검정을 하지만, 범주형인 모델에서는 Accuracy(정확도..

머신러닝을 위한 통계학2 14주차(2)

회귀분석을 통한 모델의 유효성 검증: R^2(설명력)로지스틱 회귀분석을 통한 모델의 유효성 검증: 정확도, 민감도, 특이성confusionMatrix()Accuracy: 정확도 P-value[Acc > NIR]: 정확도가 No Information Rate보다 유의하게 높은지 여부를 나타내는 값이다. 예제의 경우, P-value가 1로서 정확도가 No Information Rate보다 유의하게 높다는 것을 의미한다.Kappa: 모델의 적합도를 평가하는 지표이다.Mcnemar's Test P-value: 두 분류 모델의 성능을 비교하는 데 사용되는 검정 방법이다.Sensitvity: 민감도Specificity: 특이도▶ 변수들의 화살표 길이는 해당 주성분의 분산 해석에 대한 기여도를 나타내는 것으로 길이가..

머신러닝을 위한 통계학2 14주차(1)

고유벡터: 방향고윳값: 영향력차원이 다른 벡터로 매핑하기 위해서는 직사각형 행렬이 필요하고, 직사각형 행렬을 통해 선형변환을 한다.대칭 행렬을 인위적으로 만드는 방법기존 행렬 A에 전치행렬을 두면 대칭인 정사각형 행렬이 된다.특이값 분해 SVD직사각형 행렬 A를 특이값과 특정한 구조로 분해하는 것이다. 고유값 분해 VS 특이값 분해고유값 분해: 주축을 이루는 벡터와 변화의 크기를 찾는 것이다.특이값 분해: 직교하는 벡터들과 그 방향에서의 크기를 찾는 것이다.주성분 분석?서로 상관관계를 갖는 변수들을 상관관계가 없는 새로운 변수로 변환하여 차원을 축소, 다시 말하면 변수의 수를 줄이는 방법이다. 이 때의 상관관계가 없는 새로운 변수들을 주성분이라고 한다.목적으로는, 상관관계를 갖는 변수들이 가지고 있는 총..

머신러닝을 위한 통계학2 13주차

다중공선성 확인?정량적 방법으로 vif()가 있다. ※ 독립변수가 마냥 많다고 좋은 것은 아니다. 상관계수가 -0.85값에서 편상관계수가 -0.307로 바뀌었다는 걸 해석하자면, 두 변수간의 제 3변수 영향을 받으면 음의 상관관계가 있는데, 제 3변수를 제거하면 관계성이 떨어진다는 얘기이다. 근데 여기서 유의하게 봐야할 점은 p.value값인데, p.value값이 0.05보다 큰 0.09값으로, 통계적으로 유의함이 떨어진다는 얘기이다. 로지스틱 회귀분석(Logistic Regression)선형 회귀분석과는 다르게 종속 변수가 범주형 데이터를 대상으로 하며, 데이터의 결과가 특정 분류로 나뉘기 때문에 일종의 분류 (Classification) 기법이다. [확률(오즈값) = 독립변수1 + 독립변수2 + 독립..

머신러닝을 위한 통계학2 11주차

소프트맥스 함수로지스틱 함수의 다차원 일반화 개념이다. 종속변수 상태가 3개 이상인 멀티 클래스 분류 문제에서 인공 신경망의 최종 Layer로 활용되는 함수이다.로짓 값을 그대로 사용하지 않고 확률값으로 변환하는 이유 (지수함수를 취하는 이유)값들 간의 차이를 더욱 두드러지게 하여 신경망 학습이 잘 되도록 하기 위해서이다.로지스틱 회귀분석이 필요한 경우종속변수가 이항 변수인 경우종속변수가 이항 변수의 특징을 갖는 경우회귀식의 설명력 의미종속변수의 변동을 어느 정도 설명하는가를 의미한다.편상관계수 ?다른 독립변수의 효과를 제거한 후 한 독립변수와 종속변수의 상관관계이다. 다중 공선성의 해결방안으로 편상관계수가 있다.편상관분석이 필요한 경우 및 목적 종속변수를 설명하는 독립변수로 고려하는 두 변수 간에도 명..