머신러닝을 위한 통계학2 12

머신러닝을 위한 통계학2 14주차(2)

회귀분석을 통한 모델의 유효성 검증: R^2(설명력)로지스틱 회귀분석을 통한 모델의 유효성 검증: 정확도, 민감도, 특이성confusionMatrix()Accuracy: 정확도 P-value[Acc > NIR]: 정확도가 No Information Rate보다 유의하게 높은지 여부를 나타내는 값이다. 예제의 경우, P-value가 1로서 정확도가 No Information Rate보다 유의하게 높다는 것을 의미한다.Kappa: 모델의 적합도를 평가하는 지표이다.Mcnemar's Test P-value: 두 분류 모델의 성능을 비교하는 데 사용되는 검정 방법이다.Sensitvity: 민감도Specificity: 특이도▶ 변수들의 화살표 길이는 해당 주성분의 분산 해석에 대한 기여도를 나타내는 것으로 길이가..

머신러닝을 위한 통계학2 14주차(1)

고유벡터: 방향고윳값: 영향력차원이 다른 벡터로 매핑하기 위해서는 직사각형 행렬이 필요하고, 직사각형 행렬을 통해 선형변환을 한다.대칭 행렬을 인위적으로 만드는 방법기존 행렬 A에 전치행렬을 두면 대칭인 정사각형 행렬이 된다.특이값 분해 SVD직사각형 행렬 A를 특이값과 특정한 구조로 분해하는 것이다. 고유값 분해 VS 특이값 분해고유값 분해: 주축을 이루는 벡터와 변화의 크기를 찾는 것이다.특이값 분해: 직교하는 벡터들과 그 방향에서의 크기를 찾는 것이다.주성분 분석?서로 상관관계를 갖는 변수들을 상관관계가 없는 새로운 변수로 변환하여 차원을 축소, 다시 말하면 변수의 수를 줄이는 방법이다. 이 때의 상관관계가 없는 새로운 변수들을 주성분이라고 한다.목적으로는, 상관관계를 갖는 변수들이 가지고 있는 총..

머신러닝을 위한 통계학2 13주차

다중공선성 확인?정량적 방법으로 vif()가 있다. ※ 독립변수가 마냥 많다고 좋은 것은 아니다. 상관계수가 -0.85값에서 편상관계수가 -0.307로 바뀌었다는 걸 해석하자면, 두 변수간의 제 3변수 영향을 받으면 음의 상관관계가 있는데, 제 3변수를 제거하면 관계성이 떨어진다는 얘기이다. 근데 여기서 유의하게 봐야할 점은 p.value값인데, p.value값이 0.05보다 큰 0.09값으로, 통계적으로 유의함이 떨어진다는 얘기이다. 로지스틱 회귀분석(Logistic Regression)선형 회귀분석과는 다르게 종속 변수가 범주형 데이터를 대상으로 하며, 데이터의 결과가 특정 분류로 나뉘기 때문에 일종의 분류 (Classification) 기법이다. [확률(오즈값) = 독립변수1 + 독립변수2 + 독립..

머신러닝을 위한 통계학2 11주차

소프트맥스 함수로지스틱 함수의 다차원 일반화 개념이다. 종속변수 상태가 3개 이상인 멀티 클래스 분류 문제에서 인공 신경망의 최종 Layer로 활용되는 함수이다.로짓 값을 그대로 사용하지 않고 확률값으로 변환하는 이유 (지수함수를 취하는 이유)값들 간의 차이를 더욱 두드러지게 하여 신경망 학습이 잘 되도록 하기 위해서이다.로지스틱 회귀분석이 필요한 경우종속변수가 이항 변수인 경우종속변수가 이항 변수의 특징을 갖는 경우회귀식의 설명력 의미종속변수의 변동을 어느 정도 설명하는가를 의미한다.편상관계수 ?다른 독립변수의 효과를 제거한 후 한 독립변수와 종속변수의 상관관계이다. 다중 공선성의 해결방안으로 편상관계수가 있다.편상관분석이 필요한 경우 및 목적 종속변수를 설명하는 독립변수로 고려하는 두 변수 간에도 명..

머신러닝을 위한 통계학2 10주차

회귀 (Regression)극단값이 다음 세대에서 평균 또는 평균에 더 가까워지는 경향을 설명하기 위해 사용하는 것회귀분석독립변수가 종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속변수 값을 예측하는 선형모형을 산출하는 방법 예시) 매출액은 광고횟수에 따라 어떻게 변하는가? ▶이때, 독립변수: 광고횟수, 종속변수: 매출액 회귀식의 도출 및 활용회귀식을 이용하여 몸무게에 따른 키를 예측한다.회귀선이란?잔차의 절대값을 모든 관측치에 대하여 구한 다음, 그 합을 최소화하는 직선 최소자승법관측치와 회귀선과의 거리인 잔차 제곱의 합을 최소화하는 직선식을 찾는 방법잔차제곱의 합을 최소화하는 직선식을 구하는 방법 회귀식의 계수는 과연 HOW 어떻게 정할까? → 활성화 함수결정계수추정된 ..

머신러닝을 위한 통계학2 6주차

회귀분석독립변수가 종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속변수값을 예측하는 선형모형을 산출하는 방법변수들(벡터)간의 관계 정도 → 모델링 - (결과) → 함수 모델링 → 수학적인 방법으로 → 회귀식  X - [        ] - Y [         ] : 메커니즘 (모델) 모델링 하는 목적 : 원인(특성)들 특성을가지고 결과특성을 예측 및 설명 모델링의 의미파라미터 값을 찾아내는 것모델링의 의미Y = a + b * X1 + c * X2 a, b, c : 파라미터 (매개변수)→  파라미터값을 찾아내는 것 input - [                 ] - output : input데이터가 들어갔을 때 임계값에 도달해야만 output 데이터값이 나온다.→  이러한..

머신러닝을 위한 통계학2 5주차

더보기input --- 작동계(=시스템) --- output input : 10g 및 10kg 돌, 독립변수 (원인) 작동계 : 호수 output : 파장 = 결과, 종속변수(결과) 평균, 분산 분산 → 종속변수(결과)에 대한!  10g에 대한 파장의 크기 파장의 크기 = 분산  * 분산 * → 크기 → 원인의 영향력 (중요성) 예시) 전략A → 판매량의 변화(분산) → 평균, 분산  v1벡터가 v2벡터보다 영향력의 크기가 크므로 (분산의 폭이 크므로) v1벡터가 고유벡터가 그 폭의 크기가 고윳값이다. 분산 → 고유벡터, 고유값 연관모집단-- 샘플링 → 표본 모집단 형태(특징)에 상관없이 형태는 정규분포 형태데이터 처리 → AI, 머신러닝 AI 전 : Rule-based (규칙 기반) → IF ~ tha..

머신러닝을 위한 통계학2 4주차

[2023 기출] 통계분석 시에 데이터에 대해 표준화를 해야 하는 두 가지 이유에 대하여 설명하시오.표준화를 하지 않으면 영향력(크기)를 나타내지 못한다. 표준화를 통해 모든 변수의 평균을 0, 표준편차를 1로 맞추면 동등한 영향을 주도록 할 수 있다.데이터의 크기에 영향을 받는다는 문제가 있기 때문이다.표준화를 하지 않으면 모델의 학습이 왜곡될 수 있다.[2023년 기출] 집단의 특성에 대한 추정이나 검정을 할 때 항상 유의수준을 기준하여 판정한다. 이때의 유의수준의 의미에 대하여 설명하시오.유의수준이란, 통계량을 이용한 통계적 판정 결과가 틀릴 가능성이다. 다른 의미를 갖는다라고 보는 기준이다.유의확률은 귀무가설의 통계량 값으로, 계산한 검정통계량 값에 해당되는 확률이다.[시험 출제 유력] 추정의 개..

머신러닝을 위한 통계학2 3주차

벡터공간 (vector space) 은 벡터의 선형결합으로 표현되며, 함수를 포함하여 모든 것을 벡터의 선형결합으로 표현할 수 있다.Dot Product : 두 벡터간의 연관성을 알 수 있다. 고유벡터는 변화의 주된 방향이다.고유값은 변화의 크기이다. 고유값이 클수록 변화 크기가 크다. ※ 고유백터끼리는 반드시 직교한다!!집단에서 특징을 파악하여 통계를 내야 한다. 그 특징에는 크게 2가지가 있다.중심 (대표성) : 평균산포 (변동성) : 분산, 편차 → 영향력 분산은 하나의 요인에 대한 변동이다.공분산은 두 요인에 대한 변동이다. → 두 요인이 독립관계일 때, 공분산은 존재하지 않는다. 공분산을 표준화시켜도, 분산적인 특징은 동일하다.det(A) : 선형모델의 행렬식 A로 인한 영역의 특징 (확대 or..