전체 글 156

머신러닝을 위한 통계학2 10주차

회귀 (Regression)극단값이 다음 세대에서 평균 또는 평균에 더 가까워지는 경향을 설명하기 위해 사용하는 것회귀분석독립변수가 종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속변수 값을 예측하는 선형모형을 산출하는 방법 예시) 매출액은 광고횟수에 따라 어떻게 변하는가? ▶이때, 독립변수: 광고횟수, 종속변수: 매출액 회귀식의 도출 및 활용회귀식을 이용하여 몸무게에 따른 키를 예측한다.회귀선이란?잔차의 절대값을 모든 관측치에 대하여 구한 다음, 그 합을 최소화하는 직선 최소자승법관측치와 회귀선과의 거리인 잔차 제곱의 합을 최소화하는 직선식을 찾는 방법잔차제곱의 합을 최소화하는 직선식을 구하는 방법 회귀식의 계수는 과연 HOW 어떻게 정할까? → 활성화 함수결정계수추정된 ..

머신러닝을 위한 통계학2 6주차

회귀분석독립변수가 종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속변수값을 예측하는 선형모형을 산출하는 방법변수들(벡터)간의 관계 정도 → 모델링 - (결과) → 함수 모델링 → 수학적인 방법으로 → 회귀식  X - [        ] - Y [         ] : 메커니즘 (모델) 모델링 하는 목적 : 원인(특성)들 특성을가지고 결과특성을 예측 및 설명 모델링의 의미파라미터 값을 찾아내는 것모델링의 의미Y = a + b * X1 + c * X2 a, b, c : 파라미터 (매개변수)→  파라미터값을 찾아내는 것 input - [                 ] - output : input데이터가 들어갔을 때 임계값에 도달해야만 output 데이터값이 나온다.→  이러한..

머신러닝을 위한 통계학2 5주차

더보기input --- 작동계(=시스템) --- output input : 10g 및 10kg 돌, 독립변수 (원인) 작동계 : 호수 output : 파장 = 결과, 종속변수(결과) 평균, 분산 분산 → 종속변수(결과)에 대한!  10g에 대한 파장의 크기 파장의 크기 = 분산  * 분산 * → 크기 → 원인의 영향력 (중요성) 예시) 전략A → 판매량의 변화(분산) → 평균, 분산  v1벡터가 v2벡터보다 영향력의 크기가 크므로 (분산의 폭이 크므로) v1벡터가 고유벡터가 그 폭의 크기가 고윳값이다. 분산 → 고유벡터, 고유값 연관모집단-- 샘플링 → 표본 모집단 형태(특징)에 상관없이 형태는 정규분포 형태데이터 처리 → AI, 머신러닝 AI 전 : Rule-based (규칙 기반) → IF ~ tha..

머신러닝을 위한 통계학2 4주차

[2023 기출] 통계분석 시에 데이터에 대해 표준화를 해야 하는 두 가지 이유에 대하여 설명하시오.표준화를 하지 않으면 영향력(크기)를 나타내지 못한다. 표준화를 통해 모든 변수의 평균을 0, 표준편차를 1로 맞추면 동등한 영향을 주도록 할 수 있다.데이터의 크기에 영향을 받는다는 문제가 있기 때문이다.표준화를 하지 않으면 모델의 학습이 왜곡될 수 있다.[2023년 기출] 집단의 특성에 대한 추정이나 검정을 할 때 항상 유의수준을 기준하여 판정한다. 이때의 유의수준의 의미에 대하여 설명하시오.유의수준이란, 통계량을 이용한 통계적 판정 결과가 틀릴 가능성이다. 다른 의미를 갖는다라고 보는 기준이다.유의확률은 귀무가설의 통계량 값으로, 계산한 검정통계량 값에 해당되는 확률이다.[시험 출제 유력] 추정의 개..

머신러닝을 위한 통계학2 3주차

벡터공간 (vector space) 은 벡터의 선형결합으로 표현되며, 함수를 포함하여 모든 것을 벡터의 선형결합으로 표현할 수 있다.Dot Product : 두 벡터간의 연관성을 알 수 있다. 고유벡터는 변화의 주된 방향이다.고유값은 변화의 크기이다. 고유값이 클수록 변화 크기가 크다. ※ 고유백터끼리는 반드시 직교한다!!집단에서 특징을 파악하여 통계를 내야 한다. 그 특징에는 크게 2가지가 있다.중심 (대표성) : 평균산포 (변동성) : 분산, 편차 → 영향력 분산은 하나의 요인에 대한 변동이다.공분산은 두 요인에 대한 변동이다. → 두 요인이 독립관계일 때, 공분산은 존재하지 않는다. 공분산을 표준화시켜도, 분산적인 특징은 동일하다.det(A) : 선형모델의 행렬식 A로 인한 영역의 특징 (확대 or..

머신러닝을 위한 통계학2 2주차

두 벡터가 서로 독립일 때, 두 벡터는 수직 관계를 이루기 때문에 cos 값은 0이 나온다.벡터는 크기와 방향의 값을 갖는 데이터를 순서대로 나열한 것이다. 데이터를 벡터로 표현하면, 벡터를 이용하여 처리할 수 있다.※ 행렬은 벡터를 또 다른 벡터로 변환시키는 일종의 연산자 (영향력) 로 볼 수 있다.▶ 기저 벡터 변형을 통한 벡터의 선형변환행렬의 곱 또는 행렬과 벡터의 곱을 기저 벡터의 변형을 통한 벡터의 선형 변환으로 해석행렬식행렬식(det(A))은 해당 벡터로 만들어지는 영역으로서, 해당 벡터의 행렬식 값이 0이면 해당 벡터는 동일한 선상에 존재하는 벡터를 의미한다. Cartesian 좌표 : 서로 독립 → 사영을 하여, 유사도 측정에 사용한다. 행렬 A의 선형변환을 고유벡터와 고유값 성분으로 분해..

머신러닝을 위한 통계학2 1주차

지도학습 : 피드백 검증 O비지도학습 : 피드백 검증X강화학습 : 모델을 검증하는 피드백 메커니즘 포함  지식 : '무엇을 알고 있는지' 를 의미지능 : 지능은 문제를 해결하고 새로운 상황에 적응하며 학습하는 능력, 어떻게 문제를 해결 (의사결정) 하고 새로운 것을 배울 수 있는지를 의미지식과 지능을 서로에게 의존적이며, 함께 작용하여 효과적인 문제를 해결, 학습, 창의적 사고 등을 가능하게 한다.  머신러닝 VS 딥러닝머신러닝 : 인간 개입 O딥러닝 : 인간 개입 X 추론연역적 추론 : 일반원리로부터 시작하여 결론에 도달한다. 규칙을 중심으로 하며, 사전지식이 중심이다. (수학적 접근)귀납적 추론 : 경험이나 관측으로부터 시작하여 결론에 도달한다. 데이터를 중심으로 하며, 머신러닝에 쓰인다.  모형결정..

컴퓨터 비전 7주차(3)

[학습목표]활성화 함수 알고리즘에 대해 설명할 수 있다.※ 퍼셉트론은 직선 하나로 나눈 영역만 표현할 수 있다는 한계가 있다.XOR게이트는 어떻게 표현을 해야할까? 단순 퍼셉트론은 불가능하다. 다층 퍼셉트론으로, 1층에 NAND와 OR로 처리를 하고 2층에 AND로 처리를 하면 XOR를 표현할 수 있게 된다.▶비선형적인 문제를 풀려고 하면 층이 깊어진다. 활성화 함수입력 신호의 총합을 출력 신호로 변환하는 함수입력 신호의 총합이 활성화를 일으키는지 정하는 역할을 한다.활성화 함수라고 하는 것은 입력 신호의 총합을 출력 신호로 변환해 주는 기능을 하는 것을 우리는 활성화 함수라고 할 수 있다. 즉, 입력 신호의 총합이 활성화를 일으키는지를 정하는 역할을 하는 것이 활성화 함수이다. 판별할 때 시그모이드를 ..

컴퓨터 비전 7주차(1)

[학습목표]다중 이미지 분류에 대해 이해하고, 구글 코랩을 활용한 6개의 클래스 분류 모델 학습을 따라할 수 있다.데이터 증강 기술 ★ ★ ★ ★ ★ 데이터 증강기술은 훈련 데이터에만 적용된다 (시험출제)즉, 훈련 데이터의 양을 늘려줌으로써 과적합을 방지할 수 있게 된다.딥러닝) 층을 깊이 가져가다 보면 결과적으로 매개변수 값이 수천 개, 많게는 수만 개까지 늘어날 수 있다.즉, 매개변수가 많이 늘어난다는 얘기는, 그만큼 데이터양이 많아져야만 과적합이 발생하지 않는다.6과 9같은 데이터에는 특별히 조심해야 한다. (예시로, 회전 10%, ...)→ 모든 데이터에 동일한 데이터 증강 기법을 적용할 수 없다. 코랩을 왜 사용하는가? 실제로 학습을 할 수 있도록 작은 단위로 데이터를 나누고, 나누어지게 되면 ..