분류 전체보기 156

머신러닝2 7주차 (2) - 코드 부분

library(MASS) : MASS 라이브러리를 로드library(car) : car 패키지를 로드합니다. 이 패키지는 선형 회귀 모델에 대한 다양한 진단 도구를 제공, vif 함수가 대표적library(skimr) : skimr 패키지를 로드합니다. 이 패키지는 데이터셋을 빠르게 요약하고 분석하는 기능을 제공Boston 데이터셋을 로드한다. 이 데이터는 보스턴 지역의 주택 가격과 관련된 변수를 포함한 데이터셋이다. 그 이후, Boston 데이터셋을 df라는 데이터프레임에 저장한다. 이는 이후 코드에서 더 쉽게 참조하기 위해서이다.  skim함수를 사용해서 df 데이터프레임의 요약 통계를 표시한다. 이는 데이터의 분포, 결측값, 변수 유형 등을 간단하게 요약하여 보여준다.initial_predictor..

머신러닝2 7주차 (1)

머신러닝2 - 지도학습 (기계학습의 회귀분석) -통계의 방법 (회귀분석)데이터 : 소수의 표본 데이터가정 : 통계적 가정 필요검정 : 유의수준 (p-value)학습 방법 : 모든 데이터를 사용기계학습의 방법 (머신러닝)데이터 : 대용량의 빅데이터가정 : 필요없음방법 : 데이터의 특징을 찾아 스스로 학습검정 : 예측의 정확도 → R-Squared 값학습 방법 : Train data & Test data 구분하여 사용경사하강법는 회귀모형의 비용함수 최소화로 하는 반복적 접근 방식으로 회귀계수를 이들의 추정치로 하는 것이다.이 때 학습률, Running Rate을 업데이트하여 하이퍼 파라미터를 조정하고 최적의 하이퍼 파라미터를 구하는 것이 목적이다.

머신러닝2 5주차

머신러닝2- 지도학습 (기계학습의 회귀분석) -지도학습다중 회귀분석 (Regression)로지스틱 회귀분석 (Logistic Regression)신경망서포트 벡터 머신의사결정나무앙상블K-근접 이웃기법 회귀분석의 검정은 유의수준 (p-value) 로 한다. 기계학습의 검정은 예측의 정확도 이다.최소제곱법은 회귀모형의 오차 제곱의 합 (SSE)을 최소로 하는 회귀계수를 이들의 추정치로 하는 것이다.다수의 요소를 가지고 y를 예측하고 싶을 때, 이를 다중 선형 회귀분석이라고 한다. 다중 회귀분석가설 (Hypothesis)에 대한 최적의 W와 b를 찾아 실제값과 예측값에 대한 오차 식을 비용함수 (Cost Function)이라고 한다.회귀 문제의 경우에는, 주로 평균 제곱 오차(MSE)를 사용한다. [매우 중요..

머신러닝2 4주차(2)

durbinWatsonTest() : 독립성 검정vif() : 다중공선성 체크influencePlot() : 이상치 검정 → cook's D 값이 높으면 문제 및 제거이상치 제거는 df = df[-c(121), ] AIC : AIC 값이 줄어들면 그 변수는 의미가 있다.F-통계량 : F-통계량이 클수록 회귀 모델이 데이터에 더 적합함을 나타낸다. → 모델의 적합도F-통계량은 회귀 분석에서 모형의 유의성을 평가하는 지표이다. 실제로는 MSR/MSE의 비율로 계산이를 통해 회귀 모형이 통계적으로 유의미한지, 즉 독립 변수들이 종속 변수를 설명하는 데 유의미한 기여를 하는지를 판단이 가능하다.F-통계량 = MSR/MSE, MSR은 모델이 설명하는 변동을 나타내고 MSE는 잔차의 변동, 즉 모델이 설명하지 못하..

머신러닝2 4주차(1) (3주차는 추석일정으로 휴강)

MSR : 회귀의 평균 제곱 → 회귀모델이 설명하는 변동성을 나타낸다.MSE : 오차의 평균 제곱 → 회귀모델이 설명하지 못하는 변동성을 나타낸다.F = MSR/MSE RMSE : 오류 지표를 실제 값과 유사한 단위로 변환하여 해석을 쉽게 변환한다. MAE : 모델의 예측값과 실제값의 차이를 더해 절댓값을 취하는 지표MAPE : MAE를 퍼센트로 변환한 것이다.MPE : MAPE에서 절댓값을 제외한 지표이다. 퍼센트로 변환한 것은 맞다. 더 관련된 것은, [Python] 성능 측정 지표 :: MAE, MSE, RMSE, MAPE, MPE, MSLE 여기를 참고하길 바란다.R-Squared : 모델의 독립변수에 의해 설명되는 종속변수의 분산비율을 측정한다→ 종속변수의 변화를 잘 설명했는지를 판단한다. 즉,..

머신러닝2 2주차

머신러닝2- 기계학습 (단순 회귀분석) - 추론 통계주로 샘플을 기반으로 모집단에 대한 결론을 도출하는 것을 목표 샘플이 있고 더 넓은 모집단을 이해하려고 함예를 들어 평균 또는 표준 편차와 같은 모집단 매개변수를 추정하거나 해당 매개변수에 대한 가설을 테스트하는데 사용이 가능하다.신뢰 구간을 구성하거나 가설 테스트를 수행하여 수행된다.기계학습기계학습의 주요 목표는 예측을 하거나 새로운 보이지 않는 데이터를 분류할 수 있는 모델을 개발하는 것샘플이 있고 새로운 데이터에 대해 정확한 예측 함  표본 집단을 사용하지만 모집단의 속성을 추론하기보다는 새로운 데이터의 일반화에 초점주의 : 과대적합은 기계 학습의 주요 관심사이다. 모델이 노이즈 및 이상값을 포함하여 훈련 데이터를 너무 잘 학습하여 새 데이터에 대..

머신러닝2 1주차

데이터 ?이론을 세우는 데 기초가 되는 사실, 또는 바탕이 되는 자료관찰이나 실험, 조사로 얻은 사실이나 자료 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 자료데이터는 신호, 기호, 숫자, 문자 등으로 기록이 됨정보를 위한 기초적인 자료를 말함정보는 데이터를 가공하지 않은 경우정보 ?구성, 해석 및 맥락화 과정을 통해 데이터에서 파생된다. 데이터는 정보가 생성되는 원재료이다. 정보는 새로운 가치를 생성하고 데이터를 의미있고 유용한 형태로 변환하는 것이다. 정보 생성을 위해 데이터가 필요하지만 정보를 의미 있고 적절하게 만들기 위해서는 추가적인 처리와 해석이 필요하다. 중심 경향 측정평균 : 데이터 세트에 있는 모든 데이터 포인트의 산술 평균중앙값 : 데이터 세트에서 가장 작은 것..

컴퓨터 비전 3주차(1)

[학습목표]OpenCV로 이미지 다루는 방법을 따라할 수 있다.imread( )함수matplotlib 라이브러리로 이미지 파일 읽기 함수 imread를 호출하여 넘파이 배열로 만들어 반환한다. OpenCV 이미지를 조작하는 데에 있어 강력한 모듈이다.실시간 컴퓨터 비전을 위한 라이브러리이다.cv2 모듈에서 제공하는 imread() 함수를 통해 이미지 파일을 읽어 이미지 데이터를 생성할 수 있다.창을 띄우고 이미지를 보이게 하는 것은 cv2 모듈의 imshow() 함수를 통해 가능하다.cv2 모듈의 waitkey(0)는 키보드 입력을 기다리라는 것이다.line() 함수이미지에 선을 그릴 때 사용한다.cv2.line(이미지, 시작지점 좌표, 끝지점 좌표, 색상, 굵기, 선의 종류, 좌표 시프트)이때 색상을 ..