머신러닝1/수업 필기 12

머신러닝1 필기 (11)

-기초통계-추론 통계 (평균의 분포)추론통계 : 샘플의 데이터를 기반으로 더 큰 모집단에 대해 예측하거나 결론을 도출할 수 있다. → 두 모집단의 평균, 분산(편차), 데이터 수가 다를 때 두 모집단의 평균이 차이가 있는지 판단하기 위해서목적 : 추론 통계는 의미 있는 결론을 도출하고 샘플 데이터를 기반으로 모집단에 대한 예측을 수행하는 역할을 함이러한 방법을 통해 모집단 매개변수에 대한 정보에 입각한 추측을 하고 가설을 테스트하며 결과의 신뢰성을 평가할 수 있음측정 유형 : 추론 통계는 범주형 측정과 연속 측정 모두에 적용가능 데이터의 특성과 연구 질문에 적응하여 다양한 분야와 시나리오에 적용이 가능하다표현 : 추론 통계는 수학 공식과 확률 모델을 활용하여 모집단 매개변수를 추정하거나 관찰된 결과의 가..

머신러닝1 필기 (9)

머신러닝-단순 회귀분석- 정리 평균은 데이터의 개수만큼 나눠준다. (그 데이터 집단의 중앙을 의미한다)카이제곱 분포는 반드시 적합성 검정과 독립성 검정을 해줘야 한다. 여기선 관측값과 예측값이 핵심이다. 상관관계 분석은 공분산 / sqrt(두 집단의 분산의 곱) 를 하여 상관계수를 결과로 내는데, 여기서 상관계수는 연속적인 두 변수의 관계성을 의미한다. 상관계수는 -1에서 1사이의 값을 갖는다. F-Test는 두 집단의 분산비율을 구한다. → 분산의 차이가 있는지를 알아본다. 회귀분석은 미리 얘기하자면, 공분산 / 분산 식과 비슷하다. 추론통계목적 : 추론 통계는 주로 샘플을 기반으로 모집단에 대한 결론을 도출하는 것을 목표(예를 들어 평균 또는 표준 편차와 같은 모집단 매개변수를 추정하거나 해당 매개변..

머신러닝1 필기 (8)

추론통계 (분산의 분포 - 상관관계) 상관관계 분석 (두 개의 연속적인 집단)상관관계 테스트(Correlation Test) : 상관 테스트는 두 연속 변수 사이의 연관성이 있는지 확인하는 데 사용됨  Pearson 상관관계는 선형 관계에 적합하고 Spearman 순위 상관관계는 비선형 관계에 사용됨상관 분석 :상관 분석은 두 연속 변수 간의 선형 관계의 강도와 방향을 측정하는 데 사용됨Pearson의 상관 계수(선형 관계의 경우) 또는 Spearman의 순위 상관 계수(단조 관계의 경우)를 사용하여 평가됨상관 계수는 -1과 1 사이의 값을 가지며, 여기서 -1은 완벽한 음의 선형 관계를 나타내고, 1은 완벽한 양의 선형 관계를 나타 내고, 0은 선형 관계가 없음을 나타냄 공분산(Covariance) :..

머신러닝1 필기 (7)

추론통계 (분산의 분포 - ANOVA) F-distribution F-분포(Fisher–Snedecor distribution) : F-value는 분산의 비율 (분산분포, F-분포) X축은 두 분산의 비율, Y축은 지정된 F값에 대해어떠한 유사 속성이 비슷한 두 집단 → 비율로 비교한다.  분산분석(F-test) F-분포(Fisher–Snedecor distribution) : F-value는 분산의 비율▶ 따라서 분산분석이라 부름전체 평균으로부터 각 집단의 평균 까지의 분산(Between Variance) → 집단 간의 차이 ▶ 전체 평균으로부터 각 집단의 평균값이 멀리 떨어져 있음 → 적어도 하나의 집단은 한 개는 다른 집단과 평균이 다를 수 있음전체 ~ 각각 : 평균각각의 집단의 한 지점이 해당 ..

머신러닝1 필기 (6)

기말고사 범위  분산의 분포 분산 분포는 확률 변수의 분산(또는 동등하게 표준 편차의 제곱)을 설명하는 통계적 분포를 나타냄 ➔ 변동성통계적 추론에서, 특히 작은 표본을 다룰 때 분산 분포를 아는 것은 가설 검정과 모집단 분산에 대한 신뢰 구간 구성에 중요하다! 임상 시험 : 두 가지 치료법의 효과를 비교하는 경우 어떤 치료법이 더 나은 평균 결과를 나타내는지 뿐만 아니라 어떤 치료법 이 더 일관된(더 낮은 분산) 결과를 나타내는지 알고 싶음 ➔ 더 안정적이고 효과적인 걸로!교육 : 서로 다른 두 가지 교육 중재 간의 시험 점수를 비교할 때 일관된 차이를 이해하면 해당 중재가 학생 전체에 걸쳐 얼마나 잘 작동하는지 나타낼 수 있음제조 : 품질 관리에서는 단순히 높은 평균 품질이 아닌 일관되게 높은 품질의..

머신러닝1 필기 (5)

[ 중간고사 ] 4/24 10:00 시작 평균 종류별 특징, 계산하기 그래프 정의 & 언제 쓰이는지 이 파트 계산문제 (완벽히 하기) 확률 변수 : 확률로 결정되는 변수 확률의 종류는 이산확률변수, 연속확률변수 이를 표현하는 것은 이산확률분포 연속확률분포 확률변수의 원소의 개수를 셀 수 있을 경우 이를 이산확률변수라고 한다. 예제) 동전던지기, 주사위던지기 확률변수의 원소의 개수를 셀 수 없을 경우 이를 연속확률변수라고 한다. 예제) 학교의 학생들의 키, 년도 지역별 강우량 확률 분포(probability distribution) : 표본 공간의 각 원소에 대응된 확률변수에 각각의 값을 가질 확률을 대응시킨 관계 표본 공간에서 얼마만큼의 질량을 가지고 있는가를 궁금함 이산인 경우 y축은 질량, 연속인 경..

머신러닝1 필기 (4)

EDA ? EDA는 Exploratory Data Analysis의 약자로, 탐색적 데이터 분석을 의미한다. 데이터 분석을 시작하기 전에 데이터를 다양한 각도에서 관찰하고 이해하는 과정이다. 데이터의 기본적인 특성, 구조, 패턴, 이상치, 변수 간의 관계 등을 파악함으로써 분석가가 보다 유익한 인사이트를 얻는다. 데이터에 대한 이해를 바탕으로 더 효율적인 분석 계획을 세울 수 있도록 하는 과정이다. 패키지 ggplot2 : R 에서 데이터를 그래프로 표현하는 방법 R에서 데이터를 그래프로 표현하는 방법 그래프 컬러 모음 탐색적 데이터 분석 (EDA) - Continuous 라인그래프(Line Chart) : 시간의 흐름에 따른 데이터의 변화 추이를 시각화하는 데 사용한다. 산점도(Scatter Plot)..

머신러닝1 필기 (3)

선형구조-리스트데이터 유형을 저장하고, 저장된 데이터들을 그룹화할 수 있는 데이터 구조숫자, 문자, 논리값 ... 등등 다양한 데이터 유형의 요소가 포함될 수 있다. 각각의 다른 데이터 형태를 모두 묶어서 그룹화할 수 있다. 물리에서 벡터란 ?크기와 방향을 갖는 물리량벡터는 사물의 움직임을 프로그래밍하기 위한 가장 기본적인 구성요소 프로그램에서 벡터란 ?값을 저장하고, 조작할 수 있는 기본 데이터 구조숫자, 문자 또는 논리 값과 같은 동일한 데이터 유형의 요소를 보유할 수 있는 1차원 배열R의 벡터는 combine을 나타내는 c(  )함수를 사용하여 만들 수 있다. 리스트자료를 순서대로 한 줄로 저장하는 자료구조여러 자료가 일직선으로 서로 연결된 선형 구조배열단일 타입으로 구성되는 자료구조대규모 다차원 ..