분류 전체보기 156

머신 러닝을 위한 통계학 필기 (4)

[ 배경 지식 ] 모수 ↔ 통계량 확률적 관점 : 이미 알고 있는 모집단에서 어떤 사건이 일어날 확률에 관심이 있다. ※ 이미 알고 있는 모집단 이라면, 시점, 대상, 알고있는 특성을 말한다. 여기서 중심, 산포를 가지고 모수(특성)를 파악한다. 통계적 관점 : 표본에서 얻은 정보를 이용하여 미지의 모집단을 미루어 짐작하는 추론에 관심이 있다. ※ 데이터 (DATA)를 가지고 통계 (PROCESS) 를 거쳐 정보 (INFORMATION) 을 알아낸다. 통계를 적용할 때 한 가지 주의해야 할 점 통계는 목적에 따라 다르게 이용될 수 있다는 점이다. 이러한 통계적 해석의 오류를 범하지 않기 위해서는 상황을 고려하여 해석되어야 한다는 점이다. ★ 통계학에 사용되는 가정은 크게 두 가지 : 1) 데이터에 대한 ..

머신러닝1 필기 (5)

[ 중간고사 ] 4/24 10:00 시작 평균 종류별 특징, 계산하기 그래프 정의 & 언제 쓰이는지 이 파트 계산문제 (완벽히 하기) 확률 변수 : 확률로 결정되는 변수 확률의 종류는 이산확률변수, 연속확률변수 이를 표현하는 것은 이산확률분포 연속확률분포 확률변수의 원소의 개수를 셀 수 있을 경우 이를 이산확률변수라고 한다. 예제) 동전던지기, 주사위던지기 확률변수의 원소의 개수를 셀 수 없을 경우 이를 연속확률변수라고 한다. 예제) 학교의 학생들의 키, 년도 지역별 강우량 확률 분포(probability distribution) : 표본 공간의 각 원소에 대응된 확률변수에 각각의 값을 가질 확률을 대응시킨 관계 표본 공간에서 얼마만큼의 질량을 가지고 있는가를 궁금함 이산인 경우 y축은 질량, 연속인 경..

머신러닝1 필기 (4)

EDA ? EDA는 Exploratory Data Analysis의 약자로, 탐색적 데이터 분석을 의미한다. 데이터 분석을 시작하기 전에 데이터를 다양한 각도에서 관찰하고 이해하는 과정이다. 데이터의 기본적인 특성, 구조, 패턴, 이상치, 변수 간의 관계 등을 파악함으로써 분석가가 보다 유익한 인사이트를 얻는다. 데이터에 대한 이해를 바탕으로 더 효율적인 분석 계획을 세울 수 있도록 하는 과정이다. 패키지 ggplot2 : R 에서 데이터를 그래프로 표현하는 방법 R에서 데이터를 그래프로 표현하는 방법 그래프 컬러 모음 탐색적 데이터 분석 (EDA) - Continuous 라인그래프(Line Chart) : 시간의 흐름에 따른 데이터의 변화 추이를 시각화하는 데 사용한다. 산점도(Scatter Plot)..

머신러닝1 필기 (3)

선형구조-리스트데이터 유형을 저장하고, 저장된 데이터들을 그룹화할 수 있는 데이터 구조숫자, 문자, 논리값 ... 등등 다양한 데이터 유형의 요소가 포함될 수 있다. 각각의 다른 데이터 형태를 모두 묶어서 그룹화할 수 있다. 물리에서 벡터란 ?크기와 방향을 갖는 물리량벡터는 사물의 움직임을 프로그래밍하기 위한 가장 기본적인 구성요소 프로그램에서 벡터란 ?값을 저장하고, 조작할 수 있는 기본 데이터 구조숫자, 문자 또는 논리 값과 같은 동일한 데이터 유형의 요소를 보유할 수 있는 1차원 배열R의 벡터는 combine을 나타내는 c(  )함수를 사용하여 만들 수 있다. 리스트자료를 순서대로 한 줄로 저장하는 자료구조여러 자료가 일직선으로 서로 연결된 선형 구조배열단일 타입으로 구성되는 자료구조대규모 다차원 ..

비즈니스 커뮤니케이션1 필기 (5)

[ 지난 과제 피드백 ] Q11. What is the best way for a company to improve its sales? Choose ONE of the options provided below, and give reasons or examples to support your opinion. By introducing a new product By improving its customer service By launching an advertising campaign I think the best way for a company to improve its sales is improving its customer service. First of all, I saw the news that t..

머신 러닝을 위한 통계학 필기 (3)

다시 한번, 복습하자. 데이터란 무엇인가? 대상이 되는 집단을 구성하는 객체 (개체)들의 특징을 나타내는 변수들의 측정값 (FACT) 이다. 자료 : 사람, 물건, 조건, 상황을 묘사하는 것으로 기본적인 사실들의 집합 정보 : 의사결정에 도움이 되도록 가공되거나 요약된 형태의 자료 → 데이터 확률 (Probability) VS 통계 (Statistics) 확률 : 하나의 사건, 개별적인 x 통계 : 집단의 사건, 여러 x들의 합 통계의 예시를 보자. 동전 던지기를 10회 시행했을 때, 개별 동전이 앞면이 나올 확률 1/2과 뒷면이 나올 확률 1/2을 신경을 쓰는가? 아니다. 앞면이 몇번 나왔고, 뒷면이 몇번 나왔는지를 신경쓴다. 조사에는 두 가지가 있다. 전수 조사 : 모집단 구성원 전체를 조사 및 분석..

통계학 R언어 실습 (2)

데이터 유형별 우선순위 : 논리형 < 정수형 ~ 요인형 < 실수형 < 복소수형 < 문자형 [ 자료구조 ] 벡터(vector) : 동일한 데이터 유형으로 구성된 데이터 집합 행렬(matrix) : 동일한 종류로 구성된 2차원 데이터 집합 배열(array) : 동일한 데이터 종류로 구성된 2차원 이상의 구조 데이터프레임(data frame) : 각 열마다 같은 길이의 벡터를 가짐 리스트(list) : 여러 유형의 변수를 자유롭게 결합한 구조 → 벡터, 행렬, 배열, 데이터프레임을 원소로 갖는 리스트

통계학 R언어 실습 (1)

※ 실습한 것이라, 변수 설정이 잘못되어 있는 경우가 있다. [ 시험 출제 가능성 매우 높음 ] mean(x, na.rm=FALSE) : x의 평균 sd(x, na.rm=FALSE) : x의 표준편차 median(x, na.rm=FALSE) : x의 중앙값(중위수) quantile(x, na.rm=FALSE) : x의 분위수 na.rm : 결측치 제거 R언어 실습할 때 도움이 필요하다면, 도움말 키를 사용하자. (내부 도움말) 예시로, ?sum help(sum)

머신 러닝을 위한 통계학 필기 (2)

Chap.1 : Data & Statistics 통계학은 왜 필요한가 ? 기업 (또는 우리)는 항상 의사결정 (선택)을 하게 된다. 의사결정의 결과가 중요할수록 ↑, 정확한 선택↑ 을 해야 한다. 만족도는 올리고, 불확실성은 줄이기 위해 여러 변수들을 고려하여 의사결정을 한다. 의사결정은 목적이 있어야 하는데, 이익 측면에서 최대화하고 손실 측면에서는 최소화해야 한다. 미래에 대한 의사결정을 정확히 하기 위해서는 먼저, 의사결정 대상(집단)의 특징을 파악하는 것이 선행되어야 한다. 대상의 특징을 객관적으로 파악하기 위해서는 정량적으로 파악해야 하며, 이때에 정량적으로 파악한 자료를 데이터 라고 한다. 이처럼, 데이터를 통해서 대상의 특징을 체계적으로 파악(분석, 해석)하는 방법이 통계학이다. 통계가 머신..

머신러닝1 필기 (2)

데이터의 활용중심 극한을 이루는 수치형 데이터에 주로 사용된다.분산이 너무 크면 결과를 저해할 수 있다. (분산 너무 크면X)이상값&결측값이상값 : 이상값은 데이터 세트의 다른 관찰에서 크게 벗어나는 데이터 포인트나머지 데이터를 고려할 때 예상할 수 있는 것과 현저하게 다른 값 → 데이터 수집 또는 기록의 잠재적 이상 또는 오류의 결과결측값 : 사용자가 잘못 입력하거나 누락한 값극단값 / 극한값극단값 / 극한값 : 데이터 세트의 최소값과 최대값을 나타낸다. → 분포의 양쪽 끝에서 가장 극단적인 값일반적으로 오류나 비정상적인 상황으로 인한 결과임을 암시하는 증거가 없는 한 데이터 세트에 유지된다. 분포의 특성 ?왜도(Skewness) : 확률 변수의 평균에 대한 확률 분포의 비대칭성을 측정한다. (즉, 데..