Chap.1 : Data & Statistics
통계학은 왜 필요한가 ?
- 기업 (또는 우리)는 항상 의사결정 (선택)을 하게 된다. 의사결정의 결과가 중요할수록 ↑, 정확한 선택↑ 을 해야 한다.
- 만족도는 올리고, 불확실성은 줄이기 위해 여러 변수들을 고려하여 의사결정을 한다. 의사결정은 목적이 있어야 하는데, 이익 측면에서 최대화하고 손실 측면에서는 최소화해야 한다.
- 미래에 대한 의사결정을 정확히 하기 위해서는 먼저, 의사결정 대상(집단)의 특징을 파악하는 것이 선행되어야 한다.
- 대상의 특징을 객관적으로 파악하기 위해서는 정량적으로 파악해야 하며, 이때에 정량적으로 파악한 자료를 데이터 라고 한다.
- 이처럼, 데이터를 통해서 대상의 특징을 체계적으로 파악(분석, 해석)하는 방법이 통계학이다.
- 통계가 머신러닝의 기초가 되는 이유도 머신러닝 또한 데이터를 통해서 이루어진다는 공통점을 갖기 때문이다.
데이터란 ?
- 대상이 되는 집단을 구성하는 객체 (개체, entity)들의 특징을 나타내는 변수들의 측정값
- 집단 > 객체 > 요인 > 변수
모집단 VS 표본
- 데이터 분석은 현재 시점의 데이터가 아닌 과거 시점 (표본)의 데이터를 분석하는 것이다.
- 실시간으로 데이터를 수집하여도, 그것들을 모아 분석하는 시점에서는 이미 과거의 데이터가 되어있다.
- 또한, 과거로부터 최신까지의 트렌드 분석을 위해서는 어느 정도 기간을 두고 누적시킨 데이터여야만 한다.
- 실시간으로 모든 데이터를 수집, 분석한다고 하더라도 과거 시점(표본)의 결과로 미래 시점(모집단)에 대해 의사결정을 하기 때문에 통계 기법이 필요하다.
- 예를 들어, 만 명에게 설문조사를 하였을 때, 그 결과값이 5천만 명의 결과와 같다고 할 수 있을까?
통계학 : 자료를 의사결정에 도움이 되는 의미있는 정보로 전환하는 방법에 관하여 연구하는 학문이다.
★ ★ ★ 통계 (statistics) 에는 두 가지가 있다. ★ ★ ★
- 기술통계 : 자료를 적절하게 그림, 도표 또는 수치로 특성을 요약하고 기술하는 통계이다.
- 추론통계 : 모집단으로부터 추출한 표본의 통계량을 이용하여 모집단의 모수를 추정하거나 모수에 대한 가설을 검정하는 데에 사용하는 통계이다.
- 모집단으로부터 표본을 추출하고 얻은 표본을 가지고 기술통계를 거친다. 기술통계를 거쳐 표본의 특성을 나타내는 것은 통계량이라고 한다.
- 통계량 (statistic) : 표본의 관측치를 측정하여 얻은 값으로써 표본의 특성을 나타내는 값이다.
- 그 통계량을 가지고 모집단의 특성을 추정 및 가설을 검정하기 위해 우리는 추론통계를 한다.
- 추정 및 가설검정을 거쳐 나오는 것이 모수라고 한다.
- 모수 : 모집단의 구성원 모두를 측정하여 얻을 수 있는 모집단의 특성을 나타내는 값, 모르는 수
※ 통계치는 무엇이냐? 특정한 표본의 통계량 "값" 을 말한다.
자료 수집 과정
- 분석 문제의 결정
- 대상의 선정 (표본집단으로 구분, 표본 집단 중에서 무작위로 집단 선정)
- 관심 속성의 결정
- 척도의 선정 (단위)
- 측정
- 결과값을 변수에 축적
자료수집은 어디서부터?
- 대상 선택, 측정, 척도→ 데이터(화)
정확히 설명하자면, 사물과 사회현상 등과 같은 관심 대상의 속성, 예를 들면 성별, 키, 체온, 등과 같은 질적자료를 가지고 명목척도/서열척도/등간척도/비율척도에서 척도를 선택한 후 자료를 측정한다. 그 다음 양적자료로 구분한다.
(사물, 소비자, 기업, 경제, 등과 같은 관심대상의 속성을 척도를 이용하여 측정한 후 변수값으로 축적한다. 질적자료는 척도를 이용하여 측정됨으로써 양적자료로 변환되어 변수값으로 축적된다.)
측정의 정의 : 관찰대상이 가지고 있는 특성에 대해서 일정한 규칙에 따라 기술적으로 수치를 부여함으로써 계량화하는 것을 의미한다. 개체가 가지고 있는 속성을 관찰하여 변수값으로 표현하는 것을 의미한다.
척도의 정의 : 관찰대상의 속성을 측정하여 그 값을 숫자로 나타내는 일정한 규칙으로서 질적자료를 양적자료로 변환시키는 데에 사용하는 도구이다.
정성적(추상적) → 정량화 시키기 위한 도구이다. (cm, cc, Kg, L : 단위, 척도)
[ ★ 시험 출제 가능성 ★ ]
특징
- 명목척도로 측정된 변수 간의 사칙연산은 의미가 없다.
- 서열척도는 상대적인 순위만 구분할 뿐이지, 서열 간의 차이는 중요하지 않다.
- 등간척도로 측정된 변수는 관찰대상의 속성값을 상대적 크기로 나타내어, 사칙 연산 중에 +, - 만 가능하다. ex) 온도
- 비율척도로 측정된 변수는 절대적 기준인 영점이 존재하여 모든 사칙연산이 가능하다.
[ 필기 ]
통계학의 정의
- 자료를 의사결정에 도움이 되는 의미있는 정보로 전환하는 방법에 관하여 연구하는 학문
- 모집단 → 표본 → 자료 → 기술통계 → 정보 → 추론통계 → 모집단
Statistical Analysis ?
- 집단의 다양성에서 평균, 분산, 표준 편차와 같은 통계량을 가지고 해석한다.
- 목적 : "변동 (분산)의 정도를 얼마나 잘 설명(해석, 정량화)하는가?"
- 통계적 분석은 목적에 따라 크게 두 가지로 구분한다.
- Case 1 : 집단 간의 비교를 통해서 차이의 유무를 판단한다. 이를 통해서 가장 적합한 집단을 결정한다.
- 예시) 모평균의 차이 검정, 분산 분석
- Case 2 : 결과 (종속변수)를 설명할 수 있는 모델 (독립변수들과의 관계)을 만들어서 결과의 변동 (분산)을 모델로 설명하는 것이다.
- 예시) 회귀분석
IT화는 또 다른 말로 '표준화' 이다.
변수 VS 상수
- 변수 : 값이 바뀌는 것
- 상수 : 값이 고정되어 있는것
변수에는 여러가지가 있다.
- 확률 변수 (Random Variable)
- 매개 변수 (Parameter, 필요에 의해 초기 값을 임의적으로 셋팅할 수 있는)
- 의사결정 변수 (의사결정에 의해 값이 바뀌고, 이걸로 인하여 다른 값까지 바뀌는)
※ 모수와 통계량에서 쓰이는 기호들을 확실히 알고 구분해두자!
모수 (parameter)
- 모집단의 구성원 모두를 측정하여 얻을 수 있는 모집단의 특성을 나타내는 값
통계량 (statistics)
- 표본의 관측치를 측정하여 얻은 값으로써 표본의 특성을 나타내는 값
통계
- 기술통계 : 그림으로 표현 및 요약
- 추론통계 : 표본의 특성을 나타내는 통계량으로 모집단의 특성을 나타내는 모수를 추정하거나 모수에 대한 가설을 통계량으로 검정하는 데에 사용되는 통계
오차와 신뢰도는 어떻게 보면, 상반된 개념이다.
- 오차 ↔ 신뢰도
- 1 - 오차 = 신뢰도
1. 변수
2. 분포 (산포(편차), 중심)
3. 표본의 크기
산포 → 정량화한 값 = 분산(편차)
중심 → 정량화한 값 = 평균, 중위수, 최빈수
중요 개념 : 척도, 분포, 확률변수와 확률분포, 해석하는 방법, 선형대수, ...
'머신러닝을 위한 통계학1 > 수업 필기' 카테고리의 다른 글
머신 러닝을 위한 통계학 필기 (6) (0) | 2024.04.18 |
---|---|
머신 러닝을 위한 통계학 필기 (5) (0) | 2024.04.18 |
머신 러닝을 위한 통계학 필기 (4) (2) | 2024.04.18 |
머신 러닝을 위한 통계학 필기 (3) (0) | 2024.04.17 |
머신 러닝을 위한 통계학 필기 (1) (0) | 2024.03.04 |