데이터 ?
- 이론을 세우는 데 기초가 되는 사실, 또는 바탕이 되는 자료
- 관찰이나 실험, 조사로 얻은 사실이나 자료
- 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 자료
- 데이터는 신호, 기호, 숫자, 문자 등으로 기록이 됨
- 정보를 위한 기초적인 자료를 말함
- 정보는 데이터를 가공하지 않은 경우
정보 ?
- 구성, 해석 및 맥락화 과정을 통해 데이터에서 파생된다.

데이터는 정보가 생성되는 원재료이다. 정보는 새로운 가치를 생성하고 데이터를 의미있고 유용한 형태로 변환하는 것이다. 정보 생성을 위해 데이터가 필요하지만 정보를 의미 있고 적절하게 만들기 위해서는 추가적인 처리와 해석이 필요하다.
중심 경향 측정
- 평균 : 데이터 세트에 있는 모든 데이터 포인트의 산술 평균
- 중앙값 : 데이터 세트에서 가장 작은 것부터 큰 순서로 정렬할 때 중간 값
- 최빈값 : 데이터 세트에서 가장 자주 발생하는 값
- 최대값 / 최소값 : 데이터 세트에서 가장 큰 값 / 데이터 세트에서 가장 작은 값
변동성 측정
- 범위 : 데이터 세트의 최대값과 최소값의 차이
- 사분위수 범위(IQR) : 데이터의 중간 50%를 나타내는 첫 번째 사분위수 (25% 백분위수)와 세 번째 사분위수 (75% 백분위 수) 사이의 값 범위
- 사분위수(Q1) : 아래쪽 절반에 짝수 개의 관측치가 있는 경우 Q1은 이 절반의 가운데 두 숫자의 평균
- 중앙값(Q2) : 짝수인 경우 중앙값은 가운데 두 숫자의 평균
- 사분위수(Q3) : 위쪽 절반에 짝수 개의 관측치가 있는 경우 Q3은 이 절반의 가운데 두 숫자의 평균
- 분산 : 각 데이터 포인트와 평균 사이의 평균 제곱 차이
- 표준 편차 : 데이터가 평균에서 얼마나 퍼져 있는지를 측정함

기술 통계 - 탐색적 데이터 분석(EDA)
- EDA는 Exploratory Data Analysis의 약자로, 탐색적 데이터 분석을 의미한다.
- 데이터 분석을 시작하기 전에 데이터를 다양한 각도에서 관찰하고 이해하는 과정이다.
- 데이터의 기본적인 특성, 구조, 패턴, 이상치, 변수 간의 관계 등을 파악함으로써 분석가 보다 유익한 인사이트를 얻는다.
- 데이터에 대한 이해를 바탕으로 더 효율적인 분석 계획을 세울 수 있도록 하는 과정이다.

- 파이차트 : 범주형 데이터 셋을 다룰 때 사용하며, 전체 중 일부를 보여준다.
- 박스플롯 : 범주형 데이터 셋을 다룰 때 사용하며, 여러 데이터 셋을 비교할 때 사용한다.
- 히트맵 : 범주형 데이터 셋을 다룰 때 사용하며, 데이터를 미터법 형태로 시각화 한다.
- 히스토그램 : 범주형 데이터 셋을 다룰 때 사용한다.
- 라인 차트 : 연속형 데이터 셋을 다룰 때 사용하며, 시간에 따른 추세를 보여주는 데에 중점을 둔다.
- 막대 차트, 박스 플롯 : 연속형 데이터 셋을 다룰 때 사용하며, 개별 데이터 또는 그룹을 비교할 때 사용한다.
- Scatter Plot : 연속형 데이터 셋을 다룰 때 사용한다.
추론 통계
- 계산이 되는 데이터에 대해서 가능하다. (수치형 데이터에 주로 사용된다.)
- Why Data Analysis? → 세상의 모든 데이터를 알 수 없고, 우리는 표본을 구해야 한다.
- 우리는 표본을 통해 모집단에 대한 결론을 내리려고 한다.
- 확률 밀도 함수는 이러한 결론을 내릴 때 필요한 확률적 배경을 제공해 준다.

이 때 중심 극한의 정리라는 개념이 나온다.
중심극한의 정리
- 표본의 크기가 커질수록 모집단의 분포와 상관없이 정규분포 (Normal Distribution)에 가까워진다는 것을 의미한다.
- 표본의 크기는 30개 이상이어야 하며, 이는 평균의 샘플링 분포가 거의 정상이다.
- 모집단의 분산은 유한하고 알려져 있어야 한다.
- 표본 관측치는 독립적이어야 한다. → 하나의 관찰이 발생해도 다른 관찰의 발생에 영향을 미치지 않는다는 것을 의미한다.


모집단에서 표본을 추출하여 통계라고 불리는 표본 평균과 표본 분산과 표본 표준편차를 가지고 모집단의 매개변수를 구하는 것이 핵심이다. 모집단의 매개변수로는 모평균, 모분산, 모표준편차가 있다.

검정 통계량 : 모집단 매개변수에 대한 추론이나 결정을 내리기 위해 표본자료로부터 계산된 수치

임의의 모집단에서 표본의 크기가 n보다 크면, 표본 평균은 근사적으로 정규분포를 따른다.

표본정규분포 : 평균이 0이고, 표준 편차가 1인 특정 유형의 정규 분포

귀무가설 : 차이가 없다를 주장
대립가설 : 차이가 있다를 주장


T-Test : 두 그룹의 평균을 비교하거나 모집단 표준 편차를 모를 때 단일 그룹의 평균의 차이를 테스트하는 데 사용
Z-Test : 표본 크기가 30개 이상이고 모집단 표준 편차를 알고 있을 때 사용한다.


T-Test
자유도(df) : 매개변수를 추정하는 데 사용할 수 있는 독립적인 정보의 수를 반영함

분산의 분포
- 분산 분포는 확률 변수의 분산(또는 동등하게 표준 편차의 제곱)을 설명하는 통계적 분포를 나타낸다. → 변동성

가설 검정 및 추론 통계
- 카이제곱분포 : 카이제곱 검정은 두 범주형 변수 사이에 유의미한 연관성을 확인하는 데 사용한다.
- 분산분석, ANOVA분석 : 여러 그룹을 비교하여 이러한 그룹 간의 분산(변동성)에 통계적으로 유의미한 차이가 있는지 확인한다.
- 상관관계 : Pearson 상관관계는 선형 관계에 적합하고 Spearman 순위 상관관계는 비선형 관계에 사용한다.

카이제곱 Test
- 연속형 변수가 아닌 수치형 변수에 해당하는 분석 방법이다.
- 샘플의 수를 랜덤으로 추출하여 분석을 하는데, 랜덤 추출하는 샘플의 수, 즉 K값이 증가하면 정규분포와 유사한 형태를 가진다.

카이제곱 Test
- 카이제곱 분포는 오차 혹은 편차를 분석할 때 사용한다.
- 카이제곱 테스트에 두 가지 검정이 있는데, 적합도 검정과 독립성 검정이 있다.
- 적합도 검정 : 기대되는 빈도의 분포와 관찰한 빈도의 분포를 비교한다.
- 적합도 검정은 고르게 분포가 되었는지를 확인한다.
- 독립성 검정 : 범주형 변수가 여러 개인 경우에 사용하는 분석방법이다. (교차분석)

[오타 수정]
귀무가설 : 주어진 데이터는 분포가 적합하지 않다. (유의미한 차이가 없다.)
대립가설 : 주어진 데이터는 분포가 적합하다. (유의미한 차이가 있다.)



분산분석(F-Test)
- F-분포 : F-value는 분산의 비율이다. + 두 표본의 분산비에 대한 분포이다. 따라서 분산분석이라 한다.
- Between Variance > Within Variance : Between Variance가 통계적으로 유의하다.
- → 집단내의 차이(분산)보다 집단 간의 차이(분산)가 커야 집단 간의 차이가 통계적으로 유의하다는 의미
- F-분포 : 집단 간 분산 / 집단 내 분산
- F-분포는 양수값을 가지는데, 기준이 1이고 값이 커지면 커질수록 집단간 분산과 집단 내 분산의 차이가 크다.


- T-Test, Z-Test : 두 연속 집단의 평균 차이를 비교한다. (수치형)
- F-Test : 두 연속 집단의 분산 차이를 비교한다. (수치형)
- Chi square-Test : 두 명목 집단의 연관성을 비교한다. (범주형)
- ANOVA 분산분석 : 세 개 이상의 그룹의 분산을 활용해 평균을 비교하는데 사용한다.





>> 상관 관계부터 매우 중요하게 다루셨다!

상관관계 테스트 (Corr Test) : 두 연속 변수 사이의 연관성이 있는지 확인하는 데 사용된다.
- 상관계수는 -1과 1사이의 값을 가지며 -1은 완벽한 음의 선형 관계를 나타내고, +1은 완벽한 양의 선형 관계를 나타낸다. 0은 선형 관계가 없음을 나타낸다. 즉, -1일 경우에 하나의 독립변수가 증가하면 하나의 종속변수가 감소하고 +1일 경우에는 독립변수가 증가되었을 때 종속변수가 증가한다.


공분산 (Covar) : 두 개의 변수 사이의 관계를 숫자로 알려줄 수 있는 값이다.
- 두 변수가 독립이면 공분산 값은 0이다. 하지만 공분산 값이 0이라고 해서 독립인 것은 아니다!!!!



'머신러닝2 > 수업 필기' 카테고리의 다른 글
머신러닝2 7주차 (1) (0) | 2024.10.23 |
---|---|
머신러닝2 5주차 (0) | 2024.10.23 |
머신러닝2 4주차(2) (0) | 2024.10.23 |
머신러닝2 4주차(1) (3주차는 추석일정으로 휴강) (0) | 2024.10.22 |
머신러닝2 2주차 (2) | 2024.10.22 |