데이터의 활용
- 중심 극한을 이루는 수치형 데이터에 주로 사용된다.
- 분산이 너무 크면 결과를 저해할 수 있다. (분산 너무 크면X)
이상값&결측값
- 이상값 : 이상값은 데이터 세트의 다른 관찰에서 크게 벗어나는 데이터 포인트
- 나머지 데이터를 고려할 때 예상할 수 있는 것과 현저하게 다른 값 → 데이터 수집 또는 기록의 잠재적 이상 또는 오류의 결과
- 결측값 : 사용자가 잘못 입력하거나 누락한 값
극단값 / 극한값
- 극단값 / 극한값 : 데이터 세트의 최소값과 최대값을 나타낸다. → 분포의 양쪽 끝에서 가장 극단적인 값
- 일반적으로 오류나 비정상적인 상황으로 인한 결과임을 암시하는 증거가 없는 한 데이터 세트에 유지된다.
분포의 특성 ?
- 왜도(Skewness) : 확률 변수의 평균에 대한 확률 분포의 비대칭성을 측정한다. (즉, 데이터가 기울어지는 방향을 나타낸다.)
- 왜도 > 0 or 왜도 < 0 : 극단값 또는 이상치가 너무 많다.
- 첨도 (Kurtosis) : 분포의 꼬리 부분의 두께와 중심 부분의 뾰족함을 측정하는 값
- 첨도 : 분포의 꼬리와 뾰족함 (즉, 극단값들의 존재) 에 관한 정보를 제공
- 첨도 > 0 : 이상치나 극단값이 나타날 가능성이 더 높아짐 ↑
- 첨도 < 0 : 데이터에 큰 변동이나 이상치가 덜 있음을 나타낸다. ↓
'머신러닝1 > 수업 필기' 카테고리의 다른 글
머신러닝1 필기 (6) (0) | 2024.06.08 |
---|---|
머신러닝1 필기 (5) (0) | 2024.04.18 |
머신러닝1 필기 (4) (0) | 2024.04.17 |
머신러닝1 필기 (3) (0) | 2024.04.17 |
머신러닝1 필기 (1) (1) | 2024.04.04 |