머신러닝1/수업 필기

머신러닝1 필기 (2)

코딩입문시작 2024. 4. 17. 03:15

 

데이터의 활용

  • 중심 극한을 이루는 수치형 데이터에 주로 사용된다.
  • 분산이 너무 크면 결과를 저해할 수 있다. (분산 너무 크면X)

이상값&결측값

  • 이상값 : 이상값은 데이터 세트의 다른 관찰에서 크게 벗어나는 데이터 포인트
  • 나머지 데이터를 고려할 때 예상할 수 있는 것과 현저하게 다른 값 → 데이터 수집 또는 기록의 잠재적 이상 또는 오류의 결과
  • 결측값 : 사용자가 잘못 입력하거나 누락한 값

극단값 / 극한값

  • 극단값 / 극한값 : 데이터 세트의 최소값과 최대값을 나타낸다. → 분포의 양쪽 끝에서 가장 극단적인 값
  • 일반적으로 오류나 비정상적인 상황으로 인한 결과임을 암시하는 증거가 없는 한 데이터 세트에 유지된다. 

분포의 특성 ?

  • 왜도(Skewness) : 확률 변수의 평균에 대한 확률 분포의 비대칭성을 측정한다. (즉, 데이터가 기울어지는 방향을 나타낸다.)
  • 왜도 > 0 or 왜도 < 0 : 극단값 또는 이상치너무 많다. 

 

  • 첨도 (Kurtosis) : 분포의 꼬리 부분의 두께중심 부분의 뾰족함을 측정하는 값
  • 첨도 : 분포의 꼬리와 뾰족함 (즉, 극단값들의 존재) 에 관한 정보를 제공
  • 첨도 > 0 : 이상치나 극단값이 나타날 가능성이 더 높아짐 ↑
  • 첨도 < 0 : 데이터에 큰 변동이나 이상치가 덜 있음을 나타낸다. ↓

 

'머신러닝1 > 수업 필기' 카테고리의 다른 글

머신러닝1 필기 (6)  (0) 2024.06.08
머신러닝1 필기 (5)  (0) 2024.04.18
머신러닝1 필기 (4)  (0) 2024.04.17
머신러닝1 필기 (3)  (0) 2024.04.17
머신러닝1 필기 (1)  (1) 2024.04.04