머신러닝1/수업 필기

머신러닝1 필기 (4)

코딩입문시작 2024. 4. 17. 23:43

EDA ?

  • EDA는 Exploratory Data Analysis의 약자로, 탐색적 데이터 분석을 의미한다.
  • 데이터 분석을 시작하기 전에 데이터를 다양한 각도에서 관찰하고 이해하는 과정이다.
  • 데이터의 기본적인 특성, 구조, 패턴, 이상치, 변수 간의 관계 등을 파악함으로써 분석가가 보다 유익한 인사이트를 얻는다.
  • 데이터에 대한 이해를 바탕으로 더 효율적인 분석 계획을 세울 수 있도록 하는 과정이다.

★ 시험보기 전에 꼭 확인하기★

 

패키지 ggplot2 : R 에서 데이터를 그래프로 표현하는 방법

ggplot 패키지

 

R에서 데이터를 그래프로 표현하는 방법 

  • 그래프 컬러 모음

그래프 컬러 모음

 

탐색적 데이터 분석 (EDA) - Continuous

  • 라인그래프(Line Chart) : 시간의 흐름에 따른 데이터의 변화 추이를 시각화하는 데 사용한다.
  • 산점도(Scatter Plot) : 산점도는 직교 좌표계를 이용해 좌표상의 점들을 표시함으로써 두 개 변수 간의 관계를 나타내는 그래프 방법
  • 막대그래프(Bar Chart) : 표현 값에 비례하여 높이와 길이를 지닌 직사각형 막대로 범주형 데이터를 표현하는 그래프 (명목형)

 

 

 

 

 

 

탐색적 데이터 분석 (EDA) - Continuous & Categorical

  • 상자수염그림(Boxplot) : box-and-whisker plot 이라고도 하는 box plot은 데이터 집합의 분포를 요약하는 그래프 표현
  • → 극단치, 이상치 확인이 빠르다. 극단값은 데이터 세트에 해치지 않기 때문에 데이터를 오염시킨다는 근거가 명확히 없는 한 유지하고 이상치는 제거한다.

 

탐색적 데이터 분석 (EDA) - Categorical

  • 히스토그램(Histogram) : 히스토그램의 한 줄 요약은 데이터 분포에 대한 주요 정보를 제공하는 간결한 그래프이다. 
  • → X좌표는 수치형 데이터이고, Y좌표는 Count, Frequency 빈도를 나타낸다.
  • 파이차트(pie Chart) : 원 그래프는 전체에 대한 각 부분의 비율을 부채꼴 모양으로 백분율로 나타낸 그래프로 전체에서 차지하는 비율을 나타내며, 비율을 한눈에 볼 수 있다는 장점이 있다. (KEY POINT : 비율)
  • 예시) 강릉에 위치하고 있는 피자가게와 치킨가게 수(비율)
  • 히트맵(Heatmap) : 데이터를 색상의 변화를 표현하고, 복잡한 데이터의 패턴, 변화량, 밀도 등을 한 눈에 파악하기에 유용하다.
  • → 직관성(Max, Min에 대한) 이 뛰어나다. 
  • 예시) 미슐랭 가이드 <맛 : 청결 : 서비스> → 평가 : 히트맵

※ 이 외에도 '스파이더 맵(차트)', 등이 있다. 

 

 

 

'머신러닝1 > 수업 필기' 카테고리의 다른 글

머신러닝1 필기 (6)  (0) 2024.06.08
머신러닝1 필기 (5)  (0) 2024.04.18
머신러닝1 필기 (3)  (0) 2024.04.17
머신러닝1 필기 (2)  (0) 2024.04.17
머신러닝1 필기 (1)  (1) 2024.04.04