머신러닝1/수업 필기

머신러닝1 필기 (1)

코딩입문시작 2024. 4. 4. 02:48

나의 각오는 하나다. 

늦은 만큼, 열심히 

올해 나는 3학년 전필 수업인 머신러닝1 수업을 듣기로 하였다. 이 수업은 김창균 교수님께서 수업을 하시고, 데이터 사이언스로 진로를 잡은 나로서는 상당히 기대가 되는 수업이다. 어려운 수업이 되겠지만 잘 이겨낼 예정이다! 

 

[ 강의 목표 ]

  • 통계를 사용하는 이유와 학습 방법에 대한 이해
  • 통계에 대한 이해를 통해 문제 해결
  • 실제 데이터를 실습하며 방법론에 대한 이해
  • 실제로 데이터가 만들어지고 학습되는 과정을 이해
  • 소규모 프로젝트를 통해 새로운 문제를 해결

머신러닝1 

- 기초통계 (기술통계) -


통계 ?

  • 데이터 수집, 기술 통계, 추론 통계, 확률, 샘플링, 가설검정
  • 데이터에서 유효한 결론을 도출하여 실제 문제를 해결하고 삶과 비즈니스의 다양한 측면을 개선하는 데 도움
  • 통계의 모델의 적용을 통해 통찰력을 얻고 정보를 전달어떠한 문제의 결정을 내리는 것
  • 통계는 데이터를 사용하여 결론을 도출하고 정보를 제공하여 문제를 해결하거나 다양한 현상에 대한 통찰력을 얻는 것

데이터 ?

  • 이론을 세우는 데 기초가 되는 사실, 또는 바탕이 되는 자료
  • 관찰이나 실험, 조사로 얻은 사실이나 자료
  • 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 자료
  • 데이터는 신호,기호,숫자,문자 등으로 기록 됨
  • 정보를 위한 기초적인 자료를 말함
  • 정보는 데이터를 가공하지 않은 경우

※ 데이터를 가공하여 만들어진 것이 정보이다!  (강조)

수많은 데이터를 필요하게 만들어야 한다. 수많은 데이터들 중에 몇 개의 데이터를 규격화한다. 

데이터는 정보가 생성되는 원재료이고, 정보는 새로운 가치를 생성하고 데이터를 의미있고 유용한 형태로 변환하는 것이다. 정보 생성을 위해 데이터가 필요하지만, 정보를 의미 있고 적절하게 만들기 위해서는 추가적인 처리와 해석이 들어가야 한다.

 

정보 ? 

  • 구성, 해석 및 맥락화 과정을 통해 데이터에서 파생된 것이다. 
  • ex) 단순 숫자, 기록들이 가공들을 거쳐 " 선수들의 수치 " 가 된다. 

★ 통계가 왜 생겼을까? 

  • 경험을 토대로 같거나, 비슷한 문제가 발생했을 때 이를 해결하기 위해 사용되었다. 
  • 각자의 상황에 대해 경험하고, 학습해 결과를 도출할 수 있다 → 기억에는 한계가 존재, 왜곡이 가능 
  • 기억의 왜곡으로 인한 오류를 막기 위해!!!
  • 이러한 문제를 해결하기 위해 기록 이란 것이 생겼고, 다양한 방법론들이 나오게 됐다. → 수를 추정하기 위해서 이다.
  • 고대 문명: 가장 초기 형태의 통계는 이집트, 메소포타미아, 중국과 같은 고대 문명에서 찾을 수 있으며, 그곳에서 데이터는 세금, 인구 수, 토지 조사와 같은 목적으로 수집한다.
  • 통계를 통해 문제를 해결하려면 일반적으로 하나 이상의 가설을 설정해야 한다.
  • 명확하고 검증 가능한 가설을 세우는 것은 분석을 수행하고 데이터에서 의미 있는 결론을 도출하기 위한 프레임워크를 제공한다. 
  • 가설에는 샘플 정보를 기반으로 모집단에 대한 추론 또는 결론 도출과 관련된 문제를 해결하기 위한 데이터가 필요하다.

통계학 ? 

  • 통계학의 대상인 모집단과 표본에 대해 설명하기 위해
  • 표본을 추출하는 개념 및 방법에 대해 설명하기 위해
  • 표본에 대한 가중치를 조정해 최적의 모집단을 예측하는 방법에 대해 이해하기 위해

통계의 학습 프로세스 ?

  • 가설
  • 확률이론, 가설검증, 통계적 추론 등 통계적 방법의 기초가 되는 이론적 개념과 원리

 

  • 데이터 
  • 통계 분석을 위한 입력으로 사용되는 정보 또는 관찰의 수집
  • 데이터는 설문 조사, 실험, 관찰 또는 기타 방법을 통해 수집할 수 있음

 

  • 모델
  • 일상속의 현상이나 프로세스의 수학적 또는 통계적 표현
  • 모델은 변수 간의 관계를 설명하고 데이터를 기반으로 예측하는 데 사용됨

 

  • 결과
  • 데이터의 통계 분석에서 얻은 결과 또는 발견
  • 결과는 수행된 데이터 및 분석을 기반으로 통찰력, 패턴 또는 결론을 제공

 

  • 정보제공
  • 통계는 정보에 입각한 결정을 내리고, 결론을 도출하고, 개체군이나 현상에 대한 가설이나 주장을 뒷받침하기 위해 데이터를 분석하고 해석하여 정보를 제공

 

통계의 학습 프로세스 (중요★)

[ 어떠한 문제를 해결하기 위해 ... ]

분석 : 데이터를 수집하고, 모델을 선정해 결과를 도출하는 과정

정보 : 도출된 결과를 요약해 사용자에게 정보를 제공하는 것 (데이터가 가공된 것)

 

기술 통계 :보유하고 있는 데이터에 대한 요약 및 설명을 제공한다.

  • 목적 : 데이터 세트의 주요 기능을 요약하고 설명한다.
  • 측정 유형 :
  • 중심 경향 측정 : 평균, 중앙값 및 최빈값 
  • 스프레드 측정 : 범위, 분산, 표준 편차, 사분위수 범위
  • 모양 측정 : 왜도 (비대칭 정도) 및 첨도 (꼬리 정도)
  • 그래픽 표현 : 히스토그램, 막대 차트, 박스 플룻 및 파이 차트
  • 사용법 : 기술 통계는 당면한 데이터 이외의 모집단에 대한 결론을 도출하지 않고, 데이터의 주요 측면에 대한 간단한 개요를 제공한다. 예를 들어, 기술 통계를 사용하여 설문 응답자의 연령 분포, 평균 소득을 요약한다.

데이터의 유형

  • 변수란 ? 데이터를 저장하기 위해 프로그램에 의해 이름을 할당받은 메모리 공간
데이터 종류 변수명 내용 예시
범주형 데이터 명목형 변수 순서나 순위를 암시하지 않고 데이터를 범주화 하는 변수 성별, 머리 색깔, 과일 종류
순위형 변수 의미 있는 순서가 있는 범주가 있지만 범주 간의 거리가 일정하지 않거나 알려져 있지 않은 변수 교육 수준, 설문 응답, 경제 수준
수치형 데이터 이산형 변수 고유하고 개별적인 값을 갖는 계산 가능한 숫자 변수 교통사고 발생 수, 수상 인원의 수
연속형 변수 주어진 범위 내에서 무한한 수의 값 (실수)을 가질 수 있는 숫자 변수  몸무게, 키, 성적

 

★ 매우 중요한 부분 → 시험출제 가능성 ★

중심 경향 측정 

  • 평균 : 데이터 세트에 있는 모든 데이터 포인트의 산술 평균
  • 중앙값 : 데이터 세트에서 가장 작은 것부터 큰 순서로 정렬할 때 중간 값
  • 최빈값 : 데이터 세트에서 가장 자주 발생하는 값
  • 최대값 / 최소값 : 데이터 세트에서 가장 큰 값 / 데이터 세트에서 가장 작은 값

 

중심 경향 측정에는 '평균' 이 있는데, 평균도 여러가지이다. 

  • 산술평균 : 균등하게 나누고, 수치의 무게중심의 역할 (Mean)
  • 절단평균 : 최대, 최소값 중 K개를 제외한 평균 : 극단치가 있는 경우 (Trimmed Mean)
  • 가중평균 : 각 수치의 중요도에 비례하는 계수를 곱한 다음 산출하는 평균 (Weighted Mean) (집단의 크기가 다를 때 사용한다.)
  • 기하평균 : 곱의 형태로 변화하는 자료 → 비율의 평균계산에 많이 사용 (Geometric Mean)
  • 조화평균 : 개별 데이터의 역수의 평균에 대한 역수 → 비율의 평균을 계산하는 데 자주 사용 (Harmonic Mean)

가중 평균 예시
기하평균 예시
기하평균 예시(2)

※ 위의 사진을 보면 년도 사이사이 수익의 증가율이 달라도, 성장률이 같을 수 있다 ! 

 

조화평균에 대한 예시
조화평균에 대한 예시
조화평균에 대한 예시
중요★ 표가 왼쪽과 오른쪽이 바뀌어 나올 수 있다. (조화평균)

 

변동성 측정

  • 범위 : 데이터 세트의 최대값과 최소값의 차이
  • 사분위수 범위(IQR) : 데이터의 중간 50%를 나타내는 첫 번째 사분위수(25% 백분위수)와 세 번째 사분위수(75% 백분위 수) 사이의 값 범위
  • 사분위수(Q1) : 아래쪽 절반에 짝수 개의 관측치가 있는 경우 Q1은 이 절반의 가운데 두 숫자의 평균
  • 중앙값(Q2) : 짝수인 경우 중앙값은 가운데 두 숫자의 평균
  • 사분위수(Q3) : 위쪽 절반에 짝수 개의 관측치가 있는 경우 Q3은 이 절반의 가운데 두 숫자의 평균

변동성 측정, 어떤 것들이 있을까? (중요 ★)

  • 분산 : 각 데이터 포인트와 평균 사이의 평균 제곱 차이
  • 표준 편차 : 데이터가 평균에서 얼마나 퍼져 있는지를 측정함

 

 

 

  • 분산 또는 표준 편차가 높을수록 데이터 포인트가 더 분산되어 더 큰 변동성 또는 분산을 나타냄 
  • 낮은 분산 및 표준 편차는 데이터 포인트가 평균에 가깝다는 것을 의미하며 더 일관되고 예측 가능한 데이터 세트를 나타냄 
  • 반대로 높은 분산 및 표준 편차는 더 많은 변동성과 낮은 일관성을 나타냄 
  • 높은 분산 및 표준 편차는 데이터에 이상값이 있음을 나타내는 지표로 사용 가능함

 

 

Q3와 Q1이 작다는 것은 변동성이 작다는 의미이다. 반대로, Q3 - Q1이 크다는 것은 변동성이 크다는 의미이다. 

 

'머신러닝1 > 수업 필기' 카테고리의 다른 글

머신러닝1 필기 (6)  (0) 2024.06.08
머신러닝1 필기 (5)  (0) 2024.04.18
머신러닝1 필기 (4)  (0) 2024.04.17
머신러닝1 필기 (3)  (0) 2024.04.17
머신러닝1 필기 (2)  (0) 2024.04.17