머신러닝을 위한 통계학1/수업 필기

머신 러닝을 위한 통계학 필기 (1)

코딩입문시작 2024. 3. 4. 14:40

DT : 모든 것이 디지털화 되는 시대 

정보시대 → 디지털전환시대 (Digital Transformation Era)

Digital = Data ↔ Analog

 

2022년도의 모바일 데이터 트래픽이 2016년 대비 6년 만에 10배 정도 증가

 

AI : <구글 → OpenAI > → 생성형 검색 패러다임 ChatGpt

구글이 왜 지배했느냐? 검색엔진 !

구글 : 모든 데이터를 실시간으로 가지고 있다. 

 

Q 데이터를 왜 수집을 하느냐?

A 데이터를 갖고, 가공하여 정보를 얻고자 수집을 한다.

 

정보에게 있어, 중요한 것은 "정확성, 대표성, 신뢰성, 시간

→ 이것을 가지고, 경영자의 의사 결정

 

불확실성을 낮추고 의사 결정을 하기 위해서 도입되는 것AI (Artificial Intelligence) : 인공지능 ↔ 인간지능 

 

인공지능 : 데이터를 가지고, 알고리즘을 도입하여 학습 (Machine Learning) 

 

인공지능과 학습 의 관계는 끊을 수 없는 관계이다. 데이터를 가지고 가공하여 정보를 얻는 것은 통계의 범주에 들어간다.

 


데이터 ?

  • 사실정보를 담고 있는 수집된 값의 집합이다. 
  • 데이터에는 다양한 형태와 종류가 있다. (정량적 데이터, 정성적 데이터)
  • 단순 74는 의미가 없고 데이터도 아니다. 내 체중은 74KG 이라 했을 때에 74는 의미를 가지고 있는 데이터이다.
  • Data → Statistics → Information

통계학 ?

  •  데이터를 수집, 분석하여 패턴 (규칙), 추세 (Trend), 상관관계 등을 찾아내고 이를 통해 집단 (대상)의 현상 (특징)을 이해하고 예측하는 데에 사용한다. (개별의 특징이 아닌, 집단이다!)
  • 이를 통해 통계 담당자는 데이터를 수집, 정리, 요약하고 이를 통계적 모델 (분포)에 적용하여 결과를 도출한다. 
  • 통계적 모델 = 함수 (X가 무엇일 때 Y가 무엇이다. 예측)
  • 예를 들어, 데이터의 중심 경향성과 분산을 파악하기 위해 평균, 중앙값, 표준편차 등의 통계량을 계산하고, 그래프나 히스토그램 등의 시각화 기법을 사용하여 데이터의 분포를 확인한다.
  • 데이터 과학, 경제학, 사회과학, 의학 등 다양한 분야의 데이터 분석을 통해 문제를 해결하고 의사 결정을 지원하는 등의 목적으로 쓰인다.

※ 즉, 데이터는 통계담당자가 분석하는 원료이며, 통계학은 이러한 데이터를 이해하고 활용하는 도구라고 생각하면 된다.

간단히 말하자면, 

데이터 : 그 시점에서 그 시점을 나타내는 FACT, 물고기들이 헤엄치는 바다 
통계학 : 그 바다에서 물고기를 잡아내는 낚시꾼

데이터 : 통계담당자가 분석하는 원료 (재료)
통계학 : 이러한 데이터를 이해하고 활용하는 도구

 

 

AI시대에 통계학이 왜 중요한가?

  • 데이터 분석에서 필수적인 기술이다.
  • AI에서 가장 중요한 요소는 데이터이며 데이터는 AI 모델의 학습에 사용된다.
  • ★ 데이터를 분석하고 모델링하는데 통계학적 기술이 필요하다.
  • ★ 통계학은 데이터의 분포, 패턴 또는 규칙, 상관관계 등을 분석하여 insight(핵심적인 특성)을 도출 하는 기술이기 때문에, 데이터 분석에 필수적인 역할을 한다.

 

  • 예측과 의사결정에 대한 지식이다. AI는 예측과 의사결정을 위해 사용한다. 통계학은 확률(달리 말하면, 가능성)과 통계적 추론 등을 다루며, 이를 통해 미래를 예측하고 의사결정을 하는데 필요한 지식을 제공한다. 
  • 예를 들어, 회귀분석, 시계열 분석, 분류 모델 등 통계학적 기법을 사용하여 데이터를 모델링하고 예측을 수행한다.

 

  • 모델의 검증과 평가를 담당한다. AI 모델의 성능 평가와 검증을 위해서 통계학적 기법이 필요하다. 
  • 모델의 정확도, 정밀도, 재현율, F1 점수 등을 평가하고, 교차 검증과 같은 통계적 기법을 사용하여 모델의 일반화 능력을 확인할 수 있다.

 

  • 데이터 분포와 편향성 파악을 할 수 있다. 
  • AI 모델을 구성할 때, 데이터 분포와 편향성에 대한 이해가 필요하며, 이를 위해 통계학적 지식이 필요하다.
  • 예를 들어, 편향성을 줄이기 위해서는 적절한 샘플링 방법을 사용해야 하며, 데이터 분포에 따라 모델의 설계와 학습 방법을 결정해야 한다.
  • ★ 따라서, AI 시대에 통계학은 1)데이터 분석과 예측, 2)모델 평가, 3)데이터 분포와 편향성 파악 등 다양한 분야에서 중요한 역할을 한다.

※  AI 의 목적 ?

  • 인위적으로 컴퓨터에게 지능을 가르친다.
  • 데이터를 가지고 학습자가 컴퓨터를 가지고 지능을 가르친다.
  • 똑같은 데이터를 가지고 어떤 학습자냐에 따라 지능이 달라진다. 그 이유는 알고리즘에 대한 이해도, 해석 및 분석하는 능력이 다르기 때문에 결과 (지능) 가 달라진다. 

머신러닝&통계학

머신러닝은 데이터를 기반으로 모델을 구축하고, 예측을 수행하는데 있어서 통계학적인 원리와 기법을 활용한다. 

  • 대용량의 데이터를 다루기 때문에 데이터의 특성을 파악하고 이를 요약하거나 축소하는 기법이 필요하다.
  • 이를 위해 통계학의 분포, 평균, 분산 등의 개념과 이에 대한 이론적인 배경을 이해해야 한다. 
  • 데이터 분석을 위한 가설 검정, 추론, 회귀분석 등의 기법을 활용한다.
  • 모델의 성능을 평가하고, 최적화하는 과정에서 통계적인 지표와 방법을 사용한다.
  • 예를 들어, 모델의 예측 성능을 평가하기 위해 정확도, 재현율, 정밀도 등의 통계적인 지표를 사용한다. 
  • 모델의 하이퍼파라미터를 조정하는 과정에서는 교차 검증 등의 통계적인 방법을 사용한다.
  • 또한, 통계학 뿐만 아니라 선형대수학, 최적화 이론, 확률론 등의 수학적 지식도 필요하다.

인공지능&통계학

▶ 인공지능은 문제 해결, 의사 결정 및 지각과 같이 일반적으로 인간 지능이 필요한 작업을 수행하는 기계 또는 시스템을 만드는 컴퓨터 과학의 넓은 분야이다.

  • 인공지능은 규칙 기반 시스템, 전문가 시스템, 자연어 처리 및 머신러닝다양한 기술을 사용하여 구현될 수 있다.
  • 머신러닝은 인공지능의 하위 분야로, 통계 알고리즘과 모델을 사용하여 데이터를 분석하고 패턴이나 규칙을 식별함으로써 기계가 명시적으로 프로그래밍되지 않고도 데이터에서 학습하도록 하는 기술이다. 
  • 머신러닝 알고리즘은 경험으로부터 학습하고 시간이 지남에 따라 성능을 개선할 수 있는 시스템을 만드는 것이다.
  • 요약하면, 인공지능지능적인 기계를 만드는 다양한 기술과 접근 방식을 포괄하는 더 넓은 분야이며, 머신 러닝인공지능이 가능하도록 데이터에서 학습하는 인공지능의 하위 분야이다.

AI
파라미터 VS 하이퍼 파라미터

 

Linear (선형)은 hidden layer, 은닉층이 1개이며, Non-Linear (비선형)은 hidden layer, 은닉층이 여러 개이다. 

선형 VS 비선형

머신러닝에서 가장 중요한 통계학적 내용은 "확률론“으로, 불확실한 데이터를 다루는데 필수적인 이론이다.

머신러닝 알고리즘은 데이터의 확률분포를 모델링하고, 확률분포를 기반으로 예측, 분류, 군집화 등의 작업을 수행한다.

확률어떤 사건이 일어날 가능성을 수치화한 것으로, 머신러닝에서는 데이터의 패턴과 관련된 확률을 계산하여 예측 및 분석에 활용한다. 예를 들어, 분류 문제를 해결할 때는 각 클래스에 속할 확률을 계산하고, 가장 높은 확률을 가진 클래스를 선택하여 분류한다.

회귀 문제에서는 데이터의 분포를 모델링하여 예측값을 계산하고, 분포의 특성을 파악하여 예측값의 신뢰도를 추정한다. 따라서, 확률 분포를 모델링하고 이를 기반으로 예측을 수행하는 것은 머신러닝의 핵심 개념 중 하나이다. 이를 위해 확률분포를 추정하는 기법, 확률분포를 이용한 예측 및 분류 기법 등 통계학에서 다루는 다양한 개념과 기법들이 머신러닝에서 활용되고 있다.

일상생활에서의 활용(Chat GPT)

 


[ 필기 ]

 

Q. 모델의 용도는 무엇인가?  DATA → 해석 →  방법 →  모델링

A : 모델을 가지고 해석을 통해 예측 의사결정 을 한다.

 

객관적 VS 주관적 

- 객관적 : 사실을 토대로 의사결정, 누가 얘기를 하든 답이 일관적, 동일하다.

- 주관적 : 사실이 아닌 감정을 토대로 의사결정, 답이 일관적이지 않을 수 있다, 동일하지 않을 수 있다.

Q. 왜 객관적이여야 하느냐? A. 신뢰성!

 

DATA  → (객관적) → 모델 → 결과 → 품질 ?

  • 결과 품질 평가 관점에서, 신뢰성과 정확성↑ 이 올라간다. 

데이터를 가지고 모델링을 하여 해석을 한다. 그 결과의 신뢰성은 ? 

  • 신뢰성이 100%되는 것은 절대 불가능하다. 데이터는 과거 한 시점에서 현재의 시점을 가지고 미래의 시점을 예측하는 것이기 떄문에 100%가 불가능하다. 항상 오차가 생길 수 밖에 없다.
  • 그래서 신뢰도라는 정의가 나온 것이다. 1 - 오차 = 신뢰도

모델의 검증과 평가

  • AI 모델의 성능 평가와 검증을 위해서 통계학적 기법이 필요하다.
  • 모델의 정확도, 정밀도, 재현율, F1 점수 등을 평가하고, 교차검증과 같은 통계적 기법을 사용하여 모델의 일반화 능력을 확인할 수 있다.

데이터에 관하여 ... 

    • 전체 데이터
    • 전체 데이터에 일부를 추출 → 표본 = 집단 (대표성을 띄는 일부의 데이터이여야 좋은 데이터이다.)
    • 그 데이터 표본 (다양성)은 어떤 데이터의 값으로 평가를 하느냐?   통계량

데이터 분포와 편향성 파악

  • AI 모델을 구성할때, 데이터 분포와 편향성에 대한 이해가 필요하며, 이를 위해 통계학적 지식이 필요하다.

머신러닝은 데이터를 기반으로 모델을 구축하고, 예측을 수행하는데 있어서 통계학적인 원리와 기법을 활용한다. 

  • 대용량의 데이터를 다루기 때문에 데이터의 특성을 파악하고 이를 요약하거나 축소하는 기법이 필요하다.
  • 모델의 하이퍼파라미터 (학습률 알파)를 조정하는 과정에서는 교차검증 등의 통계적인 방법을 사용한다. 

요약하면, 인공지능은 지능적인 기계를 만드는 다양한 기술과 접근방식을 포괄하는 더 넓은분야이며, 머신 러닝은 인공지능이 가능하도록 데이터에서 학습하는 인공지능의 하위분야이다.

 

학습에 대하여 ...

  • AI 약한 학습 : 지도학습, 비지도 학습, 강화학습 (알파고 이후, 로봇 분야)
  • AI 강한 학습
지도학습 : (supervised learning) 훈련 데이터(Training Data)로부터 하나의 함수를 유추해내기 위한 
기계 학습 (Machine Learning)의 한 방법이다.

비지도 학습 : 기계 학습 중 컴퓨터가 입력값만 있는 훈련 데이터를 이용하여 입력들의 규칙성을 찾는 학습 방법.

강화 학습 : 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. 

 

파라미터 VS 하이퍼 파라미터

 

파라미터 : 데이터를 가지고 모델링하는 과정에서 사용하는 양, 학습데이터로 업데이트 되는 것, 모델에 의해서 정해지는 것

  • 예) Y = aX1 + bX2 + c, a와 b가 파라미터라고 한다. (정해야 하는 수)
  • a * 변수 (a :  영향력, 가중치)

하이퍼 파라미터 : 조건들에 대한 수 (학습률 조정), 학습자가 설정하는 것, 학습 도중 사용자 (학습자)가 정해주는 것

 

딥러닝은 무엇이냐?

  • hidden layer을 거쳐 학습이 되는 것이다.
  • Linear Vs Non-Linear : 무엇이 좋다고 일반화할 수 없다.
  • hidden layer이 많아야 좋은지 안 좋은지는 모른다. 

머신러닝에서 가장 중요한 통계학적 내용은 "확률론" (가능성)으로, 불확실한 데이터를 다루는데 필수적인 이론

확률은 절대적인 것이 아닌, 상대적인 것이다. 머신러닝 알고리즘은 데이터의 확률분포를 모델링하고, 확률분포를 기반으로 예측, 분류, 군집화 등의 작업을 수행한다. 회귀 문제에서는 데이터의 분포를 모델링하여 예측값을 계산한다. 따라서, 확률 분포를 모델링하고 이를 기반으로 예측을 수행하는 것은 머신러닝의 핵심 개념 중 하나이다. 

 

연역적 추론 VS 귀납적 추론

  • 연역적 (Deduction) 추론 (수학)
  • 일반 원리로부터 시작하여 결론에 도달
  • 사전지식 중심
  • 가설/이론 → 관찰
  • RULES 중심

 

  • 귀납적 (Induction) 추론
  • DATA 중심
  • 경험이나 관측으로부터 시작하여 결론에 도달

 

머신러닝의 한계 ?

  • BLACK BOX, f(x)가 무엇인지 모른다. 

통계학의 맹점 (한계) ?

  • 과거로부터 현재까지의 데이터를 가지고 미래를 예측하지만 시점의 차이로 인해, 불확실성 (오차)이 발생한다.
  • 해석대상을 전체에서 일부를 가지고 해석하지만, 그 일부의 데이터로 전체를 이야기한다.
  • ★ 사이즈의 오차로 인한 불확실성