머신러닝1/수업 필기

머신러닝1 필기 (3)

코딩입문시작 2024. 4. 17. 23:15

선형구조-리스트

  • 데이터 유형을 저장하고, 저장된 데이터들을 그룹화할 수 있는 데이터 구조
  • 숫자, 문자, 논리값 ... 등등 다양한 데이터 유형의 요소가 포함될 수 있다. 
  • 각각의 다른 데이터 형태를 모두 묶어서 그룹화할 수 있다. 

물리에서 벡터란 ?

  • 크기방향을 갖는 물리량
  • 벡터는 사물의 움직임을 프로그래밍하기 위한 가장 기본적인 구성요소 

프로그램에서 벡터란 ?

  • 값을 저장하고, 조작할 수 있는 기본 데이터 구조
  • 숫자, 문자 또는 논리 값과 같은 동일한 데이터 유형의 요소를 보유할 수 있는 1차원 배열
  • R의 벡터는 combine을 나타내는 c(  )함수를 사용하여 만들 수 있다. 

리스트

  • 자료를 순서대로 한 줄로 저장하는 자료구조
  • 여러 자료가 일직선으로 서로 연결된 선형 구조

배열

  • 단일 타입으로 구성되는 자료구조

대규모 다차원 배열

  • 데이터의 대부분은 숫자 배열로 볼 수 있다.
  • 흑백 이미지는 픽셀의 밝기와 명암을 2차원 배열로 표현할 수 있고 소리 같은 경우는 1차원 배열로 나타낼 수 있다.

리스트와 배열

  • 리스트는 [1, 2, "KIM", 2.5, TRUE, FALSE]와 같은 실수형, 정수형, 문자열과 같은 다양하게 관계없이 구성이 가능하다.
  • 배열은 모두 단일 타입으로 구성된다.

+ 프로그램에서 벡터란 ?

  • 다양한 형태의 값들이 하나의 벡터에 들어갈 수 없다.
  • 리스트 끼리는 연산이 불가능, 벡터 끼리는 연산이 가능하다. 

벡터에 대한 개념

 

배열 이란?

  • 벡터의 확장된 개념 
  • 벡터1차원 데이터를 나타내는 데이터의 기본 구조이지만, 배열다차원 확장으로 표현이 가능하다.
  • 행렬은 2차원 데이터만을 표현할 수 있지만, 배열은 다차원 표현이 가능하다.

인덱싱 이란?

  • 목록이나 배열에서 특정 값을 추출하기 위해 위치나 인덱스를 지정하는 과정
  • 문자, 리스트, 행렬, 배열 모두 위치나 인덱스를 가지고 있다. 

 

리스트 인덱싱이란 ?

벡터 인덱싱이란 ? (오직 1차원의 형태만 갖는다.)

배열 인덱싱이란 ?

 

인덱싱 비교

  • my_list[3] : 여전히 리스트 형태를 유지하며, 해당 원소가 단독으로 반환
  • →[[1]] 1 2 3 리스트 그대로 출력 
  • my_list[[3]] : 원소 값 자체가 반환되는 것이 아니라 값을 나타내는 데이터 타입으로 반환

데이터 프레임 (DataFrame) ?

  • 데이터 프레임은 프로그래밍 및 데이터 분석에 일반적으로 사용되는 표 형식의 데이터 구조
  • 행과 열로 구성된 다양한 형태를 가지고 있는 리스트의 집합
  • 데이터 프레임에서 각 열은 변수 또는 특정 속성을 나타낸다.
  • 각 행은 개별 관찰 또는 데이터 포인트를 나타낸다.
  • 데이터 프레임은 다목적이며 숫자, 범주 및 텍스트 데이터를 포함하여 다양한 유형의 데이터를 처리할 수 있다. 

TEXT ?

  • 텍스트 파일은 데이터를 저장하고 표현하기 위해 간단하고 널리 사용되는 형식
  • 데이터는 일반적으로 각 데이터 포인트가 구분 기호(예 : 쉼표 또는 탭)로 구분된 일반 텍스트로 저장된다.
  • 주요 이점은 단순성, 다양한 언어 및 소프트웨어 응용 프로그램과의 호환성이 좋다.
  • 복잡한 데이터 구조에 대한 지원 부족
  • 데이터 조작 및 분석 기능이 제한된다.
  • 고급 데이터 작업을 위해 수동 처리가 필요하다.

EXCEL ?

  • 엑셀 파일은 데이터 구성, 조작, 시각화 및 분석을 위한 포괄적인 기능 세트를 제공한다.
  • 복잡한 수식, 조건부 수식, 그래픽 표현 및 다양한 데이터 유형을 지원한다.
  • 엑셀 파일은 크기가 상대적으로 커서 타사 소프트웨어와의 호환성 문제가 있다.

CSV ?

  • 파일은 테이블 형식 데이터 저장 및 교환에 일반적으로 사용되는 특정 유형의 텍스트 파일 형식
  • CSV 파일에서 각 행은 데이터 레코드를 나타내며 행 내의 각 필드는 쉼표 또는 기타 지정된 구분 기호로 구분된다.
  • 복잡한 데이터 구조 또는 수식에 대한 제한된 지원
  • 고급 서식 옵션이 부족하다.

CSV에 대해 ...

  • header : 데이터 프레임의 첫 행에 변수명이 있는지 없는지에 따라 TRUE와 FALSE로 구분된다.
  • stringAsFactors : 문자열 변수를 요소로 변환할지 여부를 설정한다. TRUE와 FALSE로 구분된다.
  • encoding : 언어적 오류가 발생할 수 있으므로 다른 언어를 인식할 수 있도록 인코딩 하는 방식을 세 가지로 저장된다.

 

'머신러닝1 > 수업 필기' 카테고리의 다른 글

머신러닝1 필기 (6)  (0) 2024.06.08
머신러닝1 필기 (5)  (0) 2024.04.18
머신러닝1 필기 (4)  (0) 2024.04.17
머신러닝1 필기 (2)  (0) 2024.04.17
머신러닝1 필기 (1)  (1) 2024.04.04