선형구조-리스트
- 데이터 유형을 저장하고, 저장된 데이터들을 그룹화할 수 있는 데이터 구조
- 숫자, 문자, 논리값 ... 등등 다양한 데이터 유형의 요소가 포함될 수 있다.
- 각각의 다른 데이터 형태를 모두 묶어서 그룹화할 수 있다.
물리에서 벡터란 ?
- 크기와 방향을 갖는 물리량
- 벡터는 사물의 움직임을 프로그래밍하기 위한 가장 기본적인 구성요소
프로그램에서 벡터란 ?
- 값을 저장하고, 조작할 수 있는 기본 데이터 구조
- 숫자, 문자 또는 논리 값과 같은 동일한 데이터 유형의 요소를 보유할 수 있는 1차원 배열
- R의 벡터는 combine을 나타내는 c( )함수를 사용하여 만들 수 있다.
리스트
- 자료를 순서대로 한 줄로 저장하는 자료구조
- 여러 자료가 일직선으로 서로 연결된 선형 구조
배열
- 단일 타입으로 구성되는 자료구조
대규모 다차원 배열
- 데이터의 대부분은 숫자 배열로 볼 수 있다.
- 흑백 이미지는 픽셀의 밝기와 명암을 2차원 배열로 표현할 수 있고 소리 같은 경우는 1차원 배열로 나타낼 수 있다.
리스트와 배열
- 리스트는 [1, 2, "KIM", 2.5, TRUE, FALSE]와 같은 실수형, 정수형, 문자열과 같은 다양하게 관계없이 구성이 가능하다.
- 배열은 모두 단일 타입으로 구성된다.
+ 프로그램에서 벡터란 ?
- 다양한 형태의 값들이 하나의 벡터에 들어갈 수 없다.
- 리스트 끼리는 연산이 불가능, 벡터 끼리는 연산이 가능하다.
배열 이란?
- 벡터의 확장된 개념
- 벡터는 1차원 데이터를 나타내는 데이터의 기본 구조이지만, 배열은 다차원 확장으로 표현이 가능하다.
- 행렬은 2차원 데이터만을 표현할 수 있지만, 배열은 다차원 표현이 가능하다.
인덱싱 이란?
- 목록이나 배열에서 특정 값을 추출하기 위해 위치나 인덱스를 지정하는 과정
- 문자, 리스트, 행렬, 배열 모두 위치나 인덱스를 가지고 있다.
리스트 인덱싱이란 ?
벡터 인덱싱이란 ? (오직 1차원의 형태만 갖는다.)
배열 인덱싱이란 ?
인덱싱 비교
- my_list[3] : 여전히 리스트 형태를 유지하며, 해당 원소가 단독으로 반환
- →[[1]] 1 2 3 리스트 그대로 출력
- my_list[[3]] : 원소 값 자체가 반환되는 것이 아니라 값을 나타내는 데이터 타입으로 반환
데이터 프레임 (DataFrame) ?
- 데이터 프레임은 프로그래밍 및 데이터 분석에 일반적으로 사용되는 표 형식의 데이터 구조
- 행과 열로 구성된 다양한 형태를 가지고 있는 리스트의 집합
- 데이터 프레임에서 각 열은 변수 또는 특정 속성을 나타낸다.
- 각 행은 개별 관찰 또는 데이터 포인트를 나타낸다.
- 데이터 프레임은 다목적이며 숫자, 범주 및 텍스트 데이터를 포함하여 다양한 유형의 데이터를 처리할 수 있다.
TEXT ?
- 텍스트 파일은 데이터를 저장하고 표현하기 위해 간단하고 널리 사용되는 형식
- 데이터는 일반적으로 각 데이터 포인트가 구분 기호(예 : 쉼표 또는 탭)로 구분된 일반 텍스트로 저장된다.
- 주요 이점은 단순성, 다양한 언어 및 소프트웨어 응용 프로그램과의 호환성이 좋다.
- 복잡한 데이터 구조에 대한 지원 부족
- 데이터 조작 및 분석 기능이 제한된다.
- 고급 데이터 작업을 위해 수동 처리가 필요하다.
EXCEL ?
- 엑셀 파일은 데이터 구성, 조작, 시각화 및 분석을 위한 포괄적인 기능 세트를 제공한다.
- 복잡한 수식, 조건부 수식, 그래픽 표현 및 다양한 데이터 유형을 지원한다.
- 엑셀 파일은 크기가 상대적으로 커서 타사 소프트웨어와의 호환성 문제가 있다.
CSV ?
- 파일은 테이블 형식 데이터 저장 및 교환에 일반적으로 사용되는 특정 유형의 텍스트 파일 형식
- CSV 파일에서 각 행은 데이터 레코드를 나타내며 행 내의 각 필드는 쉼표 또는 기타 지정된 구분 기호로 구분된다.
- 복잡한 데이터 구조 또는 수식에 대한 제한된 지원
- 고급 서식 옵션이 부족하다.
CSV에 대해 ...
- header : 데이터 프레임의 첫 행에 변수명이 있는지 없는지에 따라 TRUE와 FALSE로 구분된다.
- stringAsFactors : 문자열 변수를 요소로 변환할지 여부를 설정한다. TRUE와 FALSE로 구분된다.
- encoding : 언어적 오류가 발생할 수 있으므로 다른 언어를 인식할 수 있도록 인코딩 하는 방식을 세 가지로 저장된다.
'머신러닝1 > 수업 필기' 카테고리의 다른 글
머신러닝1 필기 (6) (0) | 2024.06.08 |
---|---|
머신러닝1 필기 (5) (0) | 2024.04.18 |
머신러닝1 필기 (4) (0) | 2024.04.17 |
머신러닝1 필기 (2) (0) | 2024.04.17 |
머신러닝1 필기 (1) (1) | 2024.04.04 |