판다스 공부/개념 공부

2024.01.25 판다스 공부 2일 차 (수정해야함)

코딩입문시작 2024. 2. 12. 15:14

참고 사이트 : 판다스(Pandas) 사용법 알아보기 · 괭이쟁이 (laboputer.github.io)

 

판다스(Pandas) 사용법 알아보기

판다스 공식홈페이지 10 minutes to pandas에서 소개된 기본적인 사용법을 따라하면서 번역한 글입니다. 직역하기 보다는 간단하게 요약하고 설명이 더 필요한 부분은 추가하였으니 도움되시길 바랍

laboputer.github.io

 

02 판다스 시작하기

판다스 : 데이터프레임과 시리즈라는 두 가지 새로운 자료형을 제공하는 데이터 분석용 오픈소스 라이브러리

 

판다스는 Python에서 DB처럼 테이블 형식의 데이터를 쉽게 처리할 수 있는 라이브러리 입니다. 데이터가 테이블 형식(DB Table, csv 등)으로 이루어진 경우가 많아 데이터 분석 시 자주 사용하게 될 Python 패키지입니다.

 

02-1 판다스가 왜 필요할까?

판다스 : 데이터 분석용 오픈소스 파이썬 라이브러리

데이터프레임과 시리즈라는 두 가지 새로운 자료형을 제공하며, 스프레드시트 형태의 데이터를 불러와 빠르게 조작, 정렬, 병합할 수 있다. (파이썬으로 다루는 액셀)

데이터 프레임 : 전체 직사각형 형태의 데이터 

시리즈 : 데이터프레임의 한 열 

→ 시리즈 1 + 시리즈 2 + 시리즈 3 + ... = 데이터 프레임

 

왜? 판다스같은 도구를 이용하고, 파이썬 같은 프로그래밍 언어를 사용하나?

  • 여러 데이터셋에 같은 분석 과정을 적용해야 할 때 일련의 작업을 자동화할 수 있기 때문이다.
  • 데이터 작업을 수행할 때 데이터에 적용한 모든 실행 단계를 기록할 수 있다는 장점, 즉 재현성이 있기 때문이다.
  • 안정적으로 데이터를 조작, 다른 데이터셋이나 데이터베이스 데이터를 통합하는 기능때문이다.

 

02-2 데이터셋 불러오기

 

데이터 분석할 때 가장 먼저 해야 할 일? 데이터셋을 불러오고 구조와 내용을 살펴보는 것!

 

여기서는 통계 분석 서비스인 갭마인더에서 제공하는 데이터 셋을 이용한다.

> 첫 데이터 셋 불러오기

 

판다스는 파이썬과 함께 제공되는 표준 라이브러리가 아니므로 이를 사용하려면 먼저 주피터 노트북에서 새로운 노트북을 열어 라이브러리를 불러와야 한다. 

import pandas

df = pandas.read_csv('../data/gapminder.tsv', sep='\t')

print(df)

 

또는 

import pandas as pd   
# as는 별칭을 주는 방법 [ pandas = pd ]

df = pd.read_csv('../data/gapminder.tsv', sep='\t')

print(df)

 

※ read_csv() 함수는 기본적으로, 데이터의 열을 쉼표로 구분했다고 가정하자. 그러나 예제에서 사용할 데이터 셋은 탭 문자로 열을 구분하므로 read_csv() 함수를 호출할 때 구분 문자가 탭임을 알려야 한다. 그러려면 다음과 같이 매개변수 sep='\t' 을 지정해야 한다. 

print(df)

type() 파이썬 내장 함수 : 자료형 확인 가능

shape 속성 : 행과 열의 개수 확인 가능, (첫 번째 값이 행 개수, 두 번째 값이 열 개수 튜플) 반환 

columns 속성 : 

'판다스 공부 > 개념 공부' 카테고리의 다른 글

2024.01.24 판다스 공부 1일차  (1) 2024.01.25