2021. 9. 25. 23:56ㆍAI 온라인 교육/데이터 분석을 위한 라이브러리
Pansdas
: 구조화된 데이터를 효과적으로 처리하고 저장하는 파이썬 라이브러리
- 대용량 데이터를 쉽게 처리할수 있는 Numpy를 기반으로 설계
Series
- 특수한 딕셔너리
- Numpy의 array가 보강된 형태
- Data와 index를 가지고 있음(data+index)
- import를 해야함
ex) import pandas as pd
- 값(value)을 ndarray형태로 가지고 있음
print 4번째 줄 -> 데이터 타입 자체는 Series 형태이지만 들어가는 value는 ndarray
- dtype 인자로 데이터 타입을 지정할 수있음
- 인덱스를 지정할 수 있고 인덱스로 접근가능 -> 인덱스로 접근해 요소 변경가능
- Dictionary를 활용해 Series생성가능
# 과일이름은 인덱스로 들어가고 price는 데이터로 들어간다. 기본적으로 int타입이다.
DataFrame
: 여러개의 Series가 모여서 행과 열을 이룬 데이터
# mg라는 키 값에 mg값을 넣고 price 키값에 price값을 넣는다.
# peach, fig, Shinemusket, plum이 index로 들어가고 mg, price가 column을 들어간다.
- Dictionary를 활용하여 DataFrame생성가능(데이터를 정의해논후 DataFrame안에 넣을 수 있다.).
# fruit=fruit.set_index('fruit')
-> index를 세팅하고 fruit의 column을 인덱스화 하겠다는 의미
DataFrame 속성
- DataFrame 속성 확인
- index, columns 이름 지정
* 문자이므로 " "잘 붙여줘야함
-데이터 프레임 저장
fruit.to_csv("./fruit.csv") #csv = comma separated value = , 구분된 값들
fruit.to_excel("fruit.xlsx") #excel로 저장
- 불러오는 법
fruit=pd.read_csv(./fruit.csv")
fruit=pd.read_excel("fruit.xlsx")
컬럼추가
: Seriese도 numpy array처럼 연산자 활용가능
데이터 추가/수정
: 리스트로 추가 or 딕셔너리로 추가
NaN column 추가
- NaN(not a number: 숫자가 아니다 비어있는 데이터)값으로 초기화한 새로운 column추가
# 0번째 index에 01012345678가 들어가고 데이터가 없으면 NaN출력
컬럼 삭제
- DataFrame에서 컬럼 삭제 후 원본 변경(drop 함수사용)
- 행의 방향(axis=0)으로 삭제할지 열의 방향(axis=1)으로 삭제할지 정해야함
- inplace: 원본을 변경할것인지 정함(True: 원본 변경 O /False: 원본 변경 X)
'AI 온라인 교육 > 데이터 분석을 위한 라이브러리' 카테고리의 다른 글
05. Matplotlib 데이터 시각화 (0) | 2021.09.29 |
---|---|
04. Pandas 심화 (0) | 2021.09.26 |
02. Numpy (0) | 2021.09.23 |
01. 모듈&패키지 (0) | 2021.09.22 |