04. Pandas 심화

04. Pandas 심화

2021. 9. 26. 23:21ㆍAI 온라인 교육/데이터 분석을 위한 라이브러리

Index 값 기준으로 정렬

- sort_index() 사용
df = df.sort_index(axis=0)
* axis=0: 행 인덱스 기준 정렬(Default 오름차순)
axis=1: 열 인덱스(column) 내림차순 정렬

df= df.sort_index(axis=1, ascending=False)
* True: 오름차순
False: 내림차순

Column 값 기준으로 정렬

col1 컬럼 기준 정렬(Default 오름차순)
- sort_values() 사용

col1 컬럼 기준 내림차순 정렬

col2컬럼 기준 오름차순 정렬 후 col1컬럼 기준 내림차순 정렬
형식:

sort_values([먼저 정렬할 column, 나중에 정렬할 column], ascending=[정렬방법, 정렬방법])

# col2의 오름차순을 순서를 방해하지 않으면서 col1을 내림차순함

count(데이터 타입: int)
: count 메서드 활용하여 데이터 개수 확인 가능

max(데이터 타입: float)
: max 메서드 활용하여 최대값 확인 가능

min(데이터 타입: float)
: min 메서드 활용하여 최소값 확인 가능

sum(데이터 타입: float)
: sum 메서드 활용하여 합계 계산

mean(데이터 타입: float)
: mean 메서드 활용하여 평균 계산

sum, mean => axis, skipna인자 활용해 합계 및 평균 계산(행기준, NaN값 포함시)

# skipna: 값이 없는게 있으면 skip할건지 무시할건지
False는 반환/True 반환 X

NaN값이 존재하는 column의 평균을 구하여 NaN값 대체

#skipna는 NaN이 없으므로 딱히 의미 없음

group by
: 간단한 집계를 넘어서서 조건부로 집계하고 싶은 경우

aggregate
: groupby를 통해서 집계를 한번에 계산하는 방법

filter
: groupby를 통해서 그룹 속성을 기준으로 데이터 필터링

apply, lambda
: groupby를 통해서 묶인 데이터에 함수 적용

* apply 함수: 데이터 프레임에 특정 함수를 '적용'시키는 함수
lambda 함수: 한 번 쓰고 버리는 함수

get_group
: groupby 로 묶인 데이터에서 key값으로 데이터를 가져올 수 있다.
df= pd.read_csv("//univ.csv")

#상위 5개 데이터
df.head()

#데이터 추출
df.groupby("시도").get_group("충남") #groupby를 통해서 시도를 묶고 get_group으로 충남의 데이터를 가져와
len(df.groupby("시도").get_group("충남)) #len을 이용해 데이터 길이를 알 수 있다.

하마의 코딩일기