04. Pandas 심화

2021. 9. 26. 23:21AI 온라인 교육/데이터 분석을 위한 라이브러리

데이터 프레임 정렬하기

Index 값 기준으로 정렬

 - sort_index() 사용
    df = df.sort_index(axis=0)
 * axis=0: 행 인덱스 기준 정렬(Default 오름차순)
    axis=1: 열 인덱스(column) 내림차순 정렬


  df= df.sort_index(axis=1, ascending=False)
 * True: 오름차순
    False: 내림차순

 


Column 값 기준으로 정렬

col1 컬럼 기준 정렬(Default 오름차순)
 - sort_values() 사용

 

col1 컬럼 기준 내림차순 정렬



col2컬럼 기준 오름차순 정렬 후 col1컬럼 기준 내림차순 정렬 
형식:

 sort_values([먼저 정렬할 column나중에 정렬할 column],  ascending=[정렬방법정렬방법])

# col2의 오름차순을 순서를 방해하지 않으면서 col1을 내림차순함

 


집계 함수(Default: NaN값 제외)

count(데이터 타입: int)
  : count 메서드 활용하여 데이터 개수 확인 가능



max(데이터 타입: float)
 : max 메서드 활용하여 최대값 확인 가능

 


min(데이터 타입: float)
 : min 메서드 활용하여 최소값 확인 가능



sum(데이터 타입: float)
 : sum 메서드 활용하여 합계 계산

 


mean(데이터 타입: float)
 : mean 메서드 활용하여 평균 계산



sum, mean => axis, skipna인자 활용해 합계 및 평균 계산(행기준, NaN값 포함시)

# skipna: 값이 없는게 있으면 skip할건지 무시할건지 
   False는 반환/True 반환 X

 


NaN값이 존재하는 column의 평균을 구하여 NaN값 대체

#skipna는 NaN이 없으므로 딱히 의미 없음

 

 



그룹으로 묶기

group by
 : 간단한 집계를 넘어서서 조건부로 집계하고 싶은 경우



aggregate
 : groupby를 통해서 집계를 한번에 계산하는 방법



filter
 : groupby를 통해서 그룹 속성을 기준으로 데이터 필터링



apply, lambda
 : groupby를 통해서 묶인 데이터에 함수 적용

 * apply 함수:  데이터 프레임에 특정 함수를 '적용'시키는 함수
   lambda 함수: 한 번 쓰고 버리는 함수

 


get_group
 : groupby 로 묶인 데이터에서 key값으로 데이터를 가져올 수 있다.
df= pd.read_csv("//univ.csv")


#상위 5개 데이터
df.head()


#데이터 추출
df.groupby("시도").get_group("충남") #groupby를 통해서 시도를 묶고 get_group으로 충남의 데이터를 가져와
len(df.groupby("시도").get_group("충남)) #len을 이용해 데이터 길이를 알 수 있다.

'AI 온라인 교육 > 데이터 분석을 위한 라이브러리' 카테고리의 다른 글

05. Matplotlib 데이터 시각화  (0) 2021.09.29
03. Pansdas  (0) 2021.09.25
02. Numpy  (0) 2021.09.23
01. 모듈&패키지  (0) 2021.09.22