본문 바로가기
Python/Pandas

Pandas Categoricals

by 찐남 2021. 9. 21.
본 포스팅은 Pandas 패키지 라이브러리 원문을 기반으로 하여 작성하였습니다. 

 

 



 

Pandas는 DataFrame에 범주형 데이터를 포함할 수 있습니다. 

df = pd.DataFrame(
________{
___________"id": [1, 2, 3, 4, 5, 6],
___________"raw_grade": ["a", "b", "b", "a", "a", "e"]
________}
)

 

raw_grade의 값들을 범주형 자료 유형으로 변환할 수 있습니다.

df["grade"] = df["raw_grade"].astype("category")
df["grade"]

 

범주 이름을 보다 의미 있는 이름으로 변경하는 것이 좋습니다.

df["grade"].cat.categories = ["very good", "good", "very bad"]
df["grade"]

 

카테고리를 재 정렬하고 동시에 누락된 범주의 카테고리를 추가할 수 있습니다.

df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])
df["grade"]

 

정렬은 어휘 순서가 아니라 범주의 순서에 따라 이루어집니다.

df.sort_values(by="grade")

 

범주형 열을 기준으로 그룹화하면 빈 범주도 표시됩니다.

df.groupby("grade").size()

 

 

 


 

반응형

'Python > Pandas' 카테고리의 다른 글

Pandas Getting data in/out  (0) 2021.09.23
Pandas Plotting  (0) 2021.09.22
Pandas Time series  (0) 2021.09.20
Pandas Reshaping  (0) 2021.09.19
Pandas Grouping  (0) 2021.09.18

댓글