Pandas Categoricals

본 포스팅은 Pandas 패키지 라이브러리 원문을 기반으로 하여 작성하였습니다.

Pandas는 DataFrame에 범주형 데이터를 포함할 수 있습니다.

df = pd.DataFrame(
________{
___________"id": [1, 2, 3, 4, 5, 6],
___________"raw_grade": ["a", "b", "b", "a", "a", "e"]
________}
)

raw_grade의 값들을 범주형 자료 유형으로 변환할 수 있습니다.

df["grade"] = df["raw_grade"].astype("category")
df["grade"]

범주 이름을 보다 의미 있는 이름으로 변경하는 것이 좋습니다.

df["grade"].cat.categories = ["very good", "good", "very bad"]
df["grade"]

카테고리를 재 정렬하고 동시에 누락된 범주의 카테고리를 추가할 수 있습니다.

df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])
df["grade"]

정렬은 어휘 순서가 아니라 범주의 순서에 따라 이루어집니다.

df.sort_values(by="grade")

범주형 열을 기준으로 그룹화하면 빈 범주도 표시됩니다.

df.groupby("grade").size()

댓글