본 포스팅은 Pandas 패키지 라이브러리 원문을 기반으로 하여 작성하였습니다.
Pandas는 DataFrame에 범주형 데이터를 포함할 수 있습니다.
df = pd.DataFrame(
________{
___________"id": [1, 2, 3, 4, 5, 6],
___________"raw_grade": ["a", "b", "b", "a", "a", "e"]
________}
)
raw_grade의 값들을 범주형 자료 유형으로 변환할 수 있습니다.
df["grade"] = df["raw_grade"].astype("category")
df["grade"]
범주 이름을 보다 의미 있는 이름으로 변경하는 것이 좋습니다.
df["grade"].cat.categories = ["very good", "good", "very bad"]
df["grade"]
카테고리를 재 정렬하고 동시에 누락된 범주의 카테고리를 추가할 수 있습니다.
df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])
df["grade"]
정렬은 어휘 순서가 아니라 범주의 순서에 따라 이루어집니다.
df.sort_values(by="grade")
범주형 열을 기준으로 그룹화하면 빈 범주도 표시됩니다.
df.groupby("grade").size()
반응형
'Python > Pandas' 카테고리의 다른 글
Pandas Getting data in/out (0) | 2021.09.23 |
---|---|
Pandas Plotting (0) | 2021.09.22 |
Pandas Time series (0) | 2021.09.20 |
Pandas Reshaping (0) | 2021.09.19 |
Pandas Grouping (0) | 2021.09.18 |
댓글