본 포스팅은 Pandas 패키지 라이브러리 원문을 기반으로 하여 작성하였습니다.
1. 통계
일반적으로 계산은 missing data를 제외합니다.
기술 통계 수행
df.mean()
다른 축에서 동일한 작업
df.mean(1)
차원이 다르고 정렬이 필요한 개체로 작업합니다. 또한 pandas는 지정된 차원을 따라 자동으로 브로드캐스트 합니다.
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2)
s
df.sub(s, axis="index")
2. Apply
데이터에 함수 적용
df.apply(np.cumsum)
df.apply(lambda x: x.max() - x.min())
3. Histogramming
s = pd.Series(np.random.randint(0, 7, size=10))
s
s.value_counts()
4. 문자열 메서드
Series에는 아래 코드 조각과 같이 배열의 각 요소에서 쉽게 작동할 수 있도록 하는 str 속성에 일련의 문자열 처리 방법이 장착되어 있습니다. str의 패턴 일치는 일반적으로 기본적으로(어떤 경우에는 항상 사용합니다.) 정규식을 사용합니다.
s = pd.Series(["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"])
s
s.str.lower()
반응형
'Python > Pandas' 카테고리의 다른 글
Pandas Grouping (0) | 2021.09.18 |
---|---|
Pandas Merge (0) | 2021.09.17 |
Pandas Missing data (0) | 2021.09.15 |
Pandas Selection(변수선택) (0) | 2021.09.14 |
Pandas 데이터 보기(Viewing) (0) | 2021.09.13 |
댓글