본 내용을 보기 전에 Python 사전 준비 및 Python 완전 기초를 먼저 이해하셔야 합니다.
본 포스팅은 pandas 공식 홈페이지를 기반으로 작성하였습니다.
1. Pandas 시작
앞선 포스팅(pandas 패키지 소개)에서 pandas 라이브러리를 설치했다면, 이제 pandas 라이브러리를 사용할 준비가 되었다고 할 수 있습니다. Python에서 pandas 라이브러리를 사용하기 위해서는 아래와 같이 입력합니다.
import pandas as pd
pandas에 대한 커뮤니티 동의 별칭은 pd이므로 pandas를 pd로 로드하는 것은 모든 pandas 문서에 대한 표준적인 관행으로 간주됩니다.
1.1. Pandas 데이터 테이블 표현
2. 간단한 데이터 프레임 생성
테이블에 데이터를 수동으로 저장하려면 DataFrame을 만들어야 합니다. Python의 리스트 딕셔너리를 사용할 때 딕셔너리 key를 열 헤더로 사용할 수 있고, 각 목록의 값은 DataFrame의 열로 사용됩니다.
DataFrame은 다양한 유형의 데이터(문자, 정수, 부동 소수점 값, 범주형 데이터 등 포함)를 열에 저장할 수 있는 2차원 데이터 구조입니다. 스프레드시트, SQL 테이블, R의 data.frame, Sas data set과 유사합니다.
- 테이블에는 각각 열 레이블이 있는 3개의 열이 있습니다. 열 레이블은 각각 Name, Age 및 Sex입니다.
- Name 열은 각 값이 문자열인 텍스트 데이터로 구성되며 Age 열은 숫자이고 Sex 열은 텍스트 데이터입니다.
DataFrame의 각 열은 Series입니다.
3. 특정 칼럼 추출
모든 column 중에서 특정 column(ex. Age)의 데이터 작업에 관심이 있을 수 있습니다. 특정 column을 선택하는 방법은 아래와 같습니다.
df['Age'] # df라는 데이터 프레임에서 'Age' column만 추출
print(df['Age']) # 화면에 출력
pandas DataFrame의 단일 열을 선택하면 결과는 pandas Series 데이터 유형입니다. column을 선택하려면 대괄호 [] 사이에 열 레이블을 입력하면 됩니다. 이는 Python 딕셔너리에 익숙하다면 단일 column을 선택하는 것은 key를 기반으로 딕셔너리 value를 선택하는 것과 매우 유사합니다.
처음부터 시리즈를 만들 수도 있습니다.
ages = pd.Series([20, 30, 40], name = "Age")
print(ages)
DataFrame의 단일 column이기 때문에, pandas Series에는 column 라벨이 없습니다. 시리즈에는 row 라벨이 있습니다.
4. DataFrame 혹은 Series 데이터로 할 수 있는 것들
4.1. max 함수 활용
3명 중에 가장 나이가 많은 사람이 몇 살인지 알고 싶으면, max 함수를 사용하면 됩니다.
# DataFrame 예시
df['Age'].max()
print(df['Age'].max())
가장 나이가 많은 사람이 65세라는 사실을 알 수 있습니다.
# Series 예시
Age.max()
print(Age.max())
위에서 생성했던 Series 데이터에서는 가장 나이 많은 사람이 30세라는 사실을 알 수 있습니다. DataFrame 또는 Series로 max 함수를 사용하면 알 수 있습니다. pandas는 많은 기능을 제공하며, 각각의 기능은 DataFrame 또는 Series에 적용할 수 있는 방법입니다. 메서드는 함수이므로 괄호()를 꼭 사용해야 합니다.
4.2. 기초 통계량 확인(describe)
데이터의 숫자 데이터에 대한 몇 가지 기본 통계를 확인할 수도 있습니다.
df.describe()
print(df.describe())
describe() 메서드는 DataFrame의 숫자 데이터에 대한 빠른 개요를 제공합니다. 참고로 Name 및 Sex 열은 텍스트 데이터이므로 기본적으로 describe() 메서드에서 고려되지 않습니다.
많은 pandas 작업은 DataFrame 또는 Series를 반환합니다. describe() 메서드는 pandas Series 또는 pandas DataFrame을 반환하는 pandas 작업의 예입니다.
5. 마치며...
이것은 시작점일 뿐입니다. 스프레드시트 소프트웨어와 유사하게 pandas는 데이터를 열과 행이 있는 테이블로 나타냅니다. 표현 외에도 스프레드시트 소프트웨어에서 수행하는 데이터 조작 및 계산도 pandas에서 지원합니다. 이에 대해서 계속 학습해 나가도록 하겠습니다.
Point!
- Python에서 pandas를 활용하기 위해서는 import pandas as pd로 시작해야 합니다(pandas 라이브러리가 이미 설치되어 있어야 합니다).
- 데이터 테이블은 pandas DataFrame으로 저장됩니다.
- DataFrame의 각 열은 시리즈입니다.
- DataFrame 또는 Series에 메서드를 적용하여 작업을 수행할 수 있습니다.
'Python > Pandas' 카테고리의 다른 글
Pandas 활용 요약통계량 생성하기 (0) | 2021.08.17 |
---|---|
Pandas 신규 Column 생성 (0) | 2021.08.16 |
Pandas에서 플롯 생성 방안 (0) | 2021.08.15 |
Pandas 데이터프레임의 부분 데이터 세트 선택 방법 (0) | 2021.08.14 |
Pandas 표 데이터 입/출력 및 데이터 확인 (0) | 2021.08.13 |
댓글