반응형 PANDAS8 Pandas Pro가 되기 위해 마스터해야 하는 30가지 방법 Pandas는 의심의 여지없이 테이블 형식 데이터 랭글링 및 처리 작업을 위해 Python으로 구축된 최고의 라이브러리 중 하나입니다. 오픈 소스이기 때문에 전 세계 여러 지역의 수많은 개발자가 개발에 기여하여 다양한 작업을 위한 수백 가지 방법을 지원하여 오늘날의 위치에 도달했습니다. 그러나 초보자가 Pandas 라이브러리에서 확고한 자리를 잡으려고 하는 경우 Pandas의 공식 문서로 시작하면 처음에는 상황이 매우 벅차고 압도적으로 보일 수 있습니다. (이거 언제다 익히냐????) 이번 포스팅에서는 Pandas를 시작하는 데 도움을 주기 위한 것입니다. 이번 포스팅에서는 Pandas를 사용한 경험을 되돌아보고, 거의 항상 사용했던 30가지 구체적인 방법에 대해서 살펴보겠습니다. 라이브러리 가져오기 P.. 2023. 5. 28. 데이터 랭글링(데이터 분석을 위한 15가지 Pandas 기능) 데이터 분석가를 위한 최고의 무기! Pandas! Python의 이 강력한 라이브러리는 데이터 조작 및 탐색을 쉽고 즐겁게 만듭니다. 이번 포스팅에서는 "Palmer Penguins"라는 인기 있는 데이터 세트를 사용하여 Pandas의 고급 기능 중 일부를 살펴보고, 사용 방법의 예를 제공하도록 하겠습니다. # Palmer Penguins 데이터 불러오기 pip install palmerpenguins # palmerpenguins 라이브러리 설치하기 import pandas as pd # pandas 라이브러리 로딩 import seaborn as sns #seaborn 라이브러리 로딩 from palmerpenguins import load_penguins sns.set_style('whitegrid.. 2023. 2. 24. 데이터 분석의 70%를 처리할 수 있는 10가지 Python 작업 데이터 분석의 주요 업무는 데이터 사전 처리, 데이터 분석, 기계 학습 모델 생성, 모델 배포와 같은 다양한 작업을 포함합니다. 데이터 분석을 하기 위해서는 첫 번째, 데이터 조작(data handling) 기술을 알아야 합니다. 데이터 조작은 데이터를 읽고, 데이터에서 질문에 답을 얻을 수 있는 형식으로 변환하는 것에서부터 시작됩니다. Python 프로그래밍 언어에는 데이터 조작 및 데이터 분석 작업을 위한 Pandas 라이브러리가 있습니다. 이번 포스팅에서는 데이터 분석을 위해 알아야 할 상위 10가지 Python(pandas) 에 대해서 살펴보겠습니다. 1. Reading Dataset(데이터 읽기) 데이터는 모든 분석의 기본 구성 요소입니다. csv, Excel, 텍스트 등과 같은 다양한 파일 형.. 2022. 5. 21. pandas를 활용한 데이터 정리 우리가 현실에서 마주하게 되는 실제 데이터 세트는 정리되지 않은 지저분한(?) 형태이므로 데이터가 분석에 적합하도록 데이터 전처리 또는 정리가 필수적입니다. 데이터 정리에는 1) 데이터 간격 정리 2) 데이터 오류 수정 3) 데이터 세트 결합 4) 데이터 집계 5) 새로운 feature 생성 등이 포함됩니다. 이번 포스팅에서는 pandas를 사용하여 'Marks_data'라는 매우 간단한 데이터 세트를 활용해서 데이터 정리 방법에 대해 설명합니다. 위의 데이터 세트를 다운로드하여 pandas 패키지로 로딩합니다. import pandas as pd # 데이터 로딩 marksData = pd.read_csv('C:\marks_data.csv') marksData marksData.shape # (19, 3.. 2022. 4. 30. pandas 데이터 구조 소개(Series) 본 포스팅은 Pandas 패키지 라이브러리 원문을 기반으로 하여 작성하였습니다. 데이터 구조 소개 pandas의 기본 데이터 구조에 대한 개요부터 알아보도록 하겠습니다. 데이터 유형, 인덱싱 및 축 레이블 지정/정렬에 대한 기본 동작은 모든 개체에 적용됩니다. 시작하려면 NumPy와 pandas 라이브러리를 먼저 로드하도록 하겠습니다. import numpy as np import pandas as pd 다음은 반드시 알아야 할 기본 원칙입니다. 데이터 정렬은 본질적입니다. 레이블과 데이터 간의 연결은 사용자가 명시적으로 수행하지 않는 한 끊어지지 않습니다. 데이터 구조에 대해서 간략히 소개하고, 별도의 섹션에서 광범위한 기능 및 메서드 범주를 모두 알아보겠습니다. Series Series는 모든 데이터.. 2021. 10. 15. Pandas 신규 Column 생성 본 내용을 보기 전에 Python 사전 준비 및 Python 완전 기초를 먼저 이해하셔야 합니다. 본 포스팅은 pandas 공식 홈페이지를 기반으로 작성하였습니다. 2021.08.15 - [Python/Pandas 기초익히기] - Pandas에서 플롯 생성 방안에서 사용한 실습 데이터를 계속 사용하겠습니다. import pandas as pd air_quality = pd.read_csv("D:/python_exer/air_quality_no2.csv", index_col=0, parse_dates=True) air_quality.head() 런던 스테이션의 NO2 농도를 mg/m3으로 표현하려고 하면 어떻게 해야 할까요? (온도 25도, 기압 1013hPa라고 가정하면 환산계수는 1.882) 아래와 같.. 2021. 8. 16. Pandas 데이터프레임의 부분 데이터 세트 선택 방법 본 내용을 보기 전에 Python 사전 준비 및 Python 완전 기초를 먼저 이해하셔야 합니다. 본 포스팅은 pandas 공식 홈페이지를 기반으로 작성하였습니다. 이번 포스팅에서 사용할 데이터는 2021.08.13 - [Python/Pandas 기초익히기] - Pandas 표 데이터 입/출력 및 데이터 확인에서 활용한 titanic 승객 데이터를 계속 활용하겠습니다(titanic 승객 데이터의 위의 포스팅에서 다운로드하시면 됩니다.). import pandas as pd titanic = pd.read_csv("D:/python_exer/titanic.csv") 1. 데이터프레임의 부분 데이터 세트 선택 방법 1.1. 특정 열(column) 선택 타이타익 승객 데이터 중에서 나이에 관심이 있어, Age.. 2021. 8. 14. Pandas 표 데이터 입/출력 및 데이터 확인 본 내용을 보기 전에 Python 사전 준비 및 Python 완전 기초를 먼저 이해하셔야 합니다. 본 포스팅은 pandas 공식 홈페이지를 기반으로 작성하였습니다. Python은 pandas 라이브러리를 활용해서 외부 데이터를 불러오고, 데이터 분석을 수행한 후에, 다시 외부 데이터로 내보낼 수 있습니다. Python 내부로 불러들일 때에는 read_* 구문을 활용하고, 외부로 내보낼 때에는 to_* 구문을 활용합니다. 실습을 위해 프로그램 작성 시 가장 많이 활용되는 데이터 중의 하나인 titanic 승객 데이터를 사용하겠습니다. 우선, 실습 데이터를 다운로드하세요. CSV 파일로 제공되는 titanic 승객 데이터를 분석해 보도록 하겠습니다. 1. 파일 불러오기 외부 파일을 불러올 때는 pandas .. 2021. 8. 13. 이전 1 다음 반응형