본문 바로가기
반응형

데이터 탐색5

Python-Pandas 함수 및 메서드(30) 이번 포스팅에서는 데이터 분석에 자주 사용되는 30가지의 유용한 python-pandas 함수/메서드를 정리하겠습니다. 1. 데이터 로드 및 이해 2. 열 또는 행 선택 3. 하나 이상의 열을 사용한 데이터 필터링 4. 데이터 정렬 및 열 삭제 5. 데이터 요약 사용한 데이터는 Kaggle의 Airlines.csv입니다. pandas 패키지를 로드하는 것으로 시작하겠습니다. import pandas as pd 1. CSV 파일 로드 # 1. csv 파일의 데이터를 메모리에 로딩 airlines = pd.read_csv("C:/Python_apply/Airlines.csv") 2. 데이터 프레임의 행과 열 수 얻기 # 2. Shape of a dataframe airlines.shape # 결과: (539.. 2022. 9. 18.
Netflix 컨텐츠에 대한 탐색적 데이터 분석에서 얻은 흥미로운 통찰력 이번 포스팅에서는 Netflix에서 제공되는 TV 프로그램 및 영화에서 흥미로운 통찰력을 얻기 위한 분석을 진행해 보고자 합니다. NumPy, Pandas, Matplot 및 Seaborn 라이브러리를 사용하여 데이터를 분석하고 시각화하도록 하겠습니다. 시작하기 이 데이터세트는 2020년 현재 Netflix에서 제공되는 TV 프로그램 및 영화로 구성되어 있습니다. 해당 데이터는 캐글에서 다운로드하시면 됩니다. (https://www.kaggle.com/shivamb/netflix-shows) import numpy as np import pandas as pd netflixData = pd.read_csv("C:/netflix_titles/netflix_titles.csv") netflixData.hea.. 2022. 9. 13.
(EDA)파이썬을 이용한 탐색적 데이터 분석 프로젝트 Kaggle의 Google Play 스토어 데이터 세트에서 EDA 수행 탐색적 데이터 분석(EDA): EDA(Exploratory data analysis)는 모든 데이터 분석에서 중요한 단계입니다. EDA는 데이터 세트에 대한 이해를 바탕으로 패턴 및 이상치(outlier)를 발견하고, 가설을 세우기 위해 데이터 세트를 탐색하는 프로세스입니다. EDA는 데이터 세트의 수치 데이터에 대한 요약 통계를 생성하고, 데이터를 더 잘 이해하기 위해 다양한 그래픽 표현을 생성하는 것을 포함합니다. 이번 포스팅에서는 Python을 이용해서 예제 데이터 세트를 가지고 EDA의 과정을 처음부터 끝까지 수행해 보겠습니다. 사용하고자 하는 Python library는 Pandas, Numpy, matplotlib, sea.. 2022. 7. 22.
데이터 분석의 70%를 처리할 수 있는 10가지 Python 작업 데이터 분석의 주요 업무는 데이터 사전 처리, 데이터 분석, 기계 학습 모델 생성, 모델 배포와 같은 다양한 작업을 포함합니다. 데이터 분석을 하기 위해서는 첫 번째, 데이터 조작(data handling) 기술을 알아야 합니다. 데이터 조작은 데이터를 읽고, 데이터에서 질문에 답을 얻을 수 있는 형식으로 변환하는 것에서부터 시작됩니다. Python 프로그래밍 언어에는 데이터 조작 및 데이터 분석 작업을 위한 Pandas 라이브러리가 있습니다. 이번 포스팅에서는 데이터 분석을 위해 알아야 할 상위 10가지 Python(pandas) 에 대해서 살펴보겠습니다. 1. Reading Dataset(데이터 읽기) 데이터는 모든 분석의 기본 구성 요소입니다. csv, Excel, 텍스트 등과 같은 다양한 파일 형.. 2022. 5. 21.
pandas value_counts() 함수 Pandas의 value_counts() 함수는 데이터분석을 하는데 있어, 가장 기초적이면서 일반적으로 사용되는 함수 중 하나입니다. 기본적으로 지정된 열의 각 값(value)에 대한 모든 발생 횟수를 반환합니다. 단순한 방법 이외에 여러 옵션을 사용해서 그 이상의 역할을 수행할 수 있습니다. 시작하려면 먼저 데이터가 필요합니다. 작은 데이터 프레임을 만들어서 여러 가지 옵션을 사용해 보겠습니다. import numpy as np import pandas as pd exData = {"Name": ["James","Dan","Jonathan","Eric","Joanna","Mary","Sue","Jim","Lionel","Tim"], "Sex":["Male","Male","Male","Male","Fem.. 2022. 5. 2.
반응형