본문 바로가기
반응형

분류 전체보기184

Pandas Selection(변수선택) 본 포스팅은 Pandas 패키지 라이브러리 원문을 기반으로 하여 작성하였습니다. 선택 및 설정을 위한 표준 Python/NumPy 표현식은 직관적이고 대화형 작업에 유용하지만 프로덕션 코드의 경우 최적화된 pandas 데이터 액세스 방법(.at, .iat, .loc and .iloc)을 권장합니다. 2021.09.12 - Pandas 객체 생성에서 생성한 예제 데이터 프레임을 계속 사용하도록 하겠습니다. 1. 가져오기 df.A와 동일한 시리즈를 생성하는 단일 열 선택 df["A"] 행을 슬라이싱하는 []를 통해 선택 df[0:3] df["20130102":"20130104"] 2. 라벨에 의한 선택 레이블을 사용하여 횡단면 가져오기 df.loc[dates[0]] 레이블로 여러 축 선택 df.loc[:, .. 2021. 9. 14.
Pandas 데이터 보기(Viewing) 본 포스팅은 Pandas 패키지 라이브러리 원문을 기반으로 하여 작성하였습니다. 2021.09.12 - [Python/Pandas 기초다지기(10분)] - Pandas 객체 생성 포스팅에서 생성한 데이터 프레임을 그대로 활용하겠습니다. 데이터프레임의 상단 및 하단 행 보기 df.head() # df라는 데이터 프레임 상단 행 확인하기 df.tail(3) # df라는 데이터 프레임 하단 행 3줄 확인하기 인덱스 및 열 표시 방법 df.index # df라는 데이터 프레임에 index 확인하기 df.columns # df라는 데이터프레임의 열 확인하기 데이터 프레임을 배열로 전환 DataFrame.to_numpy()는 데이터 프레임 형태의 데이터를 NumPy 표현으로 제공합니다. DataFrame에 다른 데.. 2021. 9. 13.
Pandas 객체 생성 본 포스팅은 Pandas 패키지 홈페이지의 원문을 기반으로 하여 작성하였습니다. 값 목록을 전달하여 시리즈 데이터 생성 및 Pandas의 기본 정수 인덱스 생성 import numpy as np import pandas as pd s = pd.Series([1, 3, 5, np.nan, 6, 8]) s 날짜/시간 인덱스와 라벨이 지정된 열이 있는 NumPy 배열을 전달하여 DataFrame 만들기 dates = pd.date_range("20130101", periods=6) dates df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD")) df 시리즈로 변환할 수 있는 개체의 dictionary를 전달하여 DataFrame.. 2021. 9. 12.
NumPy 복사 및 조회 본 포스팅은 NumPy 패키지 홈페이지의 원문을 기반으로 하여 작성하였습니다. 배열을 조작하고 다룰 때 데이터가 새 배열로 복사되는 경우가 있고 그렇지 않은 경우가 있습니다. 이것은 종종 초보자에게 혼란을 주는 주요 원인입니다. 세 가지 경우가 있습니다. 1. No Copy at All 단순 할당은 개체 또는 해당 데이터의 복사본을 만들지 않습니다. >>> import numpy as np >>> a = np.array([[ 0, 1, 2, 3], ____________________[ 4, 5, 6, 7], ____________________[ 8, 9, 10, 11]]) >>> b = a # 새로운 객체가 생성되지 않음 >>> b is a # a 및 b는 동일한 ndarray 객체에 대한 두 개의 .. 2021. 9. 11.
NumPy 배열 모양 변경 본 포스팅은 NumPy 패키지 홈페이지의 원문을 기반으로 하여 작성하였습니다. 배열의 모양 변경 배열은 각 축을 따라 요소의 수로 지정된 모양을 갖습니다. >>> rg = np.random.default_rng(1) >>> a = np.floor(10 * rg.random((3, 4))) >>> a array([[3., 7., 3., 4.], _______[1., 4., 2., 2.], _______[7., 2., 4., 9.]]) >>> a.shape (3, 4) 배열의 모양은 다양한 명령으로 변경할 수 있습니다. 다음 세 가지 명령은 모두 수정된 배열을 반환하지만 원래 배열은 변경하지 않습니다. >>> a.ravel() # 평면화된 배열 반환 array([3., 7., 3., 4., 1., 4., 2.. 2021. 9. 10.
NumPy 인덱싱, 슬라이싱, 반복 본 포스팅은 NumPy 패키지 홈페이지의 원문을 기반으로 작성하였습니다. 1차원 배열은 목록 및 기타 Python 시퀀스와 마찬가지로 인덱싱, 슬라이스 및 반복을 처리할 수 있습니다. >>> a = np.arange(10)**3 >>> a array([ 0, 1, 8, 27, 64, 125, 216, 343, 512, 729]) >>> a[2] 8 >>> a[2:5] array([ 8, 27, 64]) >>> # a[0:6:2] = 1000 와 동일 >>> # 시작부터 위치 6까지, 배타적, 모든 두 번째 요소를 1000으로 설정 >>> a[:6:2] = 1000 >>> a array([1000, 1, 1000, 27, 1000, 125, 216, 343, 512, 729]) >>> a[::-1] # r.. 2021. 9. 9.
NumPy 기본 옵션 및 함수 본 포스팅은 NumPy 패키지 홈페이지의 원문을 기반으로 작성하였습니다. 배열의 산술 연산자는 요소별로 적용됩니다. 새 배열이 생성되고 결과로 채워집니다. >>> a = np.array([20, 30, 40, 50]) >>> b = np.arange(4) >>> b array([0, 1, 2, 3]) >>> c = a - b >>> c array([20, 29, 38, 47]) >>> b**2 array([0, 1, 4, 9]) >>> 10 * np.sin(a) array([ 9.12945251, -9.88031624, 7.4511316 , -2.62374854]) >>> a < 35 array([ True, True, False, False ]) 많은 행렬 언어와 달리 곱 연산자 *는 NumPy 배열에.. 2021. 9. 8.
NumPy 활용 기초 코드 작성 본 포스팅은 NumPy 패키지 홈페이지의 원문을 기반으로 하여 작성하였습니다. Example >>> import numpy as np >>> a = np.arange(15).reshape(3, 5) >>> a array([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9], [10, 11, 12, 13, 14]]) >>> a.shape (3, 5) >>> a.ndim 2 >>> a.dtype.name 'int64' >>> a.itemsize 8 >>> a.size 15 >>> type(a) >>> b = np.array([6, 7, 8]) >>> b array([6, 7, 8]) >>> type(b) Array 생성 배열을 만드는 방법에는 여러 가지가 있습니다. 예를 들어, 배열 함수를 사용하.. 2021. 9. 7.
NumPy 기초 본 포스팅은 NumPy 패키지 홈페이지 원문을 기반으로 작성하였습니다. 전제조건 Python에 대해서 조금의 배경지식이 필요합니다. 최소한 제 포스트의 Python 사전 준비 및 Python 완전기초 카테고리에 있는 내용을 먼저 숙지하시기를 바랍니다. 또한, 예제를 실행하려면 NumPy와 함께 matplotlib 라이브러리가 설치되어 있어야 합니다. 학습자 프로필 이것은 NumPy의 배열에 대한 간략한 개요입니다. n차원() 배열이 어떻게 표현되고 조작될 수 있는지 보여줍니다. 특히 for 루프를 사용하지 않고 n차원 배열에 일반적인 함수를 적용하는 방법을 모르거나 n차원 배열의 축 및 모양 속성을 이해하려는 경우 이번 포스팅의 글이 도움이 될 수 있습니다. 학습 목표 NumPy에서 1차원, 2차원 및 .. 2021. 9. 6.
Python 리스트와 NumPy 배열의 차이점 본 포스팅은 NumPy 패키지 홈페이지의 원본 내용을 기반으로 작성하였습니다. NumPy는 배열을 생성하고 배열 내부의 숫자 데이터를 조작하는 빠르고 효율적인 방법을 광범위하게 제공합니다. Python 목록은 단일 목록 내에 다양한 데이터 유형을 포함할 수 있지만 NumPy 배열의 모든 요소는 동일 유형이어야 합니다. 배열에 대해 수행되는 수학 연산은 배열이 동질적이지 않은 경우 극도로 비효율적입니다. 왜 NumPy를 사용할까요? NumPy 배열은 Python 리스트보다 빠르고 콤팩트합니다. 배열은 메모리를 덜 소모하고 사용하기 편리합니다. NumPy는 데이터를 저장하는 데 훨씬 적은 메모리를 사용하며 데이터 유형을 지정하는 메커니즘을 제공합니다. 이를 통해 코드를 더욱 최적화할 수 있습니다. 배열(Ar.. 2021. 9. 5.
NumPy 개요 및 패키지 설치하기 본 포스팅은 NumPy 패키지 홈페이지의 원본 내용을 기반으로 작성하였습니다. NumPy 개요 NumPy(Numerical Python)는 거의 모든 과학 및 공학 분야에서 사용되는 오픈 소스 Python 라이브러리입니다. 이는 Python에서 수치 데이터 작업을 위한 보편적인 표준이며 과학적인 Python 및 PyData 생태계의 핵심입니다. NumPy 사용자는 초보 코더부터 최첨단 과학 및 산업 연구 및 개발을 수행하는 숙련된 연구원에 이르기까지 모든 사람들을 포함합니다. NumPy API는 Pandas, SciPy, Matplotlib, scikit-learn, scikit-image 및 대부분의 기타 데이터 과학 및 과학 Python 패키지에서 광범위하게 사용됩니다. NumPy 라이브러리에는 다차.. 2021. 9. 4.
8월 공모주 투자 수익률 현황 8월에는 총 12개 기업( 카카오뱅크 에이치케이이노엔 크래프톤 원티드랩 플래티어 엠로 한컴라이프케어 딥노이드 브레인즈컴퍼니 롯데렌탈 아주스틸 바이젠셀)이 상장하였습니다. 즉, 8월에는 총 12번의 공모주 투자기회가 있었다고 할 수 있죠. 공모주 투자로 월평균 50 ~ 70만원의 수익을 내기 위한 저만의 투자 기준으로 총 5개 기업에 대해서 공모주에 참여했습니다. 저만의 투자 판단의 기준은 2021.08.30 - [재테크] - 공모주 투자로 월평균 50 ~ 70만원 수익 내기 포스팅을 참고해 주세요^^ 카카오뱅크 고평가 VS 기업가치 말이 많았지만, 제 기준에서는 투자하기로 했습니다. 상장당일 변동성이 심하다가 결국 첫날 공모가 아래로 떨어질 것이라고 보고, 상장 첫날 오전에 매도했습니다. 실현손익은 57.. 2021. 9. 3.
Python VS SQL 많은 pandas 패키지를 이용하는 개발자들은 SQL에 어느 정도 익숙하므로 이번 포스팅에서는 pandas를 사용하여 다양한 SQL 작업을 수행하는 방법에 대한 몇 가지 예를 비교해서 설명하겠습니다. 본 포스팅은 pandas 홈페이지를 기반으로 하여 작성하였습니다. 관례적으로 다음과 같이 pandas와 NumPy를 가져옵니다. import numpy as np import pandas as pd 대부분의 예제는 pandas 테스트에서 찾은 tips 데이터 세트를 활용합니다. tip이라는 DataFrame으로 데이터를 읽고 동일한 이름과 구조의 데이터베이스 테이블이 있다고 가정합니다. 아래 데이터를 다운로드하세요. tips = pd.read_csv("D:/python_exer/tips.csv") tips .. 2021. 9. 2.
XGBoost 파라미터 조정(튜닝) 파라미터 조정은 기계 학습에서 쉽지 않은 영역이며, 모델의 최적 파라미터는 여러 시나리오에 따라 달라질 수 있습니다. 따라서 이를 위한 정형화되어 있는 포괄적인 가이드를 만드는 것은 사실상 불가능합니다. 이번 포스팅에서는 XGBoost 파라미터에 대한 몇 가지 지침을 제공하려고 합니다. 본 포스팅은 XGBoos의 홈페이지에 있는 내용을 기반으로 작성하였습니다. 편향-분산 트레이드오프에 대한 이해 머신 러닝이나 통계 수업을 수강한다면 반드시 이해하셔야 할 가장 중요한 개념 중 하나입니다. 기계학습에서의 파라미터 조정은 편향-분산의 트레이드오프라고 말할 수 있습니다. 모델이 더 복잡해지도록 허용하면(예: 더 깊이) 모델이 훈련 데이터를 더 잘 맞출 수 있어 편향된 모델이 덜 생깁니다. 그러나 이러한 복잡한 .. 2021. 9. 1.
R에서 XGBoost 알고리즘 적용을 위한 데이터세트 이해하기 본 포스팅은 XGBoost 패키지 홈페이지에 있는 자료를 기반으로 작성하였습니다. Introduction 이 포스팅의 목적은 XGBoost를 사용하여 분석을 위한 데이터 세트를 더 잘 탐색하고 이해하는 방법을 보여 주는 것입니다. 이 포스팅은 아무것도 예측하는 것이 아닙니다. XGBoost를 사용하여 데이터의 기능과 결과 간의 연결을 강조하는 방법을 설명합니다. if (!require('xgboost')) install.packages('xgboost') require(Matrix) require(data.table) if (!require('vcd')) install.packages('vcd') (※ VCD 패키지는 포함된 데이터 세트 중 하나에만 사용됩니다.) 데이터 세트 준비 숫자형 변수 VS 범주.. 2021. 8. 31.
공모주 투자로 월평균 50 ~ 70만원 수익 내기 공모주 투자는 주식시장에 상장을 준비하는 공모 주식에 투자하는 거죠. 우리나라의 경우, 주식은 아무리 올라봐야 30%를 넘지 못합니다. 그런데, 공모주의 경우에는 상장일에 시가가 공모주의 2배에서 시작할 수 있고, 여기에 상한가 30%까지 오르면, 높은 수익률을 기대할 수 있습니다. 하지만, 공모주는 상장 이후의 변동폭이 매우 심하기 때문에 매우 신중하게 투자를 해야 합니다. 저 같은 일반 개미 투자자는 공모주에서 엄청난 수익을 얻는 것은 현실적으로 불가능합니다. 하지만, 몇 가지 투자 원칙을 적용해서 투자하면 손실 없이 수익을 낼 수 있습니다. 참고로 저는 월평균 50만 원 ~ 70만 원 정도 수익을 꾸준히 내고 있는데요. 공모주에 투자하실 때, 제 투자 방식을 참고하시면, 큰 금액은 아니지만 손실 없.. 2021. 8. 30.
대출상환 방식에 따른 이자납입 금액 비교(만기일시상환) 2021.08.28 - [금융상식] - 대출상환 방식에 따른 이자납입 금액 비교(원금균등상환)에서는 원금 균등상환방식에 의한 대출상환 시 금융기관에 납입해야 하는 총이자금액에 대해서 알아보았습니다. 원리금 균등상환방식보다 총 이자납입금액이 더 낮았습니다. 만기 일시상환 방식에 대해서 시뮬레이션을 해보고, 총 이자납입금액을 산출해서 이전 두 가지 상환 방식과 비교해 보겠습니다. 대출 조건은 앞선 두 가지 상환 방식과 동일하게 가정하고, 파이썬을 이용해서 시뮬레이션 하겠습니다. 시뮬레이션을 위한 대출 조건 예시 대출금액: 12,000,000원 금리: 3.5% (연 이자율) 대출기간: 3년 (= 36개월) 만기일시상환에 따른 이자금액 계산 # 파이썬 코드-------------------------------.. 2021. 8. 29.
대출상환 방식에 따른 이자납입 금액 비교(원금균등상환) 2021.08.27 - [금융상식] - 대출상환 방식에 따른 이자납입 금액 비교(원리금균등상환)에서는 원리금 균등상환방식에 의한 대출상환 시 금융기관에 납입해야 하는 총이자금액에 대해서 알아보았습니다. 이번 포스팅을 보시기 전에 위에 링크되어 있는 포스팅 글을 먼저 살펴보시면 글을 이해하는 데에 더 좋을 것 같습니다. 대출 조건을 동일하게 가정하고, 상환 방식을 원금균등상환으로 약정했을 시, 지불하게 되는 총이자금액에 대해서 알아보겠습니다. 시뮬레이션을 동일하게 파이썬을 사용하겠습니다. 시뮬레이션을 위한 대출 조건 예시 대출금액: 12,000,000원 금리: 3.5% (연 이자율) 대출기간: 3년 (= 36개월) 원금균등상환에 따른 이자금액 계산 # 파이썬 코드------------------------.. 2021. 8. 28.
대출상환 방식에 따른 이자납입 금액 비교(원리금균등상환) 금융기관에서 대출을 받으면, 금융기관과 맺은 대출 약정에 따라 매월 대출에 대한 원금과 이자금액을 상환해야 합니다. 원금과 이자금액을 통상적으로 '원리금'이라고 표현합니다. 즉, 매월 원리금을 상환해야 합니다. 매월 대출을 상환해 나가는 대출상환 방식에는 크게 1) 원리금 균등상환, 2) 원금균등상환, 3) 만기 일시상환 세 가지가 있습니다. 원리금 균등상환: 매월 상환하는 대출원금과 이자금액의 합(원리금 합)이 동일한 상환 방식 원금균등상환: 매월 상환하는 대출원금이 동일한 상환 방식 만기 일시상환: 매월 이자만 납입하고, 대출 만기일에 한 번에 원금을 상환하는 방식 대출금액, 금리, 대출기간이 모두 동일해도 위의 3가지 상환 방식에 따라 금융기관에 납입해야 하는 이자금액이 다르다는 사실! 알고 계신가.. 2021. 8. 27.
[파이썬실습]신용평가 모형 검증(PSI 산출하기) 신용평가모형의 안정성 검증 지표의 하나인 PSI에 대한 자세한 설명은 2021.07.07 - [CSS(Credit Scoring System)/신용평가모형 검증지표] - [R실습]PSI 산출하기를 참고하세요. 본 포스팅에서는 파이썬을 활용해서 검증지표 산출만 실습해 보도록 하겠습니다. 1. 데이터 준비 실습을 위해 아래 자료를 다운로드 받으세요. 자료에 대한 설명은 상위 링크되어 있는 이전 포스팅을 참고하세요. 2. PSI 산출하기 import numpy as np import pandas as pd import math # 실습 데이터 파이썬으로 불러오기 psi_test = pd.read_csv("D:/python_exer/test_psi.csv") # 데이터 행 및 열의 개수 확인 psi_test ... 2021. 8. 26.
[파이썬실습]신용평가 모형 검증(AUROC 산출하기) AUROC는 K-S통계량과 함께 신용평가 모형의 성능을 검증하는 주요 지표 중의 하나입니다. 자세한 설명은 2021.07.04 - [CSS(Credit Scoring System)/신용평가모형 검증지표] - [R실습]AUROC 산출하기에서 확인하시면 됩니다. 이번 포스팅에서는 파이썬을 활용해서 실습만 진행해 보겠습니다. 본 실습은 jupyter notebook을 사용했습니다. 1. 실습 데이터 준비 상위 링크된 포스팅에서 사용한 실습 데이터를 그대로 사용하겠습니다. 2. AUROC 산출 Step1) 테스트 데이터를 파이썬으로 불러오기 import numpy as np import pandas as pd import math # D드라이브의 python_exer 폴더에 있는 test.csv 파일 불러오기 .. 2021. 8. 25.
[파이썬실습]신용평가 모형 검증(Information Value 산출하기) 이번 포스팅에서는 Information Value를 산출해 보겠습니다. Information Value에 대한 상세한 설명은 2021.07.04 - [CSS(Credit Scoring System)/신용평가모형 검증지표] - [R실습]Information Value 산출하기를 참고하시면 됩니다. 1. 실습 데이터 준비 우선, 아래 데이터를 다운로드합니다. 데이터에 대한 설명도 위의 링크를 참고하시면 됩니다. 2. Information Value 산출 Step 1) 테스트 데이터를 파이썬으로 불러오기 실습을 하려면 우선, 실습 데이터를 파이썬으로 불러와야 합니다. import numpy as np import pandas as pd import math # D드라이브의 python_exer 폴더에 있는 m.. 2021. 8. 24.
[파이썬실습]신용평가 모형 검증(K-S 통계량 산출하기) K-S통계량은 신용평가 모형의 주요 성능 검증 지표 중의 하나입니다. 해당 통계량이 신용평가 모형에 대한 검증에 어떻게 활용되는지는 2021.07.03 - [CSS(Credit Scoring System)/신용평가모형 검증지표] - [R실습]K-S 통계량 산출하기를 참고하시면 됩니다. 이번 포스팅에서는 파이썬을 활용해서 실습만 진행해 보겠습니다. 본 실습은 jupyter notebook을 사용했습니다. 1. 실습 데이터 준비 상위에 링크되어 있는 데이터를 그대로 사용하겠습니다. test.csv에는 3개의 헤더 포함 33개의 row와 3개의 column이 있습니다. car_kind: 자동차 종류이지만, 여기서는 사람을 구별할 수 있는 id로 간주 prob: 우량 고객일 확률(값이 클수록 우량 고객일 확률이.. 2021. 8. 23.
파이썬 vs R (R libraries) 본 포스팅은 pandas 공식 홈페이지를 기반으로 작성하였습니다. data.frame pandas는 R을 사용하는 많은 데이터 조작 및 분석 기능을 제공하는 것을 목표로 하기 때문에, 본 포스팅에서는 pandas와 관련된 R 언어 및 R 언어의 많은 라이브러리에 대한 자세한 내용을 비교하여 설명하려고 합니다. R 및 CRAN 라이브러리와 주요 비교는 아래와 같습니다. 기능 및 유연성 : 각 Tool로 할 수 있는 것과 할 수 없는 것 성능 : 작업이 얼마나 빠른지. 어려운 숫자 및 벤치마크가 바람직합니다. 사용의 용이성 : 판단이 쉽도록 코드를 비교표 형식으로 제공 이 페이지는 또한 이러한 R 패키지 사용자를 위한 약간의 설명을 제공합니다. pandas에서 R로 DataFrame 개체를 전송하는 경우 한.. 2021. 8. 22.
Pandas 텍스트 데이터 다루기 본 내용을 보기 전에 Python 사전 준비 및 Python 완전 기초를 먼저 이해하셔야 합니다. 본 포스팅은 pandas 공식 홈페이지를 기반으로 작성하였습니다. 이번 포스팅에서는 titanic 승객 데이터를 활용하겠습니다. import pandas as pd titanic = pd.read_csv("D:/python_exer/titanic.csv") titanic.head() 1. 텍스트 데이터 다루기 1.1. 모든 이름 문자를 소문자로 변경하기 titanic["Name"].str.lower() 이름 열의 각 문자열을 소문자로 만들려면 이름 열을 선택하고, str 접근자를 추가하여 lower 메서드를 적용합니다. 따라서 각 문자열은 요소별로 변환됩니다. str 접근자를 사용할 때 여러 특수 문자열 메.. 2021. 8. 21.
Pandas 시계열 데이터 다루기 본 내용을 보기 전에 Python 사전 준비 및 Python 완전 기초를 먼저 이해하셔야 합니다. 본 포스팅은 pandas 공식 홈페이지를 기반으로 작성하였습니다. 이번 포스팅에서 사용할 실습 데이터는 Air quality data입니다. 아래 데이터를 활용하시면 됩니다. (air_quality_no2_long.csv: NO2 및 2.5 마이크로미터 미만의 미립자 물질에 ​​대한 대기 품질 데이터로, openaq에서 제공하고 py-openaq 패키지를 사용하여 다운로드합니다. 파리, 앤트워프 및 런던에 있는 측정 스테이션 FR04014, BETR801 및 런던 웨스트민스터에 대한 NO2 값을 제공합니다.) import pandas as pd import matplotlib.pyplot as plt air.. 2021. 8. 20.
Pandas 활용 테이블 결합 방법 본 내용을 보기 전에 Python 사전 준비 및 Python 완전 기초를 먼저 이해하셔야 합니다. 본 포스팅은 pandas 공식 홈페이지를 기반으로 작성하였습니다. 본 포스팅의 실습을 위해 사용할 2개의 데이터 세트는 아래와 같습니다. (NO2에 대한 대기질 데이터로, openaq에서 제공하고 py-openaq 패키지를 사용하여 다운로드 가능. air_quality_no2_long.csv 데이터 세트는 각각 파리, 앤트워프 및 런던에 있는 측정 스테이션 FR04014, BETR801 및 런던 웨스트민스터에 대한 NO2 값 제공) import pandas as pd air_quality_no2 = pd.read_csv("D:/python_exer/air_quality_no2_long.csv", parse_.. 2021. 8. 19.
Pandas 테이블 구조 변경 방법 본 내용을 보기 전에 Python 사전 준비 및 Python 완전 기초를 먼저 이해하셔야 합니다. 본 포스팅은 pandas 공식 홈페이지를 기반으로 작성하였습니다. 앞선 포스팅에서 계속 사용했던 titanic 승객 데이터와 air quality 데이터를 계속 사용하겠습니다. import pandas as pd titanic = pd.read_csv("D:/python_exer/titanic.csv") titanic.head() air_quality = pd.read_csv("D:/python_exer/air_quality_long.csv", index_col = "date.utc", parse_dates = True) air_quality.head() 1. 테이블 구조 변경 방법 1.1. 행 정렬 1.1.. 2021. 8. 18.
Pandas 활용 요약통계량 생성하기 본 내용을 보기 전에 Python 사전 준비 및 Python 완전 기초를 먼저 이해하셔야 합니다. 본 포스팅은 pandas 공식 홈페이지를 기반으로 작성하였습니다. 실습에 활용할 데이터는 titanic 승객 데이터입니다. 우선 python 내 데이터 프레임으로 변환하겠습니다. import pandas as pd titanic = pd.read_csv("D:/python_exer/titanic.csv") titanic.head() 1. 요약통계량 생성 방안 1.1 타이타닉 승객의 평균 연령 구하기 titanic.mean() 다양한 통계량을 사용할 수 있고, 숫자 데이터가 있는 열에 적용할 수 있습니다. 일반적으로 누락된 데이터는 제외하고 기본적으로 여러 행에서 대해서 작업합니다. 1.2. 타이타닉 승객의 .. 2021. 8. 17.
Pandas 신규 Column 생성 본 내용을 보기 전에 Python 사전 준비 및 Python 완전 기초를 먼저 이해하셔야 합니다. 본 포스팅은 pandas 공식 홈페이지를 기반으로 작성하였습니다. 2021.08.15 - [Python/Pandas 기초익히기] - Pandas에서 플롯 생성 방안에서 사용한 실습 데이터를 계속 사용하겠습니다. import pandas as pd air_quality = pd.read_csv("D:/python_exer/air_quality_no2.csv", index_col=0, parse_dates=True) air_quality.head() 런던 스테이션의 NO2 농도를 mg/m3으로 표현하려고 하면 어떻게 해야 할까요? (온도 25도, 기압 1013hPa라고 가정하면 환산계수는 1.882) 아래와 같.. 2021. 8. 16.
반응형