본문 바로가기
반응형

분류 전체보기184

파이썬을 활용한 엑셀 시트에 값 입력하기 이번 포스팅에서는 파이썬을 활용해서 엑셀 시트에 값을 입력하는 방법에 대해서 알아보겠습니다. import openpyxl as xls # 신규 엑셀 워크북 생성 wb = xls.Workbook() # 활성화되어 있는 시트 가져오기 ws = wb.active # 시트명 삽입하기 ws.title = "값입력하기" 위의 코드를 실행하면, 기본적인 엑셀 파일을 다루기 위한 객체들이 생성됩니다. 이에 대한 설명은 아래 포스팅을 참고하시면 됩니다. 파이썬을 활용한 엑셀 파일 생성하기 엑셀 파일의 분석을 파이썬을 이용하여 수행할 수 있는 데요. 이는 반복적인 엑셀 작업이 필요할 때, 매우 유용하게 사용할 수 있습니다. 본 포스팅에서는 파이썬을 활용하여 엑셀을 사용할 수 zzinnam.tistory.com 엑셀 주소를.. 2022. 7. 9.
파이썬을 활용한 엑셀 시트 다루기 지난 포스팅에서는 파이썬을 이용해서 엑셀 파일을 생성하는 방법에 대해서 알아보았습니다. 파이썬을 활용한 엑셀 파일 생성하기 엑셀 파일의 분석을 파이썬을 이용하여 수행할 수 있는 데요. 이는 반복적인 엑셀 작업이 필요할 때, 매우 유용하게 사용할 수 있습니다. 본 포스팅에서는 파이썬을 활용하여 엑셀을 사용할 수 zzinnam.tistory.com 이번 포스팅에서는 시트를 다루는 방법에 대해서 알아보겠습니다. Sheet 다루기 1. Sheet 명 입력하기 시트명을 입력하는 방법 2가지를 알아보겠습니다. 이미 생성된 Sheet에 title 메서드를 사용하는 방법과 Sheet를 생성함과 동시에 Sheet명을 입력하는 방법이 있습니다. ## 시트 다루기 import openpyxl as xls # 새로운 work.. 2022. 7. 9.
파이썬을 활용한 엑셀 파일 생성하기 엑셀 파일의 분석을 파이썬을 이용하여 수행할 수 있는 데요. 이는 반복적인 엑셀 작업이 필요할 때, 매우 유용하게 사용할 수 있습니다. 본 포스팅에서는 파이썬을 활용하여 엑셀을 사용할 수 있는 방법에 대해서 알아보겠습니다. openpyxl 패키지 설치하기 파이썬으로 엑셀 파일을 다루기 위해서는 우선, openpyxl이라는 파이썬 패키지를 설치해야 합니다. # openpyxl 패키지 설치하기 pip install openpyxl 엑셀 파일 생성하기 파이썬을 활용해서 엑셀을 다루기 위해서는 제일 먼저 엑셀 파일을 생성해야 합니다. 엑셀을 생성하는 방법은 아래와 같습니다. import openpyxl as xls # 새로운 workbook 생성하기 wb = xls.Workbook() # 활성화된 워크시트 가져.. 2022. 7. 8.
파이썬 초보자를 위한 클래스와 객체 파이썬을 처음 시작하고 나서 첫 번째로 마주하게 되는 벽(?)이 클래스(Class)입니다. 이번 포스팅에서는 파이썬 초보자를 위해 클래스와 객체에 대한 기본적인 개념과 어떻게 작동하는 지를 배워보도록 하겠습니다. 개요 파이썬을 처음 접할 때, 정말 많이 들어 보셨을 문장입니다. "파이썬은 '객체 지향 프로그래밍 언어'입니다." 이 문장의 의미는 거의 모든 파이썬 코드가 클래스라는 특수 구조를 사용하여 구현된다는 것을 의미합니다. 프로그래머는 관련된 모든 것들을 유지하기 위해 클래스를 사용합니다. 이것은 객체 지향 구조의 그룹인 "class" 키워드를 사용하여 수행됩니다. 파이썬 클래스와 객체란? 클래스는 객체를 생성하기 위한 코드 템플릿입니다. 객체에는 멤버 변수가 있고, 이와 관련된 동작이 있습니다. .. 2022. 7. 4.
거의 모든 데이터 분석 작업을 해결하는 Pandas 필터링 방법 필터링은 데이터 분석가를 위해 raw data를 필터링하는 핵심 키 작업 중 하나입니다. 이번 포스팅에서는 pandas에서 사용할 수 있는 다양한 필터링 방법을 설명 하도로 하겠습니다. 코드를 쉽게 재현할 수 있도록 필터링 작업에 가장 유명한 Titanic 데이터 세트를 사용했습니다. import pandas as pd titanic = pd.read_csv("D:/titanic.csv") titanic.head() 조건을 사용한 행 필터링 1) Location (loc) function 여기에서는 3등석 승객만 필터링하기 위해 pandas location functiond을 사용하겠습니다. titanicPclass3 = titanic.loc[titanic["Pclass"] == 3] titanicPcl.. 2022. 7. 2.
알아두면 유용한 pandas 단편 정보들 Pandas는 데이터 처리를 위한 강력한 라이브러리입니다. 데이터를 다루는 다양한 작업에 유용한 기능을 많이 제공하기 때문에 데이터 과학을 위한 맥가이버 칼과 같습니다. 이 도구를 효과적으로 사용하려면 몇 가지 트릭을 알아야 합니다. 본 포스팅에서는 정기적으로 사용하는 유용한 pandas 단편 정보에 대해 자세히 설명하겠습니다. Pandas 라이브러리에 대한 이해가 있는 경우 아래 정보들이 유용할 수 있습니다. Pandas에 익숙하지 않은 분들을 위해 몇 가지 예를 통해 라이브러리를 더 잘 이해하는 데 도움이 되도록 하겠습니다. 이 포스팅에서 사용된 데이터 세트는 Kaggle에 있는 자료입니다. (https://www.kaggle.com/competitions/house-prices-advanced-re.. 2022. 6. 30.
Python 예제를 사용한 기계 학습의 정규화 및 표준화 모든 기계 학습의 시작은 데이터 전처리로 시작됩니다. Feature Scaling은 전처리에서 중요한 단계 중 하나일 수 있습니다. 이번 포스팅에서는 2개의 Feature Scaling에 대해서 알아보겠습니다. Normalization (정규화) Standardization (표준화) Feature Scaling 사용 시기 상황에 따른 정규화 및 표준화 선택 요약 Normalization (Min-Max Normalization) 이러한 접근 방식은 feature를 [0,1] 사이의 값으로 변환시킵니다. 공식은 다음과 같이 사용됩니다. x = min(x)일 때 0을 반환하고, 최솟값은 값 0으로 바뀝니다. x =max(x) 일 때 1을 반환하고, 최댓값은 값 1로 바뀝니다. 다른 값은 0과 1 사이의 값.. 2022. 6. 13.
DecisionTreeClassifier 결정 트리(Decision Tree)는 트리 계열의 머신러닝 알고리즘의 가장 기본이 되는 모형입니다. GBM, XGBoost, LightGBM 등 트리 계열의 부스팅 알고리즘을 이해하기 위해서는 가장 기본이 되는 결정 트리 모형을 잘 이해해야 합니다. 이진 분류 예측에 활용되는 결정 트리를 사이킷런 패키진에 있는 DecisionTreeClassifier 함수에 대해서 알아보겠습니다. DecisionTreeClassifier Parameter DecisionTreeClassifier(*, criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, m.. 2022. 6. 12.
Map(), Apply(), ApplyMap() 함수 사용 방법 이번 포스팅에서는 map(), apply() 및 applymap()을 사용하는 방법과 언제 어떤 함수를 사용해야 하는지에 대해 알아보겠습니다. 이러한 함수는 DataFrame 열에 어떤 처리를 적용하고, 값을 업데이트하거나 새 열을 만들 수 있습니다. 세 가지 방법과 DataFrame, Series의 관계 이 세 가지 방법과 DataFrame, Series의 관계는 다음과 같이 구성됩니다. Data Frame Series map O apply O O applymap O map() 함수 사용 방법 map은 일부 규칙 또는 입력 대응에 따라 일부 Series의 값을 매핑합니다. 전달되면 딕셔너리 또는 Series 요소는 딕셔너리 또는 Series의 key를 기반으로 매핑됩니다. 누락된 값은 NaN으로 변환됩.. 2022. 6. 11.
데이터 분석을 위한 강력한 Pandas 함수 2 데이터 전처리는 데이터 분석에 있어 가장 중요한 부분이죠. 데이터 전처리 과정에는 정리, 구조 조정, 병합, 중복 제거, Null 또는 NaN 값 제거 등과 같은 다양한 작업이 포함됩니다. Pandas는 다양한 데이터 사전 처리 작업을 진행하기 위해 많은 함수를 제공합니다. Pandas는 Series 및 DataFrame을 포함하는 데이터 작업을 위해 두 가지 유형의 데이터 구조를 제공합니다. 지난번 포스팅에서 데이터 분석을 위한 강력한 Pandas 함수에 대해 1차적으로 알아보았는데요. 데이터 분석을 위한 강력한 Pandas 함수 1 Pandas는 파이썬에서 데이터 정리와 관련하여 국제적 표준과도 같습니다. Pandas는 다차원 배열을 지원하는 Numpy를 기반으로 합니다. Pandas는 Data Sc.. 2022. 6. 6.
Cross Validation(교차 검증) Cross Validation(교차 검증) ? Cross Validation(교차 검증)은 모델링 이후 모형에 대한 정확도를 검증하는 하나의 방법론입니다. 동일한 데이터를 여러개(n 개)로 분할하여 모델에 대한 학습과 검증을 n번 반복하여 모델의 정확도를 검증합니다. 아래의 그림을 보시면, 쉽게 이해하실 수 있을 거예요. 훈련 데이터를 n개로 분할합니다. n-1개는 모델을 학습하는 데 사용되고, 나머지 1개는 모델의 정확도를 평가하는 데 사용됩니다. 모델의 정확한 성능 검증을 위해 n번 반복하여 산출된 정확도의 평균을 계산합니다. 흔히, n - fold Cross Validation으로 말하기도 합니다. Cross Validation(교차 검증) 사용 예시 파이썬의 싸이킷런 패키지에서 제공하는 함수를 이.. 2022. 6. 5.
Python에서 Lambda 함수를 사용하는 5가지 팁 Lambda 함수는 파이썬에서 가장 유용한 함수 중 하나로, 코드 블록을 간단한 한 줄짜리로 바꿀 수 있습니다. 데이터 전처리, 피쳐 엔지니어링 및 기계 학습 워크플로의 거의 모든 곳에서 자주 사용합니다. 그러나 처음 접할 경우, 사용 방법이 다소 어렵게 느껴질 수 있습니다. Lambda 함수를 이해하는 데 도움이 되는 몇 가지 간단한 개념이 있습니다. 이번 포스팅에서는 Lambda 함수를 사용하는 방법에 대해서 알아보겠습니다. import pandas as pd toy = pd.read_csv("D:/Python_apply/toy.csv") toy Lambda 함수의 순서 간단히 말해서 Lambda 함수는 python에서 함수를 호출하는 것과 같습니다. 위의 데이터 예시에서 'install' 항목에 대.. 2022. 6. 4.
Pandas 데이터를 그룹화하는 가장 좋은 방법(groupby, Grouper) 데이터를 분석 경험이 있으신 분들은 'groupby'가 가장 많이 사용되는 함수 중 하나라는 것에 모두 동의하실 겁니다. 그래서 이번 포스팅에서는 groupby를 사용하는 방법과 이와 연관된 Grouper의 활용법에 대해 살펴보겠습니다. 비행기록과 관련된 데이터를 활용하겠습니다. 데이터는 R nycflights13 라이브러리에 있는 flights 데이터 입니다. 우선 Pandas와 Numpy를 임포트 하고, 데이터를 불러오겠습니다. import pandas as pd import numpy as np flights = pd.read_csv("D:/Python_apply/flights.csv") flights.shape 데이터는 약 33만개, feature는 19개 정도 있네요. 데이터에 대한 간단한 정보.. 2022. 6. 1.
Seaborn 라이브러리를 활용한 시각화 Best 8 데이터를 분석하려면 먼저 데이터를 이해해야 합니다. 데이터 시각화는 데이터를 이해하는 가장 좋은 방법 중 하나입니다. Python의 Matplotlib 및 Seaborn은 일반적으로 데이터를 시각화하는 데 사용하는 라이브러리입니다. Matplotlib 라이브러리를 활용한 기초적인 데이터 시각화 방법은 아래 포스팅 글을 참고하세요. matplotlib 산점도 그리기 이번 포스팅에서는 Matplotlib 라이브러리를 활용해서 산점도(scatterplot)를 그려 볼게요. 앞선 포스팅에서와 마찬가지로 기본적인 환경 세팅을 하겠습니다. ① matplotlib 라이브러리 사용 정의 ② 그 zzinnam.tistory.com matplotlib 파이 차트 그리기 Matplotlib 라이브러리는 파이썬에서 그래프를 .. 2022. 5. 28.
항목에 쉼표(,)를 포함하고 있는 CSV 파일 읽기 데이터 분석을 하기 위해서 추출된 CSV 파일 중에 간혹 항목 값에 쉼표를 포함하고 있는 경우가 있는데요. CSV 파일은 항목 간 구분이 쉼표(,)로 되어 있기 때문에 단순히 read_csv 파일로 읽을 수가 없어요. 이럴 때, 가장 좋은 방법은 데이터 엔지니어분께 쉼표(,)가 아닌 다른 구분자로 추출 요청하는 게 가장 좋은 방법인데요. 항목에 쉼표(,)가 어떤 방식이든 규칙적으로 들어가 있다면, 이 규칙을 고려하여 데이터 프레임으로 변환에 성공할 수 있어요. 아래 업로드한 데이터를 데이터 프레임으로 전환하는 과정을 포스팅해보겠습니다. 아래 첨부된 데이터를 다운로드하세요. 우선, pandas를 로딩한 후에 데이터 읽기를 시도했어요. 에러가 뜨네요. 최하단의 에러를 보니, 4개의 항목이 있어야 하는데, 1.. 2022. 5. 24.
알아두면 데이터 분석 시 시간을 절약할 수 있는 16가지 Python 및 Pandas Hacks 1. 객체의 메모리 사용량 확인하기 알아두면 데이터 분석 시 시간을 절약할 수 있는 16가지 Python 및 Pandas Hacks 중 첫 번째는 객체의 메모리 사용량을 확인하는 것입니다. import sys import pandas as pd titanic = pd.read_csv("d:/titanic.csv") sys.getsizeof(titanic) 2. 문자열을 바이트로 변환하기 알아두면 데이터 분석 시 시간을 절약할 수 있는 16가지 Python 및 Pandas Hacks 중 두 번째는 문자열을 바이트로 변환하는 것입니다. s = “I want to convert this string to byte” s.encode( ) 3. 두 개의 리스트 개체 병합하기 알아두면 데이터 분석 시 시간을 절약할.. 2022. 5. 23.
데이터 분석의 70%를 처리할 수 있는 10가지 Python 작업 데이터 분석의 주요 업무는 데이터 사전 처리, 데이터 분석, 기계 학습 모델 생성, 모델 배포와 같은 다양한 작업을 포함합니다. 데이터 분석을 하기 위해서는 첫 번째, 데이터 조작(data handling) 기술을 알아야 합니다. 데이터 조작은 데이터를 읽고, 데이터에서 질문에 답을 얻을 수 있는 형식으로 변환하는 것에서부터 시작됩니다. Python 프로그래밍 언어에는 데이터 조작 및 데이터 분석 작업을 위한 Pandas 라이브러리가 있습니다. 이번 포스팅에서는 데이터 분석을 위해 알아야 할 상위 10가지 Python(pandas) 에 대해서 살펴보겠습니다. 1. Reading Dataset(데이터 읽기) 데이터는 모든 분석의 기본 구성 요소입니다. csv, Excel, 텍스트 등과 같은 다양한 파일 형.. 2022. 5. 21.
Python에서 JSON을 사용하는 방법(for 초급자) JSON은 데이터를 저장하고 전송하는 뛰어난 방법입니다. JSON에 대한 기본 개념은 아래 포스팅을 참고하세요. JSON에 대한 소개 JSON은 JavaScript Object Notation의 약어입니다. 데이터 교환 형식으로 데이터를 저장하고 전송하는 방식이라는 멋진 표현입니다. 사용 사례에 매우 많아, 이루 말할 수 없을 정도입니다. JSON은 Ja zzinnam.tistory.com 이번 포스팅에서는 Python내에서 JSON의 힘을 활용할 수 있는 방법을 알아보고자 합니다. Python은 JSON이라는 패키지를 통해 JSON에 대한 지원을 하고 있으며 JSON을 딕셔너리(dictionary)와 유사하게 취급합니다. Python 내에서 JSON은 기본 자료형 (예: 문자열 및 숫자)과 중첩 목록,.. 2022. 5. 13.
JSON에 대한 소개 JSON은 JavaScript Object Notation의 약어입니다. 데이터 교환 형식으로 데이터를 저장하고 전송하는 방식이라는 멋진 표현입니다. 사용 사례에 매우 많아, 이루 말할 수 없을 정도입니다. JSON은 JavaScript를 의미하지만, Python, Ruby, PHP 및 Java와 같은 다른 언어와 함께 사용됩니다. 이외에도 JSON 형식이 여러 다양한 분야에서 사용되므로, JSON이 어떻게 작동하는지 이해하는 것이 매우 중요합니다. JSON은 객체 리터럴과 배열 리터럴이 JavaScript에 추가된 1999년 12월에 JavaScript의 하위 집합으로 등장했습니다. 거의 모든 프로그래밍 언어가 JSON 데이터를 구문 분석할 수 있을 정도로 빠르게 언어 독립적(language-indep.. 2022. 5. 8.
pandas value_counts() 함수 Pandas의 value_counts() 함수는 데이터분석을 하는데 있어, 가장 기초적이면서 일반적으로 사용되는 함수 중 하나입니다. 기본적으로 지정된 열의 각 값(value)에 대한 모든 발생 횟수를 반환합니다. 단순한 방법 이외에 여러 옵션을 사용해서 그 이상의 역할을 수행할 수 있습니다. 시작하려면 먼저 데이터가 필요합니다. 작은 데이터 프레임을 만들어서 여러 가지 옵션을 사용해 보겠습니다. import numpy as np import pandas as pd exData = {"Name": ["James","Dan","Jonathan","Eric","Joanna","Mary","Sue","Jim","Lionel","Tim"], "Sex":["Male","Male","Male","Male","Fem.. 2022. 5. 2.
데이터 분석을 위한 강력한 Pandas 함수 1 Pandas는 파이썬에서 데이터 정리와 관련하여 국제적 표준과도 같습니다. Pandas는 다차원 배열을 지원하는 Numpy를 기반으로 합니다. Pandas는 Data Science 도구 상자에 추가할 때 장점이 될 수 있습니다. pandas에서는 1인치 길이의 아인슈타인 방정식 { E=mc**2 }보다 길지 않은 간단한 함수를 사용하여 짧은 시간에 큰 작업을 수행할 수 있습니다. Pandas 기능 Pandas는 큰 작업을 쉽게 수행할 수 있게 해주는 매우 빠른 도구입니다. 여기에는 데이터 정리, 누락된 값 채우기, 데이터 정규화, 통계 분석 등이 포함됩니다. Jupyter Notebook에 Pandas 설치 Pandas는 Anaconda 배포판의 일부이며 다음 명령으로 Anaconda 프롬프트를 사용하여.. 2022. 5. 1.
pandas를 활용한 데이터 정리 우리가 현실에서 마주하게 되는 실제 데이터 세트는 정리되지 않은 지저분한(?) 형태이므로 데이터가 분석에 적합하도록 데이터 전처리 또는 정리가 필수적입니다. 데이터 정리에는 1) 데이터 간격 정리 2) 데이터 오류 수정 3) 데이터 세트 결합 4) 데이터 집계 5) 새로운 feature 생성 등이 포함됩니다. 이번 포스팅에서는 pandas를 사용하여 'Marks_data'라는 매우 간단한 데이터 세트를 활용해서 데이터 정리 방법에 대해 설명합니다. 위의 데이터 세트를 다운로드하여 pandas 패키지로 로딩합니다. import pandas as pd # 데이터 로딩 marksData = pd.read_csv('C:\marks_data.csv') marksData marksData.shape # (19, 3.. 2022. 4. 30.
막대그래프에 도형(화살표) 삽입하기 지난번 포스팅에서는 막대그래프에 도형(원)을 추가하여 자료의 특정 정보에 대해 강조해야 하는 방법에 대해서 알아보았는데요. 이번 포스팅에서는 화살표를 추가하여 강조하는 방법에 대해 알아보겠습니다. 해당 함수는 matplotlib.patches.FancyArrowPatch 입니다. 1. FancyArrowPatch의 주요 인수 matplotlib.patches.FancyArrowPatch를 구성하는 주요 인수는 아래와 같습니다. # 주요 인수 matplotlib.patches.FancyArrowPatch((first_x, first_y), # 화살표의 꼬리 지점 좌표(x, y) (last_x, last_y), # 화살표의 머리 지점 좌표(x, y) mutation_scale, # 화살표 머리 크기 **kw.. 2022. 4. 17.
막대그래프에 도형(타원) 삽입하기 파이썬의 matplotlib 라이브러리를 이용하여 자료를 그래프로 표현한 경우, 특정 정보에 대해 강조해야 하는 상황이 자주 발생하게 되는 데요. 이 경우 도형을 삽입하면, 아주 효과적입니다. 이번 포스팅에서는 막대그래프에 타원을 삽입하여 자료의 강조를 나타내 보도록 할게요. 타원을 삽입하기 위한 메서드는 바로 matplotlib.patches.Ellipse 입니다. 1. Ellipse의 주요 인수 matplotlib.patches.Ellipse를 구성하는 주요 인수는 아래와 같습니다. # 주요 인수 matplotlib.patches.Ellipse(xy, # 타원의 중심 좌표 width, # 타원의 가로길이 height, # 타원의 세로 길이 angle=0, # 회전각도 **kwargs) # 그 밖의 인.. 2022. 4. 16.
[파이썬 자료형] 튜플(tuple), 딕셔너리(dictionary), 집합(set) 일반적인 프로그래밍 언어와 달리 파이썬에는 특이한 자료형이 있다. 일반적인 통계 분석 프로그램인 SAS와 R에 익숙한 나는 처음 파이썬을 접하게 되었을 때, 이들 자료형에 낯설움을 느꼈다. 튜플(tuple), 딕셔너리(dictionary), 집합(set) 자료형이 바로 그들이다. ※ 기본적인 자료형 (숫자형, 문자, 문자열, 리스트, 불 자료형)은 아래 포스팅 글을 참고하시면 됩니다 [파이썬완전기초] print, 기본자료형, 변수, 주석 본 포스팅은 2021 NIPA AI 온라인 무료 교육의 AI 실무 기본 과정을 기반으로 작성하였습니다. 1. 출력하기 (print) 1.1. 한 문장 출력하기 파이썬의 실행 결과를 화면에 보여주기 위한 함수입니다. 사용 zzinnam.tistory.com 그럼 하나하나씩.. 2022. 3. 21.
다양한 문자열 출력 방법(%, format, f문자열) 이번 포스팅에서는 문자열을 출력하는 다양한 형태에 대해서 살펴보겠습니다. 문자열을 출력하는 형태는 크게 3가지입니다. 1. % 연산자 사용 2. .format 활용 3. f문자열 사용 저는 개인적으로 2번과 3번을 주로 사용합니다. 하지만, 1번에 대해서도 간단하게 설명하도록 할게요. 1. % 사용 %연산자를 사용하는 주요 출력 포맷은 %c , %s, %d, %f 4가지입니다. 다른 형태도 있지만, 거의 사용하지 않아요. 1) %c 포맷 %c는 문자 1개를 표현할 때 사용합니다. 문자 2개를 입력하면 어떻게 될까요? 형식이 맞지 않기 때문에 위와 같이 에러가 발생합니다. 2) %s 포맷 %s는 문자열을 표현할 때 사용합니다. 미리 일정 길이만큼 자릿수를 잡아 두고, 문자열을 표현할 수 있어요. 3) %d.. 2022. 3. 18.
Pandas 행 단위 연산 - iterrows(), itertuples(), iloc, loc 함수 데이터 분석을 하기 위한 전처리 작업이나 혹은 데이터 조작 시 데이터를 행 단위로 읽어서 처리해야 하는 상황이 많은 데요. 이럴 때, 활용할 수 있는 다양한 방안들이 있는데요. 여기서는 2가지 방안에 대해서 살펴보겠습니다. 실습 데이터: 붓꽃 데이터 조건: 데이터를 행 단위로 읽어 PetalWidth(꽃잎폭)이 0.2보다 작거나 같으면 0, 0.2보다 크고 1보다 작거나 같으면 1, 1보다 크고 2보다 작거나 같으면 2, 2보다 크면 3이라는 값을 가지는 group이라는 변수 생성하기 실습 데이터 1. iloc, loc 함수 활용 해당 함수에 대한 자세한 설명은 아래 링크를 참고해 주세요. [파이썬완전기초]데이터다루기Pandas기본 본 포스팅은 2021 NIPA AI 온라인 무료 교육의 AI 실무 기본 .. 2022. 3. 9.
pandas rank() 함수 - 숫자 데이터의 순위 계산 함수 이번 포스팅에서는 pandas 라이브러리에서 제공하는 숫자형 데이터에 대한 순위를 계산하는 함수 rank()에 대해서 알아보겠습니다. 예를 들어, [393,958,842]의 데이터에 함수를 적용하면 [3,1,2]가 반환됩니다. 기본적으로 동일한 값에 대해서는 해당 값의 순위 평균인 순위가 할당됩니다. DataFrame.rank( axis=0, method='average', numeric_only=NoDefault.no_default, na_option='keep', ascending=True, pct=False ) rank 함수에 대한 인수 설명은 아래와 같습니다. axis: 직접 순위에 대한 인덱스 {0 or ‘index’, 1 or ‘columns’}, default 0 method: {defaul.. 2022. 3. 6.
파일 입/출력(with 파이썬) 파이썬을 이용한 파일 입/출력에 대해서 알아보겠습니다. 일반적으로 새로운 데이터 파일을 생성하기 위해서는 ① 파일 열기 ② 데이터 입력하기 ③ 파일 저장 및 닫기 의 과정을 거쳐야 하고요. 생성한 파일을 분석하기 위해서 ① 생성한 파일을 열고, ② 파이썬 환경으로 읽고, ③ 파일을 닫은 후 데이터 분석을 진행하게 됩니다. 물론, pandas 라이브러리를 활용해서도 가능하지만, 이번 포스팅에서는 파일 입/출력 관점에서 실습을 진행하도록 하겠습니다. 텍스트 파일 생성하기 1 파이썬 코드를 활용해서 텍스트 파일 하나를 생성해 보겠습니다. ## 텍스트 파일 생성 newFile = open("C:/HJM/Python_apply/new_text_file.txt", mode = "w") # 텍스트 파일(new_tex.. 2022. 3. 1.
워드 클라우드(Word Cloud) 생성하기(with 파이썬 DataFrame) 지난 포스팅에서는 R을 활용한 워드 클라우드를 생성해 보았어요. [R 그래픽스] 워드 클라우드(Word Cloud) 생성하기 워드 클라우드(Word Cloud)는 단어의 빈도수를 구름 형태로 표현하는 그래픽 기법입니다. 통상적으로 단어의 크기는 빈도수에 비례하여 표현합니다. 워드 클라우드를 설명하는 여러 블로그를 보면 zzinnam.tistory.com 이번에는 파이썬의 데이터 프레임을 활용하여 워드 클라우드를 생성해 보겠습니다. 워드 클라우드 생성을 위해 필요한 아주 간단한 설명은 위의 포스팅 글을 참고해 주시면 됩니다. 지난번과 동일한 데이터를 활용할게요. 패키지 설치 및 로딩 기본적으로 필요한 패키지는 아래 5가지입니다. ## 워드 클라우드 생성을 위한 패키지 from wordcloud import.. 2022. 2. 28.
반응형