본문 바로가기
반응형

분류 전체보기184

Pandas에서 플롯 생성 방안 본 내용을 보기 전에 Python 사전 준비 및 Python 완전 기초를 먼저 이해하셔야 합니다. 본 포스팅은 pandas 공식 홈페이지를 기반으로 작성하였습니다. 우선, 이번 포스팅에서 학습할 데이터를 다운로드하시길 바랍니다. (이번 포스팅에서는 NO2에 대한 대기질 데이터(openaq에서 제공하고 py-openaq 패키지를 사용)를 사용합니다. air_quality_no2.csv 데이터 세트는 각각 파리, 앤트워프 및 런던에 있는 측정 스테이션 FR04014, BETR801 및 런던 웨스트민스터에 대한 NO2 값을 제공합니다.) 위의 예제 파일을 Python 내부로 불러오겠습니다. import pandas as pd import matplotlib.pyplot as plt air_quality = p.. 2021. 8. 15.
Pandas 데이터프레임의 부분 데이터 세트 선택 방법 본 내용을 보기 전에 Python 사전 준비 및 Python 완전 기초를 먼저 이해하셔야 합니다. 본 포스팅은 pandas 공식 홈페이지를 기반으로 작성하였습니다. 이번 포스팅에서 사용할 데이터는 2021.08.13 - [Python/Pandas 기초익히기] - Pandas 표 데이터 입/출력 및 데이터 확인에서 활용한 titanic 승객 데이터를 계속 활용하겠습니다(titanic 승객 데이터의 위의 포스팅에서 다운로드하시면 됩니다.). import pandas as pd titanic = pd.read_csv("D:/python_exer/titanic.csv") 1. 데이터프레임의 부분 데이터 세트 선택 방법 1.1. 특정 열(column) 선택 타이타익 승객 데이터 중에서 나이에 관심이 있어, Age.. 2021. 8. 14.
Pandas 표 데이터 입/출력 및 데이터 확인 본 내용을 보기 전에 Python 사전 준비 및 Python 완전 기초를 먼저 이해하셔야 합니다. 본 포스팅은 pandas 공식 홈페이지를 기반으로 작성하였습니다. Python은 pandas 라이브러리를 활용해서 외부 데이터를 불러오고, 데이터 분석을 수행한 후에, 다시 외부 데이터로 내보낼 수 있습니다. Python 내부로 불러들일 때에는 read_* 구문을 활용하고, 외부로 내보낼 때에는 to_* 구문을 활용합니다. 실습을 위해 프로그램 작성 시 가장 많이 활용되는 데이터 중의 하나인 titanic 승객 데이터를 사용하겠습니다. 우선, 실습 데이터를 다운로드하세요. CSV 파일로 제공되는 titanic 승객 데이터를 분석해 보도록 하겠습니다. 1. 파일 불러오기 외부 파일을 불러올 때는 pandas .. 2021. 8. 13.
Pandas가 처리하는 데이터 종류 본 내용을 보기 전에 Python 사전 준비 및 Python 완전 기초를 먼저 이해하셔야 합니다. 본 포스팅은 pandas 공식 홈페이지를 기반으로 작성하였습니다. 1. Pandas 시작 앞선 포스팅(pandas 패키지 소개)에서 pandas 라이브러리를 설치했다면, 이제 pandas 라이브러리를 사용할 준비가 되었다고 할 수 있습니다. Python에서 pandas 라이브러리를 사용하기 위해서는 아래와 같이 입력합니다. import pandas as pd pandas에 대한 커뮤니티 동의 별칭은 pd이므로 pandas를 pd로 로드하는 것은 모든 pandas 문서에 대한 표준적인 관행으로 간주됩니다. 1.1. Pandas 데이터 테이블 표현 2. 간단한 데이터 프레임 생성 테이블에 데이터를 수동으로 저장.. 2021. 8. 12.
Pandas 패키지 소개 NumPy 패키지와 함께 Python을 이용해서 데이터 분석하기 위해서 필요한 패키지(Pandas)를 소개하고, 패키지 설치 방법에 대해서 알아보겠습니다. 본 포스팅은 Pandas 공식 페이지를 기반으로 작성하였습니다. 내용이 어렵다면, Python에서 데이터 구조 및 분석을 위해 필요한 라이브러리 정도로 이해하고, 넘어가도 좋습니다. 다만, 코드 실행을 위해 5. Pandas 설치하기는 꼭 숙지하시기 바랍니다. 1. Pandas 패키지 개요 pandas는 "관계형" 또는 "라벨이 있는" 데이터를 쉽고 직관적으로 사용할 수 있도록 설계된 빠르고 유연하며 표현력이 뛰어난 데이터 구조를 제공하는 Python 패키지입니다. Python에서 실용적이고 실제적인 데이터 분석을 수행하기 위한 기본적이고 높은 수준의.. 2021. 8. 11.
NumPy 패키지 소개 Python을 이용해서 데이터 분석하기 위해서 필요한 패키지를 소개하고, 해당 패키지를 설치하는 방법에 대해서 알아보겠습니다. 본 포스팅은 Numpy 공식 페이지를 기반으로 작성하였습니다. 내용이 어렵다면, Python에서 수치 연산을 효율적으로 하기 위한 라이브러리 정도로 이해하고, 한번 읽어보신 후 넘어가도 좋습니다. 다만, 코드 실행을 위해 4. Numpy 설치하기는 꼭 숙지하시길 바랍니다. 1. Numpy NumPy는 Python의 과학적인 컴퓨팅을 위한 기본 패키지입니다. Numpy는 다차원 배열 객체, 다양한 파생 객체(예: 마스크된 배열 및 행렬) 및 수학, 논리, 모양 조작, 정렬, 선택, I/O, 이산 푸리에 변환, 기본 선형 대수학, 기본 통계 연산, 무작위 시뮬레이션 등을 포함한 배열.. 2021. 8. 10.
파이참(PyCharm) 기본사용법 앞선 포스팅에서 Python 프로그램 편집기인 파이참(PyCharm)의 설치 방법에 대해서 알아보았습니다. 이번에는 기본 사용법에 대해서 간단하게 살펴보겠습니다. 1. 파이참(PyCharm) 개요 파이참(PyCharm)을 실행하면 아래와 같은 화면이 보입니다. 크게 5가지 정도로 구분할 수 있습니다. 1번은 메뉴 바, 2번은 프로젝트와 관련된 여러 파일 및 경로명, 3번은 프로그램 편집 창, 4번은 Python 실행과 관련된 환경, 5번은 현재 설치된 Python 버전이 표시되어 있습니다. 세부적인 역할에 대해서는 생략하고, 앞으로 이어질 포스팅 내용 및 이에 대한 실습과 관련된 기본적인 부분 위주로 설명하겠습니다. 2. 새로운 Python 파일 생성하기 앞서 3번은 프로그램 편집 창이라고 설명했습니다... 2021. 8. 9.
파이참(PyCharm) 설치하기 파이참(Pycharm)은 Python 프로그램 편집기 중 가장 많이 사용되는 프로그램 편집기입니다. R의 가장 대표적인 프로그램 편집기로 RStudio가 있다면, Python의 대표적인 프로그램 편집기는 파이참(Pycharm)이라고 할 수 있습니다. 파이참(Pycharm)은 Python 프로그램에 특화되어 있는 프로그램 편집기이므로, 설치 후 별도 Extension을 설치할 필요가 없습니다(Python에 특화되지 않은 비주얼 프로그램 에디터(스튜디오 코드(Visual Studio Code) 등)는 별도 Extension을 설치해야 합니다.). 개인적으로 파이참(Pycharm)의 가장 훌륭한 기능 중에 하나라고 생각되는 부분은 RStudio와 유사하게 코드 자동 완성, 문법 체크 등의 기능이 포함되어 있다.. 2021. 8. 8.
파이썬(Python) 설치하기 Python은 R과 함께 최근에 가장 보편적으로 많이 사용되는 프로그래밍 언어입니다. R이 통계적 분석에 좀 더 특화되어 있다면, Python은 프로그램 작성을 위한 언어에 조금 더 가깝다고 할 수 있습니다. 그럼 본 포스팅에서는 Python에 대해서 알아보기 전에 우선 Python 프로그램을 먼저 설치해 보겠습니다. 우선, 파이썬 홈페이지에 접속합니다. https://www.python.org/ Welcome to Python.org The official home of the Python Programming Language www.python.org 홈페이지의 중간 탭 부분에 Downloads를 클릭합니다. 그럼, 화면 중앙에 가장 최근 버전의 Python이 보일 것입니다. 제가 지금 설치할려고 하.. 2021. 8. 7.
[파이썬완전기초]데이터시각화 Metplotlib 본 포스팅은 2021 NIPA AI 온라인 무료 교육의 AI 실무 기본 과정을 기반으로 작성하였습니다. 1. Matplotlib 그래프 1.1. Line plot 그래프를 그리는 기본적인 문법은 아래와 같습니다. fig, ax = plt.subplots() x = np.arange(15) y = x ** 2 ax.plot( ____x, y, ____linestyle = ":", ____marker = "*", ____color = "#524FA1" ) 기본 linestyle의 선택은 아래와 같이 정의할 수 있습니다. x = np.arange(10) fig, ax = plt.subplots() ax.plot(x, x, linestyle = "-") # solid ax.plot(x, x+2, linestyl.. 2021. 7. 31.
[파이썬완전기초]데이터다루기 Pandas심화 본 포스팅은 2021 NIPA AI 온라인 무료 교육의 AI 실무 기본 과정을 기반으로 작성하였습니다. 1. 데이터 정렬하기 데이터 정렬은 index 값 기준, column 값 기준으로 정렬할 수 있습니다. 1.1. index 값 기준으로 정렬하기 index 값 기준으로의 정렬은 행 index 기준과 열 index 기준으로도 가능합니다. 아래 예시를 살펴보겠습니다. 간단한 데이터 프레임 df를 생성한 후에 idex 기준으로 정렬하는 예를 실행해 보겠습니다. import numpy as np import pandas as pd data = { ____'col1' : [1, 2, 9, 7, 8, 4], ____'col2' : ['A', 'A', 'B', 'D', np.NaN, 'C'], ____'col3' .. 2021. 7. 30.
[파이썬완전기초]데이터다루기Pandas기본 본 포스팅은 2021 NIPA AI 온라인 무료 교육의 AI 실무 기본 과정을 기반으로 작성하였습니다. 1. Pandas Pandas는 파이썬에서 제공하는 모듈(라이브러리)로 구조화된 데이터를 효과적으로 처리하고 저장할 때 유용하게 사용될 수 있습니다. Array 계산에 특화된 Numpy를 기반으로 설계되었습니다. 1.1. Series Series 데이터는 Numpy의 array가 보강된 형태로 Data와 Index를 가지고 있습니다. 아래 간단한 예시를 보겠습니다. import pandas as pd # pandas 라이브러리 호출 data = pd.Series([1, 2, 3, 4]) print(data) data = pd.Series([1, 2, 3, 4]) 는 pandas 라이브러리에 있는 Ser.. 2021. 7. 29.
[파이썬완전기초]Numpy 본 포스팅은 2021 NIPA AI 온라인 무료 교육의 AI 실무 기본 과정을 기반으로 작성하였습니다. 1. Numpy numpy는 numerical python의 약어로, 파이썬에서 다차원 배열을 다룰 수 있게 도와 주는 라이브러리입니다. 파이썬 사용자라면 기본적으로 알고 있어야 하는 라이브러리입니다. numpy는 반복문 없이 배열처리가 가능하도록 도와줍니다. 또, 리스트(list)에 비해, 빠른 연산이 가능하도록 지원하고, 메모리를 효율적으로 사용합니다. 2. Numpy 사용하기 우선, 비교를 위해 list를 활용한 배열 생성 및 출력 형태를 확인해 보도록 하겠습니다. list_arr = list(range(0,5)) print(list_arr) print(type(list_arr) 파이썬 내에 기본.. 2021. 7. 28.
[파이썬완전기초]모듈과 패키지 본 포스팅은 2021 NIPA AI 온라인 무료 교육의 AI 실무 기본 과정을 기반으로 작성하였습니다. 1. 모듈 프로그램 코딩을 하다보면, 코드의 길이가 길어지는 상황이 발생합니다. 자신이 원하는 프로그래밍을 위해 모든 함수와 변수를 생성하는 데에 한계가 있습니다. 파이썬에는 여러 개발자들이 이미 만들어 놓은 여러 함수와 변수가 있습니다. 우리는 이렇게 생성되어 있는 많은 함수와 변수를 가져다 사용하면 됩니다. 이처럼 개발자들이 만들어 놓은 특정 목적을 가진 함수, 자료의 모임을 모듈이라고 합니다. 1.1. 모듈 사용하기 모듈을 사용하기 위해서는 import 키워드를 사용할 수 있습니다. import는 '불러오다' 라는 뜻입니다. 즉, import 모듈 이라고 표현하면, 모듈을 불러오라는 의미로 이해하.. 2021. 7. 27.
[파이썬완전기초]함수와 매서드 본 포스팅은 2021 NIPA AI 온라인 무료 교육의 AI 실무 기본 과정을 기반으로 작성하였습니다. 1. 함수 1.1 함수의 종류 1.1.1. 내장함수 파이썬 개발자들이 이미 만들어서 넣어둔 함수들입니다. 사용자들은 그냥 가져다 사용하기만 하면 됩니다. 예를 들어 print(), max(), int(), len() 함수들이 모두 내장함수 입니다. input(): 자료를 입력하는 함수 print(): 화면에 출력해 주는 함수 max(): 시퀀스 자료의 최대값 계산 함수 min(): 시퀀스 자료의 최소값 계산 함수 int(): 정수형 변환 함수 sum(): 숫자 원소로 이루어진 시퀀스 자료의 합 len(): 시퀀스 자료의 길이를 반환해 주는 함수 내장함수 중 input() 함수와 output() 함수의 .. 2021. 7. 26.
[파이썬완전기초]자료저장하기 본 포스팅은 2021 NIPA AI 온라인 무료 교육의 AI 실무 기본 과정을 기반으로 작성하였습니다. 1. 리스트 활용 1.1. list.append(x) 리스트형에 자료를 추가하는 방법에 대해서 알아보겠습니다. 리스트(list)에 추가한다(append)로 이해하시면 기억하기 쉽습니다. list.append는 리스트의 가장 마지막 원소에 자료를 추가하는 데에 사용합니다. 아래 예를 살펴 보도록 하겠습니다. x = [] # 원소가 들어있지 않은 빈 리스트 x 생성 y = [‘a’, ‘b’, ‘c’] # 'a','b','c' 의 원소를 가지는 리스트 y 생성 x.append(5) # x 리스트에 5 추가 y.append(‘d’) # y 리스트에 'd' 추가 print(x, y) # x 리스트와 y 리스트를.. 2021. 7. 25.
[파이썬완전기초] 반복문 본 포스팅은 2021 NIPA AI 온라인 무료 교육의 AI 실무 기본 과정을 기반으로 작성하였습니다. 1. 반복문 반복문은 여러 유사한 명령문 반복적으로 실행할 때, 간단하게 작성 가능한 문장입니다. 구구단 중 9단을 출력하는 프로그램을 작성한다고 해보죠? print 함수만을 이용한다면, 아래와 같이 작성할 수 있을 것입니다. print("9 * 1 = 9") print("9 * 2 = 18") print("9 * 3 = 27") print("9 * 4 = 36") print("9 * 5 = 45") print("9 * 6 = 54") print("9 * 7 = 63") print("9 * 8 = 72") print("9 * 9 = 81") 출력결과는 아래와 같습니다. 9 * 1 = 9 9 * 2 = .. 2021. 7. 24.
[파이썬완전기초] 조건문(if, if else, if elif else 구문) 본 포스팅은 2021 NIPA AI 온라인 무료 교육의 AI 실무 기본 과정을 기반으로 작성하였습니다. 1. 논리(자료)형과 비교 연산자 1.1. 논리(자료)형 결과값이 참(True)과 거짓(False)으로 나오는 자료형태를 논리(자료)형이라고 합니다. 1.2. 비교 연산자 값을 비교할 때 사용되는 연산자를 비교 연산자라고 합니다. 비교 연산자의 종류는 크게 6가지의 종류가 있습니다. > : 크다 = : 크거나 같다 5 and 3 > 2 ) # false 반환 print( 3 1 ) # true 반환 2.1.2. or 연산자 주어진 조건 중 하나만 참(true)일 때, 결과값이 참(true)입니다. print( 3 > 5 or 3 > 2 ) # true 반환 print.. 2021. 7. 23.
[파이썬완전기초] print, 기본자료형, 변수, 주석 본 포스팅은 2021 NIPA AI 온라인 무료 교육의 AI 실무 기본 과정을 기반으로 작성하였습니다. 1. 출력하기 (print) 1.1. 한 문장 출력하기 파이썬의 실행 결과를 화면에 보여주기 위한 함수입니다. 사용법은 아래와 같습니다. print("출력하고자 하는 내용") 상기 명령어를 그대로 입력하고, 실행시키면 아래와 같은 결과를 얻을 수 있습니다. 출력하고자 하는 내용 1.2. 여러 단어 출력하기 여러 자료를 입력한 후 출력하고자 한다면, 아래와 같이 사용할 수 있습니다. print("나는","파이썬을","잘하고","싶어요") 실행 결과는 아래와 같습니다. 나는 파이썬을 잘하고 싶어요 4개의 단어 사이에 띄어쓰기가 자동 삽입됩니다. 위의 결과와 동일한 결과를 얻는 다른 방법은 아래와 같습니다... 2021. 7. 22.
[R그래픽스]커뮤니케이션을 위한 그래픽 본 포스팅은 R for Data Science 를 기반으로 작성되었습니다. 1. 소개 이 장에서는 좋은 그래픽을 만드는 데 필요한 도구에 중점을 둡니다. 이번 장을 학습할 때는 일반 시각화 책과 함께 사용하는 것이 좋습니다. 시각화를 만드는 방법이 아니라 효과적인 그래픽을 만들기 위해 생각해야 하는 것에 중점을 둡니다. 1.1. 전제 조건 ggplot2 패키지에 초점을 맞출 것입니다. 또한 데이터 조작을 위해 약간의 dplyr와 ggrepel 및 viridis를 포함한 몇 가지 ggplot2 확장 패키지를 사용할 것입니다. 여기에서는 로드하는 대신 :: 표기법을 사용하여 해당 기능을 참조합니다. 이렇게 하면 ggplot2에 내장된 기능과 다른 패키지에서 가져온 기능을 명확히 구별하는 데 도움이 됩니다. .. 2021. 7. 20.
[R데이터다루기]데이터 변환 본 포스팅은 R for Data Science를 기반으로 작성되었습니다. 1. 소개 시각화는 통찰력 생성을 위한 중요한 도구이지만 필요한 형식으로 데이터를 정확히 얻는 경우는 매우 드뭅니다. 그래서 시각화는 데이터 탐색이라고 많이 표현합니다. 데이터 작업을 좀 더 쉽게 하기 위해 변수의 이름을 바꾸거나 관측치를 재 정렬하고 싶을 때도 있습니다. 2013년에 뉴욕시에서 출발하는 항공편에서 dplyr 패키지와 새로운 data set을 사용하여 데이터를 변환하는 방법을 배워 보겠습니다. 1.1. 전제 조건 이 장에서 Tidyverse의 또 다른 핵심 패키지인 dplyr 패키지를 사용하는 방법에 대해 알아 보겠습니다. nycflights13 패키지의 데이터를 사용해서 주요 내용을 설명하고 데이터를 이해하는 데 .. 2021. 7. 18.
[R그래픽스]데이터 시각화 본 포스팅은 R for Data Science를 기반으로 작성되었습니다. 1. 소개 “The simple graph has brought more information to the data analyst’s mind than any other device.” — John Tukey — 이 장에서는 ggplot2 패키지를 사용하여 데이터를 시각화하는 방법을 알아보겠습니다. R에는 그래프를 만들기 위한 여러 패키지가 있지만 ggplot2는 가장 훌륭하고 다재다능한 시스템 중 하나입니다. ggplot2는 그래프를 설명하고 작성하기 위한 일관된 시스템인 그래픽 문법을 구현합니다. ggplot2를 사용하면 하나의 시스템을 학습하고 여러 곳에 적용하여 더 빠르게 수행할 수 있습니다. 시작하기 전에 ggplot2에 .. 2021. 7. 17.
[R데이터구조]Tibble 본 포스팅은 R for Data Science 를 기반으로 작성되었습니다. 1. 소개 R의 전통적인 데이터 구조는 데이터 프레임(data.frame)입니다. 이번 장에서는 "tibbles"에 대해서 알아보기로 하겠습니다. Tibble은 데이터 프레임이지만 삶을 조금 더 쉽게 만들기 위해 일부 오래된 동작을 조금 조정합니다. R은 매우 오래된 언어이며, 10~20년 전에는 유용했던 일부 기능이 이제는 방해가 되기도 합니다. 기존 코드를 깨뜨리지 않고 기본 R을 변경하는 것은 어렵기 때문에 대부분의 혁신은 신규 패키지에서 발생합니다. 여기에서 우리는 tidyverse에서 작업을 좀 더 쉽게 만들어주는 데이터 프레임을 제공하는 tibble 패키지에 대해 좀 더 자세히 알아보겠습니다. 대부분의 경우 tibble.. 2021. 7. 15.
[R변수형식]날짜와 시간 데이터 본 포스팅은 R for Data Science 를 기반으로 작성되었습니다. 1. 날짜와 시간 생성하기 시간에 있어 순간을 참조하기 위한 세 가지 유형의 데이터가 있습니다.1) 날짜(Data), 2) 시간(Time), 3) 날짜와 시간 병합(Date-Time) : 이 유형은 3가지 특정 시점을 유니크하게 식별할 수 있습니다. 현재 날짜를 알고 싶으면 today() 함수를 사용하면 되고, 현재 날짜와 시간을 동시에 알고 싶으면 now() 함수를 사용하면 됩니다. 만약 특정 날짜 혹은 특정 시간을 생성하려면 아래 3가지 방법이 있습니다. 1) 문자열 활용 2) 날짜와 시간 구성 요소 활용 3) 기존에 존재하는 날짜와 시간 object 활용 1.1. 문자열 활용 날짜와 시간 데이터는 자주 문자열로 제공됩니다. .. 2021. 7. 14.
[R프리뷰]RStudio 기본 사용법 1. RStudio 실행 RStudio 까지 설치가 완료되었다면, 아주 단순하고 간단한 프로그램 문장을 작성해 보겠습니다. 우선 RStudio를 실행시켜 보겠습니다. 그러면 아래 그림처럼 4개의 분할된 화면이 보일 꺼에요. ①번 창은 R 프로그램을 효울적으로 작성하고 편집하게 해주는 편집기 역할을 수행합니다. ②번 창은 R에서 사용한 여러 object, 함수 등등을 보여줍니다. (더 자세한 기능을 포함하고 있지만, 우선 이 단계에서는 넘어가도록 하겠습니다.) ③번 창은 실제 R 프로그램을 실행시켜 주는 콘솔(console) 창입니다. ④번 창은 R의 도움말, 그래프 출력, 파일 저장 위치 등을 보여주는 창이다. (더 자세한 기능을 포함하고 있지만, 우선 이 단계에서는 넘어가도록 하자) 이번 실습에서 사용.. 2021. 7. 12.
[R데이터구조]행렬(matrix) 생성하기 1. 행렬(matrix) 설명 이번엔 행렬(matrix)에 대해 알아보자. 행렬(matrix)과 관련된 앞선 포스팅에서도 말했듯이, 행렬은 동일한 변수형을 가지는 2차원 데이터 구조이다. 숫자형 변수만 구성할 수 있는 게 아니란 얘기다. 3, 4는 1개의 행과 2개의 열로 이루어진 숫자형 변수(값)을 가지는 행렬이고, 3 4 는 2개의 행과 1개의 열로 이루어진 숫자형 변수(값)을 가지는 행렬이다. 3, 4 5, 6 은 2개의 행과 2개의 열로 이루어진 숫자형 변수(원소)를 가지는 행렬이다. 유사하게 ("남성","여성")은 1개의 행과 2개의 열로 이루어진 문자형 변수(값)를 가지는 벡터이고, "남성", "20대" "여성", "30대" 는 2개의 행과 2개의 열로 이루어진 문자형 변수(값)를 가지는 벡터.. 2021. 7. 11.
[R데이터구조]벡터(vector) 생성하기 1. Vector 설명 R에서 가장 기본이 되는 데이터 구조는 벡터(Vector)이다. 벡터(Vector)와 관련된 앞선 포스팅에서도 말했듯이, 벡터는 동일한 변수형을 가지는 1차원 데이터 구조이다. 숫자형 변수만 구성할 수 있는 게 아니란 얘기다. (1)은 1개의 숫자형 변수(원소)를 가지는 벡터이고, (1, 2)은 2개의 숫자형 변수(원소)를 가지는 벡터이고, (1, 2, 3)은 3개의 숫자형 변수(원소)를 가지는 벡터이다. 유사하게 ("남성")은 1개의 문자형 변수(원소)를 가지는 벡터이고, ("남성","여성")은 2개의 숫자형 변수(원소)를 가지는 벡터이고, ("남성", "여성", "Female")은 3개의 숫자형 변수(원소)를 가지는 벡터이다. 2. Vecor 생성 그럼 R에서 벡터를 생성시켜 .. 2021. 7. 10.
[R데이터구조]R 데이터 구조 파악하기 R를 활용해서 데이터 분석 밎 모델링을 수행할 때, 가장 중요한 내용 중 하나가 바로 데이터 구조이다. R이 내부적으로 처리하는 데이터 구조는 크게 아래 4가지이다. 1) 벡터(Vector) 2) 행렬(Matrix) 3) 배열(Array) 4) 데이터 프레임(Data frame) 5) 리스트(List) 하나씩 차근차근 살펴보자. 1) 벡터(Vector) R에서 벡터는 1개 이상의 원소를 가지는 동일한 변수형으로 이루어진 1차원 데이터 구조이다. 여기서 중요한 Key Point는 "동일한 변수형" 이라는 것이다. 벡터하면 고등학교 시절(1,2) 와 같은 두 개의 숫자(x,y)로 이루어진 좌표만을 기억할 수도 있다. (R에서는 ("초등학교", "중학교", "고등학교") 로 이루어진 것도 벡터이다. 꼭 숫자로.. 2021. 7. 9.
[R프리뷰]R studio 설치하기 앞선 포스팅(R program 설치하기)에서 설명한 것처럼, 이제는 R을 효율적으로 코딩하기 위해 R studio 를 설치해 보자. 아래 url 주소 클릭 www.rstudio.com prodcut 탭 클릭 RStudio 클릭 데스크탑 PC에서 사용할 예정이므로, RStudio Desktop 클릭 하단에 DOWNLOAD RSTUDIO DESKTOP 클릭 RStudio Desktop 무료 버전 클릭 컴퓨터 운영체제(OS)에 맞는 프로그램 실행 파일 클릭 다운로드 완료 시까지 기다리고, 좌측 하단 클릭 다음 클릭 설치 위치 선택 후 다음 클릭 설치 클릭 설치중 확인 설치 완료 윈도우 시작 프로그램에 Rstudio 프로그램이 설치되어 있음을 확인할 수 있다. 클릭해서 실행시켜 보면, 아래와 같은 창이 보인다... 2021. 7. 8.
[R실습]PSI 산출하기 1. PSI 개념 신용평가모형의 안정성을 검증하는 지표는 모집단의 안정성을 검증하는 PSI(모집단안정성지수, Population Stability Index)와 평가항목의 안정성을 검증하는 CAR(항목안정성지수, Characteristic Analysis Report) 지표가 있다. 이번 포스팅에서는 PSI에 대해서 알아보자. PSI는 신용평가모형 개발 당시의 신용등급별 분포와 실제 운영할 때의 신용등급별 분포가 유사한지, 아니면 등급의 분포가 변화되었는지 검증하는 중요 지표다. 2. PSI 산출식 PSI는 아래의 수식으로 산출된다. PSI = sum((개발당시 등급별 분포 - 실제 운영 시 등급별 분포) * ln(개발당시 등급별 분포 / 실제 운영 시 등급별 분포)) 산식을 보면 알겠지만, PSI값이 .. 2021. 7. 7.
반응형