본문 바로가기
반응형

R코드6

[R데이터구조]행렬(matrix) 생성하기 1. 행렬(matrix) 설명 이번엔 행렬(matrix)에 대해 알아보자. 행렬(matrix)과 관련된 앞선 포스팅에서도 말했듯이, 행렬은 동일한 변수형을 가지는 2차원 데이터 구조이다. 숫자형 변수만 구성할 수 있는 게 아니란 얘기다. 3, 4는 1개의 행과 2개의 열로 이루어진 숫자형 변수(값)을 가지는 행렬이고, 3 4 는 2개의 행과 1개의 열로 이루어진 숫자형 변수(값)을 가지는 행렬이다. 3, 4 5, 6 은 2개의 행과 2개의 열로 이루어진 숫자형 변수(원소)를 가지는 행렬이다. 유사하게 ("남성","여성")은 1개의 행과 2개의 열로 이루어진 문자형 변수(값)를 가지는 벡터이고, "남성", "20대" "여성", "30대" 는 2개의 행과 2개의 열로 이루어진 문자형 변수(값)를 가지는 벡터.. 2021. 7. 11.
[R데이터구조]벡터(vector) 생성하기 1. Vector 설명 R에서 가장 기본이 되는 데이터 구조는 벡터(Vector)이다. 벡터(Vector)와 관련된 앞선 포스팅에서도 말했듯이, 벡터는 동일한 변수형을 가지는 1차원 데이터 구조이다. 숫자형 변수만 구성할 수 있는 게 아니란 얘기다. (1)은 1개의 숫자형 변수(원소)를 가지는 벡터이고, (1, 2)은 2개의 숫자형 변수(원소)를 가지는 벡터이고, (1, 2, 3)은 3개의 숫자형 변수(원소)를 가지는 벡터이다. 유사하게 ("남성")은 1개의 문자형 변수(원소)를 가지는 벡터이고, ("남성","여성")은 2개의 숫자형 변수(원소)를 가지는 벡터이고, ("남성", "여성", "Female")은 3개의 숫자형 변수(원소)를 가지는 벡터이다. 2. Vecor 생성 그럼 R에서 벡터를 생성시켜 .. 2021. 7. 10.
[R실습]PSI 산출하기 1. PSI 개념 신용평가모형의 안정성을 검증하는 지표는 모집단의 안정성을 검증하는 PSI(모집단안정성지수, Population Stability Index)와 평가항목의 안정성을 검증하는 CAR(항목안정성지수, Characteristic Analysis Report) 지표가 있다. 이번 포스팅에서는 PSI에 대해서 알아보자. PSI는 신용평가모형 개발 당시의 신용등급별 분포와 실제 운영할 때의 신용등급별 분포가 유사한지, 아니면 등급의 분포가 변화되었는지 검증하는 중요 지표다. 2. PSI 산출식 PSI는 아래의 수식으로 산출된다. PSI = sum((개발당시 등급별 분포 - 실제 운영 시 등급별 분포) * ln(개발당시 등급별 분포 / 실제 운영 시 등급별 분포)) 산식을 보면 알겠지만, PSI값이 .. 2021. 7. 7.
[R실습]AUROC 산출하기 1. AUROC(Area Under ROC Curve) AUROC는 Area Under ROC(Receiver Operating Characteristic) Curve의 약어로, K-S통계량(자세한 설명은 K-S통계량 포스팅 참고)과 더불어 분류모델(Classificaiton Model)의 성능을 나타내는 주요 지표 중 하나입니다. AUROC는 어떤 이벤트가 발생할 확률에 따른 집단2의 누적구성비(X축)와 집단1의 누적구성비(Y축)가 그리는 그래프 아래쪽에 곡선형태의 면적을 의미하는데요(집단1: 이벤트 발생 집단, 집단2: 이벤트 미발생 집단). 말로 설명하니, 잘 와닿지 않는 것 같아요. 예를 들어 설명해 보도록 하겠습니다. 2. AUROC(Area Under ROC Curve) 산출하기 신용평가모형 .. 2021. 7. 4.
[R실습]Information Value 산출하기 1. IV(Information Value) Information Value(이하 IV로 표현)은 정보이론에서 나온 개념으로 알고 있어요.정보이론에서 단일 항목으로 얼마나 많은 정보량을 포함하고 있는지를 수치적으로 나타냈다고 할 수 있는데요. 이런 개념을 신용평가모형에 그대로 접목시켜 보면, 항목 하나가 우량 고객군과 불량 고객군을 얼마나 잘 구분해 줄 수 있는지에 대한 정보량으로 설명할 수 있어요. IV 수치가 클수록 우량 고객군과 불량 고객군을 잘 구분할 수 있는 정보량이 많은 것이고,반대로 IV 수치가 작을수록 우량 고객군과 불량 고객군을 잘 구분할 수 있는 정보량이 적다는 거죠. 그럼 IV는 어떻게 산출되는지 살펴 보겠습니다. IV = 어떤 기준에 의해서 나누어진 구간별 (우량 고객군의 구성비 -.. 2021. 7. 4.
[R실습]K-S 통계량 산출하기 1. K-S(Kolmogorov - Smirnov Statistics) 통계량 본래 K-S 통계량(Kolmogorov - Smirnov Statistics)은 서로 다른 두개의 집단이 동일한 분포를 이루고 있는지를 검증하는 검증지표로 통계학의 용어입니다. K-S통계량은 두 집단에 대한 각각의 구성비를 누적해서 산출한 후 그 누적 구성비의 차이가 가장 많이 벌어지는 지점의 수치로 계산됩니다. 이런 통계학의 용어가 신용평가모형에 대한 성능을 측정하는 지표로 어떻게 사용되었을까요? 신용평가모형은 과거의 신용거래 행위를 기반으로 빌린 돈을 미래에 잘 상환할 가능성을 예측하는 통계적 모형입니다. 우리가 흔히 말하는 신용등급, 신용점수는 이러한 통계적 모형에 의해 산출된 확률(=빌린 돈을 미래에 잘 상환할 가능성).. 2021. 7. 3.
반응형