본문 바로가기
반응형

전체 글184

[R프리뷰]R program 설치하기 R은 무료 오픈 소스 프로그램으로 누구나 쉽게 다운 받아 사용이 가능하다. R은 전 세계 개발자들이 생성한 수많은 패키지로 구성되어 있어, 그 확장성이 무궁무진하다. R을 잘 사용한다는 말은 곧 R의 패키지와 함수를 많이 알고 있다는 말과 대동소이하다. 하지만! R의 작동 원리 및 기본 문법만 숙지하고 있어도 자신의 생각을 프로그램화 하기에는 어렵지 않다. 1) R을 설치하고, 2) R의 작동 원리를 이해하고, 3) R의 주요 함수를 익히고, 4) 이를 활용하여 여러 프로그램을 작성해 보자. * R의 설치 R 프로그램을 다운받기 위해 다음 URL 주소로 들어가 보자. https://www.r-project.org R: The R Project for Statistical Computing www.r-pr.. 2021. 7. 6.
[R실습]AUROC 산출하기 1. AUROC(Area Under ROC Curve) AUROC는 Area Under ROC(Receiver Operating Characteristic) Curve의 약어로, K-S통계량(자세한 설명은 K-S통계량 포스팅 참고)과 더불어 분류모델(Classificaiton Model)의 성능을 나타내는 주요 지표 중 하나입니다. AUROC는 어떤 이벤트가 발생할 확률에 따른 집단2의 누적구성비(X축)와 집단1의 누적구성비(Y축)가 그리는 그래프 아래쪽에 곡선형태의 면적을 의미하는데요(집단1: 이벤트 발생 집단, 집단2: 이벤트 미발생 집단). 말로 설명하니, 잘 와닿지 않는 것 같아요. 예를 들어 설명해 보도록 하겠습니다. 2. AUROC(Area Under ROC Curve) 산출하기 신용평가모형 .. 2021. 7. 4.
[R실습]Information Value 산출하기 1. IV(Information Value) Information Value(이하 IV로 표현)은 정보이론에서 나온 개념으로 알고 있어요.정보이론에서 단일 항목으로 얼마나 많은 정보량을 포함하고 있는지를 수치적으로 나타냈다고 할 수 있는데요. 이런 개념을 신용평가모형에 그대로 접목시켜 보면, 항목 하나가 우량 고객군과 불량 고객군을 얼마나 잘 구분해 줄 수 있는지에 대한 정보량으로 설명할 수 있어요. IV 수치가 클수록 우량 고객군과 불량 고객군을 잘 구분할 수 있는 정보량이 많은 것이고,반대로 IV 수치가 작을수록 우량 고객군과 불량 고객군을 잘 구분할 수 있는 정보량이 적다는 거죠. 그럼 IV는 어떻게 산출되는지 살펴 보겠습니다. IV = 어떤 기준에 의해서 나누어진 구간별 (우량 고객군의 구성비 -.. 2021. 7. 4.
[R실습]K-S 통계량 산출하기 1. K-S(Kolmogorov - Smirnov Statistics) 통계량 본래 K-S 통계량(Kolmogorov - Smirnov Statistics)은 서로 다른 두개의 집단이 동일한 분포를 이루고 있는지를 검증하는 검증지표로 통계학의 용어입니다. K-S통계량은 두 집단에 대한 각각의 구성비를 누적해서 산출한 후 그 누적 구성비의 차이가 가장 많이 벌어지는 지점의 수치로 계산됩니다. 이런 통계학의 용어가 신용평가모형에 대한 성능을 측정하는 지표로 어떻게 사용되었을까요? 신용평가모형은 과거의 신용거래 행위를 기반으로 빌린 돈을 미래에 잘 상환할 가능성을 예측하는 통계적 모형입니다. 우리가 흔히 말하는 신용등급, 신용점수는 이러한 통계적 모형에 의해 산출된 확률(=빌린 돈을 미래에 잘 상환할 가능성).. 2021. 7. 3.
반응형