본문 바로가기
반응형

r 기계학습3

R에서 XGBoost 알고리즘을 사용한 분류예측모델 적합 예시 Overview R의 강력한 기계 학습 알고리즘인 xgboost를 사용하는 방법 알아보기 예시 데이터의 사용과 xgboost 기계 학습 모델을 구축함으로서, R에서 xgboost의 응용 프로그램 확인하기 Introduction XGBoost 알고리즘이 캐글 등 데이터 과학 대회에서 우승을 차지하는 가장 인기 있는 방법 중 하나라는 사실은 누구나 다 알고 계실 거예요. 기존의 기계 학습 알고리즘(ex. Random Forest, Neural Network 등) 보다 강력한 이유는 무엇일까요? 아마, 넓은 의미에서 알고리즘의 효율성, 정확성 및 실행 가능성이라고 생각합니다. 지난 몇 년 동안 예측 모델링은 훨씬 빠르고 정확해졌습니다. 소수의 소수로 모델을 개선하기 위해 feature engineering에 .. 2022. 1. 24.
이진분류모델 예측 기초 예제 실습(with R) Introduction LightGBM 알고리즘 활용(Ke et al. 2017) # LightGBM 알고리즘 활용을 위해 패키지 lightgbm 설치 install.packages('lightgbm') # lightgbm 패키지 로드 library(lightgbm) 본 예제는 기본 사용법에 대한 안내 수준이에요. bank 데이터 세트 중 일부를 기반으로 간단한 이진 분류 모델을 구축하는 방법을 보도록 할게요(Moro, Cortez, Rita 2014). "age"와 "balance"이라는 두 가지 input feature를 사용하여 고객이 정기 예금에 가입했는지 여부를 예측할게요. The dataset data(bank, package = "lightgbm") # lightgbm 패키지에 있는 bank.. 2022. 1. 11.
SHAP value에 대한 간단한 소개(with R) 소개 머신 러닝 알고리즘(랜덤 포레스트, xgboost, 딥 러닝 등)을 활용한 복잡한 예측 모델은 해석하기 쉽지 않죠. 예를 들어, 부도 발생 가능성이 90%인 것과 같은 특정 예측(확률 값)이 주어지면 해당 값을 얻기 위한 각 입력 변수의 영향은 무엇입니까? 최근 이러한 블랙박스 모델을 해석하는(Explainable AI) 기술이 많이 발전하고 있어요. 그중 하나가 바로 Scott M. Lundberg가 개발한 SHAP(SHapley Additive exPlanations)이에요. 판매 점수 모델이라는 것을 한번 생각해 볼까요? 우편번호 "A1"에 거주하는 고객이 "10개 구매"로 점수가 95%이고, 다른 우편번호 "A2" 및 "7개 구매"에 있는 고객의 점수는 60%라고 가정하죠. 우선, 각 변수는.. 2022. 1. 1.
반응형