⑴ 智能風控決策引擎系統可落地實現方案(三)模型引擎實現
智能風控決策引擎系統可落地實現方案(三):模型引擎實現
在智能風控決策引擎系統中,模型引擎是實現風控決策智能化的關鍵組件。它基於機器學習演算法,通過對歷史數據的訓練和學習,構建出能夠預測用戶未來逾期風險的模型,從而為風控決策提供依據。以下是模型引擎實現的具體方案:
一、機器學習模型介紹
機器學習模型是模型引擎的核心,它依據已有歷史數據,挖掘共同特徵,用概率統計方法和演算法形成機器可識別的規律模式(模型),並用該模式來預測未知數據。在風控領域,常用的機器學習模型包括邏輯回歸、支持向量機、決策樹、集成學習演算法(如GBDT、Xgboost)等。其中,XGBoost由於其優異表現,是風控領域最主流的建模演算法之一。
二、模型建立流程
y定義:
y也叫Y標簽,是因變數,代表我們想要預測的目標。在風控信貸申請流程中,最關注的指標是「用戶是否逾期」,因此會選擇用戶逾期作為負樣本。
根據業務場景是單期產品還是分期產品,還款周期長度是多少,來確定y標簽的定義。如單期14天產品可選擇逾期3天作為負樣本來定義y標簽。
X定義:
X是自變數,是多維的向量,代表特徵變數。特徵工程是建模最重要且耗時的工作,包括數據的探索選擇、數據清洗、特徵處理轉化、特徵選擇評估等步驟。
信貸風控場景中可挖掘數據主要包括:個人基本信息、歷史表現、徵信及多頭表現、行為打點記錄、抓取授權信息,以及三方機構數據API服務。
樣本選擇:
樣本的選擇主要看樣本量大小。業務初期樣本量小可全部選擇,甚至加入一些非當前場景下樣本填充。樣本量大可欠采樣處理,優先選擇最新數據,選擇表現期的樣本。
確定樣本數據集後,可將數據集分為訓練集train、測試集test和時間外樣本OOT。先通過訓練集進行模型訓練,測試集進行模型性能測試,最後通過OOT樣本進一步評估模型在最新數據表現。
建模演算法:
選擇合適的建模演算法,如邏輯回歸、支持向量機、決策樹、XGBoost等。
使用python等編程語言,藉助scikit-learn等機器學習庫進行模型訓練。
模型評估:
通過混淆矩陣、精準率、召回率、ROC曲線、KS曲線以及穩定性指標PSI等指標來評估模型的性能。
根據模型在測試集和OOT樣本的表現評估,來決定模型是否可用。實際模型部署後還要經過一個陪跑的過程才能上線決策。
三、模型部署
模型訓練完成後,需要將模型持久化,以便之後直接使用而不用每次都先訓練。模型持久化有兩種方式:pickle和pmml。
- pickle:python特有的對象序列化格式,生成的文件可以保存並發布到生產伺服器,由python環境解析執行。
- pmml:將模型轉化為XML格式的文件,這樣python訓練出的模型其他語言如java可以解析執行。
四、模型引擎架構
模型引擎架構主要包括以下幾個部分:
- 模型存儲:存儲訓練好的模型文件,如pickle文件或pmml文件。
- API服務:提供RESTful API介面,供上游系統調用模型進行實時預測。
- 日誌與監控:記錄模型調用的日誌信息,監控模型的運行狀態和性能指標。
- 模型管理:包括模型的版本管理、模型更新、模型回滾等功能。
五、模型工程閉環
整個模型工程包括離線訓練和在線預測兩部分。離線訓練出的模型通過文件導出,發布到模型引擎中,提供模型服務。而實時模型引擎計算出的結果和特徵數據又會作為重要的樣本數據用於離線分析和離線回溯,形成一個閉環。
六、模型引擎與決策引擎的打通
模型引擎與決策引擎的打通方式有多種:
- 將模型作為特徵,決策引擎調用特徵引擎,特徵引擎調用模型引擎。
- 將模型作為特殊的特徵,決策引擎根據標識識別調用特徵引擎還是調用模型引擎。
- 決策引擎增加一個網路請求網關節點類型,在決策流中配置,執行決策流解析可獲取實時請求模型引擎的能力。
通過以上方式,模型引擎與決策引擎可以實現無縫對接,共同為風控決策提供支持。
以上即為智能風控決策引擎系統中模型引擎的實現方案。通過構建機器學習模型,實現風控決策的智能化和精準化,為金融機構的風控管理提供有力支持。
⑵ 【評分卡系列】評分卡模型PMML文件由來原理場景示例詳解
在數據科學領域,PMML(Predictive Model Markup Language)是一種重要的標准化文件格式,旨在促進不同數據挖掘工具間的模型交流與共享。它最初由Data Mining Group(DMG)提出,現被廣泛應用於模型的交換與執行中。
PMML以XML為基礎,詳細記錄了數據挖掘模型的各個方面,如機器學習演算法、預處理步驟等。通過標準的PMML文件,可以方便地在Python等編程語言中,通過如sklearn2pmml和nyoka這樣的庫,將模型從一個工具導出到另一個工具中使用。
下面以一個簡單的Python示例為例,演示如何將Scikit-learn模型轉換為PMML文件。PMML文件包含頭信息、數據字典、模型結構等核心部分,例如DecisionTreeIris.pmml文件,它展示了一個決策樹模型的結構和節點信息。
對於評分卡類型的PMML文件,它們主要用於計算prediction_score,通過定義一系列特徵和條件,將輸入數據映射到得分或類別上。比如,pay_0_score特徵根據pay_0欄位的值,通過一系列條件分配分數,形成一個基於規則的評估體系。limit_bal_score則是根據bill_amt2欄位的值來調整評分。
總的來說,PMML文件的解讀涉及模型的上下文、數據欄位定義、評分規則和輸出結構,這對於理解、遷移和應用數據挖掘模型至關重要。通過深入理解PMML文件,可以更有效地在不同系統間共享和部署預測模型。