###### tags: `畢專` `paper` # Explainable AI in Fintech Risk Management [TOC] ## 1. Introduction * 英國銀行(the Bank of England)對 Explainability 的解釋 * 讓人可以理解 model 在幹嘛 * 金融穩定委員會(The Financial Stability Board) * 沒有可解釋性和可審計性會造成很大的風險 * UK 金融行為監管局(UK Financial Conduct Authority) * 不重要吧(? * 歐洲 GDPR 規則 (The European GDPR) * AI 需要帶有一些有意義的 information * 對 data 進行此類處理的重要性和預期後果 data 在某些情況下有權接收有關自動決策邏輯的有意義的信息 * European Commission High-Level Expert Group on AI * Ethics Guidelines for Trustworthy Artificial Intelligence * AI 系統如果要被信賴就需要達成7個重要的需求 * Transparency * AI 所得到的結果應該要被解釋成以適合相關利益相關者的方式 * 人類要注意AI與人類的互動 * Accountability * AI 系統應發展一個 負責任的、...的機制 * [Human agency and oversight](https://knowww.eu/nodes/5cde7f3a28d75ad1ebcff347): * decisions must be informed, and there must be a human-in-the-loop oversight. * 一些公司開始接觸 可解釋性AI * 簡單的模型好解釋,準確度較低;複雜的模型可解釋性較低,準確度較低 * they model * post-processing phase of the analysis * 解釋 其他模型 的 預測結果 * Shapley values * 預測中小型公司的信用風險,應用於P2P lending platform * 用在 logistic regression model,當accuracy上升的時候可以維持或是增加可解釋性 * 判別 違約和守信用的公司 * P2P lending ## 2. Methodology ### 2.1 Credit Risk in P2P Lending * Credit risk model 是一個常用於 建模 和 預測個別公司的守信用程度 * 觀察 N 家公司使用 T 個變數(資產負債表和經融比率) * T 有解釋性變數 * 第 n 個機構 $\gamma_n$ 是指第n公司的違約狀況,$\gamma_n$ = (公司違約? 1 : 0) * $\gamma$依賴變數 * logistic regression model 是一個廣泛用於信賴評分的模型 * 將解釋性變數分成兩類 * 違約 * 守信用的 * $\ln (\frac{p_n}{1-p_n}) = \alpha + \sum^{T}_{t=1} \beta_t x_{nt}$ * $p_n$ 第 n 家公司會違約的機率 * $x_i = (x_{i,1} , \dots , x_{i,T})$ 借款人專用的解釋性變數 * $\alpha$ 截距 * $\beta_t$ 是 第 t 個 regression 的係數 * 違約的機率 * $p_n = (1 + exp(\alpha + \sum^{T}_{t=1} \beta_t x_{nt}))^ {-1}$ ### 2.2 Machine Learning of Credit Risk * Credit risk 可使用 ML 從資產負債表抽取 非線性的關係 * employing a posteriori an explanations algorithm * XGBoost model ### 2.3 Learning Model Comparsion * 為了偵測 指標 $\gamma = \{0, 1\}$ (違約),所以觀察 $p \in [0, 1]$ (違約的機率),如果$p$超出 $\tau \in [0,1]$ 就是 1 ,otherwise 0 => B * $B$ 是預測出來會不會違約 * $\gamma$ 是 真正的會不會違約的答案 * [receiver operating characteristic (ROC)](https://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF) curve * ![](https://i.imgur.com/2Jhv0Xb.png) * are under curve(AUC) ### 2.4 Explaining Model Predictions * information in explanatory variables and predicted default probabilities * SHAP + shapley value * 將 那些解釋性變數加總,作為該預測結果 * additive feature attribution method(附加特徵歸因法) * $\phi(\hat{f}(x_i)) = \phi_0 + \sum^{M}_{k=1} \phi_k(x_i)$ * M 是 可解釋性變數的數量 * $\phi \in \mathbb{R}^{\mathbb{M}}$ * $\phi_k \in \mathbb{R}$ * $\phi_k(x_i)$ 是 shapley value * SHapley Additive exPlanation(SHAP) * $\phi_k(x_i) = \sum_{x' \subseteq C(x) \setminus x_k } \frac{|x'|!(M \space - \space |x'| \space - \space 1)!}{M!} [\hat{f}(x' \space \cup \space x_k) \space - \space \hat{f}(x')]$ * $C(x)\x_k$ 是除了 $x_k$(with $m = 1,...,M$) 以外所有可能的 models 的集合 * $|x'|$ 在 model $x'$ 中的 variable 數量 * $M$ 變數的數量 * $\hat{f}(x' \space \cup \space x_k)$ 所有模型可能的相關配置的預測,包含 $x_k$ * $\hat{f}(x')$ 所有模型可能的相關配置的預測,不包含 $x_k$ * $\hat{f}(x' \space \cup \space x_k) \space - \space \hat{f}(x')$ 定義 $x_k$ 對於每個預測的貢獻(度?) ## 3. Application ### 3.1 Data * ECAI 專於 P2P平台的信用評分,專注於 SME 商業的借貸 * dataset 在SMEs 15,045 的 官方經濟資訊(資產負債表) * 南歐 * 2015 * 每個公司在一年後(2016)還可不可以借貸 * 違約的資料大概佔10.9% ### 3.2 Results * 80% training set * 20% testing set * 中華民國曲線 * 4個公司的信用分數 * 2違約 * 2好棒棒 * 給個公司重要的解釋性都不同 ## 4. Conclusion * 為了要解釋複雜的 ML models ,使他們提出一個 agnostic, post-processing methodology, based on Shapley values * 可以使每個可解釋性變數有各自的貢獻對於預測結果 * 未來 * 用 correlation network models * 以shapley value 為基礎,擴展方法、開發 model selection procedures * 用在 ordinal response variables *