###### tags: `畢專` `paper`
# Explainable AI in Fintech Risk Management
[TOC]
## 1. Introduction
* 英國銀行(the Bank of England)對 Explainability 的解釋
* 讓人可以理解 model 在幹嘛
* 金融穩定委員會(The Financial Stability Board)
* 沒有可解釋性和可審計性會造成很大的風險
* UK 金融行為監管局(UK Financial Conduct Authority)
* 不重要吧(?
* 歐洲 GDPR 規則 (The European GDPR)
* AI 需要帶有一些有意義的 information
* 對 data 進行此類處理的重要性和預期後果
data 在某些情況下有權接收有關自動決策邏輯的有意義的信息
* European Commission High-Level Expert Group on AI
* Ethics Guidelines for Trustworthy Artificial Intelligence
* AI 系統如果要被信賴就需要達成7個重要的需求
* Transparency
* AI 所得到的結果應該要被解釋成以適合相關利益相關者的方式
* 人類要注意AI與人類的互動
* Accountability
* AI 系統應發展一個 負責任的、...的機制
* [Human agency and oversight](https://knowww.eu/nodes/5cde7f3a28d75ad1ebcff347):
* decisions must be informed, and there must be a human-in-the-loop oversight.
* 一些公司開始接觸 可解釋性AI
* 簡單的模型好解釋,準確度較低;複雜的模型可解釋性較低,準確度較低
* they model
* post-processing phase of the analysis
* 解釋 其他模型 的 預測結果
* Shapley values
* 預測中小型公司的信用風險,應用於P2P lending platform
* 用在 logistic regression model,當accuracy上升的時候可以維持或是增加可解釋性
* 判別 違約和守信用的公司
* P2P lending
## 2. Methodology
### 2.1 Credit Risk in P2P Lending
* Credit risk model 是一個常用於 建模 和 預測個別公司的守信用程度
* 觀察 N 家公司使用 T 個變數(資產負債表和經融比率)
* T 有解釋性變數
* 第 n 個機構 $\gamma_n$ 是指第n公司的違約狀況,$\gamma_n$ = (公司違約? 1 : 0)
* $\gamma$依賴變數
* logistic regression model 是一個廣泛用於信賴評分的模型
* 將解釋性變數分成兩類
* 違約
* 守信用的
* $\ln (\frac{p_n}{1-p_n}) = \alpha + \sum^{T}_{t=1} \beta_t x_{nt}$
* $p_n$ 第 n 家公司會違約的機率
* $x_i = (x_{i,1} , \dots , x_{i,T})$ 借款人專用的解釋性變數
* $\alpha$ 截距
* $\beta_t$ 是 第 t 個 regression 的係數
* 違約的機率
* $p_n = (1 + exp(\alpha + \sum^{T}_{t=1} \beta_t x_{nt}))^ {-1}$
### 2.2 Machine Learning of Credit Risk
* Credit risk 可使用 ML 從資產負債表抽取 非線性的關係
* employing a posteriori an explanations algorithm
* XGBoost model
### 2.3 Learning Model Comparsion
* 為了偵測 指標 $\gamma = \{0, 1\}$ (違約),所以觀察 $p \in [0, 1]$ (違約的機率),如果$p$超出 $\tau \in [0,1]$ 就是 1 ,otherwise 0 => B
* $B$ 是預測出來會不會違約
* $\gamma$ 是 真正的會不會違約的答案
* [receiver operating characteristic (ROC)](https://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF) curve
* 
* are under curve(AUC)
### 2.4 Explaining Model Predictions
* information in explanatory variables and predicted default probabilities
* SHAP + shapley value
* 將 那些解釋性變數加總,作為該預測結果
* additive feature attribution method(附加特徵歸因法)
* $\phi(\hat{f}(x_i)) = \phi_0 + \sum^{M}_{k=1} \phi_k(x_i)$
* M 是 可解釋性變數的數量
* $\phi \in \mathbb{R}^{\mathbb{M}}$
* $\phi_k \in \mathbb{R}$
* $\phi_k(x_i)$ 是 shapley value
* SHapley Additive exPlanation(SHAP)
* $\phi_k(x_i) = \sum_{x' \subseteq C(x) \setminus x_k } \frac{|x'|!(M \space - \space |x'| \space - \space 1)!}{M!} [\hat{f}(x' \space \cup \space x_k) \space - \space \hat{f}(x')]$
* $C(x)\x_k$ 是除了 $x_k$(with $m = 1,...,M$) 以外所有可能的 models 的集合
* $|x'|$ 在 model $x'$ 中的 variable 數量
* $M$ 變數的數量
* $\hat{f}(x' \space \cup \space x_k)$ 所有模型可能的相關配置的預測,包含 $x_k$
* $\hat{f}(x')$ 所有模型可能的相關配置的預測,不包含 $x_k$
* $\hat{f}(x' \space \cup \space x_k) \space - \space \hat{f}(x')$ 定義 $x_k$ 對於每個預測的貢獻(度?)
## 3. Application
### 3.1 Data
* ECAI 專於 P2P平台的信用評分,專注於 SME 商業的借貸
* dataset 在SMEs 15,045 的 官方經濟資訊(資產負債表)
* 南歐
* 2015
* 每個公司在一年後(2016)還可不可以借貸
* 違約的資料大概佔10.9%
### 3.2 Results
* 80% training set
* 20% testing set
* 中華民國曲線
* 4個公司的信用分數
* 2違約
* 2好棒棒
* 給個公司重要的解釋性都不同
## 4. Conclusion
* 為了要解釋複雜的 ML models ,使他們提出一個 agnostic, post-processing methodology, based on Shapley values
* 可以使每個可解釋性變數有各自的貢獻對於預測結果
* 未來
* 用 correlation network models
* 以shapley value 為基礎,擴展方法、開發 model selection procedures
* 用在 ordinal response variables
*