5.4 Feature Interaction
- 一個模型有兩個特徵,模型可以是一個常量 + 只包含第一個特徵的項 + 只包含第二個特徵的項 + 兩個特徵的交互項。利用Friedman’s H-statistic的理論,我們可以計算特徵交互。
** Friedman's paper https://arxiv.org/pdf/0811.1679.pdf
- 整體來說,若變數之間的變異數(variance)低於10%,代表變數之間的交互作用非常弱
H統計量的優點
- 有理論基礎:透過PD函式來計算variance
- 有意義的解釋:透過計算variance的方式來解釋變數之間的交互作用
- 可跨模型間比較:因為dimensionless(無因次量、無維度量),計算出來為數值,沒有單位,所以可比較
- 可以計算各種類型變數的交互作用
- 可以計算三個以上的變數間的交互作用
H統計量的缺點
- 花費很長時間進行計算,因為計算量很大
- 若是抽樣計算,結果可能會不穩定,建議可計算不同的抽樣樣本的統計量
- 無法確定統計量是否顯著大於0時(有交互作用),需要進行統計檢定,但與模型無關的版本不適用
- 統計量無絕對門檻值判斷是否有顯著交互作用
- H統計量可能大於1,會讓解釋變困難
- 可透過統計量知道交互的強度,但無法了解交互的關係
- 對圖像分類器無用
- H統計量假設變數可獨立地進行隨機排序,如果變數之間具有很強的相關性,則將違反該假設
- 如果只解讀交互作用,可能會產生現實中極不可能發生的組合
論文參考:https://arxiv.org/pdf/0811.1679.pdf