5.4 Feature Interaction

# 5.4 Feature Interaction ###### tags: `重點摘要` * 一個模型有兩個特徵，模型可以是一個常量 + 只包含第一個特徵的項 + 只包含第二個特徵的項 + 兩個特徵的交互項。利用Friedman’s H-statistic的理論，我們可以計算特徵交互。 ** Friedman's paper https://arxiv.org/pdf/0811.1679.pdf * 整體來說，若變數之間的變異數(variance)低於10％，代表變數之間的交互作用非常弱 ### H統計量的優點 * 有理論基礎：透過PD函式來計算variance * 有意義的解釋：透過計算variance的方式來解釋變數之間的交互作用 * 可跨模型間比較：因為dimensionless(無因次量、無維度量)，計算出來為數值，沒有單位，所以可比較 * 可以計算各種類型變數的交互作用 * 可以計算三個以上的變數間的交互作用 ### H統計量的缺點 * 花費很長時間進行計算，因為計算量很大 * 若是抽樣計算，結果可能會不穩定，建議可計算不同的抽樣樣本的統計量 * 無法確定統計量是否顯著大於0時(有交互作用)，需要進行統計檢定，但與模型無關的版本不適用 * 統計量無絕對門檻值判斷是否有顯著交互作用 * H統計量可能大於1，會讓解釋變困難 * 可透過統計量知道交互的強度，但無法了解交互的關係 * 對圖像分類器無用 * H統計量假設變數可獨立地進行隨機排序，如果變數之間具有很強的相關性，則將違反該假設 * 如果只解讀交互作用，可能會產生現實中極不可能發生的組合論文參考：https://arxiv.org/pdf/0811.1679.pdf