# 5.4 Feature Interaction ###### tags: `重點摘要` * 一個模型有兩個特徵,模型可以是一個常量 + 只包含第一個特徵的項 + 只包含第二個特徵的項 + 兩個特徵的交互項。利用Friedman’s H-statistic的理論,我們可以計算特徵交互。 ** Friedman's paper https://arxiv.org/pdf/0811.1679.pdf * 整體來說,若變數之間的變異數(variance)低於10%,代表變數之間的交互作用非常弱 ### H統計量的優點 * 有理論基礎:透過PD函式來計算variance * 有意義的解釋:透過計算variance的方式來解釋變數之間的交互作用 * 可跨模型間比較:因為dimensionless(無因次量、無維度量),計算出來為數值,沒有單位,所以可比較 * 可以計算各種類型變數的交互作用 * 可以計算三個以上的變數間的交互作用 ### H統計量的缺點 * 花費很長時間進行計算,因為計算量很大 * 若是抽樣計算,結果可能會不穩定,建議可計算不同的抽樣樣本的統計量 * 無法確定統計量是否顯著大於0時(有交互作用),需要進行統計檢定,但與模型無關的版本不適用 * 統計量無絕對門檻值判斷是否有顯著交互作用 * H統計量可能大於1,會讓解釋變困難 * 可透過統計量知道交互的強度,但無法了解交互的關係 * 對圖像分類器無用 * H統計量假設變數可獨立地進行隨機排序,如果變數之間具有很強的相關性,則將違反該假設 * 如果只解讀交互作用,可能會產生現實中極不可能發生的組合 論文參考:https://arxiv.org/pdf/0811.1679.pdf