Try   HackMD

5.4 Feature Interaction

tags: 重點摘要
  • 一個模型有兩個特徵,模型可以是一個常量 + 只包含第一個特徵的項 + 只包含第二個特徵的項 + 兩個特徵的交互項。利用Friedman’s H-statistic的理論,我們可以計算特徵交互。
    ** Friedman's paper https://arxiv.org/pdf/0811.1679.pdf
  • 整體來說,若變數之間的變異數(variance)低於10%,代表變數之間的交互作用非常弱

H統計量的優點

  • 有理論基礎:透過PD函式來計算variance
  • 有意義的解釋:透過計算variance的方式來解釋變數之間的交互作用
  • 可跨模型間比較:因為dimensionless(無因次量、無維度量),計算出來為數值,沒有單位,所以可比較
  • 可以計算各種類型變數的交互作用
  • 可以計算三個以上的變數間的交互作用

H統計量的缺點

  • 花費很長時間進行計算,因為計算量很大
  • 若是抽樣計算,結果可能會不穩定,建議可計算不同的抽樣樣本的統計量
  • 無法確定統計量是否顯著大於0時(有交互作用),需要進行統計檢定,但與模型無關的版本不適用
  • 統計量無絕對門檻值判斷是否有顯著交互作用
  • H統計量可能大於1,會讓解釋變困難
  • 可透過統計量知道交互的強度,但無法了解交互的關係
  • 對圖像分類器無用
  • H統計量假設變數可獨立地進行隨機排序,如果變數之間具有很強的相關性,則將違反該假設
  • 如果只解讀交互作用,可能會產生現實中極不可能發生的組合

論文參考:https://arxiv.org/pdf/0811.1679.pdf