# 1. 排列重要性 Permutation Importance(RandomForestClassifier)
這種方法通過隨機打亂單一特徵的數據,來觀察這個操作對模型性能的影響。如果模型性能明顯下降,則表明該特徵對模型的重要性較高。這種方法通常用於非樹模型,例如線性回歸或神經網絡。
## 第一組

## 第二組

# 2. 內建特徵重要性( coef_ 或 feature_importances_)(RandomForestClassifier)
某些模型內部會自動計算出特徵的重要性。比如線性回歸模型中的係數(coef_)可以顯示每個特徵對結果的影響,樹模型(如隨機森林或 XGBoost)的 feature_importances_ 屬性則可用來顯示特徵在分裂中的貢獻程度。
## 第一組

## 第二組

# 3. Leave-one-out(RandomForestClassifier)
這種方法逐一移除一個特徵,並觀察模型性能的變化。如果移除某個特徵導致模型性能顯著下降,則說明該特徵重要性較高。這是相對簡單但耗時的特徵選擇方法。
## 第一組

## 第二組

# 4. 相關性分析
相關性分析測量兩個變數之間的線性關係,通常用於篩選出與目標變數高度相關的特徵。在高維度數據中,這種方法可以幫助減少不相關或多餘的特徵。
## 第一組

## 第二組

# 5. 遞歸特徵消除 Recursive Feature Elimination(RandomForestClassifier)
RFE 是一種遞歸方法,從初始的所有特徵集中移除不重要的特徵,並通過評估模型性能來選擇最佳的特徵子集。這個過程會反覆進行,直到找到對模型影響最大的特徵集。
## 第一組

## 第二組

# 6. XGBoost特性重要性(XGBClassifier)
XGBoost 是一種強大的梯度提升樹模型,它會自動計算出每個特徵的重要性,通常使用 gain(獲益)或 cover(覆蓋)等指標來衡量。這些指標反映了每個特徵在決策樹分裂過程中的貢獻度。
## 第一組

## 第二組

# 7. 主成分分析 PCA
PCA 是一種無監督降維技術,它通過線性變換將原始特徵投影到一組新的正交軸上(稱為主成分),並以此來最大化數據的方差。這樣可以減少特徵的數量,同時保留最重要的數據變異信息。
## 第一組

## 第二組

# 8. 變異數分析 ANOVA
ANOVA 是用來比較多組樣本平均數的方法,可以用來衡量一個或多個自變數對因變數的影響程度。當應用於特徵選擇時,ANOVA 可以幫助篩選出與目標變數有顯著差異的特徵。
F 值衡量的是特徵與目標變數之間的變異比,而 p 值則告訴你這個關聯性的顯著性。
## 第一組


## 第二組


# 9. 卡方檢定
卡方檢定是一種統計檢驗,用於檢查分類變數之間的關聯性。在特徵選擇中,卡方檢定可以幫助篩選出與目標變數具有顯著關聯的特徵,通常用於分類問題。
## 第一組


## 第二組

