###### tags: `ML數學分部` # Feature Selection ## 1. Intro & Hypothesis Testing - [Hypothesis Testing PPT](https://docs.google.com/presentation/d/1mDbCPop65yK0kYNI-rgCMApX5vyRyeQeAkjHD9UYOW8/edit?usp=sharing) <br> ## 2. Class Separability Measure 除了 Hypothesis Testing 可以量測出資料分布的差距, 也可以使用 Divergency 來量測不同 Class 間資料的差距 量測原理是加總了所有 ( KL ) Divergence 並乘上個別 Class 的機率值 :::warning $$D=\sum^M_i\sum^M_jP(\omega_i)P(\omega_j)D_{KL}(\omega_i|\omega_j)$$ ::: 參考之前筆記 : - [KL Divergence & CrossEntrophy 的真面目](/PjUEbxbeSA2qNbRupRzYMw) <br> ## 3. Scatter Matrices 在衡量一筆 Feature 資料也可以使用"變異數"分析 - **Variance Within Class** : 某 Feature 在同個類別中的變異數, 變異數越小,資料越集中 ( good ),反之資料分散 ( not good ) - **Variance Between Class** : 某 Feature 不同類別間的變異數, 變異數越大,每個類別間差異越大 ( 分散 ) ( good ) <br>  可以用 ANOVA ( 變異數分析 ) 來做 Hypothesis Testing 得出結論 但當 Feature 很多時就要使用 Scatter Matrices 來做計算、描述 簡單來說 Scatter Matrices 就是運用變異數分析的原理,將 Sum Of Square(SS) 換成 Variance 並用 feature matrix ( 多個 feature ) 做矩陣計算 這些 Variance 的矩陣也稱為 Scatter Matrices :::warning **Within-Class Scatter Matrices**  >  > >  ::: :::warning **Between-Class Scatter Matrices**  > Sample Distribution Mean > >  ::: :::warning **Mixture-Class Scatter Matrices**  **特性** $S_m = S_w + S_b$ ::: :::success **評估分數** 1. $J_1$ - Trace : Matrix 中間的對稱斜線元素加總  2. $J_2$  3. $J_3$  --- **評估結果** 當以上三個 Score 越大代表 - Within Variance 會越小,同 Class 的資料集中 - Between Variance 會越大,Class 間差距大 :::
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up