# Data Mining ###### tags: `Data Mining` ## Chapter 6. Data Preprocessing - 資料轉換(Data Transformation) 一個可以map整組的value到一個給定的參數變成一組全新和替代的值的一個function。 我們的方法有 : 標準化、離散化 - 標準化(Normalization) -- Min-max Normalization  -- Z-score Normalization  -- Normalization by decimal scaling  - 離散化(Discretization) -- 三種參數 Normal---來自不規律的值 ex.顏色 Ordinal---來自規律的值 ex. 學術等級 Numeric---實數 ex. 小數、整數 -- 離散化(Discretization) o---o 區間的labels可以用來替代真正的資料值。 o---o 可以用離散化減少資料的size。 o---o 監督式、非監督式 o---o 離散化可以用遞迴的方式在相同的參數上 o---o 可以用來做更深入的分析,像是classification。 - 資料離散化的方式 -- Histogram 長條圖分析 (上下分割、非監督式) -- Clustering 聚集分析 (非監督式、上下分割、下到上的合併) -- Decision-tree 決策樹分析 (監督式、上下分割) - 利用Classification做離散化 + 相關性分析 分類(Classification) -- Supervised 監督式 : 給定的class labels。 -- 利用 ***Entropy*** 來定義切割的點 (也就是離散化的點) -- 上到下、遞迴式的做切割 -- 第七章會來認真探討 - Entropy為底的離散化 -- 在給定的一組samoles S,如果利用界線T將S劃分成兩個區間S1和S2,在這樣的設定下期望的資料會長這樣  -- ***Entropy***是以在samples中的set的class 分佈做為基底計算出來的。 在給定的*m*個class中,他在S1中的entropy值就是  其中P1是i在S1中的機率。 - Entropy  - Examples   - 總結 -- 資料品質 : 準確率、完整率、一致性、時間性、可信度、詮釋性 -- 資料清理 : 雜亂度、邊緣值 -- 資料提升 : 實體辨識問題、移除冗餘、偵測不一致性 -- 資料減少 : 維度減少、數量減少 -- 資料的轉變和資料的離散化 --- ## Oct.03 Data mining ### Interesting Measure - Four classes Heuristic Base, border based, Constraint Satisfaction Problem - Preliminaries SI: sensitive itemsets SS: superset of sensitive itemsets - CSP 我覺得就是把條件式列出來,並嘗試去獲得解。 犧牲insensitive itemsets,把嚴苛的不等式刪掉。 - which should be use? lift and x^2 not good for larger correlation --- ## Nov.10 Data Mining ### overfitting and tree pruning - Pre-pruning , Post-pruning : 定義一個條件,到這樣就不切了。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up