# Hw3 ## Missing data ### Replace missing value 因為這一筆資料及當中沒有missing value 所以我們補missing 數值的時候並不會有任何變化 ## Sampling :::success Resample(重新取樣)在監督式學習中的應用: 在監督式學習中,我們通常有帶有標籤的訓練數據,用於訓練機器學習模型。有時,數據集可能不平衡,即某些類別的示例數量明顯少於其他類別。這可能導致模型對多數類別的預測效果較好,但對少數類別的效果較差。 在這種情況下,"Resample" 可以用來調整訓練數據的分佈,以使每個類別的示例數量均衡。這可以通過過抽樣多數類別的示例或重複抽樣少數類別的示例來實現。 ::: ### Supervised Resample :::info 這邊我可以參照文件說明的方式 需要nominal 才可以使用這個分配不然請使用 unsupervised 分類 而我們可以看出來這邊具有三個種類的 屬於nominal 特性 1. Iris-setosa 50 50.0 2. Iris-versicolor 50 50.0 3. Iris-virginica 50 50.0 ::: 所以我們就是用supervised #### before ![](https://hackmd.io/_uploads/Hkmo53cg6.png) #### after :::info 我這邊調整一個參數 bias 1.0 所以資料的sample,分佈會向外靠攏一個標準差重新sample,所以看起來會有變重玉山變成小胖山 左右一個標準差都取樣為1.0 ::: ![](https://hackmd.io/_uploads/Syj_9hceT.png) :::info 只取右邊就是0.5會看到資料嚴重右傾斜 0.5 ::: ![](https://hackmd.io/_uploads/rkfZ02cg6.png) ### Unsupervised Resample :::warning 但是我們依舊可以使用unspuervise 的方法 但是我們可以發現效果並不明顯std 還是在 4.3 代表 unsupervised 對這個資料效果並不明顯,因為原本的分佈或密度就很均勻所以才會有這樣的結果。 ::: ![](https://hackmd.io/_uploads/Hkj4laqxa.png) ## Dimension reduction(PCA) ### Principal Components ## Attribute selection ## Discretization ### Supervise Attribute Discretize ### Unsupervised Attribute Discretize ## Binarize ### Supervise Attribute Nominal to binary ### Unsupervised Attribute Nominal to binary ## Standardize ### Unsupervised Attribute Standardize ## Normalize ### Unsupervised Instance Normalize ## Type Transform ### Unsupervised Attribute String to Nominal