# 李彥羲-R76081029 Microsoft Azure **筆記:** UCI datesets 包含許多機器學習的資料集,Bank Marketing datasets和一葡萄牙銀行的電話行銷的數據有關,其目的是存取顧客是否訂閱其公司產品。 *Data description:* >17 Input variables >4521 examples ![](https://i.imgur.com/b3QLRLI.png) *** ![](https://i.imgur.com/ePnc70y.png) *** ![](https://i.imgur.com/MSWe0Zc.png) *** ![](https://i.imgur.com/5TbDsdG.png) *** ![](https://i.imgur.com/tC2TRdT.png) *** ![](https://i.imgur.com/Xyc3AOx.png) *** ![](https://i.imgur.com/LIafWu5.png) *** ![](https://i.imgur.com/Q6beHt5.png) *** ![](https://i.imgur.com/eQSwsNl.png) >資料前處理: 資料清洗,刪除或填入Nan值 刪除極端值(outlier),避免影響模型 >**特徵工程:** 識別和選擇重要的特徵 >模型訓練: Training Data用於模型的訓練,Test Data用於評估訓練完模型 (EX:準確率..) 比率:0.8:0.2 *** ![](https://i.imgur.com/aEWcccl.png) *** ![](https://i.imgur.com/g1fzBOt.png) *** ![](https://i.imgur.com/1LpYL5M.png) *** ![](https://i.imgur.com/289MvyB.png) *** ![](https://i.imgur.com/BGQOml6.png) *** ![](https://i.imgur.com/r8cNL17.png) *** ![](https://i.imgur.com/viYfYOu.png) *** ![](https://i.imgur.com/hSWWxoQ.png) *** ![](https://i.imgur.com/FpGXEZL.png) *** ![](https://i.imgur.com/qaG2LaY.png) *** ![](https://i.imgur.com/c40IP1w.png) 使用二元分類樹 *** ![](https://i.imgur.com/9qd5Ga3.png) *** ![](https://i.imgur.com/zl4dmbd.png) y為要預測的值(顧客是否訂閱0或1) *** ![](https://i.imgur.com/XWntiZu.png) >Score計分模型:執行預測 可查看實際值和預測值以及預測為1(訂閱)的機率(Scored Probabilities) *** ![](https://i.imgur.com/XAoWJvB.png) 評估模型: 從左半邊的輸入,右半邊的輸入可比較兩模型 *** ![](https://i.imgur.com/oQItFoR.png) *** ![](https://i.imgur.com/VwhwkXG.png) *** ![](https://i.imgur.com/gKoyt1k.png) *** ![](https://i.imgur.com/85pk55w.png) ROC底下面積越大,結果越好 False positive rate (FPR):預測為正但實際為負的樣本佔所有負例樣本的比例 True positive rate (TPR):預測為正且實際為正的樣本佔所有正例樣本的比例 *45度斜線代表random chance* >須考量到over-fitting的問題 (同樣資料被不停的訓練,造成準確率的高估) *** ![](https://i.imgur.com/yu4Cqwd.png) Confusion Matrix:左下和右下為預測成功的筆數 EX: (實做結果) https://imgur.com/a/KBLEPf5 [55, 43 ] [49,757] *** ![](https://i.imgur.com/uKqW5GP.png) *** ![](https://i.imgur.com/4Fxc9Nh.png) *** ![](https://i.imgur.com/BL7b6SL.png) *** ![](https://i.imgur.com/gU5hVPC.png) *** ![](https://i.imgur.com/6hH9Cpg.png) *** ![](https://i.imgur.com/m7St6Mn.png) 實做結果: https://imgur.com/XCtF711 *** ![](https://i.imgur.com/gI78sSU.png) *** ![](https://i.imgur.com/tGVzNuh.png) 選取特定的欄位(和y有關聯的)再跑一次模型,最後與原模型進行比較 *** ![](https://i.imgur.com/tbhUBgV.png) 除了要預測的y,我們選擇age, job, education, housing, loan放入回歸模型,進行後續分析 *** ![](https://i.imgur.com/MAqU1jz.png) 根據實測test data和Score model間似乎不用select Columns in Dataset,模型會自動判定 *** ![](https://i.imgur.com/Ng270qe.png) 結果: https://imgur.com/Ov2hpzo *結果不甚理想,可能跟選的variables太少有關* *** ![](https://i.imgur.com/myXoyWK.png) *** 如有興趣,請看技術文章 : [傳送門](https://ithelp.ithome.com.tw/articles/10201007) # 分數: 85