# 李彥羲-R76081029 Microsoft Azure **筆記:** UCI datesets 包含許多機器學習的資料集,Bank Marketing datasets和一葡萄牙銀行的電話行銷的數據有關,其目的是存取顧客是否訂閱其公司產品。 *Data description:* >17 Input variables >4521 examples  ***  ***  ***  ***  ***  ***  ***  ***  >資料前處理: 資料清洗,刪除或填入Nan值 刪除極端值(outlier),避免影響模型 >**特徵工程:** 識別和選擇重要的特徵 >模型訓練: Training Data用於模型的訓練,Test Data用於評估訓練完模型 (EX:準確率..) 比率:0.8:0.2 ***  ***  ***  ***  ***  ***  ***  ***  ***  ***  ***  使用二元分類樹 ***  ***  y為要預測的值(顧客是否訂閱0或1) ***  >Score計分模型:執行預測 可查看實際值和預測值以及預測為1(訂閱)的機率(Scored Probabilities) ***  評估模型: 從左半邊的輸入,右半邊的輸入可比較兩模型 ***  ***  ***  ***  ROC底下面積越大,結果越好 False positive rate (FPR):預測為正但實際為負的樣本佔所有負例樣本的比例 True positive rate (TPR):預測為正且實際為正的樣本佔所有正例樣本的比例 *45度斜線代表random chance* >須考量到over-fitting的問題 (同樣資料被不停的訓練,造成準確率的高估) ***  Confusion Matrix:左下和右下為預測成功的筆數 EX: (實做結果) https://imgur.com/a/KBLEPf5 [55, 43 ] [49,757] ***  ***  ***  ***  ***  ***  實做結果: https://imgur.com/XCtF711 ***  ***  選取特定的欄位(和y有關聯的)再跑一次模型,最後與原模型進行比較 ***  除了要預測的y,我們選擇age, job, education, housing, loan放入回歸模型,進行後續分析 ***  根據實測test data和Score model間似乎不用select Columns in Dataset,模型會自動判定 ***  結果: https://imgur.com/Ov2hpzo *結果不甚理想,可能跟選的variables太少有關* ***  *** 如有興趣,請看技術文章 : [傳送門](https://ithelp.ithome.com.tw/articles/10201007) # 分數: 85
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up