我們將資料以 8:2 的比例分成訓練資料及測試資料集
測試資料集的目的是用來驗證模型學習的好壞
選定三種機器學習演算法,分別為 svm, knn 及 linear regression
我們將資料送入模型進行訓練,並將訓練完的模型保存起來
資料數量: (117822, 5) -> 代表有 117822 筆資料,每筆資料 feature + target 數量等於 5
訓練集均方誤差: 696.0338094251304
訓練集決定係數: -0.048353252269998315
測試集均方誤差: 673.4159879339156
測試集決定係數: -0.048208325512227646
執行時間: 1077.435385942459 秒
資料數量: (117822, 5)
訓練集均方誤差: 767.8788588645937
訓練集決定係數: -0.1565649371327893
測試集均方誤差: 749.6541616804583
測試集決定係數: -0.1668771570737615
執行時間: 0.6420707702636719 秒
資料數量: (117822, 5)
訓練集均方誤差: 663.6433406837687
訓練集決定係數: 0.00043267276373226693
測試集均方誤差: 641.7846268947011
測試集決定係數: 0.001027594903492357
執行時間: 0.07284665107727051 秒
根據 MSE 和 R2,推論我們選定的 feature 和 target 之間關聯性很差
這個些模型都無法準確地預估騎車時長
猜測離群數值影響了訓練結果,導致 MSE 和 R2 表現糟糕
決定剔除租借 50 分鐘以上的資料
資料數量: (113543, 5)
訓練集均方誤差: 19.85358104962295
訓練集決定係數: -0.05685092004902881
測試集均方誤差: 20.18769123097845
測試集決定係數: -0.05967403496688384
執行時間: 437.2216897010803 秒
資料數量: (113543, 5)
訓練集均方誤差: 21.7633890393465
訓練集決定係數: -0.15851430893647867
測試集均方誤差: 22.54635254744815
測試集決定係數: -0.18348275215730436
執行時間: 0.6538197994232178 秒
資料數量: (113543, 5)
訓練集均方誤差: 18.7659251205485
訓練集決定係數: 0.0010474594154125105
測試集均方誤差: 19.039891009537513
測試集決定係數: 0.0005752564490546508
執行時間: 0.06607651710510254 秒
結論 MSE 降低很多
但 r2 表現仍不是很好 (可以考慮不要放)