# 金融資料採礦 ###### tags: `school` ## 研究動機和目的 近年來,路上的車子以及馬路三寶越來越多,無論是汽車還是機車都是如此。進而造成車禍案件發生機率的增加,所以我們在政府的資料庫中找到了台中市區交通事故的統計,決定使用這份資料才探討台中車禍案件的型態與受傷人數的關係。 --- ## 資料來源及資料處理說明 --- >資料來源:[**臺中市政府警察局110年3月份交通事故資料**] >(https://data.gov.tw/dataset/139637) ![](https://i.imgur.com/lN8xdeq.png) --- >原始資料 ![](https://i.imgur.com/gEidAyr.png ) ![](https://i.imgur.com/LHG5vw7.png ) --- >處理後的資料 ![](https://i.imgur.com/5AOXnNG.png ) 將不需要的資料刪減以、將一些資料改為[**二進制**](https://zh.wikipedia.org/wiki/%E4%BA%8C%E8%BF%9B%E5%88%B6)及加編號 --- ## 資料採礦操作流程及結果 --- [**決策數**](https://docs.rapidminer.com/9.6/studio/operators/modeling/predictive/trees/parallel_decision_tree.html)流程圖 ![](https://i.imgur.com/7YPC38H.png) --- 設定id(編號) label(目標) ![](https://i.imgur.com/SnIm5e8.png) --- <font color=orange><font size="4"> 結果</font></font> ![](https://i.imgur.com/zCo3T8q.png =120%x) 可以發現太複雜了 <font size=6>-></font>將層數降低 --- <font color=orange size=4>結果</font> ![](https://i.imgur.com/6sobXqA.png) --- 可以看到當天侯>7以及當事者行動狀態>6.5受傷人數為0 ![](https://i.imgur.com/XB9JWYQ.png)![](https://i.imgur.com/6f6Nlat.png) --- [**線性流程圖**](https://docs.rapidminer.com/latest/studio/operators/modeling/predictive/functions/linear_regression.html) ![](https://i.imgur.com/IvUZX5J.png) --- <font color=orange size=4> 結果</font> ![](https://i.imgur.com/CxtW5Ul.png) 取星星數高的當研究對象做決策數 --- ><font color=orange size=4>結果</font> >決策數的權重 ![](https://i.imgur.com/E7Jo7yn.png)**&rarr;**![](https://i.imgur.com/d3fcXG7.png) **&rarr;**![](https://i.imgur.com/qcPVIsG.png)**&rarr;**![](https://i.imgur.com/Jk89osc.png) **&rarr;** **&rarr;** <font color=blue size=5>**只取事故類型及型態和當事者行為**</font>做決策數 --- <font color=orange size=4>結果</font> ![](https://i.imgur.com/Jl0RJg9.png =200%x) --- 再拿事故類型及型態與其他的變數做比較 ![](https://i.imgur.com/p6hNQli.png =40%x)![](https://i.imgur.com/rFs1h4V.png =40%x) ![](https://i.imgur.com/dbM93Bj.png =40%x)![](https://i.imgur.com/3E1SBBo.png) --- ![](https://i.imgur.com/CdHvzZX.png =40%x)![](https://i.imgur.com/75U3AUL.png =40%x) <font color=blue size =4>發現只要事故類型及與型態的數值小魚等於17.5基本上不管其他的變數,都有人受傷。</font> --- 再只取事故類型及型態做決策數 <font color=orange size=4>結果</font> ![](https://i.imgur.com/wqGYU6Q.png =50%x)![](https://i.imgur.com/NN8pSnW.png =50%x) 只取事故類型及型態做決策數發現,<font color=blue size=5>大部分都在17.5以下,而18,19,20只要發生都幾乎會受傷</font> --- [**貝式分類**](https://docs.rapidminer.com/latest/studio/operators/modeling/predictive/bayesian/naive_bayes.html)流程圖 ![](https://i.imgur.com/czynXbT.png) --- <font color=orange size=4>結果</font> 我們發現其他的受傷程度都差不多,只有飲酒程度有差 ![](https://i.imgur.com/YSiXNZl.png) 發現<font color=blue size=4>受傷程度與飲酒程度關係可大了</font> --- [**邏輯式分析**](https://docs.rapidminer.com/latest/studio/operators/modeling/predictive/logistic_regression/logistic_regression.html)流程圖 ![](https://i.imgur.com/iKPL2g8.png) --- <font color=orange size=4>結果</font> ![](https://i.imgur.com/s14oK5M.png) 可以看到肇事逃逸,飲酒狀態,受傷程度,事故位置,事故類型及型態,車輛撞擊部位最初跟受傷的關係比較大,由於前面以探討事故類型及型態飲酒狀態,而其他與受傷又比較沒有關西,我們主要探討車輛撞擊部位最初。 --- 將車輛撞擊部位最初做決策數 <font color=orange size=4>結果</font> ![](https://i.imgur.com/WNnl8Di.png) ![](https://i.imgur.com/kPc38Dz.png) <font color=blue size=4>發現11只要出現,幾乎都會受傷還有乘坐車子較不容易受傷</font> --- ## 過程中遇到的問題和建議改進方法 --- 1. 變數太多了,原資料有50種,導致我們處理資料的時候非常麻煩,就算我們刪減後還是有29種變數,導致出來的答案非常模糊,需要我們用決策數慢慢縮小範圍,非常麻煩,因直接將變數取少一點,只取我們最有興趣的幾個來做測驗。 --- ## 結論 --- ![](https://i.imgur.com/CXUcIbR.png) 1. 我們會發現出車禍受傷基本上跟你事故類型及型態中的18,19,20有很大的關西,又或是說在全部的事故類型及型態中,只要出現這三個,幾乎都會受傷,希望大家開車騎車的時候,不要路上翻車,衝出路外即撞欄杆,還有,只要騎機車,不管撞到哪裡,只要出車禍,幾乎必定受傷。 --- 2. 在小於17.5的時候,基本上受傷的人數為1.291,與其他的變數無關,所以容易出車禍,希望大家在做1~17的時候,可以小心一點。
{"metaMigratedAt":"2023-06-16T01:50:55.710Z","metaMigratedFrom":"Content","title":"金融資料採礦","breaks":true,"contributors":"[{\"id\":\"570aa64c-b567-4083-a0c7-74414527019c\",\"add\":3762,\"del\":200}]"}
    250 views