Try   HackMD

高公局比賽問題

分位數回歸(quantile regression) : 以下簡稱 qreg
xgboost : 以下簡稱 xgb
零膨脹(zero inflated) : 以下簡稱 zi


Q1. 為甚麼使用 MSE、MAE 做為評估模型的指標?

A1. 本來我們再使用這 2 個指標做為評估,但像是加入了 qreg 之後模型評估的方式就會比較偏向使用 MAE 以及使用殘差來評估,因為目標函數會比較希望接近我們定義的像是中位數之類的而不是偏向平均數,使用平均數的話會因為極端值造成整個預測能力的降低

(chatgpt) : 我們選擇使用 MSE 和 MAE 作為模型評估指標的原因在於,它們各自針對不同的預測特性提供準確的衡量。MSE(均方誤差)能夠放大較大誤差的影響,更適合於想要懲罰極端誤差的情況,而 MAE(絕對誤差平均)則可以有效反映模型預測的穩定性。特別是在加入分位數回歸(qreg)後,我們更偏向使用 MAE 和殘差分析,因為 qreg 的設計目的是估計特定的分位數(如中位數),並避免極端值的影響。這樣能夠更準確地反映實際情況,而不受極端值的顯著影響


Q2. 有沒有使用過其他的模型?

A2. 有,使用過像是深度學習(類神經網路ANN)、tree結構的模型(random forest, decision tree)、線性回歸(regression)之類的,但結果後續評估的效果是xgboost的表現最好,可是我們認為估計誤差還是太大了,因此搜尋論文後選擇加入像是 qreg 以及 zi 來優化模型

(chatgpt) : 我們確實嘗試過多種模型,包括深度學習(如人工神經網路)、基於樹結構的模型(如隨機森林和決策樹)、以及傳統的線性回歸模型。這些模型在不同數據集上的表現各異,但最終 XGBoost 的效果顯著優於其他模型。不過,考量到預測誤差仍不盡理想,我們參考文獻並採用了分位數回歸和零膨脹模型,結合 XGBoost 進一步優化模型性能


Q3. 事故路段是否是一個變數?

A3. 算是,我們首先將整段高速公路以發生的時間以及路段做切割,可以參照書面報告中的那張 heat map 做為參考,然後再將各個區塊各自做出自己的模型,因為有些時段的樣本數太少以及 y 值太大會讓整體的模型很難做出準確的判斷

(chatgpt) : 是的,事故路段被我們當作一個變數來使用。我們將整段高速公路依據事故發生的時間和路段進行分割,並且在書面報告中利用熱圖分析展示這些區域的數據分佈。這樣的分段方式使我們可以根據不同路段和時間特徵分別建模,特別是因為某些時段樣本數較少且目標值波動大,導致模型難以準確預測


Q4. 是否能得知平均數?

A4. ??,這題我沒回答,因為我根本忘記他問啥哈哈

(chatgpt) :


Q5. 我們的 qreg 為甚麼要分 best 跟 中位數?

A5. 因為此模型可以調整我們希望使用幾 % 的樣本作為目標,像是我們希望中位數的話就是取 50%,但我們實際做的時候 best 可能會出現在估計 40~60% 左右

(chatgpt) : 分位數回歸模型可以根據目標分位數的不同進行調整,這使得我們能靈活地選擇最合適的分位數來預測。在實際應用中,我們以中位數(50%)為基準,但發現最佳預測分位數可能略有不同,因此進行了額外調整,通常最佳範圍在 40% 到 60% 之間,以提高模型的預測準確性


Q6. 比較這些變數重要性的目的?

A6. 可以針對影響比較大的變數做改善,降低車禍發生後的處理時間,讓高速公路比較不會塞車等等

(chatgpt) : 我們進行變數重要性分析的目的是找出對車禍處理時間和回堵長度影響最大的因素,從而優化資源分配。例如,針對影響顯著的變數進行改善,可以有效縮短事故處理時間並減少回堵,提升高速公路的交通效率


Q7. 如何應用?

A7. 結合簡訊之類的,讓事故發生時可以在提供發生的時間地點之後估算出大概會塞車多久以及多長,然後以廣播電台或是簡訊之類的提醒用路人盡量避免或是告訴他們多久之後在上去高速公路比較不會塞車

(chatgpt) : 我們可以將模型應用於即時交通管理系統中,結合簡訊通報機制,預測並通知用路人事故處理時間和預估回堵情況。這樣可以讓駕駛人提早選擇替代路線,或調整行程,從而減少交通擁堵的影響,並通過廣播或即時訊息通知


Q8. 我們估算的回堵長度、回堵時間是車禍發生後多久,應該說是哪個時間段的?

A8. 我們估算的這 2 個目標是依照比賽所提供的簡訊內容,因此這部分可能需要請教比賽方他們的簡訊內容是車禍發生多久之後才做紀錄的

(chatgpt) : 我們的預測是根據比賽提供的數據集和簡訊內容建立的,因此,具體時間段的定義需要參考比賽方提供的訊息紀錄。這些數據通常反映車禍發生後不同時間點的回堵情況


Q9. 我們估算的這 2 個目標所取的變數是一樣的嗎?

A9. 沒錯,都是使用此比賽所提供的資料集,並且還有從簡訊中額外提取出重要的變數以及作為驗證其他變數的準確性

(chatgpt) : 是的,我們使用了相同的數據集進行預測,並從中提取了關鍵變數。此外,我們還根據簡訊資料提取並驗證了其他變數,確保這些變數能夠反映事故影響的準確性​


Q10. 為甚麼要分成這 2 個目標來做?

A10. 當我們知道會回堵多長以及多長的時間之後大概就能預估多久才能舒緩塞車的情況,如果只有知道一個並不足以給出更精確的判斷

(chatgpt) : 預測回堵長度和處理時間分開處理,因為這兩個指標互補且能提供更全面的交通狀況資訊。了解這兩個因素能幫助我們精確預測舒緩交通所需的時間和影響範圍,從而進行更有效的交通管理


Q11. 我們放入的這些變數是否是充足的?

A11. 當然放入模型中的參數是越多元越好,像是如果還可以加入"天氣"、"油價"之類的變數可能可以讓模型估算得更好,但以目前的評估結果來看這些變數已經算是蠻有用的,可以讓預測的誤差在可接受的範圍之內

(chatgpt) : 我們認為現有變數涵蓋了大部分與車禍處理和回堵相關的關鍵因素。然而,如果能引入更多變數,例如即時天氣狀況或油價等,模型的預測精度有望進一步提升。當前模型的誤差已經在合理範圍內,但仍有改進空間