Github:[SatyaRay003-USAccidentsExploratoryDataAnalysis](https://github.com/RainBowT0506/SatyaRay003-USAccidentsExploratoryDataAnalysis) Kaggle:[60+ Insights📈📊📚 Extraction-US Accident Analysis](https://www.kaggle.com/code/satyabrataroy/60-insights-extraction-us-accident-analysis) ![60+ Insights📈📊📚 Extraction-US Accident Analysis](https://hackmd.io/_uploads/Bkmwbr9-0.png) ![image](https://camo.githubusercontent.com/fdb6c1eb67c910b50aa6743aab2025112a0e03a4bdd1538ab73121ba13e5d8b2/68747470733a2f2f64726976652e676f6f676c652e636f6d2f75633f6578706f72743d766965772669643d31704c43432d7679324e2d3343695068734c484375725265415343386176753035) ![image](https://camo.githubusercontent.com/46834aaebfeee55dd6368fe80395b95cb386a493272851aafe42fbd9464c4dab/68747470733a2f2f692e70696e696d672e636f6d2f6f726967696e616c732f34342f38352f30382f34343835303865626434653333363334616133343037313561653030653830322e676966) # 數據集介紹與來源 這是一個全國性的汽車事故數據集(Car Accident Dataset),涵蓋了美國的49個州。這些事故數據是從 2016 年 2 月到 2020 年 12 月收集的(學習日期:2024年4月4),使用了多個API(Multiple APIs)來提供串流(Streaming )的交通事件(或事件)數據。這些 API 廣播(APIs Broadcast)由各種實體捕獲的交通數據,例如美國和各州的交通部門、執法機構、交通攝像頭和道路網絡內的交通感應器。目前,這個數據集中大約有 150 萬條事故記錄。 --- # 筆記本的亮點(Highlights of the Notebook) ![探索性資料分析流程(Flow of Exploratory Data Analysis,EDA)](https://camo.githubusercontent.com/569a38d7a41441b2d9fdbd673d7e44b2c1d6b9695447daf0eaa347cc7f1f5ba0/68747470733a2f2f64726976652e676f6f676c652e636f6d2f75633f6578706f72743d766965772669643d3142786b7563476569704b31687576724f77316965577a737a455158312d724c6f) * 在本筆記本中,我們嘗試提出正確質疑資料集的方法,同時照顧我們的主要動機,即在 EDA 的幫助下提取各種有趣的事實 * 在此筆記本中,我們使用 Geopandas 庫在美國地圖上繪製資料點 --- 在統計學中,探索性資料分析(EDA)是一種[分析](https://en.wikipedia.org/wiki/Data_analysis)[資料集](https://en.wikipedia.org/wiki/Data_set)以總結其主要特徵的方法,通常使用統計圖形和其他資料視覺化方法。 EDA 的目標是: * 實現數據中的意外發現 * 對觀察到的現象的原因提出假設 * 評估統計推論所依據的假設 * 支援選擇適當的統計工具和技術 * 透過調查或實驗為進一步收集數據提供基礎 # 基本問題(Basic Questions) * 美國哪個城市報告最多沒有。 過去 5 年(2016-2020 年)的事故案例數? * 美國最容易發生事故的 10 條街道是哪些? * 美國平均每天發生多少起交通事故? * 美國 一天中的哪個小時發生事故最多? * 美國大部分事故案例的基本天氣狀況如何? * 最多的前 10 州是哪些。 美國的道路交通事故案件有多少? # 位置分析(Location Analysis) 在這個數據集中,我們有不同的屬性,如城市(City)、州(State)、時區(Timezone),甚至是每個事故記錄的街道(Street )。在這裡,我們將根據每個獨特位置的案例數量來分析這四個特徵。 ## 城市分析(City Analysis) ### 美國道路交通事故案件最多的 10 個城市(2016-2020 年) ![image](https://hackmd.io/_uploads/SygR00Ib0.png) 洞見(Insights) 1. 洛杉磯是排名最高的城市(2.64%)。美國道路交通事故(2016-2020 年)。 2. 邁阿密是排名第二(2.39%)的城市。美國道路交通事故(2016-2020 年)。 3. 過去 5 年的事故記錄約 14% 僅來自美國 10,657 個城市中的這 10 個城市(根據資料集)。 ### 計算事故率或事故發生頻率 洞見(Insights) 4. 在過去 5 年(2016-2020)中,洛杉磯每年(平均)發生 7,997 起道路事故。 5. 洛杉磯平均每 12 小時發生 11 起事故。 ### 美國十大事故多發城市視覺化(2016-2020) ![image](https://hackmd.io/_uploads/BJ3SpOOZA.png) 洞見(Insights) 6. 前 10 名的城市中有 3 個。 事故案例來自加州。 ### 分析城市中的車禍案例數量的百分比 ``` 1167 Cities, 10.95% 8682 Cities, 81.47% 10406 Cities, 97.64% 251 Cities, 2.36% 40 Cities, 0.38% 13 Cities, 0.12% ``` 洞見(Insights) 在這個資料集中,我們總共有 10,657 個城市的記錄。 7. 美國 11%(1167 個城市)的城市在過去 5 年內只有 1 起事故記錄。 8. 美國所有城市中約 81%(8,682 個城市)的總數量少於 100 個。 道路事故。 9. 美國 97.64%(10,406個城市)的城市有道路事故記錄(2016-2020年),少於 1,000 起。 10. 美國有 251 個城市(2.36%),總數超過 1,000 個。 過去 5 年發生的道路交通事故。 11. 美國40個城市(0.38%)擁有超過 5,000 起道路事故紀錄。 12. 美國只有 13 個城市(0.12%)擁有超過 10,000 起道路事故紀錄。 ## 州分析(State Analysis) ### 美國事故案例最多的 10 個州(2016-2020 年) ![image](https://hackmd.io/_uploads/SJrKg8FZ0.png) 洞見(Insights) 13. 在美國,加州是過去五年中交通事故數量最多的州。 14. 在過去五年的美國交通事故記錄中,約有30%來自加州。 15. 在過去五年中,加州平均每天發生246起事故,這意味著每小時大約發生10起事故。 16. 佛羅里達州是美國第二高(佔10%)的交通事故州。 ### 美國 10 個事故多發州的視覺化(2016-2020 年) ![image](https://hackmd.io/_uploads/rkIogLtW0.png) ### 美國事故案件最少的 10 個州(2016-2020 年) ![image](https://hackmd.io/_uploads/SJ95fLY-0.png) 洞見(Insights) 17. 南達科他州是過去 5 年來道路事故數量最低的城市。 18. 過去 5 年,南達科他州僅發生 213 起事故,這意味著平均每年發生 42 起事故。 ---- ## 時區分析(Timezone Analysis) ### 美國不同時區的事故案例百分比(2016-2020) ![image](https://hackmd.io/_uploads/H1134LtWA.png) 洞見(Insights) 19. 過去5年,美國東部時區地區的道路交通事故數量最高(39%)。 20. 過去 5 年來,美國山區時區的道路事故數量最低(6%)。 ### 美國不同時區道路事故視覺化(2016-2020) ![image](https://hackmd.io/_uploads/HJ9tYUY-C.png) ## 街道分析(Street Analysis) ### 美國十大事故多發街道(2016-2020) ![image](https://hackmd.io/_uploads/r1y_oLF-0.png) 洞見(Insights) 21. 在過去 5 年(2016-2020 年)中,I-5 N 號街道的道路事故記錄最高。 22. I-5 N街平均每天發生14起事故。 ### 街道案件百分比 ``` 36,441 Streets, 39.16% 91,302 Streets, 98.12% 92,863 Streets, 99.8% 185 Streets, 0.2% 24 Streets, 0.03% ``` 洞見(Insights) 在我們的資料集中,共有 93,048 條街道被列入意外案例名單, 23. 美國有 36,441 條街道(39%)在過去 5 年內只有 1 起事故記錄。 24. 美國98%的街道,道路交通事故案件少於100起。 25. 美國祇有0.2%的街道事故數量超過1000起。 26. 在過去 5 年的道路事故記錄中,只有 24 條街道(0.03%)的事故數量超過 5000 起。 ## 嚴重性分析(Severity Analysis) 它顯示事故的嚴重程度,數字介於 1 和 4 之間,其中 1 表示對交通影響最小(即事故造成的短時間延誤),4 表示對交通影響較大(即事故造成長時間延誤)。 請注意,不同來源報告的嚴重性對流量的潛在影響可能有所不同,因此在進行基於嚴重性的分析時,請區分不同來源的資料。 ### 事故對交通的影響 示意圖 ![image](https://hackmd.io/_uploads/ByfXfDY-0.png) 洞見(Insights) 27. 在 80% 的道路事故中,對交通的影響為中等(嚴重程度-2)。 28. 在 7.5% 的道路意外個案中,對交通的影響為極嚴重(Severity-4)。 ### 美國地圖中不同程度的嚴重性視覺化 ![image](https://hackmd.io/_uploads/ryJnMDt-C.png) # 時間分析(Time Analysis) 在此資料集中,我們有每次事故發生時間的 Start_Time 和 End_Time。 Start_Time 顯示當地時區的事故開始時間。 End_Time 顯示當地時區的事故結束時間。 這裡的結束時間是指事故對交通流量產生影響的時間。 ## 事故持續時間分析(Accident Duration Analysis) ### 事故對交通流量影響最大的時段 ![image](https://hackmd.io/_uploads/Sywt8dKZA.png) 洞見(Insights) 29. 從上圖可以推斷,大多數(24.25%)道路事故對交通流量的影響持續了 6 小時。 ## 年分析(Year Analysis) ### 美國過去 5 年道路事故百分比(2016-2020) ![image](https://hackmd.io/_uploads/HJml0_t-R.png) 洞見(Insights) 30. 從上圖可以明顯看出,過去5年(2016-2020年)美國事故百分比顯著增加。 31. 過去 5 年道路事故記錄總數的 70% 僅發生在過去 2 年內(2019 年、2020 年)。 ### 美國過去5年的事故案例 ![image](https://hackmd.io/_uploads/SJDFTE9WR.png) ## 基於嚴重程度的年份分析(Year Analysis based on Severity) ### 美國過去 5 年的嚴重程度和相應事故百分比 ![image](https://hackmd.io/_uploads/H1FEOiKWR.png) 洞見(Insights) 32. 過去 4 年(2017 年至 2020 年),我國高度嚴重(4 級)事故案例仍維持在 1.55% 至 1.8% 的範圍內。 33. 僅 2020 年發生的過去 5 年道路交通事故總數中,有 45% 屬於中度嚴重事故(嚴重程度為 2 級)。 ### 美國平均事故案例(2016-2020) ![image](https://hackmd.io/_uploads/Hkk9ciYbR.png) 洞見(Insights) 34. 2020年,美國平均每天發生432起事故。 35. 從 2019 年到 2020 年,美國每天的平均事故數增加了 3 倍。 36. 與 2016 年相比,2020 年事故/小時增加了 6 倍。 37. 2020年,美國平均每小時發生18起事故,意味著每10分鐘發生3起事故。 ## 月分析(Month Analysis) ### 美國不同月份道路事故百分比(2016-2020) ![image](https://hackmd.io/_uploads/HJLZ2jF-A.png) 洞見(Insights) 38. 大約 18% 的道路事故發生在 12 月。 39. 7 月是最少 (3.54%) 的月份。 美國的道路交通事故。 40. 45%的道路事故僅發生在10月至12月這三個月內(即秋季到冬季的過渡期)。 ## 日分析(Day Analysis) ### 一週內不同日期的道路事故百分比 ![image](https://hackmd.io/_uploads/S1W26jKZ0.png) 洞見(Insights) 41. 與我們預期的週末相比,一週中工作日的事故發生率幾乎高出兩倍。 42. 只有大約 17% 的道路事故記錄發生在週末。 43. 一週中的星期四發生交通事故的比例最高。 44. 週日美國道路交通事故的百分比最低。 ## 時分析(Hour Analysis) ### 一天中不同時間的道路事故百分比 ![image](https://hackmd.io/_uploads/BkFeAstZR.png) 洞見(Insights) 45. 大約 18% 的道路事故發生在上午 6:00 至上午 9:00 之間。 46. 晚上,大約 27% 的道路事故發生在下午 3:00 至 6:00 之間。 47. 最致命的事故時間是下午 5:00,即晚間辦公室返回時間。 48. 第二個最致命的事故發生時間是上午 8:00,即上午辦公時間。 # 路況分析(Road Condition Analysis) ## 存在道路狀況案例 ![image](https://hackmd.io/_uploads/HJE3yhtW0.png) 洞見(Insights) 49. 幾乎在所有情況下(99.98%)事故現場都沒有保險桿。 50. 5.7%的交通事故發生在十字路口附近。 51. 98.83%的情況下,事故區域附近沒有停車點。 52. 路口附近發生的道路交通事故佔 13.49%。 53. 轉彎環路附近沒有記錄任何意外事故。 54. 11.21%的道路事故發生在交通號誌附近。 # 天氣分析(Weather Analysis) ## 不同溫度範圍的百分比(Percentage of different Temperature range) ![image](https://hackmd.io/_uploads/HJcX43Y-R.png) 洞見(Insights) 55. 45% 的道路事故發生在 61(F) - 91(F) 的溫度範圍內。 ## 不同濕度範圍的百分比(Percentage of different Humidity range) ![image](https://hackmd.io/_uploads/rkjTE3K-A.png) 洞見(Insights) 56. 在發生交通事故的最多情況下(15.74%),濕度範圍在 81% - 91% 之間。 ## 不同壓力範圍的百分比(Percentage of different Pressure range) ![image](https://hackmd.io/_uploads/ByIvBhYb0.png) 洞見(Insights) 57. 在 67.32% 的道路事故案例中,氣壓範圍在 20(in) - 30(in) 之間。 ## 不同風寒範圍的百分比(Percentage of different Wind Chill range) ![image](https://hackmd.io/_uploads/HyxpHnYW0.png) 洞見(Insights) 58. 在大多數(26.37%)道路事故中,風寒範圍在 51(F) - 71(F) 之間。 ## 不同風速範圍的百分比(Percentage of different Wind Speed range) ![image](https://hackmd.io/_uploads/B1EfthYbC.png) 洞見(Insights) 59. 在約 35% 的道路事故案例中,風速範圍在 5(mph) - 10(mph) 之間。 ## 不同能見度範圍的百分比(Percentage of different Visibility range) ![image](https://hackmd.io/_uploads/HJ0Ot3Yb0.png) 洞見(Insights) 60. 在大多數道路事故情況下 (77.71%),能見度範圍在 9(mi) - 10(mi) 之間。 ## 美國不同天氣條件下的道路事故百分比(2016-2020) ![image](https://hackmd.io/_uploads/ByoW9hYbC.png) 洞見(Insights) 61. 在大多數情況下(30.69%),天氣晴朗,約 13% 的情況下,天氣大部分為多雲。 # 所有的洞見(All Insights) 1. 洛杉磯是美國道路事故發生率最高的城市(2.64%)(2016-2020)。 2. 迈阿密是美國第二高(2.39%)道路事故發生率的城市(2016-2020)。 3. 在過去5年的事故記錄中,有約14%只來自10個城市,而美國共有10,657個城市(根據數據集)。 4. 在過去5年中,洛杉磯平均每年發生7,997起道路事故。 5. 在洛杉磯,平均每12小時發生11起事故。 6. 美國十大事故案件中的三起是加利福尼亞州的城市。 7. 在美國,有11%(1167個城市)的城市在過去5年中只有一起事故記錄。 8. 約有81%(8,682個城市)的所有美國城市,過去5年內的總道路事故數少於100起。 9. 美國有97.64%(10,406個城市)的城市,在2016年至2020年間的道路事故記錄少於1,000起。 10. 美國有251個城市(2.36%),過去5年中的總道路事故數超過1,000起。 11. 美國有40個城市(0.38%)在過去5年中的道路事故記錄超過5,000起。 12. 美國只有13個城市(0.12%)在過去5年中的道路事故記錄超過10,000起。 13. 在過去5年中,加利福尼亞州是美國道路事故最多的州。 14. 過去5年中,美國約30%的總事故記錄來自加利福尼亞州。 15. 在過去5年中,加利福尼亞州平均每天發生246起事故,每小時約10起事故。 16. 佛羅里達州是美國道路事故第二高的州(佔10%)。 17. 南達科他州是過去5年中道路事故最少的城市。 18. 南達科他州在過去5年中只發生了213起事故,平均每年42起。 19. 美國東部時區在過去5年中的道路事故案件最多(佔39%)。 20. 美國山地時區在過去5年中的道路事故案件最少(佔6%)。 21. 在過去5年中,Street No. I-5 N擁有最高的道路事故記錄。 22. 在Street No. I-5 N,平均每天發生14起事故。 23. 在美國,有36,441條街道(佔39%)在過去5年中只有一起事故記錄。 24. 美國的街道中,有98%的街道的道路事故案件少於100起。 25. 美國只有0.2%的街道有1000起以上的事故案件。 26. 在過去5年的事故記錄中,只有24條街道(佔0.03%)有5000起以上的案件。 27. 在80%的道路事故中,對交通的影響程度為中等(嚴重程度-2)。 28. 在7.5%的道路事故中,對交通的影響程度非常嚴重(嚴重程度-4)。 29. 從上述圖表可以得出結論,大多數(24.25%)的道路事故對交通流量的影響持續了6小時。 30. 從上述圖表可以清楚地看出,在過去5年中(2016-2020),美國的事故百分比顯著增加。 31. 過去5年的道路事故記錄中,有70%只發生在最近的2年(2019年,2020年)內。 32. 在過去4年(2017-2020年),美國嚴重(嚴重程度-4)的事故案件仍在1.55%至1.8%的範圍內。 33. 過去5年中僅在2020年發生的道路事故中,有45%的案件程度中等嚴重(嚴重程度-2)。 34. 在2020年,美國平均每天發生432起事故。 35. 從2019年到2020年,美國平均每天的事故數增加了3倍。 36. 與2016年相比,2020年每小時的事故數增加了6倍。 37. 在2020年,美國平均每小時發生18起事故,意味著每10分鐘發生3起事故。 38. 約有18%的道路事故發生在12月份。 39. 7月是美國道路事故最少的月份(3.54%)。 40. 過去5年中,有45%的道路事故僅發生在10月至12月的3個月內(即從秋季到冬季的過渡期)。 41. 工作日的事故百分比幾乎是周末日的兩倍,符合我們的期望。 42. 約有17%的道路事故記錄發生在週末。 43. 一周的星期四是道路事故發生率最高的日子。 44. 星期日的美國道路事故發生率最低。 45. 約有18%的道路事故發生在上午6:00至上午9:00之間。 46. 晚上,約有27%的道路事故發生在下午3:00至下午6:00之間。 47. 最致命的事故時間是下午5:00,意味著下班時間。 48. 第二致命的事故時間是上午8:00,意味著上班時間。 49. 幾乎每起事故(99.98%)都沒有保險槓。 50. 在5.7%的案例中,道路事故發生在十字路口附近。 51. 在98.83%的案例中,事故地點附近沒有停車。 52. 13.49%的道路事故案件發生在十字路口附近。 53. 沒有在轉彎環附近記錄到事故案件。 54. 11.21%的道路事故案件發生在交通信號附近。 55. 在61(F) - 91(F)的溫度範圍內,發生了45%的道路事故。 56. 在大多數(15.74%)的道路事故中,濕度範圍在81%至91%之間。 57. 在67.32%的道路事故案例中,氣壓範圍在20(in) - 30(in)之間。 58. 在大多數(26.37%)的道路事故中,風寒範圍在51(F) - 71(F)之間。 59. 對於約35%的道路事故案件,風速範圍在5(mph) - 10(mph)之間。 60. 在大多數(77.71%)的道路事故中,能見度範圍在9(mi) - 10(mi)之間。 61. 在大多數(30.69%)的案例中,天氣是晴朗的,大約13%的案例是多雲的。 ![image](https://hackmd.io/_uploads/S1kUjhFWR.png) # 關鍵字 - 事故數據集(Accident dataset):收集自2016年2月至2020年12月的美國全國49個州的汽車事故數據。這些數據來源於多個API,提供來自多個機構的流量事件數據,包括美國和州交通部門、執法機構、交通攝像頭和道路網絡中的交通傳感器。 - API(Application Programming Interface):應用程序編程接口,用於不同軟件應用程序之間的通信和數據交換。 - 流量事件(Traffic incident/event):指道路上發生的各種交通相關事件,如車禍、堵塞、施工等。 - 數據收集(Data collection):使用API從多個機構和設備中獲取數據的過程,例如交通部門、執法機構、交通攝像頭和交通傳感器。 - 道路網絡(Road-network):指連接城市和地區的公路和街道網絡。 - 交通攝像頭(Traffic cameras):安裝在道路上的攝像頭,用於監視交通狀況和記錄交通事件。 - 交通傳感器(Traffic sensors):安裝在道路上的傳感器,用於監測交通流量、車速和其他交通相關數據。 - Notebook:通常指一種文檔格式,用於組織和展示計算機編程代碼、文本、圖表和其他媒體,通常用於數據分析和機器學習領域。 - Proper Questioning:適當提問的方法,指在數據分析過程中正確、有效地提出問題,以便找出有價值的信息和洞察。 - Dataset:數據集,指在特定主題或領域中收集的結構化數據的集合。 - EDA(Exploratory Data Analysis):探索性數據分析,是一種分析數據集以摸索其主要特徵、結構和模式的方法。 - Geopandas:一個Python庫,用於處理地理空間數據,它結合了pandas庫的功能和shapely庫的地理空間功能,使得在地圖上進行數據可視化和分析更加容易。 - Plotting:繪圖,指通過圖形、圖表等形式將數據可視化呈現的過程。 - Datapoints:數據點,指數據集中的個別觀測或樣本。 - US map:美國地圖,指用於顯示美國地理信息和數據的地圖。