Github:[SatyaRay003-USAccidentsExploratoryDataAnalysis](https://github.com/RainBowT0506/SatyaRay003-USAccidentsExploratoryDataAnalysis)
Kaggle:[60+ Insights📈📊📚 Extraction-US Accident Analysis](https://www.kaggle.com/code/satyabrataroy/60-insights-extraction-us-accident-analysis)



# 數據集介紹與來源
這是一個全國性的汽車事故數據集(Car Accident Dataset),涵蓋了美國的49個州。這些事故數據是從 2016 年 2 月到 2020 年 12 月收集的(學習日期:2024年4月4),使用了多個API(Multiple APIs)來提供串流(Streaming )的交通事件(或事件)數據。這些 API 廣播(APIs Broadcast)由各種實體捕獲的交通數據,例如美國和各州的交通部門、執法機構、交通攝像頭和道路網絡內的交通感應器。目前,這個數據集中大約有 150 萬條事故記錄。
---
# 筆記本的亮點(Highlights of the Notebook)

* 在本筆記本中,我們嘗試提出正確質疑資料集的方法,同時照顧我們的主要動機,即在 EDA 的幫助下提取各種有趣的事實
* 在此筆記本中,我們使用 Geopandas 庫在美國地圖上繪製資料點
---
在統計學中,探索性資料分析(EDA)是一種[分析](https://en.wikipedia.org/wiki/Data_analysis)[資料集](https://en.wikipedia.org/wiki/Data_set)以總結其主要特徵的方法,通常使用統計圖形和其他資料視覺化方法。
EDA 的目標是:
* 實現數據中的意外發現
* 對觀察到的現象的原因提出假設
* 評估統計推論所依據的假設
* 支援選擇適當的統計工具和技術
* 透過調查或實驗為進一步收集數據提供基礎
# 基本問題(Basic Questions)
* 美國哪個城市報告最多沒有。 過去 5 年(2016-2020 年)的事故案例數?
* 美國最容易發生事故的 10 條街道是哪些?
* 美國平均每天發生多少起交通事故?
* 美國 一天中的哪個小時發生事故最多?
* 美國大部分事故案例的基本天氣狀況如何?
* 最多的前 10 州是哪些。 美國的道路交通事故案件有多少?
# 位置分析(Location Analysis)
在這個數據集中,我們有不同的屬性,如城市(City)、州(State)、時區(Timezone),甚至是每個事故記錄的街道(Street )。在這裡,我們將根據每個獨特位置的案例數量來分析這四個特徵。
## 城市分析(City Analysis)
### 美國道路交通事故案件最多的 10 個城市(2016-2020 年)

洞見(Insights)
1. 洛杉磯是排名最高的城市(2.64%)。美國道路交通事故(2016-2020 年)。
2. 邁阿密是排名第二(2.39%)的城市。美國道路交通事故(2016-2020 年)。
3. 過去 5 年的事故記錄約 14% 僅來自美國 10,657 個城市中的這 10 個城市(根據資料集)。
### 計算事故率或事故發生頻率
洞見(Insights)
4. 在過去 5 年(2016-2020)中,洛杉磯每年(平均)發生 7,997 起道路事故。
5. 洛杉磯平均每 12 小時發生 11 起事故。
### 美國十大事故多發城市視覺化(2016-2020)

洞見(Insights)
6. 前 10 名的城市中有 3 個。 事故案例來自加州。
### 分析城市中的車禍案例數量的百分比
```
1167 Cities, 10.95%
8682 Cities, 81.47%
10406 Cities, 97.64%
251 Cities, 2.36%
40 Cities, 0.38%
13 Cities, 0.12%
```
洞見(Insights)
在這個資料集中,我們總共有 10,657 個城市的記錄。
7. 美國 11%(1167 個城市)的城市在過去 5 年內只有 1 起事故記錄。
8. 美國所有城市中約 81%(8,682 個城市)的總數量少於 100 個。 道路事故。
9. 美國 97.64%(10,406個城市)的城市有道路事故記錄(2016-2020年),少於 1,000 起。
10. 美國有 251 個城市(2.36%),總數超過 1,000 個。 過去 5 年發生的道路交通事故。
11. 美國40個城市(0.38%)擁有超過 5,000 起道路事故紀錄。
12. 美國只有 13 個城市(0.12%)擁有超過 10,000 起道路事故紀錄。
## 州分析(State Analysis)
### 美國事故案例最多的 10 個州(2016-2020 年)

洞見(Insights)
13. 在美國,加州是過去五年中交通事故數量最多的州。
14. 在過去五年的美國交通事故記錄中,約有30%來自加州。
15. 在過去五年中,加州平均每天發生246起事故,這意味著每小時大約發生10起事故。
16. 佛羅里達州是美國第二高(佔10%)的交通事故州。
### 美國 10 個事故多發州的視覺化(2016-2020 年)

### 美國事故案件最少的 10 個州(2016-2020 年)

洞見(Insights)
17. 南達科他州是過去 5 年來道路事故數量最低的城市。
18. 過去 5 年,南達科他州僅發生 213 起事故,這意味著平均每年發生 42 起事故。
----
## 時區分析(Timezone Analysis)
### 美國不同時區的事故案例百分比(2016-2020)

洞見(Insights)
19. 過去5年,美國東部時區地區的道路交通事故數量最高(39%)。
20. 過去 5 年來,美國山區時區的道路事故數量最低(6%)。
### 美國不同時區道路事故視覺化(2016-2020)

## 街道分析(Street Analysis)
### 美國十大事故多發街道(2016-2020)

洞見(Insights)
21. 在過去 5 年(2016-2020 年)中,I-5 N 號街道的道路事故記錄最高。
22. I-5 N街平均每天發生14起事故。
### 街道案件百分比
```
36,441 Streets, 39.16%
91,302 Streets, 98.12%
92,863 Streets, 99.8%
185 Streets, 0.2%
24 Streets, 0.03%
```
洞見(Insights)
在我們的資料集中,共有 93,048 條街道被列入意外案例名單,
23. 美國有 36,441 條街道(39%)在過去 5 年內只有 1 起事故記錄。
24. 美國98%的街道,道路交通事故案件少於100起。
25. 美國祇有0.2%的街道事故數量超過1000起。
26. 在過去 5 年的道路事故記錄中,只有 24 條街道(0.03%)的事故數量超過 5000 起。
## 嚴重性分析(Severity Analysis)
它顯示事故的嚴重程度,數字介於 1 和 4 之間,其中 1 表示對交通影響最小(即事故造成的短時間延誤),4 表示對交通影響較大(即事故造成長時間延誤)。 請注意,不同來源報告的嚴重性對流量的潛在影響可能有所不同,因此在進行基於嚴重性的分析時,請區分不同來源的資料。
### 事故對交通的影響
示意圖

洞見(Insights)
27. 在 80% 的道路事故中,對交通的影響為中等(嚴重程度-2)。
28. 在 7.5% 的道路意外個案中,對交通的影響為極嚴重(Severity-4)。
### 美國地圖中不同程度的嚴重性視覺化

# 時間分析(Time Analysis)
在此資料集中,我們有每次事故發生時間的 Start_Time 和 End_Time。 Start_Time 顯示當地時區的事故開始時間。 End_Time 顯示當地時區的事故結束時間。 這裡的結束時間是指事故對交通流量產生影響的時間。
## 事故持續時間分析(Accident Duration Analysis)
### 事故對交通流量影響最大的時段

洞見(Insights)
29. 從上圖可以推斷,大多數(24.25%)道路事故對交通流量的影響持續了 6 小時。
## 年分析(Year Analysis)
### 美國過去 5 年道路事故百分比(2016-2020)

洞見(Insights)
30. 從上圖可以明顯看出,過去5年(2016-2020年)美國事故百分比顯著增加。
31. 過去 5 年道路事故記錄總數的 70% 僅發生在過去 2 年內(2019 年、2020 年)。
### 美國過去5年的事故案例

## 基於嚴重程度的年份分析(Year Analysis based on Severity)
### 美國過去 5 年的嚴重程度和相應事故百分比

洞見(Insights)
32. 過去 4 年(2017 年至 2020 年),我國高度嚴重(4 級)事故案例仍維持在 1.55% 至 1.8% 的範圍內。
33. 僅 2020 年發生的過去 5 年道路交通事故總數中,有 45% 屬於中度嚴重事故(嚴重程度為 2 級)。
### 美國平均事故案例(2016-2020)

洞見(Insights)
34. 2020年,美國平均每天發生432起事故。
35. 從 2019 年到 2020 年,美國每天的平均事故數增加了 3 倍。
36. 與 2016 年相比,2020 年事故/小時增加了 6 倍。
37. 2020年,美國平均每小時發生18起事故,意味著每10分鐘發生3起事故。
## 月分析(Month Analysis)
### 美國不同月份道路事故百分比(2016-2020)

洞見(Insights)
38. 大約 18% 的道路事故發生在 12 月。
39. 7 月是最少 (3.54%) 的月份。 美國的道路交通事故。
40. 45%的道路事故僅發生在10月至12月這三個月內(即秋季到冬季的過渡期)。
## 日分析(Day Analysis)
### 一週內不同日期的道路事故百分比

洞見(Insights)
41. 與我們預期的週末相比,一週中工作日的事故發生率幾乎高出兩倍。
42. 只有大約 17% 的道路事故記錄發生在週末。
43. 一週中的星期四發生交通事故的比例最高。
44. 週日美國道路交通事故的百分比最低。
## 時分析(Hour Analysis)
### 一天中不同時間的道路事故百分比

洞見(Insights)
45. 大約 18% 的道路事故發生在上午 6:00 至上午 9:00 之間。
46. 晚上,大約 27% 的道路事故發生在下午 3:00 至 6:00 之間。
47. 最致命的事故時間是下午 5:00,即晚間辦公室返回時間。
48. 第二個最致命的事故發生時間是上午 8:00,即上午辦公時間。
# 路況分析(Road Condition Analysis)
## 存在道路狀況案例

洞見(Insights)
49. 幾乎在所有情況下(99.98%)事故現場都沒有保險桿。
50. 5.7%的交通事故發生在十字路口附近。
51. 98.83%的情況下,事故區域附近沒有停車點。
52. 路口附近發生的道路交通事故佔 13.49%。
53. 轉彎環路附近沒有記錄任何意外事故。
54. 11.21%的道路事故發生在交通號誌附近。
# 天氣分析(Weather Analysis)
## 不同溫度範圍的百分比(Percentage of different Temperature range)

洞見(Insights)
55. 45% 的道路事故發生在 61(F) - 91(F) 的溫度範圍內。
## 不同濕度範圍的百分比(Percentage of different Humidity range)

洞見(Insights)
56. 在發生交通事故的最多情況下(15.74%),濕度範圍在 81% - 91% 之間。
## 不同壓力範圍的百分比(Percentage of different Pressure range)

洞見(Insights)
57. 在 67.32% 的道路事故案例中,氣壓範圍在 20(in) - 30(in) 之間。
## 不同風寒範圍的百分比(Percentage of different Wind Chill range)

洞見(Insights)
58. 在大多數(26.37%)道路事故中,風寒範圍在 51(F) - 71(F) 之間。
## 不同風速範圍的百分比(Percentage of different Wind Speed range)

洞見(Insights)
59. 在約 35% 的道路事故案例中,風速範圍在 5(mph) - 10(mph) 之間。
## 不同能見度範圍的百分比(Percentage of different Visibility range)

洞見(Insights)
60. 在大多數道路事故情況下 (77.71%),能見度範圍在 9(mi) - 10(mi) 之間。
## 美國不同天氣條件下的道路事故百分比(2016-2020)

洞見(Insights)
61. 在大多數情況下(30.69%),天氣晴朗,約 13% 的情況下,天氣大部分為多雲。
# 所有的洞見(All Insights)
1. 洛杉磯是美國道路事故發生率最高的城市(2.64%)(2016-2020)。
2. 迈阿密是美國第二高(2.39%)道路事故發生率的城市(2016-2020)。
3. 在過去5年的事故記錄中,有約14%只來自10個城市,而美國共有10,657個城市(根據數據集)。
4. 在過去5年中,洛杉磯平均每年發生7,997起道路事故。
5. 在洛杉磯,平均每12小時發生11起事故。
6. 美國十大事故案件中的三起是加利福尼亞州的城市。
7. 在美國,有11%(1167個城市)的城市在過去5年中只有一起事故記錄。
8. 約有81%(8,682個城市)的所有美國城市,過去5年內的總道路事故數少於100起。
9. 美國有97.64%(10,406個城市)的城市,在2016年至2020年間的道路事故記錄少於1,000起。
10. 美國有251個城市(2.36%),過去5年中的總道路事故數超過1,000起。
11. 美國有40個城市(0.38%)在過去5年中的道路事故記錄超過5,000起。
12. 美國只有13個城市(0.12%)在過去5年中的道路事故記錄超過10,000起。
13. 在過去5年中,加利福尼亞州是美國道路事故最多的州。
14. 過去5年中,美國約30%的總事故記錄來自加利福尼亞州。
15. 在過去5年中,加利福尼亞州平均每天發生246起事故,每小時約10起事故。
16. 佛羅里達州是美國道路事故第二高的州(佔10%)。
17. 南達科他州是過去5年中道路事故最少的城市。
18. 南達科他州在過去5年中只發生了213起事故,平均每年42起。
19. 美國東部時區在過去5年中的道路事故案件最多(佔39%)。
20. 美國山地時區在過去5年中的道路事故案件最少(佔6%)。
21. 在過去5年中,Street No. I-5 N擁有最高的道路事故記錄。
22. 在Street No. I-5 N,平均每天發生14起事故。
23. 在美國,有36,441條街道(佔39%)在過去5年中只有一起事故記錄。
24. 美國的街道中,有98%的街道的道路事故案件少於100起。
25. 美國只有0.2%的街道有1000起以上的事故案件。
26. 在過去5年的事故記錄中,只有24條街道(佔0.03%)有5000起以上的案件。
27. 在80%的道路事故中,對交通的影響程度為中等(嚴重程度-2)。
28. 在7.5%的道路事故中,對交通的影響程度非常嚴重(嚴重程度-4)。
29. 從上述圖表可以得出結論,大多數(24.25%)的道路事故對交通流量的影響持續了6小時。
30. 從上述圖表可以清楚地看出,在過去5年中(2016-2020),美國的事故百分比顯著增加。
31. 過去5年的道路事故記錄中,有70%只發生在最近的2年(2019年,2020年)內。
32. 在過去4年(2017-2020年),美國嚴重(嚴重程度-4)的事故案件仍在1.55%至1.8%的範圍內。
33. 過去5年中僅在2020年發生的道路事故中,有45%的案件程度中等嚴重(嚴重程度-2)。
34. 在2020年,美國平均每天發生432起事故。
35. 從2019年到2020年,美國平均每天的事故數增加了3倍。
36. 與2016年相比,2020年每小時的事故數增加了6倍。
37. 在2020年,美國平均每小時發生18起事故,意味著每10分鐘發生3起事故。
38. 約有18%的道路事故發生在12月份。
39. 7月是美國道路事故最少的月份(3.54%)。
40. 過去5年中,有45%的道路事故僅發生在10月至12月的3個月內(即從秋季到冬季的過渡期)。
41. 工作日的事故百分比幾乎是周末日的兩倍,符合我們的期望。
42. 約有17%的道路事故記錄發生在週末。
43. 一周的星期四是道路事故發生率最高的日子。
44. 星期日的美國道路事故發生率最低。
45. 約有18%的道路事故發生在上午6:00至上午9:00之間。
46. 晚上,約有27%的道路事故發生在下午3:00至下午6:00之間。
47. 最致命的事故時間是下午5:00,意味著下班時間。
48. 第二致命的事故時間是上午8:00,意味著上班時間。
49. 幾乎每起事故(99.98%)都沒有保險槓。
50. 在5.7%的案例中,道路事故發生在十字路口附近。
51. 在98.83%的案例中,事故地點附近沒有停車。
52. 13.49%的道路事故案件發生在十字路口附近。
53. 沒有在轉彎環附近記錄到事故案件。
54. 11.21%的道路事故案件發生在交通信號附近。
55. 在61(F) - 91(F)的溫度範圍內,發生了45%的道路事故。
56. 在大多數(15.74%)的道路事故中,濕度範圍在81%至91%之間。
57. 在67.32%的道路事故案例中,氣壓範圍在20(in) - 30(in)之間。
58. 在大多數(26.37%)的道路事故中,風寒範圍在51(F) - 71(F)之間。
59. 對於約35%的道路事故案件,風速範圍在5(mph) - 10(mph)之間。
60. 在大多數(77.71%)的道路事故中,能見度範圍在9(mi) - 10(mi)之間。
61. 在大多數(30.69%)的案例中,天氣是晴朗的,大約13%的案例是多雲的。

# 關鍵字
- 事故數據集(Accident dataset):收集自2016年2月至2020年12月的美國全國49個州的汽車事故數據。這些數據來源於多個API,提供來自多個機構的流量事件數據,包括美國和州交通部門、執法機構、交通攝像頭和道路網絡中的交通傳感器。
- API(Application Programming Interface):應用程序編程接口,用於不同軟件應用程序之間的通信和數據交換。
- 流量事件(Traffic incident/event):指道路上發生的各種交通相關事件,如車禍、堵塞、施工等。
- 數據收集(Data collection):使用API從多個機構和設備中獲取數據的過程,例如交通部門、執法機構、交通攝像頭和交通傳感器。
- 道路網絡(Road-network):指連接城市和地區的公路和街道網絡。
- 交通攝像頭(Traffic cameras):安裝在道路上的攝像頭,用於監視交通狀況和記錄交通事件。
- 交通傳感器(Traffic sensors):安裝在道路上的傳感器,用於監測交通流量、車速和其他交通相關數據。
- Notebook:通常指一種文檔格式,用於組織和展示計算機編程代碼、文本、圖表和其他媒體,通常用於數據分析和機器學習領域。
- Proper Questioning:適當提問的方法,指在數據分析過程中正確、有效地提出問題,以便找出有價值的信息和洞察。
- Dataset:數據集,指在特定主題或領域中收集的結構化數據的集合。
- EDA(Exploratory Data Analysis):探索性數據分析,是一種分析數據集以摸索其主要特徵、結構和模式的方法。
- Geopandas:一個Python庫,用於處理地理空間數據,它結合了pandas庫的功能和shapely庫的地理空間功能,使得在地圖上進行數據可視化和分析更加容易。
- Plotting:繪圖,指通過圖形、圖表等形式將數據可視化呈現的過程。
- Datapoints:數據點,指數據集中的個別觀測或樣本。
- US map:美國地圖,指用於顯示美國地理信息和數據的地圖。