--- disqus: ahb0222 GA : G-VF9ZT413CG --- # 資訊分享_1_為何我們需要可視化? > [color=#40f1ef][name=LHB阿好伯, 2020/06/19][:earth_africa:](https://www.facebook.com/LHB0222/) ###### tags: `可視化` [TOC] 什麼是可視化(visualization) Webster 字典中visualization的定義如下。 Vi.su.al.i.za.tion [1] 1.Formation of mental visual images 2.The act or process of interpreting in visual terms or of putting into visible form. 簡單的說我們可以把可視化理解成是一個:將抽象的科學或者商業數據.用圖像表示出來.幫助理解數據的意義的過程。它通常會在進行數據分析(data analysis)的過程中大量的使用。 使用可視化呈現信息並不是一個新現象。 大家都聽說過南丁格爾~~ 但大家所不常聽說的是在19世紀中期,克里米亞戰爭爆發。 在這場戰中,雙方死亡人數超過50萬人, 可謂戰況慘烈。南丁格爾當時是英國的一名戰地護士, 她對英國士兵的死亡情況進行了統計對比, 最終發現「因醫療條件惡劣導致的死亡人數,遠遠超過了前線陣亡人數」。 ![](https://i.imgur.com/jFwHeLT.png) 南丁格爾將統計結果繪製成一張圖表, 這張圖表即是被後世稱為「南丁格爾玫瑰圖」的歷史上第一份「極區圖」。 玫瑰圖,刺激了神經麻木的官僚,充分證明了數據可視化的價值, 促成了第一座戰地醫院的建立,從而大大降低了戰爭帶來的死亡率。 不可忽略可視化相較於統計的重要性 許多人對於"Anscombe's quartet"這個名詞應該很陌生, 這是 FJ Anscombe在1973年在他的一篇論文" Graphs in Statistical Analysis "中所提出的, 我們先看到下方四個數據集 ![](https://i.imgur.com/ADFHK5m.png) 對四組數據進行簡單的數據分析, 每組數據有兩個變量, 我們用常用的統計去評估四組數據的特點, 可以得到相同的 Means(平均值): X = 9 Y = 7.5 Variance(總體方差): X = 11Y = 4.122 Correlation(關聯) xy: 0.816 Linear regression(線性回歸方程): Y = 3.0 + 0.5X 好像所有的數據貌似都是一個特點。 一樣的平均值,線性回歸方程。 如果只是根據這些數據去做簡單的判斷的話, 得出來的結論是一樣的。 但是,如果我們用簡單的data visualization去分析這些數據, 得到的結果確完全不一樣!。 ![](https://i.imgur.com/bq1jyXH.png) 第一租數據圖告訴我們,x 和y 有線性關係。 第二組數據圖告訴我們, x 和y 有曲線回歸關係。 第三組數據圖告訴我們, x 和y 有強線性關係且還有一個異常點。 第四組數據圖可以看出多數數據X坐標集中在一起,而且也有一個異常值。 我們用了簡單的圖表對比以後, 就會發現實際上這些在用圖像表示出來後, 有完全不一樣的故事。 加拿大的Matejka, Justin; Fitzmaurice, George 在2017年發表了一篇很有意思的論文 "相同統計,不同圖形:通過模擬生成具有不同外觀和統一統計的數據集" "Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing". 在Youtube中也有他們的模擬結果影片, https://youtu.be/It4UA75z_KQ {%youtube It4UA75z_KQ %} 可以看出來其中平均統計量到小數點後兩位相同, 等於數據的統計變化量誤差小於1% 結論生活在資訊化的現代, 我們應該對於統計不再陌生, 且能善用手邊工具例如EXCEL, 更進一步可以推薦使用Tableau等專業的可視化軟件, 進階的話建議可以選擇學習Python或是R語言。 最後推薦幾本不錯的入門書 第一本是目前博客來中唯一教導使用Tableau的書籍 [大數據時代必學的超吸睛視覺化工具與技術:Excel+Tableau成功晉升資料分析師](http://www.books.com.tw/exep/assp.php/gtgrthrst4577/products/0010768947?utm_source=gtgrthrst4577&utm_medium=ap-books&utm_content=recommend&utm_campaign=ap-201806\) R語言的話非常推薦 [R語言:邁向Big Data之路(最新版)](http://www.books.com.tw/exep/assp.php/gtgrthrst4577/products/0010764964?utm_source=gtgrthrst4577&utm_medium=ap-books&utm_content=recommend&utm_campaign=ap-201806) 全文分享至 https://www.facebook.com/LHB0222/ 有疑問想討論的都歡迎於下方留言 喜歡的幫我分享給所有的朋友 \o/ 有所錯誤歡迎指教 # [:page_with_curl: 全部文章列表](https://hackmd.io/@LHB-0222/AllWritings) ![](https://i.imgur.com/47HlvGH.png)