# 先講點資訊素養吧!資料視覺化 本文將介紹何為**資料視覺化**、**資料視覺化的步驟**與一些**資料視覺化的要點** **匿名發問區** : [點我](https://app.sli.do/event/tLuW4YZknbbMG35jgyykWM/live/questions) ## ㄧ、什麼是資料視覺化? 資料視覺化是指運用視覺的方式呈現數據, 有效的圖表可以將繁雜的數據簡化為易於吸收的內容。 透過圖像化的方式,我們更容易辨別數據的**規律**(**Patterns**)、**趨勢**(**Trends**)、**關聯**(**Correlations**)。[^資料視覺化的意思] [^資料視覺化的意思]:[什麼是資料視覺化](https://medium.com/uxeastmeetswest/%E8%B3%87%E6%96%99%E8%A6%96%E8%A6%BA%E5%8C%96data-visualization-%E5%9C%96%E8%A1%A8%E8%A8%AD%E8%A8%88-9ef17943a2d4) ## (一) 資料 Data ### 定義 ==**資料**==(**data**)又稱為數據,是通過觀測得到的各種數字。資料有各種形式,例如文字、數字、圖片、影像、聲音等。[^Data] [^Data]:[資料的定義](https://zh.wikipedia.org/zh-tw/%E6%95%B0%E6%8D%AE) ### 變數與值 一個資料集一般由多個 ==**變數**==(**Variable**)所組成,而變數裡記錄著不同的 ==**值**==(**Value**)[^Var] [^Var]:[變數與值](https://stat.nuk.edu.tw/prost/content_new/1.PDF) 例如:年雨量分布圖中,月份就是一個變數,而1月、2月、3月...則是這個變數所能紀錄的不同的值;降雨量是另一個變數,幾ml則是值。 ### 測量尺度 在資料科學的領域中,我們將**變數**分成4種測量尺度:==**名目尺度**==、==**次序尺度**==、==**等距尺度**==、==**比例尺度**==[^測量尺度] [^測量尺度]:[資料的4種測量尺度](https://edge.aif.tw/data-lab-data-type/) 1. **名目尺度 Nominal Scale**: 又稱為分類型資料,純粹用來區分不同的==類別==,依據性質來做分類,無等級、大小之分,是四個尺度中最弱的結構。 例如:**血型**便是一個名目尺度的變數,它的四種變數值(A、B、AB、O)只有性質上的差異,而無等第、大小的區別 2. **次序尺度 Ordinal Scale**: 除了可區分類別外,還有==順序==之分(資料的排序具有意義),不是數字但有高下先後之分,但是順序間並不等距,所以只能比大小,不能做$+-\times\div$。 例如:**名次**為一個次序尺度的變數,變數值(第一名、第二名...)彼此間除了有性質的差異外,還有順序上的差異(第一名>第二名),但彼此間的差異並不等距(第一名跟第二名的差距$\not=$第二名跟第三名的差距) 3. **等距尺度 Interval Scale**: 可以區分兩元素之間程度上的差異,且差異是==等距==的,所以可以相加減。 為數字型態的資料,且數字有數學上的意義,但因為它的零點是相對的,而不是絕對意義上的0,只是反映差距,缺乏實質意義,故不能乘除。 例如:**年份**便是一個等距尺度的變數,變數值的差距是固定的(1年),所以可以相加減($2023-1911=102$),但因為西元0年是人訂出來的相對基準,所以不能乘除($1989\times64$ 無意義) 4. **比例尺度 Ratio Interval**: 有以上三種尺度的所有特性,為數字型態的資料,且除了各數值間具有等差的關係外,還有絕對意義上的==零點==,因此可做乘法,可做$+-\times\div$所有的數學運算。 例如:**長度**便是一個比例尺度的變數,有真正意義上的0,所以變數值可以做乘除($100cm\div100=1m$)。 其中名目尺度、次序尺度為 ==**類別型數據**==(非計量型數據);等距尺度、比例尺度為 ==**數值型數據**==(計量型數據) ### 資料蒐集 了解了什麼是資料後,那我們在蒐集資料時又有哪些該注意的地方呢?[^資料蒐集] [^資料蒐集]:[資料蒐集要點](https://ctld.ntu.edu.tw/ls/strategy/lecture.php?index=126) 1. **與問題的相關性**: 蒐集資料時要專心在自己的研究主題或問題上,不要浪費時間在無關的資料上。 2. **資料的正確性**: 要確保資料的準確性、有效性(時效、適用群體、範圍...)、可信度(檢查資料來源是否專業、公正客觀、有權威性等,還有像是檢查有沒有標作者、出版機構、引用來源等資訊)。 3. **多重的蒐集管道**: 蒐集資料時要有多重的資料蒐集管道,讓收集的資料多元化,完整度也會較高,避免單一來源的偏誤或不足。 4. **附上資料來源**: 一方面尊重作者,另一方面也方便他人追溯資料的原出處 ## (二) 視覺化 Visualization ### 什麼是視覺化? >視覺化是指用於建立圖形、圖像或動畫,以便交流溝通訊息的任何技術和方法。 [name=wikipedia] ### 為何要視覺化? 1. **易讀**: 人類大腦吸收圖像的速度遠高於文字,大部分的資訊是透過視覺傳達到我們的大腦,因此,透過資料視覺化能將將抽象的概念轉化成我們腦袋==容易理解==的形式,利用人類天生的技能來增強資料處理和組織效率。[^資料視覺化的意思] 2. **易觀察**: 隨著大數據時代來臨,若要理解這些大量數據,視覺化方法顯得越來越重要。 有效的圖表可以將繁雜的數據簡化成為易於吸收的內容,良好的視覺化可以述說故事。透過圖像化的方式,我們更容易辨別數據的==規律==、==趨勢==及==關聯==。讓資料變得清楚,實用的資訊也會水落石出。[^視覺化優點] [^視覺化優點]:[視覺化的優點](https://www.tableau.com/zh-tw/learn/articles/data-visualization) ### 視覺化的要點 光是把表格弄得漂亮、把資料變成資訊圖表,都還稱不上是良好的視覺化,資料視覺化的效果,取決於形式與功能之間是否能取得微妙的平衡。 平鋪直述的圖形,有可能過於枯燥、沒人想看,但也可以一矢中的地講出要點; 絢爛的視覺效果,焦點可能會模糊、言不及義,但也可能豐富多彩卻言簡意賅。 資料和視覺化內容必須彼此配合,將出色的分析和精彩的敘事合而為一,這本身就是一門藝術。[^視覺化優點] 此外,雖然本文都在介紹資料視覺化,但其實資料視覺化從來都只是表層的東西,視覺化之前的 ==**資料分析**== 才是核心,只有資料分析內涵豐富、價值高,資料視覺化才能內容豐富、有價值。[^超多表] [^超多表]:[各式圖表](https://allaboutdataanalysis.medium.com/%E8%A6%96%E8%A6%BA%E5%8C%96%E5%9C%96%E8%A1%A8%E7%9A%84%E5%A5%97%E8%B7%AF%E5%A4%A7%E7%9B%A4%E9%BB%9E-%E9%81%8B%E7%94%A8%E6%9B%B4%E8%87%AA%E5%A6%82-86ef0de88c36) ## 二、資料視覺化的步驟 那麼,資料視覺化有什麼SOP呢?[^SOP] [^SOP]:[資料視覺化SOP](https://aws.amazon.com/tw/what-is/data-visualization/) 1. **定義目標**: 確定現有資料集可回答的問題,以定義資料視覺化目標。 2. **蒐集資料**: 從多元的管道蒐集與問題相關的可信資料。 3. **清理資料**: 資料清理包括刪除冗餘資料、執行數學運算以進一步分析,或篩選和轉換資料以符合問題條件。 4. **選擇視覺效果**: 從多種不同的圖表類型中進行選擇,如長條圖、折線圖、散點圖、圓餅圖等,不同的圖表類型有不同的優缺點和適用場景,根據資料的維度、數量、分佈等因素選擇能夠有效展示資料特徵和關係的圖表類型,以實現有效的視覺探索。 5. **建立視覺效果**: 使用視覺元素來增強資料的表達力,新增清晰的標籤和數字,使用大小、顏色、形狀、字型和位置來引導觀眾的注意力,並使用標題、標籤、圖例、註釋等文字元素來解釋資料,讓觀眾快速和準確地理解資料的含義。 ## 三、常見錯誤 在做資料視覺化時,需要避免犯以下幾點錯誤 1. **不恰當的圖表** 2. **不一致的視覺元素** 3. **不清晰的文字** 4. **不恰當的座標軸** 5. **不正確的比例尺** ## 四、小技巧 以下資料視覺化時的一些小眉角[^小技巧] [^小技巧]:[資料視覺化技巧](https://medium.com/%E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90%E4%B8%8D%E6%98%AF%E5%80%8B%E4%BA%8B/%E8%B3%87%E6%96%99%E8%A6%96%E8%A6%BA%E5%8C%96-%E5%BF%85%E9%A0%88%E6%B3%A8%E6%84%8F%E7%9A%8430%E5%80%8B%E5%B0%8F%E6%8A%80%E5%B7%A7-890dab850614) ### 顏色 利用顏色來做分類標籤時須注意以下幾點 1. **統一感**: 顏色用得太花會使人無法專注於資料本身,因此需維持色系的統一感或使用相近的顏色,避免使用超過6種以上的顏色。 可以上[Google](https://www.google.com/search?q=color+palette&rlz=1C1MSIM_enTW1010TW1014&source=lnms&tbm=isch&sa=X&ved=2ahUKEwjGmfLR1Pb9AhXmSWwGHQ5kAXsQ_AUoAXoECAEQAw&biw=929&bih=927)或[Pinterst](https://www.pinterest.ca/search/pins/?rs=ac&len=2&q=color%20palette&eq=color&etslf=7905)查別人配好的色票(color palette)來用。 2. **避免過於鮮豔**: 明亮鮮豔的顏色就像是把所有的字母都大寫想要強調一樣,讀者會感覺你在對他們大聲推銷,應避免使用;單調的顏色,反而能很好地用於資料視覺化,因為它們可以讓你的讀者專注在理解你的資料,而不是被資料淹沒。 ### 字體 1. **乾淨簡潔**: 美觀的字型能增加情感,但在做資料視覺化時應將重點放在資料本身,所以請使用簡單無襯線的字型,避免過於花俏而失焦。 2. **等寬字型**: 使用[等寬字型](https://zh.wikipedia.org/zh-tw/%E7%AD%89%E5%AE%BD%E5%AD%97%E4%BD%93),不使用比例字型(可從小數點的寬度檢查),以維持數字的整齊。 ### 其他 1. **使用2D圖形**: 雖然3D圖表看起來很酷,但是透視上的視錯覺會扭曲我們對資料的感知。使用2D圖表來確保資料準確。 2. **文字解釋**: 記得加上圖表標題、軸標籤、圖例,必要時加上文字解釋內容。 3. **編排順序**: 按照資料本身的數據進行排序,若無順序(名目變數)就照英文字母或數據大小排。 ## 五、資料來源