# 相關係數介紹 [皮爾森積動差相關係數(Pearson product-moment correlation coefficient,縮寫:PPMCC,或PCCs,簡稱相關係數)](https://zh.wikipedia.org/wiki/%E7%9A%AE%E5%B0%94%E9%80%8A%E7%A7%AF%E7%9F%A9%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0) 在統計學中,用於度量兩組數據的變量X和Y之間的線性相關的程度。 它是兩個變量的共變異數與其標準差的乘積之比; 因此,它本質上是共變異數的歸一化度量,因此結果始終具有介於-1和1之間的值。 與共變異數本身一樣,該度量只能反映變量的線性相依性,而忽略了許多其他類型的關係或相關性。 PS:相關係數(Correlation Coefficient)是一種相關程度的測量,在統計學上的意義是兩個變數之間的關係。關係係數與「皮爾遜積動差相關係數」並不相同。 簡單的差異表: | 特點 | 相關係數</br>(Correlation Coefficient) | 皮爾遜積動差相關係數</br>(Pearson Correlation Coefficient) | |----------------------|----------------------------------------|---------------------------------------------------| | 定義 | 衡量兩個變數之間的關係。 | 衡量兩個變數之間的線性相關程度。 | | 類型 | 可以衡量任何類型的相依性,不僅僅是線性相依性。 | 只能衡量線性相依性。 | | --- # 相關程度(5種分類) 來源:[東吳大學 - 相關](https://myweb.scu.edu.tw/~swlean/statistics4.htm) | 相關係數(R) | 相關程度 | |--------------|------------| | 1 或 -1 | 完全相關 | | 0.9 至 -0.9 | 高度相關 | | 0.6 至 -0.6 | 中度相關 | | 0.3 至 -0.3 | 低度相關 | | 小於 0.3 或大於 -0.3 | 無相關或微弱相關 | --- 來源:[黃姵嫙 - 皮爾森積差相關分析(Pearson Correlation)-說明與SPSS操作](https://www.yongxi-stat.com/pearson-correlation/) | 相關係數(R) | 相關程度 | |--------------|------------| | 大於等於 0.7 | 高度相關 | | 0.3 至 0.7 | 中等相關 | | 小於 0.3 | 低相關 | --- 來源:[國立臺灣大學圖書資訊學系 - 相關分析當變項為一個連續變數時](https://www.lis.ntu.edu.tw/~pnhsieh/courses/QStat/7_Correlation.ppt)  --- 來源:[高科大行銷與流通管理系-相關係數 & MBA 智庫百科](http://md.nkust.edu.tw/images/upload/files/class/20210816_6.pdf) | 相關係數(R) | 相關程度 | |--------------|------------| |0.7 ≤ | r | < 1|為高度相關| |0.4 ≤ | r | < 0.7|為顯著相關| |0.0 ≤ | r | < 0.4 |為低度相關| --- 來源:[臺中榮民總醫院 - 描述性統計學概念](https://www.vghtc.gov.tw/UploadFiles/WebFiles/WebPagesFiles/Files/59834ffe-967c-438f-bbc3-4f0b28879f16/10806-20190815.pdf)  --- # 前情提要  最右欄位(是否有糖尿病),最有相關的特徵(血糖值),相關係數是 0.47。 這個圖是一個皮爾遜相關係數的熱力圖,用來展示不同變數之間的相關性。圖中顏色的深淺表示相關性大小,顏色由紅到藍表示相關性從正相關到負相關。相關係數的值範圍在-1到1之間,接近1表示強正相關,接近-1表示強負相關,接近0表示無相關性。 --- ## 圖解說明: 1. 對角線上的值: - 每個變數與自身的相關性值都是1,這是因為每個變數與自身完全相關。 2. 顏色的含義: - 紅色區域:代表正相關性,即兩個變數之間的關係是一個增加,另一個也增加。 - 藍色區域:代表負相關性,即一個變數增加,另一個變數減少。 - 顏色越深:表示相關性越強,不論是正相關還是負相關。 - 淺色區域:表示相關性較弱或無關聯。 3. 舉例解說: - 懷孕次數和年齡:有0.54的相關係數,顯示出正相關性,顯示隨著年齡增加,懷孕次數可能會增加。 - 血糖值和是否有糖尿病:相關係數0.47,也顯示出正相關性,意味著血糖值越高,越可能患有糖尿病。 - BMI和皮膚厚度:相關係數0.39,表示BMI和皮膚厚度之間有一定的正相關性。 ## 結論: 這個熱力圖讓我們能夠快速視覺化各變數之間的相關性,幫助識別出那些可能存在強相關或負相關的變數組合。根據這些信息,我們可以進一步探討變數之間的關係,並將其應用於數據分析或預測模型中。 --- # 如果欄位很多怎麼辦?  ## 過多信息的熱力圖 如果有很多欄位,可以考慮以下幾個方法來處理熱力圖中的過多信息: * 特徵選擇:首先,可以使用特徵選擇技術來篩選出最重要的特徵,這樣可以減少熱力圖中的欄位數量。常見的特徵選擇方法包括基於統計的方法(如方差門檻、相關係數、信息增益等)和基於機器學習模型的方法(如遞歸特徵消除、樹模型特徵重要性等)。 * 分組顯示:如果欄位太多難以一次性顯示在熱力圖中,可以考慮將相關性分組,然後分別顯示各組之間的相關性熱力圖。這樣可以使圖表更易於理解和解釋。 * 交互式熱力圖:使用交互式繪圖庫(如Plotly、Bokeh等),可以實現對熱力圖進行縮放、拖動和標註等操作,從而更方便地查看大量數據。 * 降維技術:對數據進行降維操作,例如主成分分析(PCA)或 t-分布鄰近算法(t-SNE),可以將高維數據映射到二維或三維空間中,從而方便可視化。 * 部分相關性:對於複雜的數據集,可以使用部分相關性分析來解析多個變量之間的關係,從而減少熱力圖中的冗余信息。 --- ## 如何改善圖表的可讀性 ### 1. 減少顯示的變數數量 - 選擇關鍵變數:如果某些變數的相關性對分析的目的不太重要,可以將它們移除,僅保留重要的變數來減少圖表的複雜性。 - 分組顯示:將相關的變數分組,分成多個較小的熱力圖來展示,這樣可以避免標籤過於擁擠。 --- ### 2. 調整標籤顯示方式 - 改變標籤的角度:可以將標籤的角度改成45度或垂直顯示,這樣可以使標籤之間不會重疊,增加可讀性。 - 標籤縮寫或縮短:如果變數名稱較長,可以考慮縮短名稱或使用縮寫,使標籤不會擁擠在一起。 - 間隔顯示標籤:並不是每個標籤都需要顯示,您可以選擇間隔顯示標籤(例如,每隔一個或兩個標籤顯示一次),使得圖表看起來更整潔。 --- ### 3. 增加標籤字體大小 - 增大字體:增大標籤的字體大小,使其更容易辨識。若空間不足,可結合縮短名稱或減少顯示變數數量的方法。 --- ### 4. 優化色彩方案 - 簡化顏色範圍:如果有太多不同的顏色範圍,可能會使得圖表難以解讀。可以簡化顏色範圍,使主要相關性(例如,強正相關和強負相關)更加突出。 - 色彩對比:確保顏色對比足夠明顯,使得不同強度的相關性更容易區分。 --- ### 5. 顯示數字標註 - 添加相關性數值標註:在方格內部顯示相關係數的數值,這樣即使色彩對比不明顯,使用者仍然可以直接讀取具體的相關性數值。 --- ### 6. 增加圖表的尺寸 - 擴大圖表大小:如果可能,將圖表的尺寸加大,這樣可以讓標籤顯示得更清楚,同時方格的大小也能適當增大,使得數字標註更易於閱讀。 --- # 特徵欄位增加與減少的影響? ## 全部欄位 ### 小數點後兩位  --- ### 小數點後三位  --- ## 少了時間欄位  --- ## 缺失值較少的欄位  --- ## 缺失值較多的欄位 由於 OtherVehicleImpact 缺失值高達 60 萬筆,因此分有與沒有 OtherVehicleImpact 的,看該特徵是否有相關。 ### 有 OtherVehicleImpact  #### 沒有 OtherVehicleImpact  --- ## 總結 * 小數點會四捨五入進位 * 可以發現全部欄位與全部欄位少了時間欄位的相關係數有變化,有時間欄位的 AccidentCategory 係數變高了。 * 有與沒有 OtherVehicleImpact 的相關係數沒有差別,可見 OtherVehicleImpact 在此機器學習沒有太大的影響 --- # 如果數值都很平均該怎麼辦? 可以按照上述[相關程度](https://hackmd.io/dMJK5dBSSrOmy1iO86U9GA#%E7%9B%B8%E9%97%9C%E7%A8%8B%E5%BA%A6%EF%BC%88%EF%BC%95%E7%A8%AE%E5%88%86%E9%A1%9E%EF%BC%89)去決定。
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.