PCA 主成分分析 (Principal Component Analysis)

--- GA: UA-159972578-2 --- ###### tags: `R` `PCA` `Principal Component Analysis` `Visualization` `尺度縮減` `主成分分析` `資料前處理` # PCA 主成分分析 (Principal Component Analysis) 看code完整執行結果: [Rpubs Ver.](https://rpubs.com/RitaTang/pca) [Play with PCA Shiny App](http://ba.cm.nsysu.edu.tw:4949/tonychuo/PCA.Rmd) ![](https://i.imgur.com/gleUY4k.png) + O&M和environmental survey方向完全相反，代表兩個變數負相關 + cabel和environmental survey呈現直角，代表互相獨立 ![](https://i.imgur.com/DMInQIp.png) + 兩段式趨勢分析 + 期數可以自訂，這裡只做了兩段，可以看出兩期間移動的軌跡 ## 何謂PCA + 一種尺度縮減的方法 + 將高維度資料降至低維度資料 + 降維的過程中，保持資料裡每個變數的變異性 + 一顆西瓜有很多種切法/切面，找出從哪個切面可以看到最多西瓜籽 + 先從資訊保留量最大的方向壓縮(保留資料變數之間的變異性) + 通常在壓第一次的時候就解釋了60-80%的變異 + 再往能保留最多資訊的方向繼續壓縮(邊際效果遞減) + ![](https://i.imgur.com/uSN84An.png) + ![](https://i.imgur.com/0pdFBOn.png) + 做PCA可以看到： + 變數 v.s 變數的關係 + 獨立(直角) + 正相關(在同一側) + 負相關(在反方向) + 資料點 v.s 變數 + 資料點在變數間表現突出(outlier) + 資料點 v.s 資料點 + Cluster：點與點靠得很近為一群(組內差異小，組間差異大) + 用於競爭/策略分析 + 不用再一張一張圖去畫、放在一起看(太慢又太多維度組合要畫) + 將資料所有的變數投射在一個平面上觀察整體趨勢 + 加上時間因素可以看出移動方向/趨勢 + 看得到對手和自己的定位變化 + 決定自己未來要往哪裡去 ## 【範例1】分析每隻隊伍對不同武器的關係 + col(var)：武器 + row(ind)：隊伍 ### 資料介紹 + 遊戲比賽的資料，有13隻隊伍對於5個武器的使用量及獲勝的比率 + tot_rate：各隊伍整體獲勝的比率 + xxx_rate：各隊伍使用各類武器的獲勝的比率 + xxx_num：武器的使用量 ### 讀取資料 ```{r echo=FALSE} pacman::p_load(FactoMineR,factoextra,dplyr,corrplot) load("data/csdf2.rdata") str(csdf) ``` ``` ## 'data.frame': 13 obs. of 11 variables: ## $ tot_rate : num 0.546 0.453 0.585 0.498 0.353 ... ## $ USP_wr : num 0.408 0.646 0.333 0.6 0.481 ... ## $ HE_wr : num 0.702 0.506 0.333 0.333 0.36 ... ## $ Incendiary_wr : num 0.474 0.324 0.503 0.271 0.456 ... ## $ M4A4_wr : num 0.542 0.535 0.498 0.462 0.513 ... ## $ AK47_wr : num 0.596 0.405 0.812 0.597 0.144 ... ## $ USP_num : int 76 65 84 30 81 78 81 38 129 20 ... ## $ HE_num : int 47 79 42 9 50 51 46 9 129 28 ... ## $ Incendiary_num: int 253 207 191 70 171 299 169 72 486 62 ... ## $ M4A4_num : int 216 286 219 143 195 216 193 143 383 127 ... ## $ AK47_num : int 441 291 293 196 284 437 272 196 942 128 ... ``` ### 標出資料點與變數(維度)方向 ```{r} df = csdf[7:11] # 7:11是使用武器的獲勝次數 pca = PCA(df) ``` ![](https://i.imgur.com/Z5uZUP8.png) ![](https://i.imgur.com/7Rdf4zY.png) ```{r} fviz_pca_var(pca) # 美化一點的PCA函數(加上網格) ``` ![](https://i.imgur.com/clSJyUr.png) ### PCA維度解釋程度 ```{r} get_eigenvalue(pca) # 特徵值/資訊保留量/累積資訊保留量 ``` ``` ## eigenvalue variance.percent cumulative.variance.percent ## Dim.1 4.42066955 88.4133910 88.41339 ## Dim.2 0.33382021 6.6764041 95.08980 ## Dim.3 0.15645429 3.1290858 98.21888 ## Dim.4 0.06564889 1.3129778 99.53186 ## Dim.5 0.02340706 0.4681412 100.00000 ``` + Dim.1 解釋了88%的變異 + 有邊際效果遞減，累加到解釋完所有的變異(100%) ### 將兩張圖疊在一起，畫出PCA圖 ```{r} fviz_pca_biplot(pca, repel=T, # repel讓label不要重疊 pointsize="cos2", col.ind="#E7B800", alpha.ind=0.3) # pointsize放變數就會自動生成legend # col.ind放分群變數 ``` ![](https://i.imgur.com/NW2bamI.png) + 可以看出變數(武器)的維度經壓縮後都投射在同一方向 + 正相關 + 點對軸線(無限延伸的方向)畫垂直線，該落點即為該維度上的值 + Dim1+2保留了94%資訊量(解釋了94%的變異)，因此可以相信這張圖 + 軸線的長度代表一個標準差 + 有些PCA圖會畫出長短不一的射線，有些怕混淆會畫等長 + 愈短代表變異量愈小 ### 集群分析 ```{r} kmg = kmeans(df,3)$cluster %>% factor table(kmg) ``` ### 結合集群分析的PCA分析圖 + 圖1 (將同一群的用橢圓匡起來) ```{r} fviz_pca_biplot( pca, repel=T, col.var="black", col.ind=kmg, alpha.ind=0.6, pointshape=16, pointsize=10*csdf$tot_rate, labelsize=3, addEllipses = TRUE, ellipse.level = 0.6, mean.point = F) # addEllipses畫分群的橢圓 # 1,2群太小太遠畫不出來 # level是橢圓的範圍大小 # mean.point幫忙計算群中心點並標出來(但會太混雜所以拿掉) ``` ![](https://i.imgur.com/VFTVvT3.png) + 圖2 (點與點之間連線) ```{r} fviz_pca_biplot( pca, repel=T, col.var="black", col.ind=kmg, alpha.ind=0.6, pointshape=16, pointsize=10*csdf$tot_rate, labelsize=3, addEllipses = TRUE, ellipse.type = "convex", mean.point = F) # convex是將點連線 ``` ![](https://i.imgur.com/qkHanAU.png) ### 正規化 + 為了修正變數都往同個方向投射，我們應該看比例而非看數量。 + 因為比較「事件」會受到「數量大小」影響，導致PCA壓縮後都擠在「同方向」(正相關)。 + 例如： + 做文字分析時，寫長文的人/感性的人，情緒普遍偏高；相反的人情緒較平淡。 + 比較結婚、離婚、出生、死亡(事件)受到縣市的大小/人口密度影響。 + 這樣是不能直接比較的，比較要放在同一個基準；遇到這種情況，做正規化比較好。 + 正規化：數量轉比率0~1(皆是正數)。 + 標準化=常態化：平均值是0，標準差是1。 + 有正有負，中間是0。 + 當0對你有意義/重要的、有兩極在擺動的情況就很適合做標準化。 ```{r} # regulization mx = csdf[7:11] %>% as.matrix() mx2 = mx/rowSums(mx) # 正規化的方向是row(因為是每個隊伍) # 如果是直的方向的正規化，要先做轉置: t(t(x)/rowSums(t(x))) pca2=PCA(mx2) # kmeans kmg2 = kmeans(df,3)$cluster %>% factor table(kmg2) # plot fviz_pca_var(pca2) # 維度投射圖 fviz_pca_biplot( pca2, repel=T, col.var="black", col.ind=kmg2, alpha.ind=0.6, pointshape=16, pointsize=10*csdf$tot_rate, labelsize=3, addEllipses = TRUE, ellipse.type = "convex", mean.point = F) ``` ![](https://i.imgur.com/oraroT3.png) ![](https://i.imgur.com/0n1nm8L.png) ## 【範例2】獲勝比率 已經是比率，不需做正規化 ```{r} mx3 = csdf[,1:6] %>% as.matrix() # 1:6是使用武器的獲勝比率 pca3=PCA(mx3) # kmeans kmg3 = kmeans(mx3,4)$cluster %>% factor table(kmg3) # plot fviz_pca_biplot( pca3, repel=T, col.var="black", col.ind=kmg3, alpha.ind=0.6, pointshape=16, pointsize=10*csdf$tot_rate, labelsize=3, addEllipses = TRUE, ellipse.type = "convex", mean.point = FALSE) ``` ![](https://i.imgur.com/hjrgCHR.png)