PCA 主成分分析 (Principal Component Analysis)
看code完整執行結果: Rpubs Ver.
Play with PCA Shiny App

- O&M和environmental survey方向完全相反,代表兩個變數負相關
- cabel和environmental survey呈現直角,代表互相獨立

- 兩段式趨勢分析
- 期數可以自訂,這裡只做了兩段,可以看出兩期間移動的軌跡
何謂PCA
- 一種尺度縮減的方法
- 將高維度資料降至低維度資料
- 降維的過程中,保持資料裡每個變數的變異性
- 一顆西瓜有很多種切法/切面,找出從哪個切面可以看到最多西瓜籽
- 先從資訊保留量最大的方向壓縮(保留資料變數之間的變異性)
- 通常在壓第一次的時候就解釋了60-80%的變異
- 再往能保留最多資訊的方向繼續壓縮(邊際效果遞減)


- 做PCA可以看到:
- 變數 v.s 變數的關係
- 獨立(直角)
- 正相關(在同一側)
- 負相關(在反方向)
- 資料點 v.s 變數
- 資料點 v.s 資料點
- Cluster:點與點靠得很近為一群(組內差異小,組間差異大)
- 用於競爭/策略分析
- 不用再一張一張圖去畫、放在一起看(太慢又太多維度組合要畫)
- 將資料所有的變數投射在一個平面上觀察整體趨勢
- 加上時間因素可以看出移動方向/趨勢
- 看得到對手和自己的定位變化
- 決定自己未來要往哪裡去
【範例1】分析每隻隊伍對不同武器的關係
資料介紹
- 遊戲比賽的資料,有13隻隊伍對於5個武器的使用量及獲勝的比率
- tot_rate:各隊伍整體獲勝的比率
- xxx_rate:各隊伍使用各類武器的獲勝的比率
- xxx_num:武器的使用量
讀取資料
標出資料點與變數(維度)方向



PCA維度解釋程度
- Dim.1 解釋了88%的變異
- 有邊際效果遞減,累加到解釋完所有的變異(100%)
將兩張圖疊在一起,畫出PCA圖

- 可以看出變數(武器)的維度經壓縮後都投射在同一方向
- 正相關
- 點對軸線(無限延伸的方向)畫垂直線,該落點即為該維度上的值
- Dim1+2保留了94%資訊量(解釋了94%的變異),因此可以相信這張圖
- 軸線的長度代表一個標準差
- 有些PCA圖會畫出長短不一的射線,有些怕混淆會畫等長
- 愈短代表變異量愈小
集群分析
結合集群分析的PCA分析圖


正規化
- 為了修正變數都往同個方向投射,我們應該看比例而非看數量。
- 因為比較「事件」會受到「數量大小」影響,導致PCA壓縮後都擠在「同方向」(正相關)。
- 例如:
- 做文字分析時,寫長文的人/感性的人,情緒普遍偏高;相反的人情緒較平淡。
- 比較結婚、離婚、出生、死亡(事件)受到縣市的大小/人口密度影響。
- 這樣是不能直接比較的,比較要放在同一個基準;遇到這種情況,做正規化比較好。
- 正規化:數量轉比率0~1(皆是正數)。
- 標準化=常態化:平均值是0,標準差是1。
- 有正有負,中間是0。
- 當0對你有意義/重要的、有兩極在擺動的情況就很適合做標準化。


【範例2】獲勝比率
已經是比率,不需做正規化
