主成分分析

1. 一維資料的統計學

假設我們有

n

筆資料, 每筆資料都是一個數字 (例如

n

個學生的成績). 這

n

筆資料我們設為

x_{1}, \dots, x_{n}

, 並且定義一個矩陣

\begin{matrix} (1) & A = [\begin{matrix} x_{1} & \dots & x_{n} \end{matrix}] \in M_{1 \times n} . \end{matrix}

那這些資料的平均數為

\begin{matrix} (2) & μ = \frac{1}{n} (x_{1} + \dots + x_{n}) = \frac{1}{n} [\begin{matrix} 1 & \dots & 1 \end{matrix}] [\begin{matrix} x_{1} \\ ⋮ \\ x_{n} \end{matrix}] = \frac{1}{n} 1^{T} A^{T}, \end{matrix}

其中

1^{T} = [1, \dots, 1]

是個全為

1

的向量.

資料的變異數 (variance) 則定義為

\begin{matrix} (3) & Var (A) = σ^{2} = \frac{1}{n} \sum_{k = 1}^{n} (x_{i} - μ)^{2}, \end{matrix}

而

σ

則是標準差 (standard deviation, std).

要將之寫成矩陣形式首先我們定義置中矩陣 (centering matrix)

\begin{matrix} (4) & H = I - \frac{1}{n} 1 1^{T} . \end{matrix}

計算一下可以發現

\begin{matrix} (5) & H A^{T} = (I - \frac{1}{n} 1 1^{T}) A^{T} = A^{T} - μ 1 = [\begin{matrix} x_{1} - μ \\ ⋮ \\ x_{n} - μ \end{matrix}] = Y^{T}, \end{matrix}

其中我們將這些置中後的資料存為

Y

矩陣. 接著我們就可以知道

\begin{matrix} (6) & σ^{2} = \frac{1}{n} Y Y^{T} . \end{matrix}

2. 二維資料的統計學

假設我們有

n

筆資料, 每筆資料都是

2

個數字 (例如

n

個學生在

2

次考試的成績), 這兩個數字我們稱之為這筆資料的 features. 這

n

筆資料我們設為

(x_{1}, y_{1}), \dots, (x_{n}, y_{n})

, 並且定義一個矩陣

\begin{matrix} (7) & A = [\begin{matrix} x_{1} & \dots & x_{n} \\ y_{1} & \dots & y_{n} \end{matrix}] \in M_{2 \times n} . \end{matrix}

我們把每種資料都平移, 使其平均為

0

, 並令平移後的資料為

Y

. 簡單計算可以發現我們一樣可以用置中矩陣來做,

H A^{T} = Y^{T}

\begin{matrix} (8) & Y^{T} = [\begin{matrix} x_{1} - μ_{x} & y_{1} - μ_{y} \\ ⋮ & ⋮ \\ x_{n} - μ_{x} & y_{n} - μ_{y} \end{matrix}], μ_{x} = \frac{1}{n} \sum_{k = 1}^{n} x_{k}, μ_{y} = \frac{1}{n} \sum_{k = 1}^{n} y_{k} . \end{matrix}

接著我們可以定義兩個變數的共變異數 (covariance),

\begin{matrix} (9) & cov (x, y) = \frac{1}{n} \sum_{k = 1}^{n} (x_{k} - μ_{x}) (y_{k} - μ_{y}) . \end{matrix}

接著計算一下就可以發現

\begin{matrix} (10) & \frac{1}{n} Y Y^{T} = [\begin{matrix} cov (x, x) & cov (x, y) \\ cov (x, y) & cov (y, y) \end{matrix}], \end{matrix}

也就是所謂的共變異數矩陣. 這個矩陣的對角線元素代表每個 feature 自己的變異數, 而非對角線則是共變異數, 代表兩個 features 的相關程度.

Remark: 不過要真正算相關程度會更近一步的去計算相關係數 (correlation coefficients), 這邊就不再深入探討.

3. PCA: maximize variance

我們想要找到一個方向, 使得資料投影上去之後, 新資料的變異數會最大.

假設這個方向為

v \in R^{2}

, 並且

‖ v ‖ = 1

, 那資料投影到

v

所得的新資料就是

v^{T} Y \in M_{1 \times n}

. 接著我們就來算這筆新資料的變異數.

第一步一樣先置中. 也就是計算

H Y^{T} v

. 不過由於

Y

是置中過的資料, 因此

H Y^{T} = Y^{T}

, 所以

H Y^{T} v = Y^{T} v

, 也就是說, 新資料

v^{T} Y

的平均一定是

0

接著, 新資料的變異數就會是

\begin{matrix} (11) & σ^{2} = \frac{1}{n} (v^{T} Y) (v^{T} Y)^{T} = \frac{1}{n} v^{T} Y Y^{T} v . \end{matrix}

所以統整一下, 若我們將資料投影到

v

上, 那新資料的變異數就是 (11). 而PCA 所要找的方向就是使變異數最大的方向, 也就是

\begin{matrix} (12) & \hat{v} = \arg max_{v \in R^{2}, ‖ v ‖ = 1} (v^{T} Y Y^{T} v) . \end{matrix}

最後, 我們知道這個解可以由

Y^{T}

這個矩陣的 SVD 得出.

假設

Y^{T} = U Σ V^{T}

, 那

\hat{v} = v_{1}

, 也就是第一個 singular vector.

4. PCA: minimize square distance

我們想要找到一個方向, 使得資料投影上去之後, 新舊資料的距離平方和最小.

假設這個方向為

v \in R^{2}

, 並且

‖ v ‖ = 1

, 那資料投影到

v

的投影點就是

v v^{T} Y \in M_{2 \times n}

. 接著我們就來算新舊資料的距離平方和:

\begin{matrix} (13) & \begin{aligned} \sum_{k = 1}^{n} d_{k}^{2} & = \sum_{k = 1}^{n} ‖ Y_{k} - v v^{T} Y_{k} ‖^{2} \\ = \sum_{k = 1}^{n} < Y_{k} - v v^{T} Y_{k}, Y_{k} - v v^{T} Y_{k} > \\ = \sum_{k = 1}^{n} Y_{k}^{T} Y_{k} - Y_{k}^{T} v v^{T} Y_{k} \\ = \sum_{k = 1}^{n} Y_{k}^{T} Y_{k} - v^{T} Y_{k} Y_{k}^{T} v \\ = \sum_{k = 1}^{n} (Y_{k}^{T} Y_{k}) - v^{T} Y Y^{T} v, \end{aligned} \end{matrix}

其中我們用到了

v^{T} Y_{k}

是個數字以及

\sum Y_{k} Y_{k}^{T} = Y Y^{T}

這兩件事.

我們希望找到一個方向使得距離平方和最小, 也就是

\begin{matrix} (14) & \hat{v} = \arg min_{v \in R^{2}, ‖ v ‖ = 1} (\sum_{k = 1}^{n} (Y_{k}^{T} Y_{k}) - v^{T} Y Y^{T} v) = \arg max_{v \in R^{2}, ‖ v ‖ = 1} (v^{T} Y Y^{T} v) . \end{matrix}

觀察 (12) 與 (14) 發現他們一模一樣. 也就是這兩個問題的解會是一樣的, 最佳的方向都是第一個 singular vector.

5. Conclusion

PCA 想做的事就是找到一個仿射子空間 (affine subspace), 使得
a) 投影下去之後的資料有最大的變異數
b) 投影前後的資料距離平方合最小.
而這兩件事情是等價的.
PCA 也是一種資料降維的工具, 而將資料投影到一維所出來的新資料就是
$v^{T} Y$ .
以上雖然是以二維資料為例, 不過若有
$m$ 維資料整個推導是一樣的.
以上是以投影到一維為例, 若投影到更高維度就是依序找第二, 三, 等等的 singular vectors. 不過推導會利用到矩陣 trace 的一些性質, 一些細節這裡就先跳過.
PCA 要找的是個仿射子空間,
$V = μ + span {v}$ , 這裏我們都直接說
$μ$ 就是資料的平均. 不過其實這是可以算出來的. 假設我們想要找一個點
$μ$ 使得所有資料到這個點的距離和為最小, 也就是

$\begin{matrix} (15) & μ = \arg min \sum_{k = 1}^{n} (x_{k} - μ)^{2} . \end{matrix}$

我們先定義
$f (μ) = \sum_{k = 1}^{n} (x_{k} - μ)^{2}$ . 這是個單變數函數, 而且其實就是個
$μ$ 的二次多項式, 首項係數等於
$1$ , 有一個最小值. 接著微分求極值得到

$\begin{matrix} (16) & \frac{d}{d μ} f = \sum_{k = 1}^{n} (- 2) (x_{k} - μ) = (- 2) [\sum_{k = 1}^{n} x_{k} - n μ] \end{matrix}$

因此極值發生在
$\frac{d}{d μ} f = 0$ , 也就是

\begin{matrix} (17) & μ = \frac{1}{n} \sum_{k = 1}^{n} x_{k} . \end{matrix}