考研
線性代數
數學
矩陣的形式為 \[ \mathbf{A}_{m \times n} = [a_{m \times n}] = \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn}\\ \end{bmatrix} \] 下標為矩陣的index(白話來說就是地址),\(\mathbf{A}_{m \times n}\)第一個數字\(m\)代表row個數,第二個數字\(n\)代表column數目。可以將上述矩陣"看作"是\(m\)個row vector(row matrix) \(\mathbf{A}_i'\)或是\(n\)個column vector(column matrix) \(\mathbf{A}_i\)。 \[ \mathbf{A}_{m \times n} = \left[\begin{array}{ccc} - & \mathbf{A}_1' & -\\ - & \mathbf{A}_2' & -\\ & \vdots & \\ - & \mathbf{A}_m' & -\\ \end{array}\right] = \left[\begin{array}{cccc} \mid & \mid & & \mid\\ \mathbf{A}_1 & \mathbf{A}_2 & \cdots & \mathbf{A}_n\\ \mid & \mid & & \mid\\ \end{array}\right] \]
定義方陣(square matrix)為row與column數相同的矩陣;上三角矩陣(upper triangular matrix)為對角線以下的數字皆為0;下三角矩陣(low triangular matrix)為對角線以上的數字皆為0;對角線矩陣(diagonal matrix)是只有對角線上數字不全為0,其餘數字皆為0的方陣;單位矩陣(identity matrix)為對角線數字皆為1,其餘數字皆為0的方陣,屬於對角線矩陣的一種;零矩陣(zero matrix)所有entry全為0的矩陣;主子方陣(principal square-matrix),方陣去掉相同數量與位置的row或是column所得的子方陣。
矩陣相等定義為矩陣\(\mathbf{A}, \mathbf{B}\)中每個entry都要相同\(a_{ij} = b_{ij}\);轉置(transpose)為將row變成column,把column變成row,表示為\(a_{ij} \overset{T}{\longrightarrow} a_{ji}\);共軛(conjugate)為對entry上所有元素取共軛;只有在取共軛加上轉置才有物理意義(對實數矩陣來說可以簡化為轉置),共軛轉置合稱為adjoint operator,標記如下 \[ \overline{\mathbf{A}}^T \equiv A^H = A^* \] 共軛轉置重要性質如下
矩陣加法為將兩個元素個別entry相加;矩陣純量乘法需要將所有entry都乘以純量;兩矩陣的乘法假設為\(\mathbf{C} = \mathbf{A} \mathbf{B}\),首先要確保矩陣\(\mathbf{A}_{m \times n}\)中column數目與矩陣\(\mathbf{B}_{n \times p}\)的row數目相同,稱為conformable,兩矩陣乘法為將矩陣\(\mathbf{A}\)中row vector與矩陣\(\mathbf{B}\)中column vector做內積,記為 \[ c_{ij} = a_{i1} b_{1j} + a_{i2} b_{2j} + \cdots + a_{in}b_{nj} = \sum^n_{k = 1} a_{ik} b_{kj} \] 矩陣乘法轉置重要性質如下
參照2022上一段日記 03/06(日),都知道任意函數可以表示為偶函數和奇函數的合,同理任意矩陣也可以表示為對稱(赫米特)矩陣與斜對稱(赫米特)矩陣的和。
\[
\mathbf{A} = \mathbf{B} + \mathbf{C},\; \text{where } \mathbf{B} = \underbrace{\frac{\mathbf{A} + \mathbf{A}^H}{2}}_{\text{Hermitian}},\; \mathbf{C} = \underbrace{\frac{\mathbf{A} - \mathbf{A}^H}{2}}_{\text{skew-Hermitian}}
\]
5. 正交矩陣(orthogonal matrix),定義為\(\mathbf{Q}^T \mathbf{Q} = \mathbf{I}\)。
行列式(determininat)為方陣的"數值",只有方陣才具有行列式,記為\(\det(\mathbf{A}), |\mathbf{A}|\),二階方陣和三階方陣可以公式速解,但四階以上方陣沒有速解技巧,需要找出0最多的行或是列,根據該列做列展開或是根據該行做行展開。
行列式性質如下
行列式3階以下可使用公式速解,而4階以上行列式求法可使用性質2、性質4(類似高斯消去法,需要注意性質2行列式會正負變號),將矩陣整理為上三角矩陣,再由行列式性質6求解。
根據矩陣類型分成以下5大題型
矩陣基本列操作(elementary row operation)有3個,想法源自於解聯立方程組,解經矩陣基本列操作後不會改變。
利用Gauss消去法化簡為列梯式(row echelon form),使第一列pivot為1,將該列以下化為0,再來令第二列首項(leading entry)為1,一直持續化簡下去,若是某一列pivot為0,則需要做列交換才可繼續運算,因此不具有唯一性,從外觀看列梯式為上三角方陣。
由於列梯式不唯一,所以再使用Gauss-Jordan消去法,將Gauss消去法計算後的列梯式,從最底下的列開始往上操作,對pivot所在的行,此行其他數均為0,化簡為最簡列梯式(reduced row echelon form),才具有唯一性。
只有方陣才具有反矩陣,若\(\mathbf{A}\)為\(n\)階方陣,且存在\(n\)階方陣\(\mathbf{B}\)使得 \[ \mathbf{BA} = \mathbf{AB} = \mathbf{I}_n \] 則稱為\(\mathbf{A}\)為可逆(invertible),\(\mathbf{B}\)為\(\mathbf{A}\)的反矩陣,記為\(\mathbf{B} = \mathbf{A}^{-1}\)。以下敘述等價
給定\(\mathbf{A}, \mathbf{B}\)皆為\(n\)階方陣,若\(\mathbf{AB} = \mathbf{I}\)則\(\mathbf{BA} = \mathbf{I}\),故對於可逆方陣而言,右反矩陣等於左反矩陣。證明如下 \[ \begin{align*} \mathbf{AA}^{-1} = \mathbf{I} &\Rightarrow \mathbf{A}^{-1}(\mathbf{A}\mathbf{A}^{-1})\mathbf{A} = \mathbf{A}^{-1} \mathbf{(I)A}\\ &\Rightarrow \mathbf{A}^{-1} \mathbf{A}\mathbf{A}^{-1}\mathbf{A} = \mathbf{A}^{-1} \mathbf{A}\\ &\Rightarrow \mathbf{CC} = \mathbf{C} \quad\because \mathbf{C} \triangleq \mathbf{A}^{-1} \mathbf{A}\\ &\Rightarrow \mathbf{CC}\mathbf{C}^{-1} = \mathbf{C}\mathbf{C}^{-1}\\ &\Rightarrow \mathbf{CI} = \mathbf{I}\\ &\Rightarrow \mathbf{C} = \mathbf{I}\\ &\therefore \mathbf{A}^{-1} \mathbf{A} = \mathbf{I} \end{align*} \]
二階矩陣的反矩陣求法背公式 - 主對角線互換,次對角線變號,並除以行列式值。 \[ \begin{bmatrix} a & b\\ c & d \end{bmatrix}^{-1} = \frac{1}{ad - bc} \begin{bmatrix} d & -b\\ -c & a\end{bmatrix} \]
反矩陣性質如下
伴隨矩陣性質可根據定義\(\mathbf{A}^{-1} = \frac{adj(\mathbf{A})}{|\mathbf{A}|}\)自行移項推導,在此省略。
將係數矩陣分解為上三角矩陣\(\mathbf{U}\)與下三角矩陣\(\mathbf{L}\)相乘,如此可以大幅簡化求解聯立方程式的複雜度。 \[ \begin{align*} \mathbf{AX} = \mathbf{b} \Rightarrow\;& \mathbf{L} \underbrace{\mathbf{UX}}_{\mathbf{y}} = \mathbf{b}\\ \Rightarrow\;& \begin{cases} \mathbf{L} \mathbf{y} = \mathbf{b} & y_1 \to y_n \text{ forward}\\ \mathbf{U} \mathbf{x} = \mathbf{y} & x_n \to x_1 \text{ backward} \end{cases} \end{align*} \]
矩陣條件為執行高斯消去法化簡為列梯式,不需要列交換,將矩陣成\(\mathbf{L}_0 \mathbf{U}\)形式,其中\(\mathbf{L}_0\)代表對角線為1的下三角矩陣,步驟如下
矩陣條件為可逆,將矩陣成\(\mathbf{L}_0 \mathbf{D} \mathbf{U}_0\)形式,將前一doolittle分解步驟中\(\mathbf{U}\)再做基本行操作 - 行加法\(c_{ij}(k)\)化簡為對角線矩陣\(\mathbf{D}\),將執行步驟化為列基本矩陣\(r(\mathbf{A}) = \mathbf{RA}\)與行基本矩陣\(c(\mathbf{A}) = \mathbf{AC}\),如下式 \[ \begin{align*} & (\mathbf{R}_k \cdots \mathbf{R}_2 \mathbf{R}_1) \mathbf{A}(\mathbf{C}_1 \cdots \mathbf{C}_{j-1} \mathbf{R}_j) = \mathbf{D}\\ \Rightarrow\;& \mathbf{A} = \underbrace{\mathbf{R}_1^{-1} \mathbf{R}_2^{-1} \cdots \mathbf{R}_k^{-1}}_{\mathbf{L}_0} \; \mathbf{D} \;\underbrace{\mathbf{C}_j^{-1} \mathbf{C}_{j-1}^{-1} \cdots \mathbf{C}_1^{-1}}_{\mathbf{U}_0} \end{align*} \] 若再加上"矩陣是對稱且正定"的條件,則可繼續做Cholesky分解,\(\mathbf{L}_0 \mathbf{D} \mathbf{U}_0 = \mathbf{L}_0 \mathbf{D} \mathbf{L}_0^T = \mathbf{L}\mathbf{L}^T\)。
LU分解的矩陣條件為執行高斯消去法化簡為列梯式,不需要列交換,若是需要列對調則要改使用PLU分解,將原始矩陣乘上一個執行列交換的列基本矩陣,在此稱為為排列矩陣(permutation matrix) \(\mathbf{P}\),之後再做矩陣的LU分解,記為 \[ \mathbf{PA} = \mathbf{L}_0\mathbf{U}\\ \mathbf{PA} = \mathbf{L}_0 \mathbf{D} \mathbf{U}_0 \] 由於排列矩陣的列(行)向量兩兩正交,故為正交矩陣,滿足\(\mathbf{P}^T = \mathbf{P}^{-1}\),可將上式\(\mathbf{P}\)移項得\(\mathbf{A}\)。
首先要定義體(field),參考1: INTRODUCTION, FIELDS, VECTOR SPACES, BASES、Field Definition (expanded),假定\(F\)是一個數的集合,且集合\(F\)中定義二元運算(binary operation) \(+ : F \times F \to F, - : F \times F \to F\),記為\((F, +, \cdot)\)。假設\(a, b,c \in F\),滿足以下性質
則稱為數的集合\(F\)為一個體、域(Field),常見的是實數系\(\mathbb{R}\)或是複數系\(\mathbb{C}\)是體,但整數系\(\mathbb{Z}\)不是體,因為不具有乘法的反元素,例如\(3 \in \mathbb{Z}\)的乘法反元素是\(\frac{1}{3} \notin \mathbb{Z}\),不屬於整數系。
再來定義佈於體\(F\)的向量空間\(V\)(vector space \(F\) over field \(V\)),\(V\)是一個"向量"(vector)的集合,再給定一個體\(F\),為"純量"(scalars)的集合,定義以下2個運算(二元運算)
此二元運算須滿足封閉性
與以下八大公理(axiom) - \(\forall \mathbf{x}, \mathbf{y}, \mathbf{z} \in V, \alpha, \beta \in F\)
文字說明 | 數學式 |
---|---|
向量加法的交換律 | \(\mathbf{x} + \mathbf{y} = \mathbf{y} + \mathbf{x}\) |
向量加法的結合律 | \((\mathbf{x} + \mathbf{y}) + \mathbf{z} = \mathbf{x} + (\mathbf{y} + \mathbf{z})\) |
向量加法的單位(identity)元素 | \(\exists \mathbf{0} \in V, \ni \mathbf{x} + \mathbf{0} = \mathbf{x}\) |
向量加法的反(inverse)元素 | \(\forall \mathbf{x} \in V, \exists -\mathbf{x} \in F, \ni \mathbf{x} + (-\mathbf{x}) = \mathbf{0}\) |
向量加法的分配律 | \(\alpha(\mathbf{x} + \mathbf{y}) = \alpha\mathbf{x} + \alpha\mathbf{y}\) |
純量加法的分配律 | \((\alpha + \beta)\mathbf{x} = \alpha\mathbf{x} + \beta\mathbf{x}\) |
純量乘法的結合律 | \((\alpha\beta)\mathbf{x}= \alpha(\beta\mathbf{x})\) |
純量乘法的單位(identity)元素 | \(\exists 1 \in F, \ni 1 \mathbf{x} = \mathbf{x}\) |
給定一於體\(F\)的向量空間\(V\),\(W\)為\(V\)的非空子集合,若且為若
由於向量空間已為向量空間的部分集合,故子空間已自動滿足向量空間需要具備的八大公理,要證明子空間只需要證明上面兩點即可。
將\(\mathbf{0}\)組成的集合\(\{ \mathbf{0} \}\),帶入上面兩個條件,可以證得\(\{ \mathbf{0} \}\)為\(V\)的子空間,代表任意向量空間皆有零向量,所以可以將零空間視為最小的子空間。欲證明子空間可以將零向量帶入檢查是否為子空間\(\mathbf{0} \overset{?}{\in} W\),若符合則再檢查向量加法與純量乘法的封閉性\(\alpha \mathbf{x} + \mathbf{y} \overset{?}{\in} W\);若不符合就不是子空間。
若向量空間為歐氏空間\(V = \mathbb{R}^2\),從幾何意義來看向量空間(子空間)為一條無限延伸通過原點的直線;\(V = \mathbb{R}^3\)則為一個無限延伸通過原點的平面。
從向量的表列式來看 \[ W = \{ \mathbf{x} \mid \mathbf{x} \text{ satisfy governing equation}\} \] 若是控制方程式滿足齊次\(\mathbf{0} \in W\),線性\(\mathbf{x} + \mathbf{y} \in W, \alpha\mathbf{x} \in W\)的特性則稱\(W\)為子空間。因此在解題上若是題目有文字或是用矩陣形式敘述限制項,則想辦法化成控制方程式,之後判斷子空間的方式即是檢查方程式是否為齊次線性方程式。
子空間的性質
根據前面伸展的概念 - 不形成空間的的向量轉換為向量空間,因此將將列向量伸展就可得列空間(row space)、行向量(column space)伸展就可得行空間 \[ \begin{align*} \mathrm{RS}(\mathbf{A}) &= \mathrm{row}(\mathbf{A}) = \mathrm{Span}\{ \mathbf{A}'_1, \mathbf{A}'_2, \ldots, \mathbf{A}'_m\}\\ &= \{ \mathbf{x} \mid \mathbf{x} = \alpha_1 \mathbf{A}'_1 + \alpha_2 \mathbf{A}'_2 + \cdots + \alpha_3 \mathbf{A}'_m\}\\ &= \{ \mathbf{x} \mid \mathbf{x} = \mathbf{w} \mathbf{A}; \forall \mathbf{w} \in F^{1 \times m}\}\\ \mathrm{CS}(\mathbf{A}) &= \mathrm{col}(\mathbf{A}) = \mathrm{Span}\{ \mathbf{A}_1, \mathbf{A}_2, \ldots, \mathbf{A}_m\}\\ &= \{ \mathbf{x} \mid \mathbf{x} = \beta_1 \mathbf{A}_1 + \beta_2 \mathbf{A}_2 + \cdots + \beta_3 \mathbf{A}_m\}\\ &= \{ \mathbf{x} \mid \mathbf{x} = \mathbf{A} \mathbf{v}; \forall \mathbf{v} \in F^{n \times 1}\}\\ \end{align*} \] 值域空間(range space/image)定義為\(\mathbf{x} = \mathbf{Av}\)中\(\mathbf{x}\)的範圍,雖與行空間(column space)定義不同,但剛好相等 \[ \mathrm{Range}(\mathbf{A}) = \mathrm{Im}(\mathbf{A}) = \{ \mathbf{x} \mid \mathbf{x} = \mathbf{A} \mathbf{v}; \forall \mathbf{v} \in F^{n \times 1}\} = \mathrm{Col}(\mathbf{A}) \] 零核空間(null space/kernel)為齊次聯立方程式\(\mathbf{Ax} = \mathbf{0}\)中所有解\(\mathbf{x}\)所形成的集合 \[ \mathrm{Null}(\mathbf{A}) = \mathrm{Ker}(\mathbf{A}) = \{ \mathbf{x} \mid \mathbf{Ax} = \mathbf{0}; \forall \mathbf{x} \in F^{n \times 1}\} \] 左零空間(left null space)跟零核空間差別在於向量\(\mathbf{x}\)是乘在\(\mathbf{A}\)的右邊 \[ \begin{align*} \mathrm{LNull}(\mathbf{A}) &= \{ \mathbf{x} \mid \mathbf{x}^T \mathbf{A} = \mathbf{0}; \forall \mathbf{x} \in F^{n \times 1}\}\\ &= \{ \mathbf{x} \mid (\mathbf{x}^T \mathbf{A})^T = \mathbf{A}^T \mathbf{x} = \mathbf{0}^T; \forall \mathbf{x} \in F^{n \times 1}\}\\ &= \mathrm{Null}(\mathbf{A}^T) \end{align*} \]
令\(V\)為一向量空間,給定向量集合\(S = \{ \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n\}, \mathbf{v}_i \in V\),若若僅存在唯一的數組\(c_1 = c_2 = \cdots = c_n = 0\),使得
\[
c_1 \mathbf{v}_1 + c_2 \mathbf{v}_2 + \cdots c_n \mathbf{v}_n = \mathbf{0}
\]
則稱\(S\)是線性獨立(LI, linearly independent),反之稱之為線性相關 (LD. linearly dependent)。
假設一向量集合線性相關,在不失一般性之下,假設\(c_1 \neq 0\),經移項\(c_1 \mathbf{v}_1 = -(c_2 \mathbf{v}_2 + \cdots c_n \mathbf{v}_n)\),再同除以\(c_1\)得
\[
\mathbf{v}_1 = -(\frac{c_2}{c_1} \mathbf{v}_2 + \cdots \frac{c_n}{c_1} \mathbf{v}_n)
\]
有上式可知向量\(\mathbf{v}_1\)可由\(\{\mathbf{v}_2, \cdots, \mathbf{v}_n\}\)其他向量組合而成。可知得出結論線性相關為從在一向量可以由其他向量透過線性組合來表示,記為\(\exists \mathbf{v_k} \in \mathrm{Span}\{S - \{\mathbf{x_k}\} \}\) (\(\mathbf{v_k}\)是大冗員!);而線性獨立為任何向量都不可用其他向量透過線性組合來表示。
\(V\)為一向量空間,\(S\)為\(V\)的子空間,且滿足
由定義可以得出以下性質
給定基底\(S = \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n\),維數就是基底\(S\)中的向量個數\(n\),記為\(\dim(V) = n\),並定義0空間的維度是0,\(W = \{ \mathbf{0}\}, \dim(W) = 0\)。而常見向量空間維度\(\dim(F^n) = n, \dim(F^{m \times n}) = m \times n\)。一個向量空間\(V\)的基底不唯一,但其維數是相同,就物理意義來說,維數就是自由度(degrees of freedom)的數目,等於未知數個數減去"有效"控制方程式(限制式)的個數。
求解控制方程式的基底與維數
在解題上給定控制方程式,解出通解,列出向量集所span成的空間,並使用Gauss消去法把"多餘"的向量去除,留下彼此線性獨立的向量集,即為基底,而線性獨立的向量個數就是維數。
\[
\begin{align*}
V &= \{ \mathbf{x} \mid \mathbf{x} \text{ satisfy governing equation}\}\\
&= \{ \mathbf{x} \mid \mathbf{x} = c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + \cdots + c_n\mathbf{v}_n \}\\
&= \mathbf{Span}\{ \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k \} \leftarrow \text{remove redundancy}\\
&= \mathbf{Span}\{ \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_r \}\\
& \therefore \{ \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_r \} \;\ldots \text{basis}\\
&\quad\; \dim(V) = r \;\ldots \text{dimension}
\end{align*}
\]
Gauss消去法雖然列向量被破壞了,但其線性組合的關係並沒有被影響
正常解法是列空間、行空間都做Gauss消去法把"多餘"的列或是行向量去除,但是實際上只需要做一次基本列運算的Gauss消去法化成最減列梯式,pivot element所在列就是獨立列向量,所在行就是獨立行向量,在做Gauss消去法需要記得注意列交換後各列位置的改變,至於求行空間也可使用基本列運算的Gauss消去法是因為 - 雖然列向量被破壞了,但其線性組合的關係並沒有被影響。
\(\mathbf{A}\)的秩數(rank)定義為 - \(\mathbf{A}\)中range space的dimension,記為 \[ \mathrm{rank}(\mathbf{A}) \triangleq \dim(\mathrm{Range}(\mathbf{A})) \] range space等同於column space,故dimension相同,而column space的dimension等於row space的dimension,因此\(\mathrm{rank}(\mathbf{A})\)的判斷方式為將矩陣\(\mathbf{A}\)做Gauss消去法化簡為列梯式,找出pivot element的個數,以下為秩數的重要性質
第4點證明如下 \[ \begin{align*} & \forall \mathbf{x} \in \mathrm{Row}(\mathbf{AB})\\ \Rightarrow\;& \exists \mathbf{w} \in F^{1 \times m}, \ni \mathbf{wAB} = \mathbf{x}\\ \Rightarrow\;& \mathbf{uB} = \mathbf{x} \quad\text{let } \mathbf{u} = \mathbf{wA}\\ \Rightarrow\;& \mathbf{x} \in \mathrm{Row}(\mathbf{B})\\ \therefore\;& \mathrm{Row}(\mathbf{AB}) \subseteq \mathrm{Row}(\mathbf{B})\\ &\dim(\mathrm{Row}(\mathbf{AB})) \leq \dim(\mathrm{Row}(\mathbf{B}))\\ \Rightarrow\;& \mathrm{rank}(\mathbf{AB}) \leq \mathrm{rank}(\mathbf{B})\\ \end{align*} \] 同理\(\mathrm{rank}(\mathbf{AB}) \leq \mathrm{rank}(\mathbf{A})\)使用行空間\(\mathrm{Col}(\mathbf{AB}) \subseteq \mathrm{Row}(\mathbf{A})\)開始證明。
給定矩陣\(\mathbf{A}_{m \times n}\)則零核空間的維數(nullity)為 \[ \begin{align*} \mathrm{nullity}(\mathbf{A}) &= \dim(\mathrm{Null}(\mathbf{A}))\\ &= n - \mathrm{rank}(\mathbf{A}) \end{align*} \] 上式稱為rank–nullity theorem,nullity代表的是零核空間的維數,等於未知數的個數(矩陣的行數)減去"有效"的方程式數目(最簡列梯式中pivot element個數)。
由於\(\mathbf{x}\)乘在\(\mathbf{A}\)的右側,將非齊次方程式\(\mathbf{Ax} = \mathbf{b}\)做行展式 \[ \mathbf{A}_{m \times n} \mathbf{x}_{n \times 1} = \underbrace{\begin{bmatrix}\mid & \mid & & \mid\\ \mathbf{A}_1 & \mathbf{A}_2 & \cdots & \mathbf{A}_n\\ \mid & \mid & & \mid \end{bmatrix}}_{\text{column vector}} \begin{bmatrix} \mathbf{x}_1\\ \mathbf{x}_2\\ \vdots\\ \mathbf{x}_n \end{bmatrix} = \mathbf{x}_1 \mathbf{A}_1 + \mathbf{x}_2 \mathbf{A}_2 + \cdots + \mathbf{x}_n \mathbf{A}_n = \mathbf{b} \] 上式意義在於將\(\mathbf{A}\)的行向量\(\mathbf{A}_1, \mathbf{A}_2, \ldots, \mathbf{A}_n\)做線性組合會產生非齊次解,而\(\mathbf{Ax} = \mathbf{b}\)中的解\(\mathbf{x}^T = [\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n]\)即是線性組合的係數。而由ch2 線性組合觀念可知,行空間是由行向量線性組合形成向量的集合(行向量伸展為行空間),因此\(\mathbf{b}\)落在\(\mathbf{A}\)的行空間,記為\(\mathbf{b} \in \mathrm{Col}(\mathbf{A})\)。
嘗試將係數矩陣\(\mathbf{A}\)與非齊次\(\mathbf{b}\)合併為擴增矩陣\(\mathbf{B} = [\mathbf{A}_1, \mathbf{A}_2, \ldots, \mathbf{A}_n, \mathbf{b}]\),若是方程式有解,則代表\(\mathbf{b}\)可由\(\mathbf{A}\)的行向量透過線性組合而成,\(\mathbf{b}\)是"冗員",有\(\mathbf{b}\)或是沒\(\mathbf{b}\)都不影響方程式行向量線性獨立獨立的個數,故\(\mathrm{rank}(\mathbf{A}) = \mathrm{rank}(\mathbf{B})\);反之,若\(\mathbf{b}\)不可由\(\mathbf{A}\)的行向量透過線性組合而成,代表方程式無解,\(\mathbf{b}\)與矩陣\(\mathbf{A}\)的行向量是線性獨立,故\(\mathrm{rank}(\mathbf{A}) + 1 = \mathrm{rank}(\mathbf{B}) \Rightarrow \mathrm{rank}(\mathbf{A}) \neq \mathrm{rank}(\mathbf{B})\)。
總結來說分析非齊次方程式\(\mathbf{A}_{m \times n}\mathbf{x}_{n \times 1} = \mathbf{b}_{m \times 1}\),第一步要看有沒有解,也就是\(\mathbf{b}\)有沒有落在\(\mathbf{A}\)的行空間,第二步看唯一解或是無限多組解,也就是係數矩陣的行數(未知數個數)。
齊次方程式\(\mathbf{A}_{m \times n} \mathbf{x}_{n \times 1} = \mathbf{0}\)同非齊次方程式分析,不同點是齊次方程式必定有解,若是係數矩陣\(\mathbf{A}\)的行向量線性獨立,則代表行滿秩\(\mathrm{rank}(\mathbf{A}) = n\),存在唯一零解,這即是線性獨立的定義- \(c_1 \mathbf{v}_1 + c_2 \mathbf{v}_2 + \cdots c_n \mathbf{v}_n = \mathbf{0}\)具有唯一解\(c_1 = c_2 = \cdots = c_n = 0\),因此零核空間\(\mathrm{Null}(\mathbf{A}) = \{\mathbf{0}\}\), 零核空間的維數\(\mathrm{nullity}(\mathbf{A}) = \dim(\mathrm{Null}(\mathbf{A})) = 0\);若是矩陣\(\mathbf{A}\)剛好又是方陣,則\(\det(\mathbf{A}) \neq 0\)。
反之,係數矩陣\(\mathbf{A}\)的行向量線性相依\(\mathrm{rank}(\mathbf{A}) = r < n\),因此線性組合的係數不唯一,具有非零的無限多組解,此時解的自由度,也就是零核空間的維數\(\mathrm{nullity}(\mathbf{A}) = \dim(\mathrm{Null}(\mathbf{A})) = n - r > 0\);若是矩陣\(\mathbf{A}\)剛好又是方陣,則\(\det(\mathbf{A}) = 0\)。
佈於體\(F\)的2個向量空間\(V, W\),定義\(T : V \to W\)為一函數,且滿足以下線性性質
若線性轉換得定義域與對應域相同\(T : V \to V\),則稱\(T\)為線性算子(linear operator),或稱\(T\)為在\(V\)中做線性轉換。
欲判斷一個函數是否為線性轉換,類似ch2 子空間(subspace)判斷子空間的觀念,輸入給定0向量,並觀察輸出是否是0向量\(T(\mathbf{0}) \overset{?}{=} \mathbf{0}\)。
線性轉換版的零核空間與值域空間,對比ch2 矩陣4個基本子空間矩陣版,兩者定義上是不同的
可與ch2 零核空間的維數(nullity)與rank–nullity theorem矩陣版的rank–nullity theorem做比較,線性轉換版的rank–nullity theorem為
\[
\mathrm{rank}(T) + \mathrm{nullity}(T) = \dim(V)
\]
如上圖可知,線性轉換版的rank–nullity theorem比較直觀的理解是定義域\(V\)空間的維數由兩部分組成
高中時有學到函數根據其定義域與值域的對應關係分為兩種一對一(injective, 1-to-1)和映成(surjective, onto),如下圖所示
一對一(1-to-1)定義為\(\forall \mathbf{w} \in \mathrm{Range}(T), \exists ! \mathbf{x} \in V, \ni T(\mathbf{x}) = \mathbf{w}\),由以上定義可推導對線性轉換來說,要找出\(\mathbf{x}\)滿足\(T(\mathbf{x}) = \mathbf{0}\),只會有\(\mathbf{x} = 0\),因此
\[
T \text{ is 1-to-1 linear transformation} \Leftrightarrow \mathrm{Null}(T) = \{ \mathbf{0} \} \Leftrightarrow \mathrm{nullity}(T) = 0
\]
映成(onto)定義為range(image)與codomain相等,因此
\[
T \text{ is onto linear transformation} \Leftrightarrow \mathrm{Rank}(T) = \dim(W)
\]
由ch2 基底(basis)觀念可知基底不具有唯一性,而不同基底之間的轉換一般式如下
\[
\begin{align*}
& \mathbf{E}[\mathbf{u}]_{\beta_1} = \mathbf{Q}[\mathbf{u}]_{\beta_2}\\
& [\mathbf{u}]_{\beta_2} = \mathbf{Q}^{-1} \mathbf{E}[\mathbf{u}]_{\beta_1} \Rightarrow \mathbf{P} = [\mathbf{I}_V]^{\beta_2}_{\beta_1} = \mathbf{Q}^{-1} \mathbf{E}\\
& [\mathbf{u}]_{\beta_1} = \mathbf{E}^{-1} \mathbf{Q}[\mathbf{u}]_{\beta_2} \Rightarrow \mathbf{P}' = [\mathbf{I}_V]^{\beta_1}_{\beta_2} = \mathbf{E}^{-1} \mathbf{Q} = (\mathbf{Q}^{-1} \mathbf{E})^{-1} = \mathbf{P}^{-1}\\
\end{align*}
\]
其中\(\mathbf{E}\)為將有序基底\(\beta_1 = \{ \mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n \}\)拉直,行行並列組合而成;同理\(\mathbf{Q}\)為將有序基底\(\beta_2 = \{ \mathbf{y}_1, \mathbf{y}_2, \ldots, \mathbf{y}_n \}\)拉直,行行並列組合而成;而\([\mathbf{I}_V]^{\beta_2}_{\beta_1}\)代表從基底\(\beta_1\)轉換為基底\(\beta_2\)的轉換矩陣(transition matrix)。
解題上快速判斷方式為從非標準基底轉為標準基底\([\mathbf{I}_V]^{S}_{\beta}\),標準基底\(S\)在上面是天堂,所以比較好計算,乘上\(\mathbf{P}\)即可;反之\([\mathbf{I}_V]^{\beta}_{S}\),標準基底\(S\)在上面是地獄,很難算,需要乘上\(\mathbf{P}^{-1}\)。
如ch3 線性轉換(linear transformation)線性轉換的觀念,給定線性轉換\(T : V \to W\),且\(\beta, \gamma\)為\(V, W\)相應的有序基底,則對大部分的線性轉換還說可以找到代表矩陣(representative matrix) \([T]^\gamma_\beta\)表示
\[
\underbrace{ [T(\mathbf{x})]_\gamma }_{\text{range } \mathbf{Y}} = \underbrace{ [T]^\gamma_\beta }_{\mathbf{A}} \; \underbrace{[\mathbf{x}]_\beta }_{\text{domain } \mathbf{X}}
\]
目的如同ch1 矩陣基本列操作用矩陣表示基本列操作,因為計算機只看得懂矩陣,因此"線性轉換"這個數學語言需要化成計算機看得懂的矩陣形式。
欲求代表矩陣\(\mathbf{A} = [T]^\gamma_\beta\),解題流程如下
結合前面線性轉換與基底轉換,給定線性轉換\(T : V \to W\),而\(\beta, \beta'\)為\(V\)的兩組有序基底,\(\gamma, \gamma'\)為\(W\)的兩組有序基底,若要在向量空間\(V\)且基底為\(\beta'\)映射向量空間\(W\)且基底\(\gamma'\)的代表矩陣\([T]^{\gamma'}_{\beta'}\),如果不好計算的話,不妨"繞遠路",在\(V\)中做基底轉換,再做線性轉換,再做一次基底轉換,記為 \[ [T]^{\gamma'}_{\beta'} = [\mathbf{I}_W]^{\gamma'}_{\gamma} [T]^{\gamma}_{\beta} [\mathbf{I}_V]^{\beta}_{\beta'} \]
相似轉換即是前面的線性轉換 + 基底轉換的特例,使線性轉換在同一向量空間下轉換\(T : V \to V\),假設\(\alpha, \beta\)為\(V\)的兩組有序基底 \[ [T]^\alpha_\beta = [\mathbf{I}_V]^\beta_\alpha [T]^\alpha_\alpha [\mathbf{I}_V]^\alpha_\beta \] 其中\([\mathbf{I}_V]^\beta_\alpha\)與\([\mathbf{I}_V]^\alpha_\beta\)互為反矩陣,因此可以寫做為\(\mathbf{P}^{-1} \mathbf{A} \mathbf{P} = \mathbf{B}\)的形式,這就是相似轉換一般的form。因此較嚴謹的定義為 - \(\mathbf{A}, \mathbf{B} \in F^{n \times n}\),若存在可逆矩陣\(\mathbf{P}\),使得\(\mathbf{P}^{-1} \mathbf{A} \mathbf{P} = \mathbf{B}\),則稱\(\mathbf{A} \text{ is similar to } \mathbf{B}\),記為\(\mathbf{A} \sim \mathbf{B}\)。
\(\mathbf{A}\)和\(\mathbf{B}\)相似,可以推得以下5個性質
將一函數的輸出"串接"到另一函數的輸入而成的函數,給定線性轉換\(T : V \to W; U : W \to Z\),從\(T\)到\(U\)的合成函數記為 \[ \forall \mathbf{v} \in V, U \circ T = U(T(\mathbf{v})) = V \to Z \]
給定線性轉換\(T : V \to W\),若存在\(U : W \to V\)滿足\(T \circ U = \mathbf{I}_QW\)且\(U \circ T = \mathbf{I}_V\),則稱\(T\)為可逆,且\(U\)為\(T\)的逆變換(反函數),記為\(U = T^{-1}\),換句話說反函數撤銷了原函數的運算。
如ch3 函數的分類,若一函數可逆等價於雙射(bijection),符合條件一為一對一(injective, 1-to-1),讓\(U\)空間向量能對應回來單一個\(V\)的向量;符合條件二為映成(surjective, onto),讓\(V\)得對應域\(W\)可同時作為\(U\)的定義域mapping回來。
首先把問題限制在定義域與對應域相同的線性轉換\(T : V \to V\),我們試圖要尋找一組\(V\)的基底\(\beta\)使得代表矩陣變成對角線矩陣\([T]_\beta = \mathbf{D}\),化成對角線矩陣的目的是簡化合成運算,對角線矩陣自己相乘只需把對角線元素平方即可。
給定線性轉換\(T : V \to V\),若\(W\)為\(V\)的子空間,\(T(W) \subseteq W\),稱\(W\)為T-不變子空間(T-invariant subspace),也就是說\(W\)子空間的所有向量,經過線性轉換\(T\)後的向量依然屬於\(W\)子空間,向量"自給自足"。
若\(V\)空間由\(k\)個T-不變子空間組合\(W_1, W_2,\ldots, W_k\),則子空間的和空間為直和空間,記為\(V = W_1 \oplus W_2 \oplus \ldots \oplus W_k\),因此直和空間的基底不存在"冗員",\(V\)的基底為\(\beta = \beta_1 \cup \beta_2 \cup \ldots \cup \beta_k\),線性轉換\(T\)的代表矩陣可以寫作類對角線矩陣 \[ [T]_\beta = \begin{bmatrix} \mathbf{A}_1 & \mathbf{0} & \cdots & \mathbf{0}\\ \mathbf{0} & \mathbf{A}_2 & \cdots & \mathbf{0}\\ \vdots & \vdots & \ddots & \vdots\\ \mathbf{0} & \mathbf{0} & \cdots & \mathbf{A}_k\\ \end{bmatrix}, \;\text{where} \mathbf{A}_i \in F^{n_i \times n_i} \] 因此欲使線性轉換\(T\)的代表矩陣化成對角線矩陣,也就是只找對角線的一維方陣,即是找一維的T-不變子空間,這個基底就是特徵向量\(\mathbf{v}_i\),其擴展的常數\(\lambda_i\)就是特徵值,定義如下
\(W_i\)為\(T : V \to V\)的一維T-不變子空間,且\(\beta_i = \{ \mathbf{v}_i \}\)為\(W_i\)的基底,故 \[ T(\mathbf{v}_i) = \mathbf{w}_i = \lambda_i \mathbf{v}_i \in W_i \] 則稱\(\lambda_i\)為特徵值,\(\mathbf{v}_i\)為特徵向量,且\(\mathbf{v}_i \neq 0\)(要做基底用,基底不可為0)。
將特徵值補上單位矩陣並移項,其方程式的形式即是ch2 分析齊次方程式齊次方程式具有非零的無限多組解,故矩陣\(\mathbf{A} - \lambda \mathbf{I}\)的行向量線性相依,\(\mathbf{A} - \lambda \mathbf{I}\)的行列式值必為0。 \[ \begin{align*} &\mathbf{A} \mathbf{x} = \lambda \mathbf{x} ,\;\exists \mathbf{x} \neq \mathbf{0}\\ \Rightarrow\;& (\mathbf{A} - \lambda \mathbf{I}) \mathbf{x} = \mathbf{0} ,\;\exists \mathbf{x} \neq \mathbf{0}\\ \Rightarrow\;& \mathrm{rank}(\mathbf{A}_{n \times n} - \lambda \mathbf{I}_{n \times n}) < n\\ \Rightarrow\;& \det(\mathbf{A} - \lambda \mathbf{I}) = 0 \end{align*} \]
\[ P_\mathbf{A}(\lambda) \triangleq \det(\mathbf{A} - \lambda \mathbf{I}) \] 求解特徵值即是求解特徵多項式的根,記為\(P_\mathbf{A}(\lambda) = 0\),若為\(\mathbf{A}\)為\(n\)階方陣,則\(P_\mathbf{A}(\lambda) = 0\)為\(n\)階方程式,因此可以求解\(n\)個根,可能是相異實根、重根、複數根。
複習ch1 矩陣類型定義主子方陣的求法,特徵值速解法如下
\[
\begin{align*}
P_\mathbf{A}(x) &= \det(\mathbf{A} - x \mathbf{I})\\
&= (-1)^n [x^n - \beta_1 x^{n - 1} + \beta_2 x^{n - 2} + \ldots + (-1)^{n - 1} \beta_{n - 1} x + (-1)^n \beta_n 1]
\end{align*}
\]
其中\(\beta_k\)為\(\mathbf{A}\)的所有主子方行列式值的和,\(\beta_1\)為一階主子方行列式值的和即為\(\mathbf{A}\)的trace,\(\beta_n\)為\(n\)階主子方行列式值的和即為\(\mathbf{A}\)的行列式值。
將特徵方程式展開比較係數可得特徵值相加為\(\mathbf{A}\)的trace、特徵值相乘為\(\mathbf{A}\)的行列式值
\[
\begin{align*}
& \lambda_1 + \lambda_2 + \ldots + \lambda_n = \beta_1 = \mathrm{tr}(\mathbf{A})\\
& \lambda_1 \lambda_2 + \lambda_1 \lambda_3 + \ldots + \lambda_{n - 1} \lambda_n = \beta_2\\
& \lambda_1 \lambda_2 \dots \lambda_n = \beta_n = \det(\mathbf{A})
\end{align*}
\]
前面藉由主子方陣求出特徵值,下一步是求特徵向量,將特徵值帶入原矩陣\((\mathbf{A} - \lambda \mathbf{I}) \mathbf{x} = \mathbf{0}\),由Gauss消去法解出有意義的方程式並求非0的\(\mathbf{x}\)值。2、3階方陣有速解法,由\(\det(\mathbf{A} - \lambda \mathbf{I}) = 0\)可知該矩陣為奇異矩陣(singular matrix),其秩數必小於原方陣的階數\(n\)
矩陣\(\mathbf{A}\) | 特徵值\(\lambda_i\) | 特徵向量\(\mathbf{v}_i\) |
---|---|---|
\(\mathbf{A}^T\) | \(\lambda_i\) | 無關 |
\(\mathbf{A}^H\) | \(\overline{\lambda_i}\) | 無關 |
\(k\mathbf{A}\) | \(k \lambda_i\) | \(\mathbf{v}_i\) |
\(\mathbf{A}^m\) | \(\lambda_i^m\) | \(\mathbf{v}_i\) |
\(\mathbf{A}^{-1}\) | \(\frac{1}{\lambda_i}\) | \(\mathbf{v}_i\) |
\(\mathbf{A} + \alpha \mathbf{I}\) | \(\lambda_i + \alpha\) | \(\mathbf{v}_i\) |
\(g(\mathbf{A}) = \sum_{k = 0}^\infty a_k \mathbf{A} ^k\) | \(\sum_{k = 0}^\infty a_k \lambda_i^k\) | \(\mathbf{v}_i\) |
證明 \[ \begin{align*} \mathbf{A} \mathbf{x}_i = \lambda_i \mathbf{x}_i &\Rightarrow (k\mathbf{A}) \mathbf{x}_i = (k\lambda_i) \mathbf{x}_i\\ \mathbf{A} \mathbf{x}_i = \lambda_i \mathbf{x}_i &\Rightarrow \mathbf{A}\mathbf{A} \mathbf{x}_i = \lambda_i (\mathbf{A} \mathbf{x}_i)\\ &\Rightarrow \mathbf{A}^2 \mathbf{x}_i = \lambda_i^2 \mathbf{x}_i\\ \mathbf{A} \mathbf{x}_i = \lambda_i \mathbf{x}_i &\Rightarrow \mathbf{A}^{-1} \mathbf{A} \mathbf{x}_i = \mathbf{A}^{-1}\lambda_i \mathbf{x}_i\\ &\Rightarrow \mathbf{A}^{-1} \mathbf{x}_i = \frac{1}{\lambda_i} \mathbf{x}_i\\ \mathbf{A} \mathbf{x}_i = \lambda_i \mathbf{x}_i &\Rightarrow \mathbf{A} \mathbf{x}_i + \alpha \mathbf{x}_i = \lambda_i \mathbf{x}_i + \alpha \mathbf{x}_i\\ &\Rightarrow (\mathbf{A} + \alpha) \mathbf{x}_i = (\lambda_i + \alpha)\mathbf{x}_i \end{align*} \]
使用數學歸納法證明,給定條件\(\mathbf{A} \in F^{n \times n}\),\(\lambda_1, \lambda_2, \ldots, \lambda_r\)為相異特徵值,且\(\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n\)為對應的特徵向量。
可對角化的定義,若\(\mathbf{A} \in F^{n \times n}\),存在可逆矩陣\(\mathbf{P}\)使得\(\mathbf{P}^{-1} \mathbf{A} \mathbf{P} = \mathbf{D}, \text{where } \mathbf{D} \text{ is diagonal matrix }\),也就是說\(\mathbf{A} \sim \mathbf{D}\),稱為可對角化(diagonalize)。由定義可看出相似轉換\(\mathbf{A} \sim \mathbf{B}\)的特例就是對角化,就是使\(\mathbf{A}\)相似的矩陣\(\mathbf{B}\)是對角線矩陣,
先證明\(\mathbf{A}\)可對角化 \(\Rightarrow \mathbf{A}\)具有\(n\)個線性獨立的特徵向量\(\mathbf{v}_i\)
令\(\mathbf{P}\)為行向量的形式,\(\mathbf{D}\)為對角線矩陣
\[
\begin{align*}
\mathbf{P} &= [\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n]\\
\mathbf{D} &= \begin{bmatrix}
d_1 & 0 & \cdots & 0\\
0 & d_2 & & \vdots\\
\vdots & & \ddots & 0\\
0 & \cdots & 0 & d_n
\end{bmatrix}
\end{align*}
\]
根據對角化的定義,改寫證明條件
\[
\mathbf{A} \text{ is diagonalizable} \Rightarrow \mathbf{P}^{-1} \mathbf{A} \mathbf{P} = \mathbf{D} \Rightarrow \mathbf{AP} = \mathbf{PD} \text{ and } \mathbf{P} \text{ is invertible}
\]
首先從第一式推導出特徵向量
\[
\begin{align*}
&\mathbf{AP} = \mathbf{PD}\\
\Rightarrow\;& \mathbf{A} [\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n] = [\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n]
\begin{bmatrix}
d_1 & 0 & \cdots & 0\\
0 & d_2 & & \vdots\\
\vdots & & \ddots & 0\\
0 & \cdots & 0 & d_n
\end{bmatrix}\\
\Rightarrow\;& \mathbf{A} [\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n] = [d_1 \mathbf{v}_1, d_2 \mathbf{v}_2, \ldots, d_n \mathbf{v}_n]\\
\Rightarrow\;& \mathbf{A} \mathbf{v}_i = d_i \mathbf{v}_i,\quad i = 1, \ldots, n
\end{align*}
\]
其中\(d_i\)為\(\mathbf{A}\)的特徵值,\(\mathbf{v}_i\)為相應的特徵向量,由此可知\(\mathbf{A}\)做對角化\(\mathbf{PDP}^{-1}\)時,其中矩陣\(\mathbf{P}\)中\(n\)個行向量放的是\(\mathbf{A}\)該特徵值相應的特徵向量,而矩陣\(\mathbf{D}\)中\(n\)個對角線元素放的是\(\mathbf{A}\)的特徵值。
再來從第二式推導出線性獨立
\[
\begin{align*}
&\mathbf{P} = [\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n] \text{ is invertible}\\
\Rightarrow\;& \det(\mathbf{P}) \neq 0\\
\Rightarrow\;& \mathrm{rank}(\mathbf{P}) = n\\
\Rightarrow\;& \{ \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n \} \text{ is L.I.}
\end{align*}
\]
再證明\(\mathbf{A}\)可對角化 \(\Leftarrow \mathbf{A}\)具有\(n\)個線性獨立的特徵向量\(\mathbf{v}_i\)
令\(\mathbf{P} = [\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n]\)則
\[
\begin{align*}
\mathbf{AP} &= [\mathbf{A} \mathbf{v}_1, \mathbf{A}\mathbf{v}_2, \ldots, \mathbf{A}\mathbf{v}_n]\\
&= [\lambda_1 \mathbf{v}_1, \lambda_2 \mathbf{v}_2, \ldots, \lambda_n \mathbf{v}_n]\\
&= [\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n]
\begin{bmatrix}
\lambda_1 & 0 & \cdots & 0\\
0 & \lambda_2 & & \vdots\\
\vdots & & \ddots & 0\\
0 & \cdots & 0 & \lambda_n
\end{bmatrix}\\
&= \mathbf{PD}
\end{align*}
\]
要判斷是否對角化需要先求出特徵向量再判斷是否線性獨立十分麻煩,因此這裡還有一個等價條件 - 幾何重根數等於代數重根數。
\[
g_m(\lambda) = m(\lambda); \forall x
\]
若具有\(n\)個相異的特徵值,則根據關係式\(1 \leq g_m(\lambda_i) \leq m(\lambda_i) = 1\),因此有\(n\)個線性獨立的特徵向量\(\mathbf{v}_i\),必定可以被對角化,逆命題不恆真。
總結來說,欲判斷矩陣\(\mathbf{A}\)是否可對角化,首先判斷特徵值是否相異,皆相異則可對角化,有重根則再繼續判斷幾何重根數是否等於代數重根數\(m(\lambda) = g_m(\lambda) = n - \mathrm{rank}(\mathbf{A} - \lambda \mathbf{I})\),若相同則可對角化,不同則不可對角化。
若不可對角化則等價以下條件
\[
\mathbf{A} \text{ isn't diagonalizable}
\Leftrightarrow \mathbf{A} \text{ is defective}
\Leftrightarrow \text{same eigenvalue }\lambda \text{ and } g_m(\lambda) \neq m(\lambda)
\]
若\(\mathbf{A},\mathbf{B}\)可對角化,存在一可逆矩陣\(\mathbf{P}\),同時使得
\[
\mathbf{P}^{-1} \mathbf{A} \mathbf{P} = \mathbf{D}_\mathbf{A} \text{ and } \mathbf{P}^{-1} \mathbf{B} \mathbf{P} = \mathbf{D}_\mathbf{B}
\]
稱\(\mathbf{A},\mathbf{B}\)可同步對角化。
\(\mathbf{P}\)存的是原矩陣的特徵向量,因此\(\mathbf{A},\mathbf{B}\)存在相同的矩陣\(\mathbf{P}\),就是\(\mathbf{A},\mathbf{B}\)具有相同的特徵向量。由前面推導出來特徵值/向量性質1 - 矩陣做任意方陣函數運算\(g(\mathbf{A})\),特徵值跟著運算\(g(\lambda)\),特徵向量不改變,因此若要求\(g(\mathbf{A})\),可以先將\(\mathbf{A}\)的對角化,再利用同步對角化求得\(g(\mathbf{A})\)
\[
\mathbf{A} = \mathbf{P} \mathbf{D} \mathbf{P}^{-1} \Rightarrow g(\mathbf{A}) = \mathbf{P} g(\mathbf{D}) \mathbf{P}^{-1} = g(\mathbf{A}) = \mathbf{P}
\begin{bmatrix}
g(\lambda_1) & 0 & \cdots & 0\\
0 & g(\lambda_2) & & \vdots\\
\vdots & & \ddots & 0\\
0 & \cdots & 0 & g(\lambda_n)
\end{bmatrix}
\mathbf{P}^{-1}
\]
就考試而言,同步對角化法由於最後求\(g(\mathbf{A})\)要將\(g(\mathbf{A}) = \mathbf{P} g(\mathbf{D}) \mathbf{P}^{-1}\)乘開,計算量較大,因此除非題目指定用同步對角化,否則特徵值相異則用Sylvester公式法,特徵值相同則用最小多項式法。
Sylvester定理,若\(\mathbf{A} \in F^{n \times n}\),若特徵值\(\lambda_i\)皆相異,則
\[
g(\mathbf{A}) = \sum^n_{i = 1} \frac{g(\lambda_i)}{\Pi^{n}_{\substack{j = 1\\ j \neq 1}}(\lambda_i - \lambda_j)} \Pi^{n}_{\substack{j = 1\\ j \neq 1}}(\mathbf{A} - \lambda_j \mathbf{I}_n)
\]
若\(n = 2\)則
\[
g(\mathbf{A}_{2 \times 2}) = \frac{g(\lambda_1)}{\lambda_1 - \lambda_2} (\mathbf{A} - \lambda_2 \mathbf{I}) + \frac{g(\lambda_2)}{\lambda_2 - \lambda_1} (\mathbf{A} - \lambda_1 \mathbf{I})
\]
若\(n = 3\)則
\[
\begin{align*}
g(\mathbf{A}_{3 \times 3}) &= \frac{g(\lambda_1)}{(\lambda_1 - \lambda_2)(\lambda_1 - \lambda_3)} (\mathbf{A} - \lambda_2 \mathbf{I}) (\mathbf{A} - \lambda_3 \mathbf{I})\\
&\; +\; \frac{g(\lambda_2)}{(\lambda_2 - \lambda_1)(\lambda_2 - \lambda_3)} (\mathbf{A} - \lambda_1 \mathbf{I}) (\mathbf{A} - \lambda_3 \mathbf{I})\\
&\; +\; \frac{g(\lambda_3)}{(\lambda_3 - \lambda_1)(\lambda_3 - \lambda_2)} (\mathbf{A} - \lambda_1 \mathbf{I}) (\mathbf{A} - \lambda_2 \mathbf{I})\\
\end{align*}
\]
Sylvester公式口訣有3步驟
ch4 A可對角化的等價條件中矩陣\(\mathbf{A}\)可對角化的前提為\(\mathbf{A}\)具有\(n\)個線性獨立的特徵向量,反之不可對角化就代表存在重根\(\lambda_k\),此重根的幾何重根數不等於代數重根數\(g_m(\lambda_k) \neq m(\lambda_k)\),因此對應的特徵向量不夠。為了解決特徵向量不夠的問題,我們嘗試用"山寨版"的特徵向量 - 廣義特徵向量來解決,選擇\((\mathbf{A} - \lambda \mathbf{I})^k \mathbf{x} = \mathbf{0}, k = 2,3,\ldots\),並用"廣義特徵向量循環"這種排列方式將正版與山寨版的特徵向量排列起來成\(\mathbf{P}\),如此不可對角化的矩陣\(\mathbf{A}\)就可以寫成他的Jordan form。
定義 - 給定線性轉換\(T : V \to V\),代表矩陣\(\mathbf{A} = [T]_S \in F^{n \times n}\),若\(\mathbf{x} \neq \mathbf{0}\),且\(\mathbf{A}\)的特徵值為\(\lambda\),使得
\[
(\mathbf{A} - \lambda \mathbf{I})^k \mathbf{x} = \mathbf{0}, k = 1, 2,3,\ldots
\]
會如此定義的原因是\(m = 1\)時\((\mathbf{A} - \lambda \mathbf{I}) \mathbf{x} = \mathbf{0}\)即為一般的特徵向量,若特徵向量"不夠",令\(m = 2\),繼續補線性獨立的向量,以此類推\(k = 1, 2,3,\ldots\),當不夠的向量"補夠"了,\((\mathbf{A} - \lambda \mathbf{I})^k \mathbf{x} = \mathbf{0}\)再怎麼增加\(k\)都不會多出現線性獨立的向量。
用空間的觀點來看,特徵空間是廣義特徵空間的子空間,隨著\(k\)增加,廣義特徵空間會跟著增加,一直到廣義特徵空間補夠了,也就是補到廣義特徵空間的dimension等於代數重根數\(m(\lambda)\),廣義特徵空間才不會繼續加大。
\[
\begin{align*}
\underbrace{\mathrm{Null}((\mathbf{A} - \lambda \mathbf{I})^1)}_{ \mathrm{Nullity}((\mathbf{A} - \lambda \mathbf{I})^1) = g_m(\lambda) } &\subseteq \mathrm{Null}((\mathbf{A} - \lambda \mathbf{I})^2) \subseteq \mathrm{Null}((\mathbf{A} - \lambda \mathbf{I})^3) \subseteq \cdots\\
&\subseteq \underbrace{ \mathrm{Null}((\mathbf{A} - \lambda \mathbf{I})^k)}_{ \mathrm{Nullity}((\mathbf{A} - \lambda \mathbf{I})^k) = m(\lambda) } = \mathrm{Null}((\mathbf{A} - \lambda \mathbf{I})^{k + 1}) = \cdots
\end{align*}
\]
參照ch4 不變子空間,因為廣義特徵向量被證明出來是不變子空間,所以可以被類對角化。
給定線性轉換\(T : V \to V\),代表矩陣\(\mathbf{A} = [T]_S \in F^{n \times n}\),若\(\mathbf{x}\)為廣義特徵向量,且\(\mathbf{A}\)的特徵值為\(\lambda\),而\(k\)為使\((\mathbf{A} - \lambda \mathbf{I})^m \mathbf{x} = \mathbf{0}\)的最小正整數,則
\[
\{ \underbrace{ (\mathbf{A} - \lambda \mathbf{I})^{k - 1}\mathbf{x}}_{ = \mathbf{v}_1 },\; \underbrace{ (\mathbf{A} - \lambda \mathbf{I})^{k - 2}\mathbf{x}}_{ = \mathbf{v}_2 } ,\; \ldots, \underbrace{ (\mathbf{A} - \lambda \mathbf{I})^1\mathbf{x}}_{ = \mathbf{v}_{k - 1} } ,\; \underbrace{\mathbf{x}}_{ = \mathbf{v}_{k} } \}
\]
稱為一組廣義特徵向量循環(cycle)。
可以把\(\mathbf{v}_{k}\)想成"老祖宗",欲求廣義特徵向量就要先求"老祖宗",再不斷乘上\((\mathbf{A} - \lambda \mathbf{I})\)推得下一代,最後得到後代\(\mathbf{v}_1\),由於
\[
(\mathbf{A} - \lambda \mathbf{I})\mathbf{v}_1 = (\mathbf{A} - \lambda \mathbf{I})(\mathbf{A} - \lambda \mathbf{I})^{k - 1} = 0
\]
因此只有\(\mathbf{v}_1\)才是正版的特徵向量,其餘都是"山寨版"的特徵向量。
前一步用點圖求出Jordan form,給定點圖的一組行(循環)有三個點(向量),由上至下為\(\mathbf{v}_1, \mathbf{v}_2, \mathbf{v}_3\),其中 \[ \cdot \quad \mathbf{v}_1 \in \mathrm{Null}((\mathbf{A} - \lambda \mathbf{I})^1)\\ \cdot \quad \mathbf{v}_2 \in \mathrm{Null}((\mathbf{A} - \lambda \mathbf{I})^2)\\ \cdot \quad \mathbf{v}_3 \in \mathrm{Null}((\mathbf{A} - \lambda \mathbf{I})^3) \] 要求這三個廣義特徵向量,就要先求老祖宗\(\mathbf{v}_3\) - 分別求\(\mathrm{Null}((\mathbf{A} - \lambda \mathbf{I})^k), k = 1, 2, 3\),再來根據 \[ \mathbf{v}_3 \in \mathrm{Null}((\mathbf{A} - \lambda \mathbf{I})^2) \not\in \mathrm{Null}((\mathbf{A} - \lambda \mathbf{I})^2) \] 得到\(\mathbf{v}_3\),再一代回推下一代 \[ \mathbf{v}_2 = (\mathbf{A} - \lambda \mathbf{I}) \mathbf{v}_3 \rightarrow \mathbf{v}_1 = (\mathbf{A} - \lambda \mathbf{I}) \mathbf{v}_2 \]
定義為每一方陣\(\mathbf{A} \in F^{n \times n}\),其特徵方程式\(f(x) = \det(\mathbf{A} - x\mathbf{I})\),則\(f(\mathbf{A}) = \mathbf{0}\)。
也就是說特徵方程式為可零化\(\mathbf{A}\)的多項式,可以利用"方陣函數"這種類似多項式運算,欲計算原函數,先除以"特徵方程式"這個商,得到餘式,由於"特徵方程式"這個商為可零化\(\mathbf{A}\)的多項式,所以只須計算餘式即可得原函數值。
特徵方程式為可零化\(\mathbf{A}\)的多項式,但是可以零化\(\mathbf{A}\)的多項式很多,而由於餘式的次冪 < 除式的次冪,餘式次冪越小越好計算,故餘式的次冪也要跟著減小,因此我們要找可零化\(\mathbf{A}\)的多項式中次冪最小者,而為了維持唯一性因此最小多項式在定義上規定最高次數的係數是1。
最小多項式有3個性質
解法為先求特徵多項式並用點圖求最小多項式的次冪,再根據Cayley-Hamiltion定理將矩陣帶入特徵多項式會等於0。
給定聯立方程組 \[ \frac{d \mathbf{x}}{dt} = \mathbf{A} \mathbf{x}(t), \mathbf{x}(0) = \mathbf{x}_0 \] 通解即為\(\mathbf{x} = e^{\mathbf{A}t} \mathbf{c}\),欲求\(e^{\mathbf{A}t}\),使用ch5 Cayley-Hamilton與最小多項式的應用求任意方陣函數\(g(\mathbf{A})\)的方法。
\(V\)為佈於\(F\)的向量空間,若存在一函數將\(V\)中任意有序向量對\(\mathbf{x}, \mathbf{y}\)映至\(F\)之一純量,記為\(<\mathbf{x}, \mathbf{y}>\),且滿足以下3大內積定義
則\(V\)是具有內積定義的向量空間,稱為內積空間。
內積空間不是一個新定義的空間,而是向量空間再加上內積條件所形成的空間。
\(V\)為一內積空間,範數的定義就是向量自己跟自己內積並開根號,白話來說範數就是廣義的"長度 。 \[ \| \mathbf{x} \| = \sqrt{<\mathbf{x}, \mathbf{x}>} \] 若norm為1則代表單位向量,若向量除以自己的norm代表normalize,重要定理有以下6個
欲求向量\(\mathbf{y}\)在向量\(\mathbf{x}\)的投影分量 \[ \begin{align*} & \text{let projection of } \mathbf{y} \text{ on } \mathbf{x} \text{ is }\mathbf{y}' = C\mathbf{x} \quad \because \mathbf{y} \parallel \mathbf{x}\\ \Rightarrow\;& (\mathbf{y} - \mathbf{y}') \perp \mathbf{x}\\ \Rightarrow\;& <(\mathbf{y} - C\mathbf{x}, \mathbf{x}> = C<\mathbf{x}, \mathbf{x}>\\ \Rightarrow\;& C = \frac{<\mathbf{y}, \mathbf{x}>}{\| \mathbf{x} \|^2 }\\ & \therefore \mathbf{y}' = \text{Proj}_{,\mathbf{x}}(\mathbf{y}) = \frac{<\mathbf{y}, \mathbf{x}>}{\| \mathbf{x} \|^2 } \mathbf{x} \end{align*} \]
根據ch2 基底(basis)基底的定義,只需要滿足線性獨立即可,而線性獨立的基底是堪用但不是最好的基底,使用單位正交向量還表達的基底才是最好用的基底,這也是為什麼微積分都使用的座標系統 - 直角坐標、圓柱座標、球座標都是單位正交基底。
既然單位正交基底是很好的基底,那要怎麼求單位正交基底呢?使用GSO將線性獨立的向量集轉換為單位正交向量集。
\[
\{ \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n \} \to \{ \mathbf{e}_1, \mathbf{e}_2, \ldots, \mathbf{e}_n \}\\
\text{where} <\mathbf{x}_i, \mathbf{x}_j> = 0, i \neq j\\
<\mathbf{e}_i, \mathbf{e}_j> =
\begin{cases}
1, & i = j \quad\ldots \text{unit}\\
0, & i \neq j \quad\ldots \text{orthogonal}\\
\end{cases}
\]
首先從線性獨立向量集任選一個基底
\[
\mathbf{x}_1 = \mathbf{v}_1
\]
再來將第2個基底扣除第2個基底在第1個基底投影的分量,就等於在找到正交於第1個基底的向量
\[
\begin{align*}
\mathbf{x}_2 &= \mathbf{v}_2 - \mathbf{v}_{2, \parallel}\\
&= \mathbf{v}_2 - \frac{<\mathbf{v}_2, \mathbf{x}_1>}{\| \mathbf{x}_1 \|^2 } \mathbf{x}_1
\end{align*}
\]
同理第3個基底要扣除第3個基底在第2個基底與第1個基底投影的分量
\[
\begin{align*}
\mathbf{x}_3 &= \mathbf{v}_3 - \mathbf{v}_{3, \parallel}\\
&= \mathbf{v}_3 - \frac{<\mathbf{v}_3, \mathbf{x}_1>}{\| \mathbf{x}_1 \|^2 } \mathbf{x}_1 - \frac{<\mathbf{v}_3, \mathbf{x}_2>}{\| \mathbf{x}_2 \|^2 } \mathbf{x}_2\\
\mathbf{x}_4 &= \cdots
\end{align*}
\]
再將求出來所有正交基底正規化(normalize),也就是除以各自向量的norm,記為\(\mathbf{e}_i = \frac{\mathbf{x}_i}{\| \mathbf{x}_i\|}\),得單位正交基底
\[
\{ \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n \} \overset{\text{normalize}}{\longrightarrow} \{ \mathbf{e}_1, \mathbf{e}_2, \ldots, \mathbf{e}_n \}\\
\]
GSO就是線性獨立的向量集\(\{ \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n \}\)轉換單位正交的向量集\(\{ \mathbf{e}_1, \mathbf{e}_2, \ldots, \mathbf{e}_n \}\),也就是說用新的基底來表示原本的基底,故可寫做(為求簡化問題,先將原向量做正規化)
\[
\begin{align*}
\mathbf{v}_1 &= <\mathbf{v}_1, \mathbf{e}_1> \mathbf{e}_1\\
\mathbf{v}_2 &= <\mathbf{v}_2, \mathbf{e}_1> \mathbf{e}_1 + <\mathbf{v}_2, \mathbf{e}_2> \mathbf{e}_2\\
\mathbf{v}_3 &= <\mathbf{v}_3, \mathbf{e}_1> \mathbf{e}_1 + <\mathbf{v}_3, \mathbf{e}_2> \mathbf{e}_2 + <\mathbf{v}_3, \mathbf{e}_3> \mathbf{e}_3
\end{align*}
\]
將上式寫成矩陣形式
\[
\underbrace{ \begin{bmatrix}
\mid & \mid & \mid\\
\mathbf{v}_1 & \mathbf{v}_2 & \mathbf{v}_3\\
\mid & \mid & \mid
\end{bmatrix} }_{\mathbf{A}}
= \underbrace{\begin{bmatrix}
\mid & \mid & \mid\\
\mathbf{e}_1 & \mathbf{e}_2 & \mathbf{e}_1\\
\mid & \mid & \mid
\end{bmatrix}}_{\mathbf{Q}} \quad
\underbrace{\begin{bmatrix}
<\mathbf{v}_1, \mathbf{e}_1> & <\mathbf{v}_2, \mathbf{e}_1> & <\mathbf{v}_3, \mathbf{e}_1>\\
0 & <\mathbf{v}_2, \mathbf{e}_2> & <\mathbf{v}_3, \mathbf{e}_2>\\
0 & 0 & <\mathbf{v}_3, \mathbf{e}_3>\\
\end{bmatrix}}_{\mathbf{R}}
\]
這就是QR分解,其中矩陣\(\mathbf{A}\)要求行向量是線性獨立,即為矩陣做QR分解的前提假設,矩陣\(\mathbf{Q}\)的行向量單位正交,因此為正交矩陣,矩陣\(\mathbf{R}\)是一個上三角矩陣。
首先判斷矩陣行向量是否獨立,若符合則開始做矩陣\(\mathbf{A}\)的QR分解 - 把矩陣的行向量拆成線性獨立的向量集,做GSO得單位正交的向量集,合成為正交矩陣\(\mathbf{Q}\),再來欲求矩陣\(\mathbf{R}\),除了可以根據GSO步驟的關係式求之外,可以根據以下正交矩陣好用的性質\(\mathbf{Q}^{-1} = \mathbf{Q}^T\)快速求得
\[
\mathbf{A} = \mathbf{Q} \mathbf{R} \Rightarrow \mathbf{R} = \mathbf{Q}^{-1} \mathbf{A} =\mathbf{Q}^T \mathbf{A}
\]
直觀的幾何理解如上圖,所有分量都可以拆成水平和垂直的方量,而比較數學上的嚴謹定義如下 - \(V\)為佈於\(F\)的內積空間,\(W\)為\(V\)的子空間,\(\forall \mathbf{v} \in V\)。若存在\(\mathbf{v}_0 \in W\),使得
\[
<\mathbf{v} - \mathbf{v}_0, \omega> = 0, \quad\forall \mathbf{\omega} \in W
\]
則稱\(\mathbf{v}_0\)為\(\mathbf{v}\)在\(W\)的正交投影,記為\(\mathbf{v}_0 = \text{Proj}_{, W}(\mathbf{v})\)。
性質為若\(\{ \mathbf{\phi}_1, \mathbf{\phi}_2, \ldots, \mathbf{\phi}_k \}\)為\(W\)的一組正交基底,則正交投影為
\[
\mathrm{Proj}_{, W}(\mathbf{v}) = \sum^k_{i = 1} \frac{<\mathbf{v}, \mathbf{\phi}_i>}{\| \mathbf{\phi}_i \|^2} \mathbf{\phi}_i
\]
且具有唯一性。
法一是使用上述性質,給在\(W\)的一組基底,首先做GSO,化為單位正交基底\(\{ \mathbf{e}_1, \mathbf{e}_2, \ldots, \mathbf{e}_k \}\),正交投影即為 \[ \mathrm{Proj}_{, W}(\mathbf{v}) = <\mathbf{v}, \mathbf{e}_1> \mathbf{e}_1 + <\mathbf{v}, \mathbf{e}_2> \mathbf{e}_2 + \cdots + <\mathbf{v}, \mathbf{e}_k> \mathbf{e}_k \] 法二是根據正交投影的數學定義做,給在\(W\)的一組基底,令正交投影為\(\mathbf{v}_0 = \text{Proj}_{, W}(\mathbf{v}) \in W\),由於在子空間\(W\)裡面,因此為\(W\)的基底的線性組合,解聯立方程式\(<\mathbf{v} - \mathbf{v}_0, \omega_i> = 0, i = 1, 2, \ldots , k\),得正交投影\(\mathbf{v}_0\)。
正交投影算子白話來說就是一個做正交投影的函數,定義為\(V\)為佈於\(F\)的內積空間,\(W\)為\(V\)的子空間 \[ T : V \to V, T(\mathbf{v}) = \mathrm{Proj}_{, W}(\mathbf{v}), \forall \mathbf{v} \in V \] 稱\(T\)是\(V\)在\(W\)的正交投影算子,性質如下
定理為\(T : V \to V\)為\(V\)在\(W\)的正交投影算子,則
\[
\| \mathbf{v} - T(\mathbf{v})\| \leq \| \mathbf{v} - \mathbf{w} \|, \forall \mathbf{v}, \mathbf{w} \in V
\]
稱\(T(\mathbf{v})\)為\(\mathbf{v}\)在\(W\)上的最小平方近似。記憶口訣是最短距離就是垂直投影,最佳近似就是正交投影。
證明
\[
\begin{align*}
T(\mathbf{v}) &= \mathbf{v}_0 = \mathrm{Proj}_{, W}(\mathbf{v}) \in W \Rightarrow (\mathbf{v} - \mathbf{v}_0) \perp W, \forall \mathbf{w} \in W\\
\| \mathbf{v} - \mathbf{w} \|^2 &= \| \underbrace{\mathbf{v} - \mathbf{v}_0}_{\mathbf{x} \perp W} + \underbrace{\mathbf{v}_0 - \mathbf{w}}_{\mathbf{y} \in W} \|^2\\
&= \| \mathbf{x} + \mathbf{y} \|^2\\
&= \|\mathbf{x}\|^2 + \|\mathbf{y}\|^2 \quad \because <\mathbf{x}, \mathbf{y}> = 0\\
&\geq \|\mathbf{x}\|^2 = \|\mathbf{v} - \mathbf{v}_0\|^2
\end{align*}
\]
SVD篇 重點1 線性轉換可知歐式空間的線性轉換相當於做矩陣乘法,因此在歐式空間中的正交投影算子使用代表矩陣表示,這個代表矩陣稱為正交投影矩陣。
給定\(\{\mathbf{e}_1, \mathbf{e}_2, \ldots, \mathbf{e}_k\}\)為歐式向量空間\(W\)的一組單位正交基底,則正交投影矩陣為
\[
\mathbf{P} = \mathbf{e}_1 \overline{{\mathbf{e}_1}}^T + \mathbf{e}_2 \overline{{\mathbf{e}_2}}^T + \cdots + \mathbf{e}_k \overline{{\mathbf{e}_k}}^T
\]
使用正交投影向量下去證明
\[
\mathbf{v}_0 = \mathrm{Proj}_{, W}(\mathbf{v}) = \sum^k_{i = 1} \frac{<\mathbf{v}, \mathbf{e}_i>}{\| \mathbf{e}_i \|^2} \mathbf{e}_i = \cdots = (\underbrace{\mathbf{e}_1 \overline{{\mathbf{e}_1}}^T + \mathbf{e}_2 \overline{{\mathbf{e}_2}}^T + \cdots + \mathbf{e}_k \overline{{\mathbf{e}_k}}^T}_{\mathbf{P}}) \mathbf{v}
\]
正交投影矩陣的性質為對稱矩陣\(\mathbf{P} = \mathbf{P}^T\)、idempotent\(\mathbf{P}^2 = \mathbf{P}\)、rank-one矩陣\(\mathrm{rank}(\mathbf{P}) = 1\),故正交投影矩陣是奇異矩陣。
給定\(n\)階方陣,若可對角化,則 \[ \begin{align*} \mathbf{A} &= \mathbf{P} \mathbf{D} \mathbf{P}^{-1}\\ &= \mathbf{P} (\lambda_1\mathbf{D}_1) \mathbf{P}^{-1} + \cdots \mathbf{P} (\lambda_k\mathbf{D}_k) \mathbf{P}^{-1}\\ &= \lambda_1 \mathbf{A}_1 + \cdots \lambda_k \mathbf{A}_k\\ \end{align*} \] 其中\(\lambda_1, \lambda_2, \ldots, \lambda_k\)為相異特徵值(可重根),\(\mathbf{A}_i\)為在該特徵值對應到的特徵空間\(E(\lambda_i)\)的投影矩陣。性質如下
\(V\)為佈於\(F\)的內積空間,\(S\)為\(V\)的子集合(不一定要子空間),則正交補集為\(V\)中所有與\(S\)內每一個向量\(\mathbf{x}\)皆為正交的向量,全部丟進集合內。 \[ S^\perp \equiv \{ \mathbf{y} \mid <\mathbf{y}, \mathbf{x}> = 0; \forall \mathbf{x} \in S \} \] 性質如下
\(V\)為佈於\(F\)的內積空間,\(W\)為\(V\)的子空間,則\(V = W \oplus W^\perp\)。
欲此性質,參照ch2 和空間(sum space)中直和空間的兩個定義
給定一面鏡子\(W\),鏡子垂直的空間\(U\)就是\(W\)的正交補集,由於任意向量都可以拆解為水平和垂直距離,故將\(\mathbf{Hx}\)拆解為
\[
\begin{align*}
\mathbf{Hx} &= \mathbf{y} - \mathbf{z}\\
&= (\mathbf{x} - \mathbf{z}) - \mathbf{z}\\
&= (\mathbf{x} - 2\mathbf{z}\\
&= (\mathbf{x} - \mathrm{Proj}_{,U}(\mathbf{x})\\
&= \underbrace{(\mathbf{I} - 2\mathbf{uu}^T)}_{\text{Householder matrix}} \mathbf{x}
\end{align*}
\]
如ch6 正交投影矩陣,需要注意向量\(\mathbf{u}\)的norm是1,即\(\|\mathbf{u} \| = 1\),才可推得此正交投影矩陣的形式。
鏡射算子有4個比較重要的性質。
與ch1 反矩陣中提及的伴隨矩陣是完全不同的東西,
\(V\)是佈於\(F\)的內積空間,\(T : V \to V\)為一線性轉換,若\(T^* : V \to V\)為一函數,滿足
\[
<T(x\mathbf{x}), \mathbf{y}> = <\mathbf{x}, T^*(\mathbf{y})>
\]
則稱\(T^*\)為\(T\)的伴隨算子。
若\(\beta\)為\(V\)的一組單位正交基底,則伴隨算子的代表矩陣為共軛加轉置
\[
[T]_\beta = \mathbf{A}, [T^*]_\beta = \mathbf{A}^* = \overline{\mathbf{A}}^T
\]
給定聯立方程式\(\mathbf{Ax} = \mathbf{b}\)無解,也就是說\(\mathbf{b} \not\in \mathrm{Col}(\mathbf{A})\),且矩陣行獨立\(\mathrm{rank}(\mathbf{A}) = n\),但問題總不能這樣就結束,因此我們"試圖"找到一個近似解的折衷方案使得
\[
\| \mathbf{Ax}_{LS} - \mathbf{b}\| \leq \| \mathbf{Ax} - \mathbf{b} \|
\]
由ch6 最小平方近似(least square approximation)觀念可知 - 最短距離就是垂直投影,最佳近似就是正交投影,如下圖所示
令\(W = \mathrm{Col}(\mathbf{A})\),則\(W^\perp = \mathrm{Null}(\overline{\mathbf{A}}^T)\)。由正交投影可知,存在唯一\(\mathbf{v}_0 = \mathrm{Proj}_{,W}(\mathbf{b}) = \mathbf{Ax}_{LS}\)使得\(\| \mathbf{Ax}_{LS} - \mathbf{b}\| \leq \| \mathbf{Ax} - \mathbf{b} \|\)。
\[
\begin{align*}
& \mathbf{Ax}_{LS} = \mathrm{Proj}_{,W}(\mathbf{b})\\
\Rightarrow\;& (\mathbf{Ax}_{LS} - \mathbf{b}) \perp W\\
\Rightarrow\;& <\mathbf{Ax}_{LS} - \mathbf{b}, \mathbf{w}> = 0, \forall \mathbf{w} \in W = \mathrm{Col}(\mathbf{A})\\
\Rightarrow\;& <\mathbf{Ax}_{LS} - \mathbf{b}, \mathbf{Ax}> = 0, \forall \mathbf{x}\\
\Rightarrow\;& <\mathbf{A}^*(\mathbf{Ax}_{LS} - \mathbf{b}), \mathbf{x}> = 0, \forall \mathbf{x} \quad \because \text{adjoint operator}\\
\Rightarrow\;& \mathbf{A}^*(\mathbf{Ax}_{LS} - \mathbf{b}) = 0\\
\Rightarrow\;& \mathbf{A}^* \mathbf{Ax}_{LS} = \mathbf{A}^* \mathbf{b} \quad \ldots \text{Normal equation}\\
\Rightarrow\;& \mathbf{x}_{LS} = ( \mathbf{A}^* \mathbf{A})^{-1} \mathbf{A}^* \mathbf{b} \quad \because \mathrm{rank}(\mathbf{A}) = n \Rightarrow \mathrm{rank}(\mathbf{A}^*\mathbf{A}) = n \Rightarrow \exists (\mathbf{A}^*\mathbf{A})^{-1}
\end{align*}
\]
ch6 正交投影矩陣講到正交投影矩陣的求法,若是在矩陣\(\mathbf{A}\)行獨立,要投影的平面為矩陣\(\mathbf{A}\)的column space,則可以將正交投影矩陣寫做\(\mathbf{P} = \mathbf{A} (\mathbf{A}^T \mathbf{A})^{-1} \mathbf{A}^T\)。 \[ \begin{align*} \mathbf{A}^T (\mathbf{Ax}_{LS}) &= \mathbf{A}^T (\mathbf{b}) \Rightarrow \mathbf{x}_{LS} = ( \mathbf{A}^T \mathbf{A})^{-1} \mathbf{A}^T \mathbf{b}\\ \mathrm{Proj}_{,W}(\mathbf{b}) &= \mathbf{Ax}_{LS}\\ &= \underbrace{\mathbf{A} (\mathbf{A}^T \mathbf{A})^{-1} \mathbf{A}^T}_{\text{(orthogonal) projection matrix } \mathbf{A}} \mathbf{b} \end{align*} \]
給定聯立方程式\(\mathbf{Ax} = \mathbf{b}\)無限多組解,求所有解中\(\|\mathbf{x}\|\)最小的解答\(\mathbf{x}_{min}\),以通訊觀點而言,離原點的距離就是能量,因此就是在所有可能的條件之內找能量最小者。
無限多組解,可將解拆為齊次解與特解\(\mathbf{x} = \mathbf{x}_h + \mathbf{x}_p\)
\[
\begin{align*}
& \mathbf{A}(\mathbf{x}_h + \mathbf{x}_p) = \mathbf{b}\\
&\text{where } \mathbf{x}_h \in \mathrm{Null}(\mathbf{A}), \mathbf{x}_p \in \mathrm{Row}(\mathbf{A}), \mathrm{Null}(\mathbf{A}) \oplus \mathrm{Row}(\mathbf{A}) = F^n\\
\Rightarrow\;& \mathbf{A} \mathbf{x}_h + \mathbf{A} \mathbf{x}_p = \mathbf{b}\\
\Rightarrow\;& \mathbf{0} + \mathbf{A} \mathbf{x}_p = \mathbf{b} \quad \because \mathbf{x}_h \in \mathrm{Null}(\mathbf{A})\\
\Rightarrow\;& \mathbf{x}_p = \mathbf{b}
\end{align*}
\]
其中齊次解對解答\(\mathbf{b}\)沒有貢獻,屬於null space,只有特解才對解答\(\mathbf{b}\)有貢獻。
\[
\begin{align*}
\|\mathbf{x} \|^2 &= \| \mathbf{x}_h + \mathbf{x}_p \|^2\\
&= \|\mathbf{x}_h\|^2 + \|\mathbf{x}_p\|^2 \quad <\mathbf{x}_h, \mathbf{x}_p> = 0\\
&\geq \|\mathbf{x}_p\|^2\\
&\therefore \mathbf{x}_{min} = \mathbf{x}_p \in \mathrm{Null}(\mathbf{A}) = \mathrm{Col}(\mathbf{A}^T)
\end{align*}
\]
最小範數解就是落在\(\mathbf{A}^T\)的column space,因此欲解\(\mathbf{Ax} = \mathbf{b}\),就是令解答\(\mathbf{x}_{min} = \mathbf{A}^T \mathbf{v}\),帶入原方程式解得\(\mathbf{v}\),再帶回\(\mathbf{x}_{min} = \mathbf{A}^T \mathbf{v}\),解得最小範數解。
項目 | 一般對角化 | 正交(么正)對角化 |
---|---|---|
要求 | \(\forall \lambda, g_m(\lambda) = m(\lambda)\) | \(\mathbf{A}^* \mathbf{A} = \mathbf{A} \mathbf{A}^*\) |
特徵向量 | 線性獨立 | 單位正交(若特徵值重根對應特徵空間的基底非單位正交,要用GSO化為單位正交) |
對角化 | \(\mathbf{AP} = \mathbf{PD} \Rightarrow \mathbf{P}^{-1} \mathbf{AP} = \mathbf{D}\) | \(\mathbf{AQ} = \mathbf{QD} \Rightarrow \mathbf{Q}^T \mathbf{AQ} = \mathbf{D}\) |
給定任意二次式 \[ q = \mathbf{x}^T \mathbf{C} \mathbf{x} \in \mathbb{R}, \mathbf{C} \in \mathbb{R}^{n \times n}, \mathbf{x} = \begin{bmatrix} x_1\\ \vdots\\ x_n \end{bmatrix} \in \mathbb{R}^n \]
由上述任意二次式化成標準式的過程可知,判斷正負性可由特徵值判斷,舉例來說若所有特徵值都是正的,則為正定。
雷利商定義為二次式除上\(\mathbf{x}\)的長度,雷利商下界為最小特徵值、上界為最大特徵值。 \[ \lambda_{min} \leq R(\mathbf{x}) \triangleq \frac{\mathbf{x}^T \mathbf{A} \mathbf{x}}{\mathbf{x}^T\mathbf{x}} \leq \lambda_{max} \]
正交(么正)對角化只適用於normal matrix,而奇異值分解適用於任何矩陣,就是"平民版"的正交(么正)對角化,SVD計算如SVD篇 SVD計算步驟,使用SVD看4大空間的性質與低秩近似法如SVD篇 重點3 使用SVD說明線性代數的4大空間,虛反矩陣如SVD篇 重點4 最小平方+範數問題,這邊在補充一個性質 \[ \begin{align*} \mathbf{A}^+ \mathbf{A} &= (\mathbf{V} \mathbf{\Sigma}^+ \mathbf{U}^H) (\mathbf{U} \mathbf{\Sigma} \mathbf{V}^H)\\ &= \mathbf{V} \mathbf{\Sigma}^+ \mathbf{\Sigma} \mathbf{V}^H\\ &= \mathbf{v}_1 \mathbf{v}_1^H + \cdots + \mathbf{v}_r \mathbf{v}_r^H \end{align*} \] 即為投影矩陣,投影至平面\(\mathrm{Row}(\mathbf{A}) = \mathrm{Span}\{\mathbf{v}_1, \ldots, \mathbf{v}_r\}\)。 \[ \begin{align*} \mathbf{A} \mathbf{A}^+ &= (\mathbf{U} \mathbf{\Sigma} \mathbf{V}^H)(\mathbf{V} \mathbf{\Sigma}^+ \mathbf{U}^H)\\ &= \mathbf{U} \mathbf{\Sigma} \mathbf{\Sigma}^+ \mathbf{U}^H\\ &= \mathbf{u}_1 \mathbf{u}_1^H + \cdots + \mathbf{u}_r \mathbf{v}_r^H \end{align*} \] 即為投影矩陣,投影至平面\(\mathrm{Col}(\mathbf{A}) = \mathrm{Span}\{\mathbf{u}_1, \ldots, \mathbf{u}_r\}\)。