## 監督式學習模型(Supervised Learning Models)
監督式學習的目的是在給定「輸入資料」與「對應標籤」的情況下,訓練模型使其學會從輸入中預測正確標籤。
---
### k-Nearest Neighbors (KNN)
| 項目 | 說明 |
|--------|--------------------------------------------------------------------|
| 類型 | 基於距離的分類演算法 |
| 原理 | 根據輸入樣本在特徵空間中與訓練樣本的距離,選出最近的 K 個鄰居,多數決決定類別 |
| 優點 | 實作簡單、無需訓練 |
| 缺點 | 計算成本高、對高維資料不利(維度災難) |
| 適用情境 | 資料量小、結構清楚;如手寫辨識、推薦系統(簡易版) |
---
### Perceptron(感知機)
| 項目 | 說明 |
|--------|----------------------------|
| 類型 | 單層神經網路 |
| 原理 | 線性分類器,使用加權和加閾值進行預測 |
| 優點 | 理論基礎簡單 |
| 缺點 | 僅能處理線性可分問題 |
| 適用情境 | 理解神經網路原理、教學用途 |
---
### Decision Tree(決策樹)
| 項目 | 說明 |
|--------|----------------------------------------------|
| 類型 | 規則式模型 |
| 原理 | 根據特徵分割資料,構造樹狀結構進行預測 |
| 優點 | ==解釋性佳==、可處理類別與數值資料 |
| 缺點 | 易過擬合,樹深影響穩定性 |
| 適用情境 | 權重不均分類任務、特徵數量不多時效果佳 |
#### 如何選擇最佳分裂特徵?
| 指標 | 適用任務 | 說明 |
|---------------------------------|--------|----------------------------|
| Information Gain(資訊增益) | 分類 | 使用熵(Entropy)衡量純度提升 |
| Gini Impurity(基尼不純度) | 分類 | 評估隨機取一樣本被誤分類的機率 |
| Variance Reduction(變異數下降) | 迴歸 | 減少資料分裂後的變異數 |
---
### Random Forest(隨機森林)【Bagging】
| 項目 | 說明 |
|--------|-----------------------------------------------|
| 類型 | ==集成學習(Bagging)== |
| 原理 | 建立多棵隨機決策樹後**投票或平均輸出** |
| 優點 | 穩定性佳、不易過擬合、可取得特徵重要性 |
| 缺點 | 模型結構不易整體解釋 |
| 適用情境 | 分類/迴歸通用;容忍缺失值 |
---
### Isolation Forest(孤立森林)
| 項目 | 說明 |
|------|----------------------------------------------------------|
| 類型 | 非監督式==異常偵測模型== |
| 原理 | 隨機選特徵和切分點,異常值較易被「孤立」 |
| 特點 | 計算快速、適合高維、可視為樹模型變形 |
| 應用 | 資安偵測、交易詐欺分析、設備異常預測 |
| 補充 | 輕量但有效的 anomaly detection 方法 |
---
### Gradient Boosting(GBDT / XGBoost / AdaBoost)
| 模型 | 說明 |
|---------|--------------------------------------------------|
| GBDT | 漸進式訓練決策樹,每棵新樹**修正**前一棵的錯誤 |
| XGBoost | GBDT 的高效實作,支援**正則化與剪枝** |
| AdaBoost| 對錯誤預測的樣本給予較高權重,聚焦難分類的樣本 |
📌 **特性比較:**
| 模型 | 優點 | 缺點 |
|-------|------------------------|------------------|
| GBDT | 效能強、泛化力好 | 訓練較慢 |
| XGBoost | 快速、高效、參數豐富 | 結構較複雜 |
| AdaBoost| 容易增強簡單模型 | 對雜訊較敏感 |
---
### Bagging VS. Boosting
| 特性 | Bagging | Boosting |
| ------ | ------------------ | ------------------------ |
| 主要目標 | **降低方差**(Variance) | **降低偏差**(Bias),同時也可能降低方差 |
| 抗過擬合能力 | 強(因為平均多個高方差模型) | 較弱(可能過度關注難分類樣本而過擬合) |
| 適用情況 | 高方差低偏差模型(例如深樹) | 高偏差低方差模型(例如淺樹) |
---
### Support Vector Machine(SVM)
| 項目 | 說明 |
|--------|----------------------------------------------------|
| 類型 | 最大邊界分類器 |
| 原理 | 尋找使不同類別間距最大的**超平面** |
| 優點 | 適合中小型資料,能處理非線性(使用 kernel) |
| 缺點 | 計算成本高,需要調整核函數與參數 |
| 適用情境 | **高維**、清晰可分之分類任務(如文字分類) |
#### 核函數的兩大功能
| 功能 | 說明 |
|----------|----------------------------------------------------------------------------|
| 映射到高維 | 不需顯式計算高維向量,透過 Kernel Trick 計算兩點的內積即可 |
| 保持計算效率 | 即使映射到無限維空間,也能維持原本的計算複雜度 |
---
### Linear Regression(線性回歸)
| 項目 | 說明 |
|------------|------------------------------------------------------------------|
| 類型 | 迴歸模型(Regression) |
| 原理 | 建立輸入特徵 X 與連續變數 y 之間的線性關係,目標是最小化平方誤差 |
| 損失函數 | 均方誤差(MSE):$\text{MSE} = \frac{1}{n} \sum (y - \hat{y})^2$ |
| 優點 | 簡單直觀、可解釋性強、計算快速 |
| 缺點 | 無法處理非線性問題、對異常值敏感、特徵共線性可能導致不穩定結果 |
| 適用情境 | 房價預測、銷售預測、工業參數建模等連續型輸出場景 |
---
### Logistic Regression(邏輯回歸)
| 項目 | 說明 |
|------------|----------------------------------------------------------------|
| 類型 | 分類模型(Classification) |
| 原理 | 將線性回歸輸出通過 Sigmoid 函數壓縮到 [0, 1] 區間,預測為某類的機率 |
| 損失函數 | 交叉熵(Cross Entropy):適用於二元分類任務 |
| 優點 | 可解釋性強、適合小型資料集、訓練快速穩定 |
| 缺點 | 無法擬合非線性邊界、處理多分類時需延伸為 OvR 或 Softmax |
| 適用情境 | 信用預測、疾病風險預測、點擊率預測等二元決策任務 |
📌 注意:雖名為「回歸」,Logistic Regression **本質是分類器**。
### 🔍 比較簡表:線性 vs 邏輯回歸
| 模型名稱 | 適合任務 | 輸出類型 | 損失函數 |
|----------------------|--------------|------------------|-------------------|
| Linear Regression | 迴歸 | 連續實數 | MSE(均方誤差) |
| Logistic Regression | 分類(二元) | 機率值(0~1) | Cross Entropy(交叉熵) |
---
### Naive Bayes(朴素貝氏分類器)
| 項目 | 說明 |
|--------|---------------------------------------------------------|
| 類型 | 機率式分類模型 |
| 原理 | 根據條件機率與貝氏定理進行預測,**假設特徵彼此獨立** |
| 優點 | 訓練快速、穩定,適合**文字分類** |
| 缺點 | 特徵獨立假設在實務中常不成立 |
| 適用情境 | 文字分類(垃圾郵件偵測)、醫療診斷 |
## 非監督式學習模型(Unsupervised Learning Models)
非監督式學習的目的是在沒有標籤(label)的情況下,找出資料中的結構、分群或降維。
### k-Means Clustering(K 均值分群)
| 項目 | 說明 |
|------|----------------------------------------------------------|
| 類型 | 分群演算法 |
| 原理 | 將資料分成 K 個群,每筆資料指派到距離最近的群中心 |
| 優點 | 計算簡單、效率高 |
| 缺點 | 需預先指定 K 值;不適用非球形分佈;對初始值敏感 |
| 適用情境 | 客戶分群、圖像壓縮、行為模式辨識 |
> 📌 補充:可用 Elbow method 幫助決定最佳 K 值。
---
### Principal Component Analysis(主成分分析,PCA)
| 項目 | 說明 |
|------|-------------------------------------------------------------------|
| 類型 | 線性降維技術 |
| 原理 | 找出資料最大變異方向的主成分向量,保留主要結構 |
| 優點 | 加速模型訓練、去除冗餘資訊;可視化高維資料 |
| 缺點 | 僅限線性關係;結果不易解釋 |
| 適用情境 | 圖像壓縮、特徵選擇、可視化前處理 |
> 📌 補充:保留前幾個主成分即可涵蓋大部分資訊(常用累積變異量 ≥ 95% 作為標準)。
---
### Independent Component Analysis(ICA,獨立成分分析)
| 項目 | 說明 |
|--------|-----------------------------------------------------------------|
| 類型 | 非監督式降維技術(與 PCA 類似,但目標不同) |
| 原理 | 將多維資料分解為統計上彼此**獨立**的成分(最大化非高斯性) |
| 差異 | 與 PCA 不同:PCA 找的是最大方差方向,ICA 找的是統計獨立成分 |
| 優點 | 適用於「訊號分離」任務,如聲音混合源分離(盲訊號分離)、腦波分析(EEG) |
| 缺點 | 結果對輸入尺度與順序敏感、數學推導較複雜 |
| 適用情境 | 多通道訊號處理、影像特徵抽取、異常結構辨識 |
📌 範例應用:混合兩段語音訊號 → 用 ICA 分離出各自原始來源(Blind Source Separation)
---
### Linear Discriminant Analysis(線性判別分析,LDA)
| 項目 | 說明 |
|------|------------------------------------------------------------------|
| 類型 | 有==標籤==的降維方法(但常用於特徵提取) |
| 原理 | 找出類別間差異最大的投影方向 |
| 優點 | 可提升分類表現;與 PCA 相比更注重類別資訊 |
| 缺點 | 假設資料為常態分佈且共變異矩陣相等 |
| 適用情境 | 特徵降維 + 分類任務前處理(如臉部辨識) |
> 📌 註:雖有監督資訊,但常與非監督方法搭配視為降維技術使用。
---
### LSA(Latent Semantic Analysis,潛在語意分析)
| 項目 | 說明 |
|----------|------------------------------------------------------------------------|
| 類型 | 語意降維方法(屬於詞彙表示學習技術) |
| 原理 | 將詞-文件矩陣透過==SVD分解==,找出**潛在語意結構**與主成分空間 |
| 輸入資料 | 詞頻矩陣、TF-IDF 向量 |
| 輸出形式 | 將每個詞與文件投影到較低維度的「語意空間」 |
| 優點 | 去除同義詞冗餘、降低噪音、找出潛藏語意;可用於**搜尋相似文件、語意分類、主題分析** |
| 缺點 | 無法處理詞序與多義詞;SVD 計算複雜度高,不易動態擴充 |
📌 常用於:搜尋引擎、主題聚類、資訊檢索中的「語意相似性比對」
---
### MDS(Multidimensional Scaling,多維尺度分析)
| 項目 | 說明 |
|----------|------------------------------------------------------------------------|
| 類型 | 可視化導向的非監督式降維技術 |
| 原理 | 根據任意「距離矩陣」,在低維空間中找出點與點之間距離最接近的投影位置 |
| 輸入資料 | 預先計算好的樣本間距離矩陣(如歐氏距離、餘弦距離、編碼距離) |
| 輸出形式 | 2D / 3D 空間中樣本點的位置,用於視覺化展示樣本分布結構 |
| 優點 | 不依賴資料型態,支援非線性關係,可處理自定義距離;適合**詞向量、樣本聚類後之視覺解釋** |
| 缺點 | 資料量大時計算距離矩陣成本高,擴展性較差 |
📌 常見用途:降維可視化(與 t-SNE、PCA 並列),理解樣本聚類效果或距離結構
---
### Autoencoder(自編碼器)
| 項目 | 說明 |
|--------|----------------------------------------------------------------|
| 類型 | 非監督式神經網路(屬於特徵學習與==降維==工具) |
| 結構 | Encoder(壓縮) + Decoder(還原),學習將輸入映射為低維潛在空間 |
| 原理 | 最小化重建誤差 |
| 優點 | 可學習非線性特徵,擴展性高,可與 CNN / LSTM 結合 |
| 缺點 | 訓練需較多資料,調參繁瑣,無法直接解釋潛在空間意義 |
| 適用情境 | 資料降維、影像重建、異常檢測、生成模型(延伸為 VAE, GAN 等) |
📌 擴展版本:
- **VAE(變分自編碼器)**:加入概率建模,可生成類似原資料的新樣本
- **Denoising Autoencoder**:可用於去噪,提升特徵穩定性
- **Sparse Autoencoder**:提升稀疏性與特徵選擇能力
---
### Gaussian Mixture Model(高斯混合模型,GMM)
| 項目 | 說明 |
|------|------------------------------------------------------------------------|
| 類型 | 機率式==分群==模型 |
| 原理 | 假設資料由多個高斯分佈混合而成,使用期望最大化(EM)估計參數 |
| 優點 | 能處理不同形狀、大小的群體;分群結果**具機率解釋力** |
| 缺點 | 對初始值與樣本比例敏感;計算較慢 |
| 適用情境 | 客戶分群、異常偵測、語音識別(常用於 HMM 的 emission model) |
---
### t-SNE(t-分佈隨機鄰域嵌入)
| 項目 | 說明 |
|------|----------------------------------------------------------------------|
| 類型 | 非線性**降維**與視覺化方法 |
| 原理 | 維持高維空間中資料點的相對距離,在 2D/3D 空間展現局部結構 |
| 優點 | 非常適合資料可視化(找出分群或離群樣本) |
| 缺點 | 不適合做模型輸入;計算成本高;無法泛化到新資料 |
| 適用情境 | 表徵可視化(如圖像分類特徵)、樣本群聚檢視 |
> 📌 常與 PCA 搭配(PCA → t-SNE)進行加速與穩定性提升。
---
### Hidden Markov Model(隱馬可夫模型,HMM)🔥
| 項目 | 說明 |
|------|--------------------------------------------------------------------|
| 類型 | 機率式序列模型 |
| 原理 | 隱藏狀態組成馬可夫鏈 + 可觀察輸出,透過轉移機率與發射機率建模序列行為 |
| 優點 | 能建模==時間序列==;適用於語音、金融、自然語言 |
| 缺點 | 假設條件強、狀態難以解釋;參數估計依賴 EM |
| 適用情境 | POS tagging、語音辨識、行為預測、基因序列建模 |
---
### 🔹 SVD(Singular Value Decomposition,奇異值分解)
| 項目 | 說明 |
|--------|----------------------------------------------------------------------|
| 類型 | 非監督式學習 / 線性代數==降維==技術 |
| 原理 | 將資料矩陣分解為三個矩陣:$A = U \Sigma V^T$,保留主成分壓縮資料 |
| 應用 | - LSA(潛在語意分析)<br>- 圖像壓縮 / 特徵提取 / 推薦系統矩陣補全(如 Netflix) |
| 優點 | 數學理論穩固,可提取潛在結構,降低維度、去除冗餘 |
| 缺點 | 無法建模非線性資料、計算成本高於 PCA、無法動態擴充 |
📌 常與 LSA、PCA 並列為常見降維方式。無需標籤,屬非監督學習技術。
---
### 🔹 LOF(Local Outlier Factor,局域離群因子)
| 項目 | 說明 |
|--------|----------------------------------------------------------------------|
| 類型 | 非監督式==異常偵測模型== |
| 原理 | 根據每筆資料與鄰近樣本的密度比較,判定其是否落在「密度稀疏區域」→ 若密度顯著低則視為離群 |
| 運作步驟 | 1. 對每筆樣本計算 k 個鄰近點<br>2. 比較局部密度<br>3. 產生離群分數(LOF score) |
| 應用 | - 資安異常偵測(入侵、詐欺)<br>- 感測器故障 / 工控系統監控<br>- 不平衡資料下的潛在異常檢出 |
| 優點 | 無需標籤、能發現局部離群點、適用於高維資料 |
| 缺點 | 對距離敏感、k 值設定會影響結果、計算成本高於 Isolation Forest 等方法 |
📌 適合應用在資料標籤不足或難以明確定義異常的場景中。
---
## 強化學習(Reinforcement Learning)
強化學習是一種讓智能體(Agent)在環境中透過試誤與回饋獎勵來學習最佳策略(Policy)的方式。
### Q-Learning / Bellman Equation
| 項目 | 說明 |
|----------------|--------------------------------------------------------------------|
| Q-Learning | 基於動態規劃的值函數學習方法,用 Q-Table 記錄每個狀態-動作對應的期望回報 |
| Bellman Equation | 定義 Q 值的遞迴關係,為 Q-Learning 的核心理論基礎 |
> 📌 適用於:小型離散空間控制問題(如迷宮、網格導航)
---
### Model-Free vs. Model-Based
| 類型 | 說明 | 優點 | 缺點 |
|------------|------------------------------------------------------|-----------------------------------|-----------------------------------|
| Model-Free | 不建立環境模型,只透過試誤學習策略或值函數 | 簡單直接 | 效率低 |
| Model-Based| 建立環境轉移模型,透過模擬來預測與規劃行動 | 資料效率高、可規劃 | 模型錯誤會影響決策 |
> 📌 補充:
> - DQN、Policy Gradient 屬常見 Model-Free 方法
> - AlphaGo 中的 MCTS 結合 Model-Based 與深度學習
---
### Epsilon-Greedy(ε-貪婪策略)
| 項目 | 說明 |
|------|--------------------------------------------------------------------|
| 原理 | 在學習初期以**機率 ε** 隨機探索(exploration),其餘時間選擇已知最好的動作(exploitation) |
| 意義 | 平衡探索與利用,避免陷入局部最優解 |
| 實作 | ε 通常會逐步遞減(例如從 1 → 0.1) |
---
### Policy Gradient(策略梯度)
| 項目 | 說明 |
|------|--------------------------------------------|
| 類型 | 直接學習最佳策略函數 |
| 特性 | 適合連續動作空間;可學習隨機策略 |
> 📌 代表方法:REINFORCE、Actor-Critic、PPO(Proximal Policy Optimization)
---
### DQN(Deep Q-Network) + Experience Replay
| 項目 | 說明 |
|------------------|--------------------------------------------------------------------|
| 原理 | 將 Q-Learning 結合深度神經網路,用 NN 預測 Q 值 |
| Experience Replay | 將歷史經驗 (state, action, reward, next_state) 儲存進記憶池,隨機抽取批次訓練 → 打破樣本相關性,提高穩定性 |
| 特點 | 支援高維輸入(如圖片)、泛化力強 |
> 📌 DQN 論文補充技巧:
> - Target Network:使用延遲更新的目標網路來穩定學習
> - ε-Greedy 策略與 Replay Buffer 是訓練穩定性關鍵
---
### 其他強化學習概念
- **RLHF(Reinforcement Learning with ==Human== Feedback)**
結合人類回饋訓練 AI,使其生成結果更貼近人類偏好(如 ChatGPT 微調階段)。
- **理性行為 AI(Rational Agent)**
以==最大化報酬==為目標的 Agent 設計,核心即強化學習的策略學習。
- **有限記憶 AI(Finite Memory Agent)**
利用過往歷史(如過去幾步)資訊進行決策,常見於時間序列預測、自動駕駛等具時序依賴場景。
## 時間序列模型(Time Series Models)
時間序列模型的目標是根據時間順序排列的歷史資料,預測未來趨勢、值或事件。
### ARIMA(AutoRegressive Integrated Moving Average)
| 項目 | 說明 |
|----------|--------------------------------------------------------------------|
| 類型 | 傳統統計模型 |
| 組成 | 結合三部分:AR(自迴歸)、I(差分去趨勢)、MA(移動平均) |
| 訓練需求 | 資料需為穩態(stationary)時間序列 |
| 優點 | 理論成熟、可解釋性高 |
| 缺點 | 無法處理非線性、需手動設參數(p, d, q) |
| 適用場景 | 財經股價預測、氣象趨勢、需求預估(短期) |
> 📌 常用變體:SARIMA(加上季節性 S)
---
### Prophet(臉書開源時間序列預測模型)
| 項目 | 說明 |
|----------|---------------------------------------------------------|
| 類型 | 加法模型(trend + seasonality + holiday) |
| 設計者 | Facebook 開源 |
| 優點 | 使用簡單、自動建模、處理缺失值與異常值能力強 |
| 缺點 | 適用於中長期預測,對極度非線性資料效果有限 |
| 適用場景 | 市場活動預測、人流量、業績季節波動預估 |
---
### Temporal Convolutional Network(TCN,時間卷積網路)
| 項目 | 說明 |
|----------|------------------------------------------------------------|
| 類型 | 深度學習模型 |
| 結構特點 | 1D 卷積 + 擴張卷積(dilated conv) + 因果性(causal) |
| 優點 | 並行計算快於 RNN,捕捉長期依賴能力強,不會因序列長度過長而遺忘 |
| 缺點 | 訓練資料需求高,需要較多資源與調參 |
| 適用場景 | 高頻金融預測、IoT 感測數據、語音辨識、序列分類 |
> 📌 補充:
> - 因果性保證模型不會「偷看未來」
> - 擴張卷積能擴大感受野(receptive field)→ 模擬長期記憶
## Neural Networks(神經網路)
涵蓋傳統與深度學習架構:
| 模型 | 類型 | 說明 |
|---------------|----------|-----------------------------------------|
| Elman RNN | 時序模型 | 處理序列資料,隱藏層具有回饋結構 |
| LSTM | 時序模型 | 長期記憶能力佳,解決 RNN 長期依賴問題 |
| R-CNN | 影像偵測 | 基於 CNN 的區域提案+分類物件偵測 |
| Inception | 深度 CNN | 使用多尺度濾波器並行(GoogleNet) |
| ResNet | 深度 CNN | 使用==殘差連接==,解決梯度消失問題 |
| VGG19 | 深度 CNN | 結構規律、較深層(19 層卷積) |
| GAN / Diffusion | 生成模型 | 生成器+判別器對抗訓練 / 擾動反向擴散 |
## 評估方式與統計檢定
### 分類任務常用指標(基於混淆矩陣)
混淆矩陣(Confusion Matrix)用來呈現分類模型的預測結果與實際標籤的對照:
| | 預測 Positive | 預測 Negative |
|-----------------|----------------|----------------|
| **實際 Positive** | TP(真正例) | FN(假負例) |
| **實際 Negative** | FP(假正例) | TN(真負例) |
| 指標名稱 | 計算方式 | 解釋 |
|----------------|------------------------------------|--------------------------------------------------------------|
| **Accuracy** | (TP + TN) / 全部樣本 | 整體**預測正確**比例,適合類別平衡任務 |
| **Precision** | TP / (TP + FP) | 預測為正例中,有多少是真的 → 假陽性越少越好 |
| **Recall** | TP / (TP + FN) | 真正例中,有多少被抓到 → 假陰性越少越好 |
| **F1-Score** | 2 × (Precision × Recall) / (P + R) | Precision 與 Recall 的調和平均,適合類別==不平衡==任務 |
| **Specificity**| TN / (TN + FP) | 真負率,在醫療與風險控制任務中很重要 |
📌 注意:在類別不平衡任務(如詐欺偵測、疾病預測)中,**F1-score 與 Recall 通常比 Accuracy 更重要。**
---
### ROC-AUC(Receiver Operating Characteristic – Area Under Curve)
ROC 曲線是根據不同閾值下的 TPR(真正率)與 FPR(假正率)繪製而成,AUC 是 ROC 曲線下的面積。
- **AUC = 1** 表示完美分類;**AUC = 0.5** 表示隨機猜測
- 適用於二元分類模型,能評估整體模型能力而非單一閾值下表現
- 常搭配==不平衡==資料集使用(對類別不平衡不敏感)
---
### MAE / MSE / RMSE / MAPE / R²(==迴歸==評估指標)🔥
| 指標 | 全名 | 說明 | 特點 |
|-----|-----------------------------|------------------------------------|----------------------------------------|
| MAE | Mean Absolute Error | 預測值與實際值之間絕對誤差的平均 | 容易解釋、不對極端值特別敏感 |
| MSE | Mean Squared Error | 將誤差平方後平均 | 強調大誤差、放大==異常值影響== |
| RMSE| Root Mean Squared Error | 對 MSE 開根號,使單位與原始數據一致 | 解釋性佳、但仍受異常值影響 |
| MAPE| Mean Absolute Percentage Error | 平均絕對百分比誤差 | 適合需求百分比解釋,但實際值為 0 時不穩定 |
| R² | 決定係數 (Coefficient of Determination) | 解釋變異比例:1 為完美預測,0 為無解釋力 | 可為負值,表示模型表現比隨機猜測還差 |
---
### t-Test / F-Test / Chi-Square Test(統計檢定)
| 名稱 | 說明 | 適用情境 |
|---------------|------------------------------|----------------------------------|
| t-Test | 檢定**兩組平均數**是否有顯著差異 | A/B 測試、模型前後效能比較 |
| F-Test | 檢定**多組資料變異數**是否有顯著差異 | 判斷是否適合進行 ANOVA(變異數分析) |
| Chi-Square Test (卡方檢定) | 檢定兩個==分類==變數間是否獨立 | 類別型資料分析(如性別 vs 購買行為) |
---
### Pearson Correlation(皮爾森相關係數)
| 項目 | 說明 |
|--------|-------------------------------------------------------------------------|
| 類型 | 相關性分析方法(非檢定) |
| 原理 | 衡量兩個==連續變數==之間的線性關係強度與方向(值介於 -1 到 1) |
| 計算公式 | $\rho_{X,Y} = \frac{cov(X, Y)}{\sigma_X \sigma_Y}$ |
| 解讀 | 趨近 1 → 正相關;趨近 -1 → 負相關;接近 0 → 幾乎無線性相關 |
| 應用 | 分析特徵與目標變數關聯性、特徵選擇前篩選、金融變數關聯性判斷等 |
📌 注意:
- 適用於連續變數,資料應具常態分佈特性
---
### Cross-Validation(交叉驗證)
交叉驗證將資料切成多組訓練/驗證集反覆評估,提升模型**泛化能力**的估計準確度。
| 類型 | 說明 |
|------------------|---------------------------------------|
| K-Fold | 將資料分成 K 等分,每次用其中一份做驗證,其餘做訓練 |
| Leave-One-Out (LOO) | 每次**僅保留一筆**資料做驗證,其餘做訓練,計算成本高 |
| Hold-out | 固定比例切分成 train/test(如 80/20) |
> **補充:** K-Fold 最常用(K=5 或 10),常與 Grid Search 一起做參數調優。
---
### Bias & Variance(偏差與變異)🔥
評估模型學習能力的重要概念:
| 概念 | 說明 | 表現特性 |
|----------------|--------------------------------|----------------------------------|
| **Bias(偏差)** | 模型**預測值與真實值間**的系統性誤差 | 高偏差 → 欠擬合(Underfitting):模型太簡單,無法學習資料模式 |
| **Variance(變異)** | 同一模型在**不同訓練資料**上的結果差異 | 高變異 → 過擬合(Overfitting):模型過度學習訓練雜訊 |
**調整策略:**
- 欠擬合 → 增加模型複雜度、加入更多特徵
- 過擬合 → 加入正則化、Dropout、Early Stopping 等技巧
#### 過擬合(Overfitting)與正則化
- **過擬合**:模型在訓練集表現極佳,但在測試集表現不佳,原因是模型過度擬合訓練資料的雜訊。
- **正則化(Regularization)**:在損失函數中加入**懲罰項**(L1 / L2),抑制權重過大,使模型更簡潔,減少過擬合風險。
---
### 激活函數(Activation Functions)
激活函數的目的在於引入==非線性==能力,讓神經網路能學習複雜的模式與邏輯。決定神經元是否「啟用」,激活函數控制每個神經元輸出:
- 若輸出接近 0,表示神經元「不啟用」
- 若輸出大,表示神經元對當前輸入「有反應」
這種機制類似於「資訊過濾器」或「觸發器」,幫助網路專注在重要特徵。
| 函數 | 輸出範圍 | 中心對稱 | 梯度消失問題 | 是否易計算 | 適用場景 |
|-------|----------|--------|--------------|-----------|--------------------|
| Sigmoid | (0, 1) | 否 | 是 | 中等 | 二分類輸出層 |
| tanh | (-1, 1) | 是 | 是 | 中等 | RNN 隱藏層 |
| ReLU | [0, ∞) | 否 | 否(x > 0) | 高效 | CNN、DNN 隱藏層 |
## 模型優化與訓練技巧
### Gradient Descent / SGD(梯度下降與隨機梯度下降)
| 方法 | 說明 |
|----------------------|----------------------------------------------------------------------|
| Gradient Descent | 基於整個訓練資料計算損失函數的梯度,用來更新參數。收斂穩定但計算量大。 |
| SGD(Stochastic Gradient Descent) | 每次**只使用一筆**(或小批次)資料計算梯度,速度快但波動較大。常用於深度學習訓練。 |
> 📌 補充:SGD 通常搭配 Momentum 或 Batch Normalization 使用。
---
### Momentum / Nesterov(動量與奈斯特洛夫動量)
| 方法 | 原理與特性 |
|----------|----------------------------------------------------------------------------|
| Momentum | 引入過去梯度的累積方向,模擬物理中的**動量**,加快收斂並避免震盪。 |
| Nesterov | 先預測下一步位置再計算梯度,更準確地調整方向。 |
---
### Batch Normalization(批次正規化)
Batch Normalization(簡稱 BN)是一種在神經網路訓練中常用的**正規化技術**,可加速收斂、穩定訓練,並降低對初始化參數與學習率的敏感度。
#### 📌 作用與目的
- 將每一層的輸出(activation)在 mini-batch 上正規化為**均值為 0、標準差為 1**
- 緩解 **Internal Covariate Shift(內部協變偏移)**
- 加速模型訓練、提高穩定性
- 可視為一種正則化方式,具有輕微防止過擬合的效果
---
### Learning Rate Decay(學習率衰減)
- **說明**:動態降低學習率,有助於模型在訓練後期穩定收斂,避免 overshoot。
- **常見策略**:
- Step Decay(每隔固定 epoch 降低)
- Exponential Decay(指數遞減)
- Cosine Annealing(餘弦函數遞減)
---
### Gradient Clipping(梯度截斷)
- **說明**:當梯度過大(爆炸)時將其限制在指定範圍,防止訓練不穩定。
- **常用於**:RNN、LSTM 等序列模型。
---
### Regularization (L1, L2)(正則化)
功能:在損失函數中加入==懲罰項==,限制模型複雜度,減少過擬合。
| 比較項目 | L1 正則化(Lasso) | L2 正則化(Ridge) |
|----------|-----------------------------------|-----------------------------------|
| 懲罰方式 | 懲罰權重絕對值 | 懲罰權重平方值 |
| 結果傾向 | 使部分權重變為 0(稀疏模型) | 權重趨近 0 但不會變成 0 |
| 特徵選擇 | ✅ 自動特徵選擇 | ❌ 無法自動捨棄特徵 |
| 模型可解釋性 | 較高(少數非零特徵) | 較低(所有特徵皆有權重) |
| 計算穩定性 | 對資料變化較敏感 | 較穩定,適合多重共線性資料 |
| 適用情境 | 特徵多但部分重要(如文本) | 所有特徵可能都重要,需平滑處理 |
- 用 L1(Lasso)讓「不重要的特徵消失」
- 用 L2(Ridge)讓「所有特徵都有參與,但不太極端」
- 如不確定可用 Elastic Net(結合 L1 + L2)
---
### Early Stopping(提前停止)
- **說明**:當驗證集表現長期未改善時提前終止訓練,避免過擬合。
- **常用參數**:
- `patience`:連續幾個 epoch 未改善才停止
- `restore_best_weights`:恢復最佳權重
---
### Hyperparameter Search(超參數搜尋)
| 方法 | 特性 |
|------------|---------------------------------------------|
| Grid Search | 列出**所有可能**組合進行窮舉搜尋,適用小參數空間。 |
| Random Search| 隨機抽樣參數空間,效率高於 Grid Search,適用大範圍搜尋。 |
> 📌 可搭配交叉驗證(Cross-Validation)使用。
---
### Cosine Annealing(餘弦退火學習率)
- **說明**:學習率依餘弦函數週期性下降,有助於後期精細學習。
- **應用**:常見於 ResNet、SGDR(帶重啟的 SGD)
---
### Cross Entropy Loss(交叉熵損失 / Log Loss)
- **用途**:==分類==問題,衡量預測機率分布與實際標籤差異。
- **特性**:數值越小預測越準確,常與 Softmax 搭配使用。
---
## 其他
### 鏈式法則(Chain Rule in Backpropagation)
- **用途**:在反向傳播中逐層計算梯度,更新**權重**。
---
### Hessian(海森矩陣)
- **定義**:二階導數矩陣,描述函數彎曲程度。
- **應用**:牛頓法等二階優化演算法。
---
### Jacobian(雅可比矩陣)
- **定義**:向量值函數一階偏導矩陣。
- **用途**:自動微分與敏感度分析。
---
### SHAP(SHapley Additive exPlanations)
| 項目 | 說明 |
|------|------------------------------------------------------------------|
| 類型 | 模型**解釋**方法 |
| 原理 | 用遊戲理論 Shapley value 衡量每個特徵對單一預測的貢獻 |
| 優點 | 解釋性強、可對每筆樣本進行分析、視覺化效果佳 |
| 應用 | 特徵重要性排序、醫療模型審查、金融風險解釋 |
| 補充 | 支援黑箱/白箱模型 |
---
### Bayesian Optimization + Acquisition Function
- **用途**:黑箱函數最佳化中的超參數調整與實驗設計
- **原理**:利用 Acquisition Function(如 UCB、EI)評估當前參數空間中最佳下一步探索點