iPAS中級機器學習技術與應用

## 監督式學習模型（Supervised Learning Models）監督式學習的目的是在給定「輸入資料」與「對應標籤」的情況下，訓練模型使其學會從輸入中預測正確標籤。 --- ### k-Nearest Neighbors (KNN) | 項目 | 說明 | |--------|--------------------------------------------------------------------| | 類型 | 基於距離的分類演算法 | | 原理 | 根據輸入樣本在特徵空間中與訓練樣本的距離，選出最近的 K 個鄰居，多數決決定類別 | | 優點 | 實作簡單、無需訓練 | | 缺點 | 計算成本高、對高維資料不利（維度災難） | | 適用情境 | 資料量小、結構清楚；如手寫辨識、推薦系統（簡易版） | --- ### Perceptron（感知機） | 項目 | 說明 | |--------|----------------------------| | 類型 | 單層神經網路 | | 原理 | 線性分類器，使用加權和加閾值進行預測 | | 優點 | 理論基礎簡單 | | 缺點 | 僅能處理線性可分問題 | | 適用情境 | 理解神經網路原理、教學用途 | --- ### Decision Tree（決策樹） | 項目 | 說明 | |--------|----------------------------------------------| | 類型 | 規則式模型 | | 原理 | 根據特徵分割資料，構造樹狀結構進行預測 | | 優點 | ==解釋性佳==、可處理類別與數值資料 | | 缺點 | 易過擬合，樹深影響穩定性 | | 適用情境 | 權重不均分類任務、特徵數量不多時效果佳 | #### 如何選擇最佳分裂特徵？ | 指標 | 適用任務 | 說明 | |---------------------------------|--------|----------------------------| | Information Gain（資訊增益） | 分類 | 使用熵（Entropy）衡量純度提升 | | Gini Impurity（基尼不純度） | 分類 | 評估隨機取一樣本被誤分類的機率 | | Variance Reduction（變異數下降） | 迴歸 | 減少資料分裂後的變異數 | --- ### Random Forest（隨機森林）【Bagging】 | 項目 | 說明 | |--------|-----------------------------------------------| | 類型 | ==集成學習（Bagging）== | | 原理 | 建立多棵隨機決策樹後**投票或平均輸出** | | 優點 | 穩定性佳、不易過擬合、可取得特徵重要性 | | 缺點 | 模型結構不易整體解釋 | | 適用情境 | 分類／迴歸通用；容忍缺失值 | --- ### Isolation Forest（孤立森林） | 項目 | 說明 | |------|----------------------------------------------------------| | 類型 | 非監督式==異常偵測模型== | | 原理 | 隨機選特徵和切分點，異常值較易被「孤立」 | | 特點 | 計算快速、適合高維、可視為樹模型變形 | | 應用 | 資安偵測、交易詐欺分析、設備異常預測 | | 補充 | 輕量但有效的 anomaly detection 方法 | --- ### Gradient Boosting（GBDT / XGBoost / AdaBoost） | 模型 | 說明 | |---------|--------------------------------------------------| | GBDT | 漸進式訓練決策樹，每棵新樹**修正**前一棵的錯誤 | | XGBoost | GBDT 的高效實作，支援**正則化與剪枝** | | AdaBoost| 對錯誤預測的樣本給予較高權重，聚焦難分類的樣本 | 📌 **特性比較：** | 模型 | 優點 | 缺點 | |-------|------------------------|------------------| | GBDT | 效能強、泛化力好 | 訓練較慢 | | XGBoost | 快速、高效、參數豐富 | 結構較複雜 | | AdaBoost| 容易增強簡單模型 | 對雜訊較敏感 | --- ### Bagging VS. Boosting | 特性 | Bagging | Boosting | | ------ | ------------------ | ------------------------ | | 主要目標 | **降低方差**（Variance） | **降低偏差**（Bias），同時也可能降低方差 | | 抗過擬合能力 | 強（因為平均多個高方差模型） | 較弱（可能過度關注難分類樣本而過擬合） | | 適用情況 | 高方差低偏差模型（例如深樹） | 高偏差低方差模型（例如淺樹） | --- ### Support Vector Machine（SVM） | 項目 | 說明 | |--------|----------------------------------------------------| | 類型 | 最大邊界分類器 | | 原理 | 尋找使不同類別間距最大的**超平面** | | 優點 | 適合中小型資料，能處理非線性（使用 kernel） | | 缺點 | 計算成本高，需要調整核函數與參數 | | 適用情境 | **高維**、清晰可分之分類任務（如文字分類） | #### 核函數的兩大功能 | 功能 | 說明 | |----------|----------------------------------------------------------------------------| | 映射到高維 | 不需顯式計算高維向量，透過 Kernel Trick 計算兩點的內積即可 | | 保持計算效率 | 即使映射到無限維空間，也能維持原本的計算複雜度 | --- ### Linear Regression（線性回歸） | 項目 | 說明 | |------------|------------------------------------------------------------------| | 類型 | 迴歸模型（Regression） | | 原理 | 建立輸入特徵 X 與連續變數 y 之間的線性關係，目標是最小化平方誤差 | | 損失函數 | 均方誤差（MSE）：$\text{MSE} = \frac{1}{n} \sum (y - \hat{y})^2$ | | 優點 | 簡單直觀、可解釋性強、計算快速 | | 缺點 | 無法處理非線性問題、對異常值敏感、特徵共線性可能導致不穩定結果 | | 適用情境 | 房價預測、銷售預測、工業參數建模等連續型輸出場景 | --- ### Logistic Regression（邏輯回歸） | 項目 | 說明 | |------------|----------------------------------------------------------------| | 類型 | 分類模型（Classification） | | 原理 | 將線性回歸輸出通過 Sigmoid 函數壓縮到 [0, 1] 區間，預測為某類的機率 | | 損失函數 | 交叉熵（Cross Entropy）：適用於二元分類任務 | | 優點 | 可解釋性強、適合小型資料集、訓練快速穩定 | | 缺點 | 無法擬合非線性邊界、處理多分類時需延伸為 OvR 或 Softmax | | 適用情境 | 信用預測、疾病風險預測、點擊率預測等二元決策任務 | 📌 注意：雖名為「回歸」，Logistic Regression **本質是分類器**。 ### 🔍 比較簡表：線性 vs 邏輯回歸 | 模型名稱 | 適合任務 | 輸出類型 | 損失函數 | |----------------------|--------------|------------------|-------------------| | Linear Regression | 迴歸 | 連續實數 | MSE（均方誤差） | | Logistic Regression | 分類（二元） | 機率值（0~1） | Cross Entropy（交叉熵） | --- ### Naive Bayes（朴素貝氏分類器） | 項目 | 說明 | |--------|---------------------------------------------------------| | 類型 | 機率式分類模型 | | 原理 | 根據條件機率與貝氏定理進行預測，**假設特徵彼此獨立** | | 優點 | 訓練快速、穩定，適合**文字分類** | | 缺點 | 特徵獨立假設在實務中常不成立 | | 適用情境 | 文字分類（垃圾郵件偵測）、醫療診斷 | ## 非監督式學習模型（Unsupervised Learning Models）非監督式學習的目的是在沒有標籤（label）的情況下，找出資料中的結構、分群或降維。 ### k-Means Clustering（K 均值分群） | 項目 | 說明 | |------|----------------------------------------------------------| | 類型 | 分群演算法 | | 原理 | 將資料分成 K 個群，每筆資料指派到距離最近的群中心 | | 優點 | 計算簡單、效率高 | | 缺點 | 需預先指定 K 值；不適用非球形分佈；對初始值敏感 | | 適用情境 | 客戶分群、圖像壓縮、行為模式辨識 | > 📌 補充：可用 Elbow method 幫助決定最佳 K 值。 --- ### Principal Component Analysis（主成分分析，PCA） | 項目 | 說明 | |------|-------------------------------------------------------------------| | 類型 | 線性降維技術 | | 原理 | 找出資料最大變異方向的主成分向量，保留主要結構 | | 優點 | 加速模型訓練、去除冗餘資訊；可視化高維資料 | | 缺點 | 僅限線性關係；結果不易解釋 | | 適用情境 | 圖像壓縮、特徵選擇、可視化前處理 | > 📌 補充：保留前幾個主成分即可涵蓋大部分資訊（常用累積變異量 ≥ 95% 作為標準）。 --- ### Independent Component Analysis（ICA，獨立成分分析） | 項目 | 說明 | |--------|-----------------------------------------------------------------| | 類型 | 非監督式降維技術（與 PCA 類似，但目標不同） | | 原理 | 將多維資料分解為統計上彼此**獨立**的成分（最大化非高斯性） | | 差異 | 與 PCA 不同：PCA 找的是最大方差方向，ICA 找的是統計獨立成分 | | 優點 | 適用於「訊號分離」任務，如聲音混合源分離（盲訊號分離）、腦波分析（EEG） | | 缺點 | 結果對輸入尺度與順序敏感、數學推導較複雜 | | 適用情境 | 多通道訊號處理、影像特徵抽取、異常結構辨識 | 📌 範例應用：混合兩段語音訊號 → 用 ICA 分離出各自原始來源（Blind Source Separation） --- ### Linear Discriminant Analysis（線性判別分析，LDA） | 項目 | 說明 | |------|------------------------------------------------------------------| | 類型 | 有==標籤==的降維方法（但常用於特徵提取） | | 原理 | 找出類別間差異最大的投影方向 | | 優點 | 可提升分類表現；與 PCA 相比更注重類別資訊 | | 缺點 | 假設資料為常態分佈且共變異矩陣相等 | | 適用情境 | 特徵降維 + 分類任務前處理（如臉部辨識） | > 📌 註：雖有監督資訊，但常與非監督方法搭配視為降維技術使用。 --- ### LSA（Latent Semantic Analysis，潛在語意分析） | 項目 | 說明 | |----------|------------------------------------------------------------------------| | 類型 | 語意降維方法（屬於詞彙表示學習技術） | | 原理 | 將詞-文件矩陣透過==SVD分解==，找出**潛在語意結構**與主成分空間 | | 輸入資料 | 詞頻矩陣、TF-IDF 向量 | | 輸出形式 | 將每個詞與文件投影到較低維度的「語意空間」 | | 優點 | 去除同義詞冗餘、降低噪音、找出潛藏語意；可用於**搜尋相似文件、語意分類、主題分析** | | 缺點 | 無法處理詞序與多義詞；SVD 計算複雜度高，不易動態擴充 | 📌 常用於：搜尋引擎、主題聚類、資訊檢索中的「語意相似性比對」 --- ### MDS（Multidimensional Scaling，多維尺度分析） | 項目 | 說明 | |----------|------------------------------------------------------------------------| | 類型 | 可視化導向的非監督式降維技術 | | 原理 | 根據任意「距離矩陣」，在低維空間中找出點與點之間距離最接近的投影位置 | | 輸入資料 | 預先計算好的樣本間距離矩陣（如歐氏距離、餘弦距離、編碼距離） | | 輸出形式 | 2D / 3D 空間中樣本點的位置，用於視覺化展示樣本分布結構 | | 優點 | 不依賴資料型態，支援非線性關係，可處理自定義距離；適合**詞向量、樣本聚類後之視覺解釋** | | 缺點 | 資料量大時計算距離矩陣成本高，擴展性較差 | 📌 常見用途：降維可視化（與 t-SNE、PCA 並列），理解樣本聚類效果或距離結構 --- ### Autoencoder（自編碼器） | 項目 | 說明 | |--------|----------------------------------------------------------------| | 類型 | 非監督式神經網路（屬於特徵學習與==降維==工具） | | 結構 | Encoder（壓縮） + Decoder（還原），學習將輸入映射為低維潛在空間 | | 原理 | 最小化重建誤差 | | 優點 | 可學習非線性特徵，擴展性高，可與 CNN / LSTM 結合 | | 缺點 | 訓練需較多資料，調參繁瑣，無法直接解釋潛在空間意義 | | 適用情境 | 資料降維、影像重建、異常檢測、生成模型（延伸為 VAE, GAN 等） | 📌 擴展版本： - **VAE（變分自編碼器）**：加入概率建模，可生成類似原資料的新樣本 - **Denoising Autoencoder**：可用於去噪，提升特徵穩定性 - **Sparse Autoencoder**：提升稀疏性與特徵選擇能力 --- ### Gaussian Mixture Model（高斯混合模型，GMM） | 項目 | 說明 | |------|------------------------------------------------------------------------| | 類型 | 機率式==分群==模型 | | 原理 | 假設資料由多個高斯分佈混合而成，使用期望最大化（EM）估計參數 | | 優點 | 能處理不同形狀、大小的群體；分群結果**具機率解釋力** | | 缺點 | 對初始值與樣本比例敏感；計算較慢 | | 適用情境 | 客戶分群、異常偵測、語音識別（常用於 HMM 的 emission model） | --- ### t-SNE（t-分佈隨機鄰域嵌入） | 項目 | 說明 | |------|----------------------------------------------------------------------| | 類型 | 非線性**降維**與視覺化方法 | | 原理 | 維持高維空間中資料點的相對距離，在 2D/3D 空間展現局部結構 | | 優點 | 非常適合資料可視化（找出分群或離群樣本） | | 缺點 | 不適合做模型輸入；計算成本高；無法泛化到新資料 | | 適用情境 | 表徵可視化（如圖像分類特徵）、樣本群聚檢視 | > 📌 常與 PCA 搭配（PCA → t-SNE）進行加速與穩定性提升。 --- ### Hidden Markov Model（隱馬可夫模型，HMM）🔥 | 項目 | 說明 | |------|--------------------------------------------------------------------| | 類型 | 機率式序列模型 | | 原理 | 隱藏狀態組成馬可夫鏈 + 可觀察輸出，透過轉移機率與發射機率建模序列行為 | | 優點 | 能建模==時間序列==；適用於語音、金融、自然語言 | | 缺點 | 假設條件強、狀態難以解釋；參數估計依賴 EM | | 適用情境 | POS tagging、語音辨識、行為預測、基因序列建模 | --- ### 🔹 SVD（Singular Value Decomposition，奇異值分解） | 項目 | 說明 | |--------|----------------------------------------------------------------------| | 類型 | 非監督式學習 / 線性代數==降維==技術 | | 原理 | 將資料矩陣分解為三個矩陣：$A = U \Sigma V^T$，保留主成分壓縮資料 | | 應用 | - LSA（潛在語意分析） - 圖像壓縮 / 特徵提取 / 推薦系統矩陣補全（如 Netflix） | | 優點 | 數學理論穩固，可提取潛在結構，降低維度、去除冗餘 | | 缺點 | 無法建模非線性資料、計算成本高於 PCA、無法動態擴充 | 📌 常與 LSA、PCA 並列為常見降維方式。無需標籤，屬非監督學習技術。 --- ### 🔹 LOF（Local Outlier Factor，局域離群因子） | 項目 | 說明 | |--------|----------------------------------------------------------------------| | 類型 | 非監督式==異常偵測模型== | | 原理 | 根據每筆資料與鄰近樣本的密度比較，判定其是否落在「密度稀疏區域」→ 若密度顯著低則視為離群 | | 運作步驟 | 1. 對每筆樣本計算 k 個鄰近點 2. 比較局部密度 3. 產生離群分數（LOF score） | | 應用 | - 資安異常偵測（入侵、詐欺） - 感測器故障 / 工控系統監控 - 不平衡資料下的潛在異常檢出 | | 優點 | 無需標籤、能發現局部離群點、適用於高維資料 | | 缺點 | 對距離敏感、k 值設定會影響結果、計算成本高於 Isolation Forest 等方法 | 📌 適合應用在資料標籤不足或難以明確定義異常的場景中。 --- ## 強化學習（Reinforcement Learning）強化學習是一種讓智能體（Agent）在環境中透過試誤與回饋獎勵來學習最佳策略（Policy）的方式。 ### Q-Learning / Bellman Equation | 項目 | 說明 | |----------------|--------------------------------------------------------------------| | Q-Learning | 基於動態規劃的值函數學習方法，用 Q-Table 記錄每個狀態-動作對應的期望回報 | | Bellman Equation | 定義 Q 值的遞迴關係，為 Q-Learning 的核心理論基礎 | > 📌 適用於：小型離散空間控制問題（如迷宮、網格導航） --- ### Model-Free vs. Model-Based | 類型 | 說明 | 優點 | 缺點 | |------------|------------------------------------------------------|-----------------------------------|-----------------------------------| | Model-Free | 不建立環境模型，只透過試誤學習策略或值函數 | 簡單直接 | 效率低 | | Model-Based| 建立環境轉移模型，透過模擬來預測與規劃行動 | 資料效率高、可規劃 | 模型錯誤會影響決策 | > 📌 補充： > - DQN、Policy Gradient 屬常見 Model-Free 方法 > - AlphaGo 中的 MCTS 結合 Model-Based 與深度學習 --- ### Epsilon-Greedy（ε-貪婪策略） | 項目 | 說明 | |------|--------------------------------------------------------------------| | 原理 | 在學習初期以**機率 ε** 隨機探索（exploration），其餘時間選擇已知最好的動作（exploitation） | | 意義 | 平衡探索與利用，避免陷入局部最優解 | | 實作 | ε 通常會逐步遞減（例如從 1 → 0.1） | --- ### Policy Gradient（策略梯度） | 項目 | 說明 | |------|--------------------------------------------| | 類型 | 直接學習最佳策略函數 | | 特性 | 適合連續動作空間；可學習隨機策略 | > 📌 代表方法：REINFORCE、Actor-Critic、PPO（Proximal Policy Optimization） --- ### DQN（Deep Q-Network） + Experience Replay | 項目 | 說明 | |------------------|--------------------------------------------------------------------| | 原理 | 將 Q-Learning 結合深度神經網路，用 NN 預測 Q 值 | | Experience Replay | 將歷史經驗 (state, action, reward, next_state) 儲存進記憶池，隨機抽取批次訓練 → 打破樣本相關性，提高穩定性 | | 特點 | 支援高維輸入（如圖片）、泛化力強 | > 📌 DQN 論文補充技巧： > - Target Network：使用延遲更新的目標網路來穩定學習 > - ε-Greedy 策略與 Replay Buffer 是訓練穩定性關鍵 --- ### 其他強化學習概念 - **RLHF（Reinforcement Learning with ==Human== Feedback）** 結合人類回饋訓練 AI，使其生成結果更貼近人類偏好（如 ChatGPT 微調階段）。 - **理性行為 AI（Rational Agent）** 以==最大化報酬==為目標的 Agent 設計，核心即強化學習的策略學習。 - **有限記憶 AI（Finite Memory Agent）** 利用過往歷史（如過去幾步）資訊進行決策，常見於時間序列預測、自動駕駛等具時序依賴場景。 ## 時間序列模型（Time Series Models）時間序列模型的目標是根據時間順序排列的歷史資料，預測未來趨勢、值或事件。 ### ARIMA（AutoRegressive Integrated Moving Average） | 項目 | 說明 | |----------|--------------------------------------------------------------------| | 類型 | 傳統統計模型 | | 組成 | 結合三部分：AR（自迴歸）、I（差分去趨勢）、MA（移動平均） | | 訓練需求 | 資料需為穩態（stationary）時間序列 | | 優點 | 理論成熟、可解釋性高 | | 缺點 | 無法處理非線性、需手動設參數（p, d, q） | | 適用場景 | 財經股價預測、氣象趨勢、需求預估（短期） | > 📌 常用變體：SARIMA（加上季節性 S） --- ### Prophet（臉書開源時間序列預測模型） | 項目 | 說明 | |----------|---------------------------------------------------------| | 類型 | 加法模型（trend + seasonality + holiday） | | 設計者 | Facebook 開源 | | 優點 | 使用簡單、自動建模、處理缺失值與異常值能力強 | | 缺點 | 適用於中長期預測，對極度非線性資料效果有限 | | 適用場景 | 市場活動預測、人流量、業績季節波動預估 | --- ### Temporal Convolutional Network（TCN，時間卷積網路） | 項目 | 說明 | |----------|------------------------------------------------------------| | 類型 | 深度學習模型 | | 結構特點 | 1D 卷積 + 擴張卷積（dilated conv） + 因果性（causal） | | 優點 | 並行計算快於 RNN，捕捉長期依賴能力強，不會因序列長度過長而遺忘 | | 缺點 | 訓練資料需求高，需要較多資源與調參 | | 適用場景 | 高頻金融預測、IoT 感測數據、語音辨識、序列分類 | > 📌 補充： > - 因果性保證模型不會「偷看未來」 > - 擴張卷積能擴大感受野（receptive field）→ 模擬長期記憶 ## Neural Networks（神經網路）涵蓋傳統與深度學習架構： | 模型 | 類型 | 說明 | |---------------|----------|-----------------------------------------| | Elman RNN | 時序模型 | 處理序列資料，隱藏層具有回饋結構 | | LSTM | 時序模型 | 長期記憶能力佳，解決 RNN 長期依賴問題 | | R-CNN | 影像偵測 | 基於 CNN 的區域提案＋分類物件偵測 | | Inception | 深度 CNN | 使用多尺度濾波器並行（GoogleNet） | | ResNet | 深度 CNN | 使用==殘差連接==，解決梯度消失問題 | | VGG19 | 深度 CNN | 結構規律、較深層（19 層卷積） | | GAN / Diffusion | 生成模型 | 生成器＋判別器對抗訓練 / 擾動反向擴散 | ## 評估方式與統計檢定 ### 分類任務常用指標（基於混淆矩陣）混淆矩陣（Confusion Matrix）用來呈現分類模型的預測結果與實際標籤的對照： | | 預測 Positive | 預測 Negative | |-----------------|----------------|----------------| | **實際 Positive** | TP（真正例） | FN（假負例） | | **實際 Negative** | FP（假正例） | TN（真負例） | | 指標名稱 | 計算方式 | 解釋 | |----------------|------------------------------------|--------------------------------------------------------------| | **Accuracy** | (TP + TN) / 全部樣本 | 整體**預測正確**比例，適合類別平衡任務 | | **Precision** | TP / (TP + FP) | 預測為正例中，有多少是真的 → 假陽性越少越好 | | **Recall** | TP / (TP + FN) | 真正例中，有多少被抓到 → 假陰性越少越好 | | **F1-Score** | 2 × (Precision × Recall) / (P + R) | Precision 與 Recall 的調和平均，適合類別==不平衡==任務 | | **Specificity**| TN / (TN + FP) | 真負率，在醫療與風險控制任務中很重要 | 📌 注意：在類別不平衡任務（如詐欺偵測、疾病預測）中，**F1-score 與 Recall 通常比 Accuracy 更重要。** --- ### ROC-AUC（Receiver Operating Characteristic – Area Under Curve） ROC 曲線是根據不同閾值下的 TPR（真正率）與 FPR（假正率）繪製而成，AUC 是 ROC 曲線下的面積。 - **AUC = 1** 表示完美分類；**AUC = 0.5** 表示隨機猜測 - 適用於二元分類模型，能評估整體模型能力而非單一閾值下表現 - 常搭配==不平衡==資料集使用（對類別不平衡不敏感） --- ### MAE / MSE / RMSE / MAPE / R²（==迴歸==評估指標）🔥 | 指標 | 全名 | 說明 | 特點 | |-----|-----------------------------|------------------------------------|----------------------------------------| | MAE | Mean Absolute Error | 預測值與實際值之間絕對誤差的平均 | 容易解釋、不對極端值特別敏感 | | MSE | Mean Squared Error | 將誤差平方後平均 | 強調大誤差、放大==異常值影響== | | RMSE| Root Mean Squared Error | 對 MSE 開根號，使單位與原始數據一致 | 解釋性佳、但仍受異常值影響 | | MAPE| Mean Absolute Percentage Error | 平均絕對百分比誤差 | 適合需求百分比解釋，但實際值為 0 時不穩定 | | R² | 決定係數 (Coefficient of Determination) | 解釋變異比例：1 為完美預測，0 為無解釋力 | 可為負值，表示模型表現比隨機猜測還差 | --- ### t-Test / F-Test / Chi-Square Test（統計檢定） | 名稱 | 說明 | 適用情境 | |---------------|------------------------------|----------------------------------| | t-Test | 檢定**兩組平均數**是否有顯著差異 | A/B 測試、模型前後效能比較 | | F-Test | 檢定**多組資料變異數**是否有顯著差異 | 判斷是否適合進行 ANOVA（變異數分析） | | Chi-Square Test (卡方檢定) | 檢定兩個==分類==變數間是否獨立 | 類別型資料分析（如性別 vs 購買行為） | --- ### Pearson Correlation（皮爾森相關係數） | 項目 | 說明 | |--------|-------------------------------------------------------------------------| | 類型 | 相關性分析方法（非檢定） | | 原理 | 衡量兩個==連續變數==之間的線性關係強度與方向（值介於 -1 到 1） | | 計算公式 | $\rho_{X,Y} = \frac{cov(X, Y)}{\sigma_X \sigma_Y}$ | | 解讀 | 趨近 1 → 正相關；趨近 -1 → 負相關；接近 0 → 幾乎無線性相關 | | 應用 | 分析特徵與目標變數關聯性、特徵選擇前篩選、金融變數關聯性判斷等 | 📌 注意： - 適用於連續變數，資料應具常態分佈特性 --- ### Cross-Validation（交叉驗證）交叉驗證將資料切成多組訓練／驗證集反覆評估，提升模型**泛化能力**的估計準確度。 | 類型 | 說明 | |------------------|---------------------------------------| | K-Fold | 將資料分成 K 等分，每次用其中一份做驗證，其餘做訓練 | | Leave-One-Out (LOO) | 每次**僅保留一筆**資料做驗證，其餘做訓練，計算成本高 | | Hold-out | 固定比例切分成 train/test（如 80/20） | > **補充：** K-Fold 最常用（K=5 或 10），常與 Grid Search 一起做參數調優。 --- ### Bias & Variance（偏差與變異）🔥 評估模型學習能力的重要概念： | 概念 | 說明 | 表現特性 | |----------------|--------------------------------|----------------------------------| | **Bias（偏差）** | 模型**預測值與真實值間**的系統性誤差 | 高偏差 → 欠擬合（Underfitting）：模型太簡單，無法學習資料模式 | | **Variance（變異）** | 同一模型在**不同訓練資料**上的結果差異 | 高變異 → 過擬合（Overfitting）：模型過度學習訓練雜訊 | **調整策略：** - 欠擬合 → 增加模型複雜度、加入更多特徵 - 過擬合 → 加入正則化、Dropout、Early Stopping 等技巧 #### 過擬合（Overfitting）與正則化 - **過擬合**：模型在訓練集表現極佳，但在測試集表現不佳，原因是模型過度擬合訓練資料的雜訊。 - **正則化（Regularization）**：在損失函數中加入**懲罰項**（L1 / L2），抑制權重過大，使模型更簡潔，減少過擬合風險。 --- ### 激活函數（Activation Functions）激活函數的目的在於引入==非線性==能力，讓神經網路能學習複雜的模式與邏輯。決定神經元是否「啟用」，激活函數控制每個神經元輸出： - 若輸出接近 0，表示神經元「不啟用」 - 若輸出大，表示神經元對當前輸入「有反應」這種機制類似於「資訊過濾器」或「觸發器」，幫助網路專注在重要特徵。 | 函數 | 輸出範圍 | 中心對稱 | 梯度消失問題 | 是否易計算 | 適用場景 | |-------|----------|--------|--------------|-----------|--------------------| | Sigmoid | (0, 1) | 否 | 是 | 中等 | 二分類輸出層 | | tanh | (-1, 1) | 是 | 是 | 中等 | RNN 隱藏層 | | ReLU | [0, ∞) | 否 | 否（x > 0） | 高效 | CNN、DNN 隱藏層 | ## 模型優化與訓練技巧 ### Gradient Descent / SGD（梯度下降與隨機梯度下降） | 方法 | 說明 | |----------------------|----------------------------------------------------------------------| | Gradient Descent | 基於整個訓練資料計算損失函數的梯度，用來更新參數。收斂穩定但計算量大。 | | SGD（Stochastic Gradient Descent） | 每次**只使用一筆**（或小批次）資料計算梯度，速度快但波動較大。常用於深度學習訓練。 | > 📌 補充：SGD 通常搭配 Momentum 或 Batch Normalization 使用。 --- ### Momentum / Nesterov（動量與奈斯特洛夫動量） | 方法 | 原理與特性 | |----------|----------------------------------------------------------------------------| | Momentum | 引入過去梯度的累積方向，模擬物理中的**動量**，加快收斂並避免震盪。 | | Nesterov | 先預測下一步位置再計算梯度，更準確地調整方向。 | --- ### Batch Normalization（批次正規化） Batch Normalization（簡稱 BN）是一種在神經網路訓練中常用的**正規化技術**，可加速收斂、穩定訓練，並降低對初始化參數與學習率的敏感度。 #### 📌 作用與目的 - 將每一層的輸出（activation）在 mini-batch 上正規化為**均值為 0、標準差為 1** - 緩解 **Internal Covariate Shift（內部協變偏移）** - 加速模型訓練、提高穩定性 - 可視為一種正則化方式，具有輕微防止過擬合的效果 --- ### Learning Rate Decay（學習率衰減） - **說明**：動態降低學習率，有助於模型在訓練後期穩定收斂，避免 overshoot。 - **常見策略**： - Step Decay（每隔固定 epoch 降低） - Exponential Decay（指數遞減） - Cosine Annealing（餘弦函數遞減） --- ### Gradient Clipping（梯度截斷） - **說明**：當梯度過大（爆炸）時將其限制在指定範圍，防止訓練不穩定。 - **常用於**：RNN、LSTM 等序列模型。 --- ### Regularization (L1, L2)（正則化）功能：在損失函數中加入==懲罰項==，限制模型複雜度，減少過擬合。 | 比較項目 | L1 正則化（Lasso） | L2 正則化（Ridge） | |----------|-----------------------------------|-----------------------------------| | 懲罰方式 | 懲罰權重絕對值 | 懲罰權重平方值 | | 結果傾向 | 使部分權重變為 0（稀疏模型） | 權重趨近 0 但不會變成 0 | | 特徵選擇 | ✅ 自動特徵選擇 | ❌ 無法自動捨棄特徵 | | 模型可解釋性 | 較高（少數非零特徵） | 較低（所有特徵皆有權重） | | 計算穩定性 | 對資料變化較敏感 | 較穩定，適合多重共線性資料 | | 適用情境 | 特徵多但部分重要（如文本） | 所有特徵可能都重要，需平滑處理 | - 用 L1（Lasso）讓「不重要的特徵消失」 - 用 L2（Ridge）讓「所有特徵都有參與，但不太極端」 - 如不確定可用 Elastic Net（結合 L1 + L2） --- ### Early Stopping（提前停止） - **說明**：當驗證集表現長期未改善時提前終止訓練，避免過擬合。 - **常用參數**： - `patience`：連續幾個 epoch 未改善才停止 - `restore_best_weights`：恢復最佳權重 --- ### Hyperparameter Search（超參數搜尋） | 方法 | 特性 | |------------|---------------------------------------------| | Grid Search | 列出**所有可能**組合進行窮舉搜尋，適用小參數空間。 | | Random Search| 隨機抽樣參數空間，效率高於 Grid Search，適用大範圍搜尋。 | > 📌 可搭配交叉驗證（Cross-Validation）使用。 --- ### Cosine Annealing（餘弦退火學習率） - **說明**：學習率依餘弦函數週期性下降，有助於後期精細學習。 - **應用**：常見於 ResNet、SGDR（帶重啟的 SGD） --- ### Cross Entropy Loss（交叉熵損失 / Log Loss） - **用途**：==分類==問題，衡量預測機率分布與實際標籤差異。 - **特性**：數值越小預測越準確，常與 Softmax 搭配使用。 --- ## 其他 ### 鏈式法則（Chain Rule in Backpropagation） - **用途**：在反向傳播中逐層計算梯度，更新**權重**。 --- ### Hessian（海森矩陣） - **定義**：二階導數矩陣，描述函數彎曲程度。 - **應用**：牛頓法等二階優化演算法。 --- ### Jacobian（雅可比矩陣） - **定義**：向量值函數一階偏導矩陣。 - **用途**：自動微分與敏感度分析。 --- ### SHAP（SHapley Additive exPlanations） | 項目 | 說明 | |------|------------------------------------------------------------------| | 類型 | 模型**解釋**方法 | | 原理 | 用遊戲理論 Shapley value 衡量每個特徵對單一預測的貢獻 | | 優點 | 解釋性強、可對每筆樣本進行分析、視覺化效果佳 | | 應用 | 特徵重要性排序、醫療模型審查、金融風險解釋 | | 補充 | 支援黑箱/白箱模型 | --- ### Bayesian Optimization + Acquisition Function - **用途**：黑箱函數最佳化中的超參數調整與實驗設計 - **原理**：利用 Acquisition Function（如 UCB、EI）評估當前參數空間中最佳下一步探索點