## 監督式學習模型(Supervised Learning Models) 監督式學習的目的是在給定「輸入資料」與「對應標籤」的情況下,訓練模型使其學會從輸入中預測正確標籤。 --- ### k-Nearest Neighbors (KNN) | 項目 | 說明 | |--------|--------------------------------------------------------------------| | 類型 | 基於距離的分類演算法 | | 原理 | 根據輸入樣本在特徵空間中與訓練樣本的距離,選出最近的 K 個鄰居,多數決決定類別 | | 優點 | 實作簡單、無需訓練 | | 缺點 | 計算成本高、對高維資料不利(維度災難) | | 適用情境 | 資料量小、結構清楚;如手寫辨識、推薦系統(簡易版) | --- ### Perceptron(感知機) | 項目 | 說明 | |--------|----------------------------| | 類型 | 單層神經網路 | | 原理 | 線性分類器,使用加權和加閾值進行預測 | | 優點 | 理論基礎簡單 | | 缺點 | 僅能處理線性可分問題 | | 適用情境 | 理解神經網路原理、教學用途 | --- ### Decision Tree(決策樹) | 項目 | 說明 | |--------|----------------------------------------------| | 類型 | 規則式模型 | | 原理 | 根據特徵分割資料,構造樹狀結構進行預測 | | 優點 | ==解釋性佳==、可處理類別與數值資料 | | 缺點 | 易過擬合,樹深影響穩定性 | | 適用情境 | 權重不均分類任務、特徵數量不多時效果佳 | #### 如何選擇最佳分裂特徵? | 指標 | 適用任務 | 說明 | |---------------------------------|--------|----------------------------| | Information Gain(資訊增益) | 分類 | 使用熵(Entropy)衡量純度提升 | | Gini Impurity(基尼不純度) | 分類 | 評估隨機取一樣本被誤分類的機率 | | Variance Reduction(變異數下降) | 迴歸 | 減少資料分裂後的變異數 | --- ### Random Forest(隨機森林)【Bagging】 | 項目 | 說明 | |--------|-----------------------------------------------| | 類型 | ==集成學習(Bagging)== | | 原理 | 建立多棵隨機決策樹後**投票或平均輸出** | | 優點 | 穩定性佳、不易過擬合、可取得特徵重要性 | | 缺點 | 模型結構不易整體解釋 | | 適用情境 | 分類/迴歸通用;容忍缺失值 | --- ### Isolation Forest(孤立森林) | 項目 | 說明 | |------|----------------------------------------------------------| | 類型 | 非監督式==異常偵測模型== | | 原理 | 隨機選特徵和切分點,異常值較易被「孤立」 | | 特點 | 計算快速、適合高維、可視為樹模型變形 | | 應用 | 資安偵測、交易詐欺分析、設備異常預測 | | 補充 | 輕量但有效的 anomaly detection 方法 | --- ### Gradient Boosting(GBDT / XGBoost / AdaBoost) | 模型 | 說明 | |---------|--------------------------------------------------| | GBDT | 漸進式訓練決策樹,每棵新樹**修正**前一棵的錯誤 | | XGBoost | GBDT 的高效實作,支援**正則化與剪枝** | | AdaBoost| 對錯誤預測的樣本給予較高權重,聚焦難分類的樣本 | 📌 **特性比較:** | 模型 | 優點 | 缺點 | |-------|------------------------|------------------| | GBDT | 效能強、泛化力好 | 訓練較慢 | | XGBoost | 快速、高效、參數豐富 | 結構較複雜 | | AdaBoost| 容易增強簡單模型 | 對雜訊較敏感 | --- ### Bagging VS. Boosting | 特性 | Bagging | Boosting | | ------ | ------------------ | ------------------------ | | 主要目標 | **降低方差**(Variance) | **降低偏差**(Bias),同時也可能降低方差 | | 抗過擬合能力 | 強(因為平均多個高方差模型) | 較弱(可能過度關注難分類樣本而過擬合) | | 適用情況 | 高方差低偏差模型(例如深樹) | 高偏差低方差模型(例如淺樹) | --- ### Support Vector Machine(SVM) | 項目 | 說明 | |--------|----------------------------------------------------| | 類型 | 最大邊界分類器 | | 原理 | 尋找使不同類別間距最大的**超平面** | | 優點 | 適合中小型資料,能處理非線性(使用 kernel) | | 缺點 | 計算成本高,需要調整核函數與參數 | | 適用情境 | **高維**、清晰可分之分類任務(如文字分類) | #### 核函數的兩大功能 | 功能 | 說明 | |----------|----------------------------------------------------------------------------| | 映射到高維 | 不需顯式計算高維向量,透過 Kernel Trick 計算兩點的內積即可 | | 保持計算效率 | 即使映射到無限維空間,也能維持原本的計算複雜度 | --- ### Linear Regression(線性回歸) | 項目 | 說明 | |------------|------------------------------------------------------------------| | 類型 | 迴歸模型(Regression) | | 原理 | 建立輸入特徵 X 與連續變數 y 之間的線性關係,目標是最小化平方誤差 | | 損失函數 | 均方誤差(MSE):$\text{MSE} = \frac{1}{n} \sum (y - \hat{y})^2$ | | 優點 | 簡單直觀、可解釋性強、計算快速 | | 缺點 | 無法處理非線性問題、對異常值敏感、特徵共線性可能導致不穩定結果 | | 適用情境 | 房價預測、銷售預測、工業參數建模等連續型輸出場景 | --- ### Logistic Regression(邏輯回歸) | 項目 | 說明 | |------------|----------------------------------------------------------------| | 類型 | 分類模型(Classification) | | 原理 | 將線性回歸輸出通過 Sigmoid 函數壓縮到 [0, 1] 區間,預測為某類的機率 | | 損失函數 | 交叉熵(Cross Entropy):適用於二元分類任務 | | 優點 | 可解釋性強、適合小型資料集、訓練快速穩定 | | 缺點 | 無法擬合非線性邊界、處理多分類時需延伸為 OvR 或 Softmax | | 適用情境 | 信用預測、疾病風險預測、點擊率預測等二元決策任務 | 📌 注意:雖名為「回歸」,Logistic Regression **本質是分類器**。 ### 🔍 比較簡表:線性 vs 邏輯回歸 | 模型名稱 | 適合任務 | 輸出類型 | 損失函數 | |----------------------|--------------|------------------|-------------------| | Linear Regression | 迴歸 | 連續實數 | MSE(均方誤差) | | Logistic Regression | 分類(二元) | 機率值(0~1) | Cross Entropy(交叉熵) | --- ### Naive Bayes(朴素貝氏分類器) | 項目 | 說明 | |--------|---------------------------------------------------------| | 類型 | 機率式分類模型 | | 原理 | 根據條件機率與貝氏定理進行預測,**假設特徵彼此獨立** | | 優點 | 訓練快速、穩定,適合**文字分類** | | 缺點 | 特徵獨立假設在實務中常不成立 | | 適用情境 | 文字分類(垃圾郵件偵測)、醫療診斷 | ## 非監督式學習模型(Unsupervised Learning Models) 非監督式學習的目的是在沒有標籤(label)的情況下,找出資料中的結構、分群或降維。 ### k-Means Clustering(K 均值分群) | 項目 | 說明 | |------|----------------------------------------------------------| | 類型 | 分群演算法 | | 原理 | 將資料分成 K 個群,每筆資料指派到距離最近的群中心 | | 優點 | 計算簡單、效率高 | | 缺點 | 需預先指定 K 值;不適用非球形分佈;對初始值敏感 | | 適用情境 | 客戶分群、圖像壓縮、行為模式辨識 | > 📌 補充:可用 Elbow method 幫助決定最佳 K 值。 --- ### Principal Component Analysis(主成分分析,PCA) | 項目 | 說明 | |------|-------------------------------------------------------------------| | 類型 | 線性降維技術 | | 原理 | 找出資料最大變異方向的主成分向量,保留主要結構 | | 優點 | 加速模型訓練、去除冗餘資訊;可視化高維資料 | | 缺點 | 僅限線性關係;結果不易解釋 | | 適用情境 | 圖像壓縮、特徵選擇、可視化前處理 | > 📌 補充:保留前幾個主成分即可涵蓋大部分資訊(常用累積變異量 ≥ 95% 作為標準)。 --- ### Independent Component Analysis(ICA,獨立成分分析) | 項目 | 說明 | |--------|-----------------------------------------------------------------| | 類型 | 非監督式降維技術(與 PCA 類似,但目標不同) | | 原理 | 將多維資料分解為統計上彼此**獨立**的成分(最大化非高斯性) | | 差異 | 與 PCA 不同:PCA 找的是最大方差方向,ICA 找的是統計獨立成分 | | 優點 | 適用於「訊號分離」任務,如聲音混合源分離(盲訊號分離)、腦波分析(EEG) | | 缺點 | 結果對輸入尺度與順序敏感、數學推導較複雜 | | 適用情境 | 多通道訊號處理、影像特徵抽取、異常結構辨識 | 📌 範例應用:混合兩段語音訊號 → 用 ICA 分離出各自原始來源(Blind Source Separation) --- ### Linear Discriminant Analysis(線性判別分析,LDA) | 項目 | 說明 | |------|------------------------------------------------------------------| | 類型 | 有==標籤==的降維方法(但常用於特徵提取) | | 原理 | 找出類別間差異最大的投影方向 | | 優點 | 可提升分類表現;與 PCA 相比更注重類別資訊 | | 缺點 | 假設資料為常態分佈且共變異矩陣相等 | | 適用情境 | 特徵降維 + 分類任務前處理(如臉部辨識) | > 📌 註:雖有監督資訊,但常與非監督方法搭配視為降維技術使用。 --- ### LSA(Latent Semantic Analysis,潛在語意分析) | 項目 | 說明 | |----------|------------------------------------------------------------------------| | 類型 | 語意降維方法(屬於詞彙表示學習技術) | | 原理 | 將詞-文件矩陣透過==SVD分解==,找出**潛在語意結構**與主成分空間 | | 輸入資料 | 詞頻矩陣、TF-IDF 向量 | | 輸出形式 | 將每個詞與文件投影到較低維度的「語意空間」 | | 優點 | 去除同義詞冗餘、降低噪音、找出潛藏語意;可用於**搜尋相似文件、語意分類、主題分析** | | 缺點 | 無法處理詞序與多義詞;SVD 計算複雜度高,不易動態擴充 | 📌 常用於:搜尋引擎、主題聚類、資訊檢索中的「語意相似性比對」 --- ### MDS(Multidimensional Scaling,多維尺度分析) | 項目 | 說明 | |----------|------------------------------------------------------------------------| | 類型 | 可視化導向的非監督式降維技術 | | 原理 | 根據任意「距離矩陣」,在低維空間中找出點與點之間距離最接近的投影位置 | | 輸入資料 | 預先計算好的樣本間距離矩陣(如歐氏距離、餘弦距離、編碼距離) | | 輸出形式 | 2D / 3D 空間中樣本點的位置,用於視覺化展示樣本分布結構 | | 優點 | 不依賴資料型態,支援非線性關係,可處理自定義距離;適合**詞向量、樣本聚類後之視覺解釋** | | 缺點 | 資料量大時計算距離矩陣成本高,擴展性較差 | 📌 常見用途:降維可視化(與 t-SNE、PCA 並列),理解樣本聚類效果或距離結構 --- ### Autoencoder(自編碼器) | 項目 | 說明 | |--------|----------------------------------------------------------------| | 類型 | 非監督式神經網路(屬於特徵學習與==降維==工具) | | 結構 | Encoder(壓縮) + Decoder(還原),學習將輸入映射為低維潛在空間 | | 原理 | 最小化重建誤差 | | 優點 | 可學習非線性特徵,擴展性高,可與 CNN / LSTM 結合 | | 缺點 | 訓練需較多資料,調參繁瑣,無法直接解釋潛在空間意義 | | 適用情境 | 資料降維、影像重建、異常檢測、生成模型(延伸為 VAE, GAN 等) | 📌 擴展版本: - **VAE(變分自編碼器)**:加入概率建模,可生成類似原資料的新樣本 - **Denoising Autoencoder**:可用於去噪,提升特徵穩定性 - **Sparse Autoencoder**:提升稀疏性與特徵選擇能力 --- ### Gaussian Mixture Model(高斯混合模型,GMM) | 項目 | 說明 | |------|------------------------------------------------------------------------| | 類型 | 機率式==分群==模型 | | 原理 | 假設資料由多個高斯分佈混合而成,使用期望最大化(EM)估計參數 | | 優點 | 能處理不同形狀、大小的群體;分群結果**具機率解釋力** | | 缺點 | 對初始值與樣本比例敏感;計算較慢 | | 適用情境 | 客戶分群、異常偵測、語音識別(常用於 HMM 的 emission model) | --- ### t-SNE(t-分佈隨機鄰域嵌入) | 項目 | 說明 | |------|----------------------------------------------------------------------| | 類型 | 非線性**降維**與視覺化方法 | | 原理 | 維持高維空間中資料點的相對距離,在 2D/3D 空間展現局部結構 | | 優點 | 非常適合資料可視化(找出分群或離群樣本) | | 缺點 | 不適合做模型輸入;計算成本高;無法泛化到新資料 | | 適用情境 | 表徵可視化(如圖像分類特徵)、樣本群聚檢視 | > 📌 常與 PCA 搭配(PCA → t-SNE)進行加速與穩定性提升。 --- ### Hidden Markov Model(隱馬可夫模型,HMM)🔥 | 項目 | 說明 | |------|--------------------------------------------------------------------| | 類型 | 機率式序列模型 | | 原理 | 隱藏狀態組成馬可夫鏈 + 可觀察輸出,透過轉移機率與發射機率建模序列行為 | | 優點 | 能建模==時間序列==;適用於語音、金融、自然語言 | | 缺點 | 假設條件強、狀態難以解釋;參數估計依賴 EM | | 適用情境 | POS tagging、語音辨識、行為預測、基因序列建模 | --- ### 🔹 SVD(Singular Value Decomposition,奇異值分解) | 項目 | 說明 | |--------|----------------------------------------------------------------------| | 類型 | 非監督式學習 / 線性代數==降維==技術 | | 原理 | 將資料矩陣分解為三個矩陣:$A = U \Sigma V^T$,保留主成分壓縮資料 | | 應用 | - LSA(潛在語意分析)<br>- 圖像壓縮 / 特徵提取 / 推薦系統矩陣補全(如 Netflix) | | 優點 | 數學理論穩固,可提取潛在結構,降低維度、去除冗餘 | | 缺點 | 無法建模非線性資料、計算成本高於 PCA、無法動態擴充 | 📌 常與 LSA、PCA 並列為常見降維方式。無需標籤,屬非監督學習技術。 --- ### 🔹 LOF(Local Outlier Factor,局域離群因子) | 項目 | 說明 | |--------|----------------------------------------------------------------------| | 類型 | 非監督式==異常偵測模型== | | 原理 | 根據每筆資料與鄰近樣本的密度比較,判定其是否落在「密度稀疏區域」→ 若密度顯著低則視為離群 | | 運作步驟 | 1. 對每筆樣本計算 k 個鄰近點<br>2. 比較局部密度<br>3. 產生離群分數(LOF score) | | 應用 | - 資安異常偵測(入侵、詐欺)<br>- 感測器故障 / 工控系統監控<br>- 不平衡資料下的潛在異常檢出 | | 優點 | 無需標籤、能發現局部離群點、適用於高維資料 | | 缺點 | 對距離敏感、k 值設定會影響結果、計算成本高於 Isolation Forest 等方法 | 📌 適合應用在資料標籤不足或難以明確定義異常的場景中。 --- ## 強化學習(Reinforcement Learning) 強化學習是一種讓智能體(Agent)在環境中透過試誤與回饋獎勵來學習最佳策略(Policy)的方式。 ### Q-Learning / Bellman Equation | 項目 | 說明 | |----------------|--------------------------------------------------------------------| | Q-Learning | 基於動態規劃的值函數學習方法,用 Q-Table 記錄每個狀態-動作對應的期望回報 | | Bellman Equation | 定義 Q 值的遞迴關係,為 Q-Learning 的核心理論基礎 | > 📌 適用於:小型離散空間控制問題(如迷宮、網格導航) --- ### Model-Free vs. Model-Based | 類型 | 說明 | 優點 | 缺點 | |------------|------------------------------------------------------|-----------------------------------|-----------------------------------| | Model-Free | 不建立環境模型,只透過試誤學習策略或值函數 | 簡單直接 | 效率低 | | Model-Based| 建立環境轉移模型,透過模擬來預測與規劃行動 | 資料效率高、可規劃 | 模型錯誤會影響決策 | > 📌 補充: > - DQN、Policy Gradient 屬常見 Model-Free 方法 > - AlphaGo 中的 MCTS 結合 Model-Based 與深度學習 --- ### Epsilon-Greedy(ε-貪婪策略) | 項目 | 說明 | |------|--------------------------------------------------------------------| | 原理 | 在學習初期以**機率 ε** 隨機探索(exploration),其餘時間選擇已知最好的動作(exploitation) | | 意義 | 平衡探索與利用,避免陷入局部最優解 | | 實作 | ε 通常會逐步遞減(例如從 1 → 0.1) | --- ### Policy Gradient(策略梯度) | 項目 | 說明 | |------|--------------------------------------------| | 類型 | 直接學習最佳策略函數 | | 特性 | 適合連續動作空間;可學習隨機策略 | > 📌 代表方法:REINFORCE、Actor-Critic、PPO(Proximal Policy Optimization) --- ### DQN(Deep Q-Network) + Experience Replay | 項目 | 說明 | |------------------|--------------------------------------------------------------------| | 原理 | 將 Q-Learning 結合深度神經網路,用 NN 預測 Q 值 | | Experience Replay | 將歷史經驗 (state, action, reward, next_state) 儲存進記憶池,隨機抽取批次訓練 → 打破樣本相關性,提高穩定性 | | 特點 | 支援高維輸入(如圖片)、泛化力強 | > 📌 DQN 論文補充技巧: > - Target Network:使用延遲更新的目標網路來穩定學習 > - ε-Greedy 策略與 Replay Buffer 是訓練穩定性關鍵 --- ### 其他強化學習概念 - **RLHF(Reinforcement Learning with ==Human== Feedback)** 結合人類回饋訓練 AI,使其生成結果更貼近人類偏好(如 ChatGPT 微調階段)。 - **理性行為 AI(Rational Agent)** 以==最大化報酬==為目標的 Agent 設計,核心即強化學習的策略學習。 - **有限記憶 AI(Finite Memory Agent)** 利用過往歷史(如過去幾步)資訊進行決策,常見於時間序列預測、自動駕駛等具時序依賴場景。 ## 時間序列模型(Time Series Models) 時間序列模型的目標是根據時間順序排列的歷史資料,預測未來趨勢、值或事件。 ### ARIMA(AutoRegressive Integrated Moving Average) | 項目 | 說明 | |----------|--------------------------------------------------------------------| | 類型 | 傳統統計模型 | | 組成 | 結合三部分:AR(自迴歸)、I(差分去趨勢)、MA(移動平均) | | 訓練需求 | 資料需為穩態(stationary)時間序列 | | 優點 | 理論成熟、可解釋性高 | | 缺點 | 無法處理非線性、需手動設參數(p, d, q) | | 適用場景 | 財經股價預測、氣象趨勢、需求預估(短期) | > 📌 常用變體:SARIMA(加上季節性 S) --- ### Prophet(臉書開源時間序列預測模型) | 項目 | 說明 | |----------|---------------------------------------------------------| | 類型 | 加法模型(trend + seasonality + holiday) | | 設計者 | Facebook 開源 | | 優點 | 使用簡單、自動建模、處理缺失值與異常值能力強 | | 缺點 | 適用於中長期預測,對極度非線性資料效果有限 | | 適用場景 | 市場活動預測、人流量、業績季節波動預估 | --- ### Temporal Convolutional Network(TCN,時間卷積網路) | 項目 | 說明 | |----------|------------------------------------------------------------| | 類型 | 深度學習模型 | | 結構特點 | 1D 卷積 + 擴張卷積(dilated conv) + 因果性(causal) | | 優點 | 並行計算快於 RNN,捕捉長期依賴能力強,不會因序列長度過長而遺忘 | | 缺點 | 訓練資料需求高,需要較多資源與調參 | | 適用場景 | 高頻金融預測、IoT 感測數據、語音辨識、序列分類 | > 📌 補充: > - 因果性保證模型不會「偷看未來」 > - 擴張卷積能擴大感受野(receptive field)→ 模擬長期記憶 ## Neural Networks(神經網路) 涵蓋傳統與深度學習架構: | 模型 | 類型 | 說明 | |---------------|----------|-----------------------------------------| | Elman RNN | 時序模型 | 處理序列資料,隱藏層具有回饋結構 | | LSTM | 時序模型 | 長期記憶能力佳,解決 RNN 長期依賴問題 | | R-CNN | 影像偵測 | 基於 CNN 的區域提案+分類物件偵測 | | Inception | 深度 CNN | 使用多尺度濾波器並行(GoogleNet) | | ResNet | 深度 CNN | 使用==殘差連接==,解決梯度消失問題 | | VGG19 | 深度 CNN | 結構規律、較深層(19 層卷積) | | GAN / Diffusion | 生成模型 | 生成器+判別器對抗訓練 / 擾動反向擴散 | ## 評估方式與統計檢定 ### 分類任務常用指標(基於混淆矩陣) 混淆矩陣(Confusion Matrix)用來呈現分類模型的預測結果與實際標籤的對照: | | 預測 Positive | 預測 Negative | |-----------------|----------------|----------------| | **實際 Positive** | TP(真正例) | FN(假負例) | | **實際 Negative** | FP(假正例) | TN(真負例) | | 指標名稱 | 計算方式 | 解釋 | |----------------|------------------------------------|--------------------------------------------------------------| | **Accuracy** | (TP + TN) / 全部樣本 | 整體**預測正確**比例,適合類別平衡任務 | | **Precision** | TP / (TP + FP) | 預測為正例中,有多少是真的 → 假陽性越少越好 | | **Recall** | TP / (TP + FN) | 真正例中,有多少被抓到 → 假陰性越少越好 | | **F1-Score** | 2 × (Precision × Recall) / (P + R) | Precision 與 Recall 的調和平均,適合類別==不平衡==任務 | | **Specificity**| TN / (TN + FP) | 真負率,在醫療與風險控制任務中很重要 | 📌 注意:在類別不平衡任務(如詐欺偵測、疾病預測)中,**F1-score 與 Recall 通常比 Accuracy 更重要。** --- ### ROC-AUC(Receiver Operating Characteristic – Area Under Curve) ROC 曲線是根據不同閾值下的 TPR(真正率)與 FPR(假正率)繪製而成,AUC 是 ROC 曲線下的面積。 - **AUC = 1** 表示完美分類;**AUC = 0.5** 表示隨機猜測 - 適用於二元分類模型,能評估整體模型能力而非單一閾值下表現 - 常搭配==不平衡==資料集使用(對類別不平衡不敏感) --- ### MAE / MSE / RMSE / MAPE / R²(==迴歸==評估指標)🔥 | 指標 | 全名 | 說明 | 特點 | |-----|-----------------------------|------------------------------------|----------------------------------------| | MAE | Mean Absolute Error | 預測值與實際值之間絕對誤差的平均 | 容易解釋、不對極端值特別敏感 | | MSE | Mean Squared Error | 將誤差平方後平均 | 強調大誤差、放大==異常值影響== | | RMSE| Root Mean Squared Error | 對 MSE 開根號,使單位與原始數據一致 | 解釋性佳、但仍受異常值影響 | | MAPE| Mean Absolute Percentage Error | 平均絕對百分比誤差 | 適合需求百分比解釋,但實際值為 0 時不穩定 | | R² | 決定係數 (Coefficient of Determination) | 解釋變異比例:1 為完美預測,0 為無解釋力 | 可為負值,表示模型表現比隨機猜測還差 | --- ### t-Test / F-Test / Chi-Square Test(統計檢定) | 名稱 | 說明 | 適用情境 | |---------------|------------------------------|----------------------------------| | t-Test | 檢定**兩組平均數**是否有顯著差異 | A/B 測試、模型前後效能比較 | | F-Test | 檢定**多組資料變異數**是否有顯著差異 | 判斷是否適合進行 ANOVA(變異數分析) | | Chi-Square Test (卡方檢定) | 檢定兩個==分類==變數間是否獨立 | 類別型資料分析(如性別 vs 購買行為) | --- ### Pearson Correlation(皮爾森相關係數) | 項目 | 說明 | |--------|-------------------------------------------------------------------------| | 類型 | 相關性分析方法(非檢定) | | 原理 | 衡量兩個==連續變數==之間的線性關係強度與方向(值介於 -1 到 1) | | 計算公式 | $\rho_{X,Y} = \frac{cov(X, Y)}{\sigma_X \sigma_Y}$ | | 解讀 | 趨近 1 → 正相關;趨近 -1 → 負相關;接近 0 → 幾乎無線性相關 | | 應用 | 分析特徵與目標變數關聯性、特徵選擇前篩選、金融變數關聯性判斷等 | 📌 注意: - 適用於連續變數,資料應具常態分佈特性 --- ### Cross-Validation(交叉驗證) 交叉驗證將資料切成多組訓練/驗證集反覆評估,提升模型**泛化能力**的估計準確度。 | 類型 | 說明 | |------------------|---------------------------------------| | K-Fold | 將資料分成 K 等分,每次用其中一份做驗證,其餘做訓練 | | Leave-One-Out (LOO) | 每次**僅保留一筆**資料做驗證,其餘做訓練,計算成本高 | | Hold-out | 固定比例切分成 train/test(如 80/20) | > **補充:** K-Fold 最常用(K=5 或 10),常與 Grid Search 一起做參數調優。 --- ### Bias & Variance(偏差與變異)🔥 評估模型學習能力的重要概念: | 概念 | 說明 | 表現特性 | |----------------|--------------------------------|----------------------------------| | **Bias(偏差)** | 模型**預測值與真實值間**的系統性誤差 | 高偏差 → 欠擬合(Underfitting):模型太簡單,無法學習資料模式 | | **Variance(變異)** | 同一模型在**不同訓練資料**上的結果差異 | 高變異 → 過擬合(Overfitting):模型過度學習訓練雜訊 | **調整策略:** - 欠擬合 → 增加模型複雜度、加入更多特徵 - 過擬合 → 加入正則化、Dropout、Early Stopping 等技巧 #### 過擬合(Overfitting)與正則化 - **過擬合**:模型在訓練集表現極佳,但在測試集表現不佳,原因是模型過度擬合訓練資料的雜訊。 - **正則化(Regularization)**:在損失函數中加入**懲罰項**(L1 / L2),抑制權重過大,使模型更簡潔,減少過擬合風險。 --- ### 激活函數(Activation Functions) 激活函數的目的在於引入==非線性==能力,讓神經網路能學習複雜的模式與邏輯。決定神經元是否「啟用」,激活函數控制每個神經元輸出: - 若輸出接近 0,表示神經元「不啟用」 - 若輸出大,表示神經元對當前輸入「有反應」 這種機制類似於「資訊過濾器」或「觸發器」,幫助網路專注在重要特徵。 | 函數 | 輸出範圍 | 中心對稱 | 梯度消失問題 | 是否易計算 | 適用場景 | |-------|----------|--------|--------------|-----------|--------------------| | Sigmoid | (0, 1) | 否 | 是 | 中等 | 二分類輸出層 | | tanh | (-1, 1) | 是 | 是 | 中等 | RNN 隱藏層 | | ReLU | [0, ∞) | 否 | 否(x > 0) | 高效 | CNN、DNN 隱藏層 | ## 模型優化與訓練技巧 ### Gradient Descent / SGD(梯度下降與隨機梯度下降) | 方法 | 說明 | |----------------------|----------------------------------------------------------------------| | Gradient Descent | 基於整個訓練資料計算損失函數的梯度,用來更新參數。收斂穩定但計算量大。 | | SGD(Stochastic Gradient Descent) | 每次**只使用一筆**(或小批次)資料計算梯度,速度快但波動較大。常用於深度學習訓練。 | > 📌 補充:SGD 通常搭配 Momentum 或 Batch Normalization 使用。 --- ### Momentum / Nesterov(動量與奈斯特洛夫動量) | 方法 | 原理與特性 | |----------|----------------------------------------------------------------------------| | Momentum | 引入過去梯度的累積方向,模擬物理中的**動量**,加快收斂並避免震盪。 | | Nesterov | 先預測下一步位置再計算梯度,更準確地調整方向。 | --- ### Batch Normalization(批次正規化) Batch Normalization(簡稱 BN)是一種在神經網路訓練中常用的**正規化技術**,可加速收斂、穩定訓練,並降低對初始化參數與學習率的敏感度。 #### 📌 作用與目的 - 將每一層的輸出(activation)在 mini-batch 上正規化為**均值為 0、標準差為 1** - 緩解 **Internal Covariate Shift(內部協變偏移)** - 加速模型訓練、提高穩定性 - 可視為一種正則化方式,具有輕微防止過擬合的效果 --- ### Learning Rate Decay(學習率衰減) - **說明**:動態降低學習率,有助於模型在訓練後期穩定收斂,避免 overshoot。 - **常見策略**: - Step Decay(每隔固定 epoch 降低) - Exponential Decay(指數遞減) - Cosine Annealing(餘弦函數遞減) --- ### Gradient Clipping(梯度截斷) - **說明**:當梯度過大(爆炸)時將其限制在指定範圍,防止訓練不穩定。 - **常用於**:RNN、LSTM 等序列模型。 --- ### Regularization (L1, L2)(正則化) 功能:在損失函數中加入==懲罰項==,限制模型複雜度,減少過擬合。 | 比較項目 | L1 正則化(Lasso) | L2 正則化(Ridge) | |----------|-----------------------------------|-----------------------------------| | 懲罰方式 | 懲罰權重絕對值 | 懲罰權重平方值 | | 結果傾向 | 使部分權重變為 0(稀疏模型) | 權重趨近 0 但不會變成 0 | | 特徵選擇 | ✅ 自動特徵選擇 | ❌ 無法自動捨棄特徵 | | 模型可解釋性 | 較高(少數非零特徵) | 較低(所有特徵皆有權重) | | 計算穩定性 | 對資料變化較敏感 | 較穩定,適合多重共線性資料 | | 適用情境 | 特徵多但部分重要(如文本) | 所有特徵可能都重要,需平滑處理 | - 用 L1(Lasso)讓「不重要的特徵消失」 - 用 L2(Ridge)讓「所有特徵都有參與,但不太極端」 - 如不確定可用 Elastic Net(結合 L1 + L2) --- ### Early Stopping(提前停止) - **說明**:當驗證集表現長期未改善時提前終止訓練,避免過擬合。 - **常用參數**: - `patience`:連續幾個 epoch 未改善才停止 - `restore_best_weights`:恢復最佳權重 --- ### Hyperparameter Search(超參數搜尋) | 方法 | 特性 | |------------|---------------------------------------------| | Grid Search | 列出**所有可能**組合進行窮舉搜尋,適用小參數空間。 | | Random Search| 隨機抽樣參數空間,效率高於 Grid Search,適用大範圍搜尋。 | > 📌 可搭配交叉驗證(Cross-Validation)使用。 --- ### Cosine Annealing(餘弦退火學習率) - **說明**:學習率依餘弦函數週期性下降,有助於後期精細學習。 - **應用**:常見於 ResNet、SGDR(帶重啟的 SGD) --- ### Cross Entropy Loss(交叉熵損失 / Log Loss) - **用途**:==分類==問題,衡量預測機率分布與實際標籤差異。 - **特性**:數值越小預測越準確,常與 Softmax 搭配使用。 --- ## 其他 ### 鏈式法則(Chain Rule in Backpropagation) - **用途**:在反向傳播中逐層計算梯度,更新**權重**。 --- ### Hessian(海森矩陣) - **定義**:二階導數矩陣,描述函數彎曲程度。 - **應用**:牛頓法等二階優化演算法。 --- ### Jacobian(雅可比矩陣) - **定義**:向量值函數一階偏導矩陣。 - **用途**:自動微分與敏感度分析。 --- ### SHAP(SHapley Additive exPlanations) | 項目 | 說明 | |------|------------------------------------------------------------------| | 類型 | 模型**解釋**方法 | | 原理 | 用遊戲理論 Shapley value 衡量每個特徵對單一預測的貢獻 | | 優點 | 解釋性強、可對每筆樣本進行分析、視覺化效果佳 | | 應用 | 特徵重要性排序、醫療模型審查、金融風險解釋 | | 補充 | 支援黑箱/白箱模型 | --- ### Bayesian Optimization + Acquisition Function - **用途**:黑箱函數最佳化中的超參數調整與實驗設計 - **原理**:利用 Acquisition Function(如 UCB、EI)評估當前參數空間中最佳下一步探索點