# 1. 分類器的基本架構 在二分類問題中(例如判斷是 Pokémon 還是 Digimon),分類器函數 𝑓(𝑥) 會根據輸入特徵做出類別判斷,從輸入資料 𝑥 預測其類別標籤 𝑦∈{0,1}。 ## 1.1. 閾值分類器與函數族𝐻 考慮一整組可能的分類函數組成假設空間(hypothesis space)𝐻: $\mathcal{H} = \{ f_h \mid h \in \{1, 2, \dots, 10000\} \}$。 表示有 10000 個可能的分類器,每個對應一個不同的 threshold ℎ。任務是從這個假設空間中選出一個最適合的分類器。 ## 1.2. 最佳分類器 給定一組訓練資料: $\mathcal{D}_{\text{train}} = \{ (x^1, \hat{y}^1), (x^2, \hat{y}^2), \dots, (x^N, \hat{y}^N) \}$。 目標是找到一個最小化損失的分類器 $h^{\text{train}}$,即: $h^{\text{train}} = \arg\min_{h \in \mathcal{H}} L(h, \mathcal{D}_{\text{train}})$。 其中,$L(h, \mathcal{D}_{\text{train}})$ 表示模型 $h$ 在訓練資料上的平均錯誤率(損失)。理想情況下,分類器 $h^{\text{train}}$ 應該也能在真實世界中所有資料 $\mathcal{D}_{\text{all}}$ 上有相似表現: $L(h^{\text{train}}, \mathcal{D}_{\text{all}}) \approx L(h^{\text{all}}, \mathcal{D}_{\text{all}})$。 其中,$h^{\text{all}}$ 是在全資料下訓練出來的理想分類器。 # 2. 損失函數與可導性 機器學習透過最小化損失函數 $L(h, \mathcal{D})$ 來選出最佳分類器。0-1 Loss 與 Cross-Entropy Loss 為兩種常見損失函數。 【0-1 Loss】 僅計算預測錯誤的比例,$\mathbb{I}$ 為指示函數,條件為真則為 1,否則為 0。優點為直觀,缺點為不可導,無法用於梯度下降訓練。公式如下: $L(h, \mathcal{D}) = \frac{1}{N} \sum_{n=1}^{N} \mathbb{I}(f_h(x^n) \ne \hat{y}^n)$。 【Cross-Entropy Loss】 可導,適合用於深度學習。預測越接近正確類別,損失越小。公式如下: $L(h, \mathcal{D}) = - \frac{1}{N} \sum_{n=1}^{N} \left[ y^n \log(\hat{y}^n) + (1 - y^n) \log(1 - \hat{y}^n) \right]$。 ## 2.1. 可導性與訓練的重要性 訓練過程多使用梯度下降法(Gradient Descent)更新參數。若損失函數不可導,無法計算梯度,模型將無法有效學習。 | 損失函數 | 是否可導 | 是否適合訓練 | 用途 | | ------ | ----- | ------ | -------- | | 0-1 損失 |不可導 |不適合 | 測試/評估準確率 | | 交叉熵損失 |可導|適合 | 用於訓練過程 | ## 2.2. 損失的平均與樣本數關係 損失函數通常表示為資料上的平均錯誤:$L(h, \mathcal{D}) = \frac{1}{N} \sum_{n=1}^{N} \ell(h, x^n, \hat{y}^n)$。 其中,$\ell(h, x, \hat{y})$ 是單一樣本的損失。當 $N$ 越大,平均損失越穩定,可更貼近真實誤差。 # 3. 訓練與泛化的目標 訓練過程中的目標是找到使訓練損失最小的分類器: $h^{\text{train}} = \arg\min_{h \in \mathcal{H}} L(h, \mathcal{D}_{\text{train}})$。 但最關心的是真實資料上的表現,也就是理想分類器 $h^{\text{all}}$ 的損失: $h^{\text{all}} = \arg\min_{h \in \mathcal{H}} L(h, \mathcal{D}_{\text{all}})$。 ## 3.1. 泛化能力的目標 目標是讓實際訓練出的分類器 $h^{\text{train}}$ 在真實資料上的表現接近 $h^{\text{all}}$: $L(h^{\text{train}}, \mathcal{D}_{\text{all}}) \approx L(h^{\text{all}}, \mathcal{D}_{\text{all}})$。 訓練出來的模型不應只在訓練資料表現好,更應在未見過的資料上維持穩定表現。 ## 3.2.誤差界限的目標形式 若可保證下式成立,表示模型有良好泛化能力: $L(h^{\text{train}}, \mathcal{D}_{\text{all}}) - L(h^{\text{all}}, \mathcal{D}_{\text{all}}) \leq \delta$。 其中 $\delta$ 為容許的泛化誤差範圍。理想情況下,應使 $\delta$ 趨近於 0。 # 4. i.i.d.與樣本抽樣假設 常見假設:訓練資料為獨立且同分布(i.i.d., independent and identically distributed)。目的為確保訓練資料能代表整體資料分布,避免偏誤。 ## 4.1. 好資料的定義 若對任意分類器 $h \in \mathcal{H}$,皆有: $|L(h, \mathcal{D}{\text{train}}) - L(h, \mathcal{D}{\text{all}})| \leq \varepsilon$。 則稱此 $\mathcal{D}_{\text{train}}$ 為「好」的訓練資料。此性質稱為均勻收斂(uniform convergence)。 ## 4.2. 使用測試集近似整體分布 由於 $\mathcal{D}{\text{all}}$ 通常不可得,訓練後以測試集 $\mathcal{D}{\text{test}}$ 估計模型在未知資料上的表現: $L(h, \mathcal{D}{\text{test}}) \approx L(h, \mathcal{D}{\text{all}})$。 測試集須與訓練集相互獨立,且同樣來自整體分布,才能合理作為泛化能力的評估依據。 # 5. 訓練失敗機率與聯集界限 ## 5.1. 壞資料的定義 若存在某個 $h \in \mathcal{H}$ 使得: $|L(h, \mathcal{D}{\text{train}}) - L(h, \mathcal{D}{\text{all}})| > \varepsilon$。 則稱 $\mathcal{D}_{\text{train}}$ 為「壞」的訓練資料。此情況代表模型在訓練資料上表現佳,但無法泛化至整體資料。 ## 5.2. Union Bound:擴展至整體失敗機率 整體訓練失敗機率為所有 $h \in \mathcal{H}$ 出錯的聯集機率: $\Pr(\mathcal{D}{\text{train}} \text{ is bad}) = \Pr\left( \bigcup{h \in \mathcal{H}} \text{bad due to } h \right)$。 由 union bound 得: $\Pr(\mathcal{D}{\text{train}} \text{ is bad}) \leq \sum{h \in \mathcal{H}} \Pr(\text{bad due to } h)$。 即便單一模型錯誤機率低,只要模型數量多,整體失敗機率仍可能變高。 ## 5.3. Hoeffding Inequality:單一模型出錯機率上限 Hoeffding 不等式給出單一模型出錯機率上限: $\Pr\left( |L(h, \mathcal{D}{\text{train}}) - L(h, \mathcal{D}{\text{all}})| > \varepsilon \right) \leq 2 \exp(-2N \varepsilon^2)$。 其中,$N$ 為訓練資料筆數。當 $N$ 增加,錯誤機率指數下降。 # 6. 模型複雜度與泛化保證 將 union bound 與 Hoeffding 不等式結合,可得整體訓練失敗機率上限: $\Pr(\mathcal{D}_{\text{train}} \text{ is bad}) \leq |\mathcal{H}| \cdot 2 \exp(-2N \varepsilon^2)$。 此式顯示模型數量 $|\mathcal{H}|$ 越多,或資料筆數 $N$ 越少,整體失敗機率越高。 ## 6.1. 降低失敗機率的方法 依上式,失敗機率可透過以下方式降低: 1. 增加資料筆數 $N$ 2. 降低模型空間大小 $|\mathcal{H}|$ 3. 調整容許誤差 $\varepsilon$(但 $\varepsilon$ 不宜太大) ## 6.2. 連續參數模型的處理 現實中多數模型參數為連續值,理論上 $|\mathcal{H}|$ 為無限大。處理方式如下: 【有限精度離散化】 電腦實作中參數為有限精度,實際上模型空間有限,可視為離散。 【使用 VC-dimension】 可用 VC 維度衡量假設空間容量,作為 $|\mathcal{H}|$ 的替代指標。 # 7. 複雜度取捨與深度學習的應對 ## 7.1. 假設空間過小的風險 若假設空間 $|\mathcal{H}|$ 過小,雖然能降低泛化誤差,但可能無法包含理想分類器 $h^{\text{all}}$,導致模型表現上限偏低: $L(h^{\text{train}}, \mathcal{D}{\text{all}}) > L(h^{\text{all}}, \mathcal{D}{\text{all}})$。 此為理想損失無法達成的情況。 ## 7.2. 假設空間過大的風險 若 $|\mathcal{H}|$ 過大,雖然可能包含 $h^{\text{all}}$,但容易選到在訓練資料上表現很好、在真實資料上表現差的模型,產生 overfitting。失敗機率上限會因 $|\mathcal{H}|$ 增加而提高。 ## 7.3. 複雜度與資料量的平衡 1. 模型複雜度越高,需更多資料支撐 2. 模型複雜度越低,表現極限下降 3. 應使模型複雜度與資料量匹配,確保既不欠擬合也不過擬合。