# U-Net : Convolutional Networks for Biomedical Olaf Ronneberger, Philipp Fischer, Thomas Brox, (MICCAI 2015) https://arxiv.org/abs/1505.04597 ## 1. 摘要 本研究提出一種用於生醫影像分割的卷積網路架構 U-Net,透過強化資料增強策略,在少量標註影像下仍能達到高精度分割。U-Net 採用對稱的收縮路徑與擴展路徑,兼顧上下文捕捉與精確定位,並利用加權損失處理相接物體的邊界分割問題。實驗在 ISBI 2012 電子顯微影像神經結構分割挑戰及 ISBI 2015 細胞追蹤挑戰中皆達到最佳成績,且推論速度快(512×512 圖片小於 1 秒)。 ## 2. 研究目的 U - Net 的目標是開發一種在資料不足時也能表現出高準確度的影像分割模型。處理的問題有二: * 傳統的滑動視窗法效率低,且對邊界模糊之處易誤判。 * 傳統的資料增強方法不足以應付醫學影像標注資料不足的情境。 ## 3. 研究方法 ### 3.1 網路架構 ![螢幕擷取畫面 2025-08-27 214411](https://hackmd.io/_uploads/BJGwhtnYlg.png) >圖1. U-Net 架構(以最低解析度 32×32 像素為例)。每個藍色方塊代表一個多通道的特徵圖(feature map)。方塊上方的數字表示通道數,左下角的數字表示該特徵圖的 x-y 尺寸。白色方塊代表被複製的特徵圖。箭頭則表示不同的操作流程。 U - Net 使用壓縮與解碼還原的方式,先理解圖像的大致特徵,再逐漸補齊細節,達到高效率且精確的效果。全網路共 23 層卷積,採用無填充卷積(valid convolution)。輸出層為$1\times1$ 卷積將 64 維特徵向量映射至分類數。 * 收縮路徑(Contracting Path)壓縮: 重複兩層 $3\times3$ 卷積 + ReLU + $2\times2$ 最大池化(步幅 2),下採樣時通道數加倍。 * 擴展路徑(Expansive Path)解碼還原: 上採樣後接 $2\times2$ 卷積(通道數減半)。與對應收縮層裁切後的特徵圖串接。兩層 $3\times3$ 卷積 + ReLU。 ### 3.2 訓練策略 * 損失函數: 像素級 softmax + 交叉熵,並引入加權圖 $w(x)$:$E = \sum_{x\in\Omega} w(x) \log \big( p_{\ell(x)}(x) \big)$。權重設計包含類別頻率平衡項 $w_c(x)$ 與分隔邊界加權:$w(x) = w_c(x) + w_0 \cdot \exp\left( -\frac{(d_1(x)+d_2(x))^2}{2\sigma^2} \right)$。 * 權重初始化: $\mathcal{N}(0, \sqrt{2/N})$,$N$ 為輸入節點數。 * 批次大小: 批次大小為 1,動量設為 0.99 以穩定更新。 * 參數說明: | 符號 | 名稱 | 定義/意義 | 型別/範圍 | 常見設定/計算 | | | | ---------------- | ------- | ----------------------------------------------------------------------- | -------------------- | ---------------------------------------------------------------- | ----------- | ----------------------- | | $E$ | 加權交叉熵損失 | **常見寫法**:$\displaystyle E=-\sum_{x\in\Omega} w(x)\,\log p_{\ell(x)}(x)$ | $\mathbb{R}_{\ge 0}$ | 最小化目標;常以「像素平均」或除以 ( | \Omega | ) 正規化 | | $\Omega$ | 影像域 | 像素座標集合(例:$\Omega\subset\mathbb{Z}^2$) | ( | \Omega | =H\times W) | 3D 分割可擴至 $\mathbb{Z}^3$ | | $x$ | 像素位置 | $\Omega$ 中的一個像素 | $\mathbb{Z}^2$ | 以整數座標索引 | | | | $K$ | 類別數 | 分割的總類別數 | $\mathbb{N}$ | 例:前景+背景 $K=2$ | | | | $\ell(x)$ | 真實標籤 | 像素 $x$ 的真實類別 | $\{1,\dots,K\}$ | 計算時常用 one-hot | | | | $p_{\ell(x)}(x)$ | 正確類別機率 | 模型於像素 $x$ 對「$\ell(x)$ 類」的 softmax 機率 | $(0,1)$ | 由 logits 經 softmax 得:$p_k=\exp z_k/\sum_j\exp z_j$ | | | | $w(x)$ | 像素權重 | 平衡類別不均與加強邊界 | $\mathbb{R}_{\ge 0}$ | $w(x)=w_c(x)+w_0\exp\!\big(-\tfrac{(d_1+d_2)^2}{2\sigma^2}\big)$ | | | | $w_c(x)$ | 類別頻率平衡 | 針對少數類別給較高權重 | $\mathbb{R}_{\ge 0}$ | 例:反比權重 $1/\text{freq}_c$、或 median-freq | | | | $d_1(x)$ | 最近邊界距離 | 到**最近**物體邊界的距離(像素) | $\mathbb{R}_{\ge 0}$ | 由邊界圖做距離變換 (distance transform) | | | | $d_2(x)$ | 次近邊界距離 | 到**第二近**物體邊界的距離(像素) | $\mathbb{R}_{\ge 0}$ | 兩實例夾縫處 $d_1+d_2$ 小 → 權重大 | | | | $w_0$ | 邊界加權強度 | 控制夾縫區的額外權重幅度 | $\mathbb{R}_{>0}$ | 論文示例常取 $w_0=10$ | | | | $\sigma$ | 加權寬度 | 控制距離衰減範圍(越大越寬) | $\mathbb{R}_{>0}$ | 論文示例約 $\sigma\approx 5$ pixels | | | | $\exp(\cdot)$ | 指數函數 | 高斯形狀的衰減核 | — | 距離兩條最近邊界越遠,權重越小 | | | ### 3.3 資料增強策略 U-Net 改進資料增強方法更符合醫學影像標注資料不足的情境,不僅使用基本的翻轉、旋轉,也引入「彈性形變」和「專為醫學影像設計的灰階變化」。 其與加權損失策略結合,並在收縮路徑末端加入 Dropout,提升模型在少量資料下的泛化能力與邊界精確度。 * 隨機彈性形變(elastic deformation): 3×3 網格高斯位移($\sigma=10$ 像素),經雙三次插值平滑。 * 專為醫學影像設計的灰階變化: 專為醫學影像資料設計的灰階變化。調整影像亮度、對比度。 ### 3.4 大圖分割策略 * Overlap-tile: 邊界不足部分透過影像鏡射補足,避免 GPU 記憶體限制。 ## 4. 實驗結果 #### > ISBI 2012 電子顯微影像神經結構分割 ![螢幕擷取畫面 2025-08-27 215711](https://hackmd.io/_uploads/SyGMb5nKel.png) >圖2. 在 EM 分割挑戰賽(2015.03.06)的排名,依照 warping error 由低到高排序。 * 訓練集:30 張 512×512 標註影像。 * Warping error:0.000353(第一名)。 * Rand error:0.0382,優於滑動視窗法(0.0504)。 #### > ISBI 2015 細胞分割 ![螢幕擷取畫面 2025-08-27 215003 (1)](https://hackmd.io/_uploads/HJMVMq3tlg.png) >圖3. ISBI 細胞追蹤挑戰的結果: >( a ). PhC-U373 資料集的一部分輸入影像。 >( b ). 分割結果(青色遮罩),並疊加人工標註的黃色邊界。 >( c ). DIC-HeLa資料集的輸入影像。 >( d ). 分割結果(隨機顏色遮罩),並疊加人工標註的黃色邊界。 ![螢幕擷取畫面 2025-08-27 215230](https://hackmd.io/_uploads/H1PUz5nFgx.png) >圖4. 在 ISBI 2015 細胞追蹤挑戰中的分割結果(IOU)。 | 資料集 | 第一名 IOU:U-Net | 第二名 IOU | | -------- | ----------- | ------- | | PhC-U373 | 92.03% | 83% | | DIC-HeLa | 77.56% | 46% | ## 5. 結論 * U-Net 架構在不同生醫分割任務中皆能達到高精度與高速度。 * 彈性形變資料增強大幅減少對大量標註影像的依賴。 * 適用於多種影像分割情境,訓練時間約 10 小時(NVIDIA Titan GPU)。 * 提供完整 Caffe 實作與預訓練模型,方便應用於其他領域。