論文週報 - HackMD

## 進度報告：2026/02/03（第22週） ### 0. 本週總覽 (Executive Summary) > *針對 VIA 影像高噪聲與弱邊界問題，本週驗證了 SegFormer 結合解剖標籤優化與病灶特定增強策略的有效性。* * **本週最重要結論：** 證實將解剖標籤簡化為 3 類 (Col, L, OUE) 並搭配「不透明度調變 (Opacity Modulation, OM)」增強，可使 SegFormer 的病灶 IoU 達到 $0.6122$，顯著優於傳統 CNN 模型。 * **關鍵產出：** 完成標籤配置實驗分析表 (Table 10/11)、病灶特定增強 (LSA) 消融實驗 (Table 14)。 * **風險燈號：** 🟢 正常 ### 1. 本週完成事項 (Done & Evidence) #### D1. [方法論驗證] 解剖標籤最佳化 (Anatomical Label Optimization) * **DoD 達成狀況：** ✅ 已完成 * **設計動機：** 原始 VIA 影像包含 5 種解剖結構，但「轉化區 (TZ)」與「子宮頸區 (CA)」邊界模糊且重疊嚴重，導致模型學習發散。 * **方法論述 (Formulation)：** * 比較了三種標籤配置：5-class (全標)、4-class (移除 TZ)、3-class (僅保留 Col, L, OUE)。 * 實驗證明 3-class 配置能最大化模型對關鍵病灶的關注力。定義最佳化後的分割目標為集合 $S_{opt} = \{C_{Col}, C_{L}, C_{OUE}\}$，其中 $C_{OUE}$ 作為關鍵解剖定位點。 * **交付物 (Deliverables)：** * **[截圖]:** * 模型在訓練過程中的變化，它的橫軸標示為 Epoch（訓練週期），縱軸標示為 Overall IoU。 ![image](https://hackmd.io/_uploads/H1laem0IWx.png) * 模型在特定類別上的表現。雷達圖的每一角代表不同的標籤區域（如 Col, CA, L, OUE 等）。 ![image](https://hackmd.io/_uploads/B1QRgmA8Zg.png) >(3-class 的 IoU 成長曲線最穩定且收斂最佳)。 #### D2. [新方法設計] 病灶特定增強策略 (Lesion-Specific Augmentation, LSA) * **DoD 達成狀況：** ✅ 已完成 (理論與實驗驗證) * **設計動機：** VIA 影像中的病灶常呈現半透明、低對比度，且受光照反光 (Glare) 影響，通用增強 (Flip/Rotate) 無法模擬此物理特性。 * **數學表述 (Formulation)：** * 提出 **不透明度調變 (Opacity Modulation, OM)** 作為最有效的增強手段。 * 針對影像 $I$ 中的病灶遮罩區域 $M_{lesion}$，我們引入亮度調節係數 $\alpha_2$，計算如下： $$ I'(x,y) = \begin{cases} \alpha_2 \cdot I(x,y), & \text{if } (x,y) \in M_{lesion} \\ I(x,y), & \text{otherwise} \end{cases} $$ * 其中 $\alpha_2$ 在範圍 $[1.2, 1.8]$ 內隨機取樣，旨在強迫模型學習病灶的紋理特徵而非單純依賴亮度。 * 另外包含 **局部輪廓變形 (RCW)** 與 **局部眩光注入 (LFNI)**，模擬真實臨床噪聲。 * **交付物 (Deliverables)：** * **[截圖]:** 參考 **Figure 1**(架構圖中的 LSA 模組示意) ![image](https://hackmd.io/_uploads/rkb7MQ08-g.png) * **Table 5** (增強公式定義)。 ![image](https://hackmd.io/_uploads/SJ5CZQAU-x.png) ### 2. 實驗紀錄 (Experiments & Analysis) > *比較 SegFormer 在不同增強策略下的表現。* * **實驗 E1：** SegFormer 結合 LSA 之消融研究 (Ablation Study) * **實驗設定：** Dataset=RSMH (521 train/124 val), Model=SegFormer-B0/B1, Label=3-class. * **結果比較表 (基於論文 Table 14 整理)：** | Augmentation Strategy | Overall IoU | Lesion IoU (L) | Remarks | | :--- | :---: | :---: | :--- | | None (Baseline) | 0.5558 | 0.5918 | 基礎表現 | | RCW (Contour Warping) | 0.5544 | 0.5873 | 邊緣變形對提升有限 | | LFNI (Flare Injection) | 0.5601 | 0.5853 | 增加魯棒性但 IoU 提升不大 | | **OM (Opacity Mod.)** | **0.5695** | **0.6121** | **最佳表現** (模擬真實病灶反光) | | OM + P (Sequential) | 0.5622 | 0.5850 | 組合增強反而略微下降 | * **結果分析：** * **OM (Opacity Modulation)** 表現最佳，Lesion IoU 提升至 $0.6121$。這證實了模擬病灶的「半透明度變化」對於 VIA 任務至關重要。 * **負面觀察：** 雖然整體效能提升，但從 Confusion Matrix (**Figure 7d**) 觀察到，OUE (外子宮口) 的 False Negative 仍然很高，顯示小物件分割仍是難點。 ### 3. 困難與求助 (Issues & Blockers) * **I1. 小物件 (OUE) 檢測困難 (Class Collapse on Minority Class)** * **現象描述：** 雖然病灶 (L) 分割效果好，但外子宮口 (OUE) 的 IoU 僅約 $0.1797$，且 Precision 極低 ($0.2062$)。 * **理論分析：** OUE 佔整體像素比例極低 (約 1.3%)，且前處理將影像 Resize 至 $256 \times 256$，導致小結構特徵丟失。 * **可能解法：** 可能可以從 Focal Loss 方面去做更改來改善問題 ### 4. 下週計畫 (Plan & DoD) * **P1. [文獻探討] 針對聯邦蒸餾之 SOTA 教師模型選型調研 * **預計產出：** 整理出一份包含 3~4 個 2023-2024 年 Transformer 分割模型的候選清單，並分析其優劣。 * **DoD：** 完成一份比較表格，欄位包含：模型架構特點 (Architecture)、參數量 (Params)、在類似資料集上的 IoU 表現、以及是否開源。 *** ### 5. 文獻閱讀 (Literature Review) * **R1. Robust SegFormer-Based Cervical Neoplastic Lesion Segmentation Using Lesion-Specific Augmentation and Anatomical Label Optimization (論文連結)** https://ieeexplore.ieee.org/document/11275672 * **核心貢獻：** 提出 LSA (特別是 Opacity Modulation) 與 3-class 標籤優化，解決 VIA 影像分割難題。 * **對本研究啟發：** * 1. 醫療影像分割不應盲目追求多類別，**「臨床相關性 (Clinical Relevance)」** (如 3-class 配置) 比全分割更重要。 * 2. 資料增強必須符合物理特性 (Physically-plausible)，OM 的成功給了我們設計聯邦學習資料增強的靈感。 ## 進度報告: 2026/01/26（第 21 週） ### 0. 本週總覽 (Executive Summary) * **本週最重要結論：** * 對於論文模型之「輕量化」主要來自模型家族選型（YOLO Nano）與以追蹤／規則濾波取代 3D CNN 的策略 * 確認 **YOLOv11n (Nano)** 搭配 **Tracking-by-detection** 機制，可作為聯邦蒸餾 (FD) 中極具潛力的「輕量化學生模型 (Student Model)」架構，其在維持 $mAP@50 \approx 0.631$ 的同時，計算量僅需 $6.5 \text{G FLOPs}$，遠低於 3D CNN。 * 針對教授所提出"「輕量化蒸餾」與「類別不平衡處理」問題合併解決的初步思路"做思考 * **關鍵產出：** 完成論文《CT Scans As Video》的解析，並提出「輕量化蒸餾」與「類別不平衡處理」的處理方法 * **風險燈號：** 🟢 正常 ### 1. 本週完成事項 (Done & Evidence) #### D1. [文獻研讀] 解析 "CT Scans As Video" 之輕量化策略 * **DoD 達成狀況：** ✅ 已完成 * **方法論述 (Formulation)：** * 本研究的核心假設是將 3D CT Volume $V \in \mathbb{R}^{D \times H \times W}$ 視為時序影片序列 $S = \{I_1, I_2, ..., I_D\}$。 * 不同於傳統 3D CNN 直接對 $V$ 進行卷積運算（高算力消耗），該方法採用 2D Object Detector (YOLO) 處理單幀 $I_z$，並引入**時空一致性濾波 (Spatiotemporal Consistency Filter)**： $$ \text{Keep}(b_z) = \mathbb{1}\left( \max(\text{IoU}(b_z, \mathcal{B}_{z-1})) > 0 \lor \max(\text{IoU}(b_z, \mathcal{B}_{z+1})) > 0 \right) $$ * 其中 $b_z$ 為當前切片的預測框，$\mathcal{B}_{z \pm 1}$ 為相鄰切片的預測框集合。此公式將昂貴的 3D 上下文推理簡化為幾何重疊檢查，大幅降低邊緣運算成本。 * **交付物 (Deliverables)：** * [圖表]: Tracking-by-detection 流程架構圖 ![image](https://hackmd.io/_uploads/Bkkev1B8Zg.png) #### D2. [架構評估] 聯邦蒸餾學生模型候選分析 * **DoD 達成狀況：** ✅ 已完成 * **分析摘要：** * 依據論文數據，YOLOv11n 作為 Backbone 具有極佳的 **Accuracy-Efficiency Trade-off**。 * 在聯邦蒸餾 (FD) 情境下，我可以選擇此架構設為 Client 端模型： 1. **Local Training:** Client 端僅訓練輕量級 YOLOv11n ($2.6\text{M}$ Params)。 2. **Inference:** 結合 Server 端聚合的知識，並在本地推論時加上論文提出的 **Hybrid ByteTrack** 模組作為後處理，以降低 False Positives。 ### 2. 實驗紀錄 (Experiments & Analysis) * **實驗 E1：** [文獻數據分析] YOLO Nano 家族選型評估 * **實驗設定：** 比較不同 YOLO Nano 版本在 Slice-level Detection 的表現 (Dataset: Hemorica)。 * **結果比較表：** | Backbone | Params (M) | FLOPs (G) | Recall | mAP@50 | 備註 | | :--- | :---: | :---: | :---: | :---: | :---: | | YOLOv8n | 3.2 | 8.7 | 0.537 | 0.595 | | | YOLOv10n | 2.3 | 6.7 | 0.509 | 0.594 | 參數最少 | | **YOLOv11n** | **2.6** | **6.5** | **0.542** | **0.631** | **最佳折衷** | | YOLOv12n | 2.6 | 6.5 | 0.529 | 0.597 | | * **結果分析：** * YOLOv11n 在參數量 ($2.6\text{M}$) 與運算量 ($6.5\text{G}$) 均處於低檔，但 $mAP@50$ 卻顯著高於其他版本 ($+3.6\% \text{ vs } v12n$)。 * **這證實了：** 在聯邦學習的邊緣端，選擇 YOLOv11n 作為 Student Model 是最具效益的起點。 * **實驗 E2：** [文獻數據分析] 追蹤模組對 Precision 的影響 * **觀察：** 引入 Hybrid ByteTrack 後，Precision 由 $0.703$ 提升至 $0.779$，且 Recall 保持穩定 ($0.643 \to 0.647$)。 * **啟發：** 聯邦蒸餾的學生模型通常較弱，容易產生雜訊（False Positives），此論文證實了「非學習式」的後處理（Tracking/Filter）能有效彌補學生模型的先天不足。 ### 3. 困難與求助 (Issues & Blockers) * I1.[將「輕量化蒸餾」與「類別不平衡處理」問題合併解決的初步思路] * **針對教授所提出的問題找出三大方案:** * **方案 1：權重重分配蒸餾** - **核心概念**： - 動態調整「音量」。 - 老師講**簡單題目（背景）** $\rightarrow$ 小聲（權重低）。 - 老師講**難題（腫瘤）** $\rightarrow$ 大聲（權重高）。 - **實作方式**： - 修改 KD Loss Function。 - 根據像素類別給予不同 Weighting。 - **優點**： - 實作最快，僅需修改公式。 - 計算成本最低。 * **方案 2：區域引導特徵蒸餾(Region-guided Feature Distillation)** - **核心概念**： - 不只看答案 (Logits)，要看過程 (Features)。 - **強迫 Student 模仿 Teacher 的「中間層特徵圖」。** - **關鍵限制**：只模仿「腫瘤區域」的特徵。 - **比喻**： - 拿著老師的筆記，把重點（腫瘤）圈起來。 - 要求學生：「這裡的筆觸要畫得跟老師一模一樣！」 - **優點**： - 效果通常優於方案 1。 - 符合 "Feature-based Distillation" 主流趨勢。 * **方案 3：解耦蒸餾(Decoupled Distillation)** - **核心概念**：將「背景」與「前景」拆開處理。 - **背景**：使用寬鬆 Loss 或忽略。 - **前景（腫瘤）**：使用嚴格 Loss 強制對齊。 - **邏輯優勢**： - 直接回應「不要繼承背景偏見」的需求。 - 避免多數類別的梯度主導優化方向。 - **預期效益**： - 顯著提升 Student 對小物件的敏感度。 > **初步結論**：傾向優先嘗試 **方案 2**，因其能有效利用 Teacher 的深層知識，同時解決 CNN 與 Transformer 架構差異問題。 ---- ### 4. 下週計畫 (Plan & DoD) * **P1. [論文研讀] **本次YOLO 是基於 CNN 的一種方法，我有初步了解到CNN 與 Transformer 架構差異，所以下次打算以Transformer 做輕量化模型的視角去找論文 * **預計產出：** 解析論文並產出報告以及了解Transformer作為輕量化模型的表現 * **DoD：** 完成輕量化 Transformer (如 MobileViT 或 UNETR-Lite) 的研讀筆記。 *** ### 5. 文獻閱讀 (Literature Review) * **R1. CT Scans As Video: Efficient Intracranial Hemorrhage Detection Using Multi-Object Tracking** (/https://arxiv.org/pdf/2601.02521) * **核心貢獻：** 1. **視角轉換：** 將 3D 醫療影像分析重構為 2D 視訊目標追蹤問題，解決邊緣端算力不足問題。 2. **Hybrid Inference：** 結合 YOLO 高信心度檢測與 ByteTrack 低分關聯，解決追蹤初始化延遲 (Initialization Lag) 問題。 * **對本研究啟發：** * **Student Model 架構確立：** 確認使用 2D CNN (YOLOv11n) 搭配時序後處理，作為聯邦蒸餾中的輕量化學生模型標準配置。 * **Baseline 設定：** 該論文的實驗結果 (Precision 0.779 / F1 0.707) 將作為我們評估聯邦蒸餾成效的 Baseline 指標。 ## 進度報告: 2026/01/20 (第 20 週) ### 0. 本週總覽 (Executive Summary) * **本週最重要結論：** * 以 AI 論文推薦主題一「基於跨架構蒸餾的通用輕量化 3D 分割模型」作切入，深入了解 Swin UNETR 模型的應用。 * 本週研讀之論文證實了在小樣本 ($N=105$) 醫療數據中，將影像特徵 (Swin UNETR) 與臨床表格數據 (XGBoost) 進行**機率級集成 (Probability Ensemble)**，其準確率 ($68.6\%$) 優於單一模態模型及特徵級融合 (Feature Fusion) 方法。 * **關鍵產出：** 完成論文技術拆解報告，整理出 Swin Transformer 結合 XGBoost 的數學架構。 * **風險燈號：** 🟢 正常 ### 1. 本週完成事項 (Done & Evidence) #### D1. [文獻研讀] 深度分析 pLGG 化療反應預測之集成模型 * **DoD 達成狀況：** ✅ 已完成 * **方法論述 (Formulation)：** * 本研究提出一個雙流 (Dual-stream) 架構。首先，針對 MRI 影像輸入 $x_{img}$，使用 **Swin UNETR** 作為特徵提取器。其核心 Swin Transformer Block 採用移動窗口注意力機制 (Shifted Window Attention) 計算如下： $$ \text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{Q K^T}{\sqrt{d}} + B\right) V $$ * 其中 $B$ 為相對位置編碼 (Relative Position Bias)，旨在捕捉 3D 腫瘤的長距離依賴性 (Long-range Dependencies)。 * 第二流使用 **XGBoost** 處理結構化臨床數據與放射組學特徵 $x_{tab}$。 * 最終預測 $y_{pred}$ 採用模型輸出級的集成策略 (Ensemble Strategy)，計算兩個模型預測機率的平均值： $$ P(y|x) = \frac{P_{\text{Swin}}(y|x_{img}) + P_{\text{XGB}}(y|x_{tab})}{2} $$ * 此方法有效解決了特徵級融合 (Feature Fusion) 因維度災難導致過擬合的問題。 * **交付物 (Deliverables)：** * **[Report]:** 架構分析圖 ![F1架構分析](https://hackmd.io/_uploads/SkOVgIjBbl.png) #### D2. [技術與數據分析] 理解 SHAP 解釋性分析與數據前處理 * **DoD 達成狀況：** ✅ 已完成 * **分析內容：** * 針對模型解釋性，利用 SHAP (SHapley Additive exPlanations) 值分析特徵重要性。 * 數學上，特徵 $j$ 的 SHAP 值 $\phi_j$ 定義為： $$ \phi_j = \sum_{S \subseteq F \setminus \{j\}} \frac{|S|! (|F| - |S| - 1)!}{|F|!} [f_{S \cup \{j\}}(x_{S \cup \{j\}}) - f_S(x_S)] $$ * 論文數據顯示，「診斷年齡 (Age at event)」具有最高的平均 SHAP 值 ($0.99 \pm 0.17$)，遠高於影像紋理特徵。 * **交付物 (Deliverables)：** * **[Diagram]:** 整理 CBTN 數據集預處理流程圖 (CaPTK Pipeline $\to$ Skull Stripping)。 ```mermaid graph LR %% 定義節點樣式 - 修正顏色語法確保兼容性 classDef dataset fill:#e1f5fe,stroke:#01579b,stroke-width:2px; classDef process fill:#f3e5f5,stroke:#4a148c,stroke-width:2px; classDef pipeline fill:#e8f5e9,stroke:#1b5e20,stroke-width:2px,stroke-dasharray: 5 5; %% 流程開始 A[CBTN Dataset 622 Patients]:::dataset --> B{Selection Criteria Chemotherapy + 4 MRI Sequences} B -->|Qualified| C[Raw Cohort]:::dataset %% CaPTK Pipeline 子圖 subgraph CaPTK_Pipeline [CaPTK Preprocessing Pipeline] direction TB D[Reorientation to LPS/RAI]:::process E[Registration T1CE -> SRI-24 Atlas T1/T2/FLAIR -> T1CE]:::process F[N4 Bias Correction]:::process D --> E --> F end C --> CaPTK_Pipeline %% 後續步驟 F --> G[Skull Stripping nnU-Net based]:::process G --> H[Final Dataset 105 Patients]:::dataset %% 引用標註 click CaPTK_Pipeline "Ref: Paper Section III-A" "See Paper" ``` ### 2. 實驗紀錄 (Experiments & Analysis) * **實驗 E1：** 不同模型架構與融合策略之性能比較 (Model Comparison) * **實驗設定：** Dataset=CBTN (105 patients), 5-Fold Cross Validation, Task=Binary Classification (Effective vs. Not Effective). * **結果比較表：** | Model | Modality | Accuracy (%) | Recall (Non-Eff) | F1-Score (Avg) | | :--- | :--- | :---: | :---: | :---: | | XGBoost (Baseline) | Clinical + Radiomics | 60.95 | 0.68 | 0.56 | | Swin UNETR | Image Only | 58.10 | 0.75 | 0.54 | | Mamba-Ensemble | Image + Clinical | 59.05 | 0.68 | 0.57 | | **Swin-Ensemble** | **Image + Clinical** | **68.57** | **0.85** | **0.63** | * **結果分析：** * **集成優勢：** Swin-Ensemble 的準確率 ($68.57\%$) 顯著優於單一模態模型，證明臨床資訊與影像特徵具有互補性。 * **觀察到的問題：** 雖然對「無效 (Not Effective)」類別的 Recall 高達 $0.85$，但對「有效 (Effective)」類別的 Recall 僅 $0.44$。這顯示模型深受**類別不平衡 (Class Imbalance)** 影響，是未來改進的重點。 ### 3. 困難與求助 (Issues & Blockers) * **I1. [論文方向諮詢] 確立碩士論文題目** * **現象描述：** 我會將完整的五大主題內容以 PDF 形式傳給教授 (Messenger)，想請問教授有無特別推薦哪一個主題。 * **目前進度：** 目前我是針對 **主題一「基於跨架構蒸餾的通用輕量化 3D 分割模型」** 來做研究。 * **資料庫確認：** 我針對以上五個主題去尋找有無公開資料庫，查出來的結果是都能在 [MSD (Medical Segmentation Decathlon)](http://medicaldecathlon.com/) 中取得資料庫。 ### 4. 下週計畫 (Plan & DoD) * **P1. [論文研讀] 輕量化 3D 學生模型架構選型 (3D MobileNetV2 / EfficientNet-3D)** * **預計產出：** 產出一份**「候選學生模型評估報告」**，包含參數效率與性能的比較矩陣 (Comparison Matrix)。 * **DoD：** 1. 研讀並整理 3D MobileNetV2 / EfficientNet-3D 論文在醫學影像上的應用。 2. 完成比較表格：列出候選模型並比較各模型的參數量 (Params)、運算量 (FLOPs) 以及在標準資料集 (如 BTCV/MSD) 上的 Dice Score。 *** ### 5. 文獻閱讀 (Literature Review) * **R1. Ensemble Models for Predicting Treatment Response in Pediatric Low-Grade Glioma Managed with Chemotherapy** ([arXiv:2601.03899]) * **核心貢獻：** 提出首個結合 Swin UNETR 影像特徵與 XGBoost 臨床特徵的集成模型，解決 pLGG 化療反應預測問題。 * **對本研究啟發：** 1. **架構面：** 在小樣本醫療任務中，「模型輸出平均 (Probability Averaging)」比「特徵拼接 (Feature Concatenation)」更穩健。 2. **特徵面：** 臨床特徵 (如年齡) 不可或缺，純深度學習影像模型在預後預測上往往存在天花板。 ## 進度報告: 2026/01/12（第 19 週） ### 0. 本週總覽 (Executive Summary) * **本週最重要結論：** 研讀 IEEE Access 2025 論文《Fed3D-KDNet》，確認結合 **3D Spatial Adapter** 與 **雙重知識蒸餾 (Dual-KD)** 機制，能在聯邦學習環境下解決多器官弱標註問題，其 Dice Score 在 BTCV 數據集上達到 $80.53\%$，優於 SOTA (Multi-head KD) 約 $5\%$。 * **關鍵產出：** 完成論文方法論的數學推導整理、針對 3D Adapter 架構的復現規劃。 * **風險燈號：** 🟢 正常 ### 1. 本週完成事項 (Done & Evidence) #### D1. [論文研讀] Fed3D-KDNet 方法架構分析 * **DoD 達成狀況：** ✅ 已完成 * **方法論述 (Formulation)：** * **核心問題**：解決醫學影像聯邦學習中的「部分標註 (Partial Labels)」與「災難性遺忘 (Catastrophic Forgetting)」。 * **3D Spatial Adapter**：為了解決 SAM 原生僅支援 2D 輸入的問題，論文在 Transformer Block 中引入適配器。輸入特徵 $X$，Adapter 計算如下： $$ \text{Adapter}(X) = X + \text{Act}(X W_{down}) W_{up} $$ * 此外，為了捕捉體積特徵，引入了深度方向的卷積 (Depth-wise 3D Conv)。 * **雙重知識蒸餾 (Dual Knowledge Distillation)**： 1. **Global-KD**：利用全域模型 $f_{\Phi}$ 指導本地模型 $f_{\phi_k}$ 預測未標註區域，損失函數定義為： $$ \mathcal{L}_{KD, i}^{global} = - \frac{1}{N_V} \frac{1}{N_T - n(\mathcal{T}^k)} \sum_{t \notin \mathcal{T}^k} \sum_{j=1}^{N_V} f_{\Phi}(X_{ij}^k, t) \log(f_{\phi_k}(X_{ij}^k, t)) $$ 2. **Local-KD**：客戶端之間交換「特定器官專家模型」$h_{\theta}$ 的知識： $$ \mathcal{L}_{KD, i}^{local} = - \frac{1}{N_V} \sum_{j=1}^{N_V} h_{\theta_k}(X_{ij}^k) \log(f_{\phi_k}(X_{ij}^k, t)) $$ * **交付物 (Deliverables)：** * **[Note]:** Fed3D-KDNet 詳細筆記 ![Fed3D-KDNet流程筆記圖](https://hackmd.io/_uploads/SJiWDwQS-x.png) * **[Diagram]:** 重新繪製的 Dual-KD 架構流程圖 ![重新繪製的 Dual-KD 架構流程圖](https://hackmd.io/_uploads/B1IrUIMSbl.png) #### D2. [實驗數據整理] SOTA 方法比較與分析 * **DoD 達成狀況：** ✅ 已完成 * **數據整理：** * 整理論文 Table 2 與 Table 6，比較 Fed3D-KDNet 與 FedProx, SCAFFOLD 等方法。 * 發現該方法在參數效率上極高（Tuned Params 僅 26.53M，遠低於 Fed-MENU 的 128.54M）。 * **交付物 (Deliverables)：** * **[Table2]:** Fed3D-KDNet 消融實驗性能對比表 ![Table2](https://hackmd.io/_uploads/HkU_PvXSZe.png) * **[Table6]:** Fed3D-KDNet 與 SOTA 模型之效率評估表 ![Table6](https://hackmd.io/_uploads/H1RdDv7rbl.png) ### 2. 實驗紀錄 (Experiments & Analysis) * **實驗 E1：** Fed3D-KDNet 在 BTCV 資料集上的性能評估 (論文數據復現分析) * **實驗設定：** Dataset=BTCV (Multi-organ), Clients=7 (Non-IID, partial labels), Backbone=ViT-B (SAM). * **結果比較表：** | Method | Avg Dice (%) | Avg HD (voxel) | GFLOPs | Params (M) | | :--- | :---: | :---: | :---: | :---: | | DoDNet | 30.37 | 60.14 | 458.4 | 45.81 | | FedProx | 53.04 | 35.86 | 531.8 | 58.78 | | Multi-head-KD | 76.66 | 15.78 | 461.0 | 47.28 | | **Fed3D-KDNet (Ours)** | **80.53** | **11.43** | **371.3** | **26.53** | * **結果分析：** * Fed3D-KDNet 在 **Dice Score** 上超越次佳的 Multi-head-KD 約 $3.87\%$，證明雙重蒸餾能有效結合全域與本地知識。 * 在 **HD (Hausdorff Distance)** 指標顯著降低，代表邊界分割更加精確，這歸功於 **APG (Auto Prompt Generator)** 產生的動態 Prompt 能更好適應器官形狀。 * **效率分析：** 參數量最少 ($26.53M$) 且 GFLOPs 最低，這對於我們實驗室目前算力有限的情況下，是一個非常值得復現的方向。 ### 3. 困難與求助 (Issues & Blockers) > 無 ### 4. 下週計畫 (Plan & DoD) * **P1. [論文主題 1：基於跨架構蒸餾的通用輕量化 3D 分割模型] 根據AI輔助得出的論文方向主題1，了解其應用** * **預計產出：** 一份有關"Swin UNETR"應用方法的論文簡報 * **DoD：** 精讀《Swin UNETR》原文，理解其架構。 *** ### 5. 文獻閱讀 (Literature Review) * **R1.[論文Link](https://ieeexplore.ieee.org/document/11000122) * **核心貢獻：** 這是本篇論文的基礎 (MedSAM)，了解它是如何將 2D SAM 應用於醫學影像。 * **對本研究啟發：** 比較 Fed3D-KDNet 的 Adapter 設計與 MedSAM 的微調策略差異。 ## 進度報告: 2026/01/06（第 18 週） ### 0. 本週總覽 (Executive Summary) * **本週最重要結論：** 深入研讀《An Evolutionary Deep Learning Method Based on Improved HBO for Medical Image Classification》，確認 **GOHBO (Improved Heap-Based Optimization)** 結合 **灰狼機制 (GWM)** 與 **正交學習 (OL)**，能有效自動化搜尋 ResNet-18 的最佳學習率。實驗結果顯示，該方法在大腸癌 ($95.6\%$)、腦腫瘤 ($97.64\%$) 及胸部 X-ray ($96.48\%$) 分類準確率上，皆顯著優於傳統 CNN 模型與未優化的 ResNet。 * **關鍵產出：** 完成 GOHBO 演算法公式推導整理、GOHBO-ResNet 系統架構流程解析 (Figure 3)、多模態實驗數據效益評估 (Table 6)。 * **風險燈號：** 🟢 正常 ### 1. 本週完成事項 (Done & Evidence) #### D1. [論文研讀] GOHBO-ResNet 方法架構分析 * **DoD 達成狀況：** ✅ 已完成 * **方法論述 (Formulation)：** * **核心問題**：解決深度學習模型（如 CNN）效果高度依賴超參數（特別是 Learning Rate），且手動調參低效盲目的問題。 * **堆疊優化算法 (HBO)**：模擬企業階層管理，基本位置更新公式如下： $$ X_{i}^{k}(t+1) = B^{k} + \gamma \lambda^{k} |B^{k} - X_{i}^{k}(t)| $$ * **增強型 GOHBO (Improved Mechanism)**： 1. **灰狼機制 (GWM)**：引入動態權重 $w_1$ 調整搜索步長，平衡前期探索與後期開發： $$ w_{1} = (1 - \frac{t}{T})^{(1 - \tan(\pi \cdot (rand - 0.5)) \cdot \frac{t}{T})} $$ 2. **正交學習策略 (OL)**：利用正交實驗設計法，從搜索空間挑選具代表性的點，強化局部開採精準度。 * **GOHBO-ResNet 框架**：系統流程如下圖所示，左側為演化演算法迴圈（生成 Learning Rate），右側為深度學習訓練迴圈（回傳 Accuracy 作為 Fitness）。 * **交付物 (Deliverables)：** * **[Diagram]:** GOHBO-ResNet 系統架構流程圖 (Figure 3) ![演算法優化與DL](https://hackmd.io/_uploads/rJq805fHWl.png) #### D2. [實驗數據整理] 演算法效益與比較分析 * **DoD 達成狀況：** ✅ 已完成 * **數據整理：** * 整理論文中針對 **CEC 2017 標準測試函數集** 的基準測試結果，驗證演算法全域搜尋能力。 * 整理三種醫療影像模態（大腸癌、腦腫瘤、胸部 X-ray）的實驗數據，確認 GOHBO-ResNet 在各項指標（Accuracy, Precision, Recall, F1）皆優於對照組。 * **交付物 (Deliverables)：** * **[Table]:** GOHBO-ResNet 與 SOTA 模型之性能對比表 (Table 6) ![table6實驗結果](https://hackmd.io/_uploads/BkRBAqzrWl.png) ### 2. 實驗紀錄 (Experiments & Analysis) * **實驗 E1：** GOHBO-ResNet 在多模態醫學影像上的性能評估 * **實驗設定：** Backbone=ResNet-18, Optimizer=GOHBO, Datasets=Colorectal Cancer/Brain Tumor/Chest X-ray, Split=70/15/15. * **結果比較表：** | Task (Dataset) | GOHBO-ResNet Accuracy (%) | vs. Baseline (AlexNet/GoogLeNet) | | :--- | :---: | :---: | | **大腸癌分類 (Colorectal)** | **95.6%** | Significant Improvement | | **腦腫瘤分類 (Brain Tumor)** | **97.64%** | Significant Improvement | | **胸部影像分類 (Chest X-ray)** | **96.48%** | Significant Improvement | * **結果分析：** * **準確率提升**：從交付物 Table 6 可見，GOHBO-ResNet 在三種不同模態的任務中，準確率 (Mean ACC) 皆顯著優於 AlexNet ($90.03\% \sim 95.81\%$)、GoogLeNet ($92.15\% \sim 97.42\%$) 及未經優化的 ResNet。 * **自動化優勢**：證明了引入演算法進行自動化超參數優化，能有效減少對人工經驗的依賴，並在標準差 (Std) 上展現出更高的強健性（如大腸癌資料集 Std 僅 $0.0055$）。 ### 3. 困難與求助 (Issues & Blockers) * **I1. [計算成本] 適應度評估耗時** * **現象描述：** 每次評估適應度 (Fitness) 都需要完整訓練一次 ResNet 模型，計算成本極高。 * **潛在風險：** 若應用於更大型的資料集或更深層的網路，搜尋時間恐過長。 ### 4. 下週計畫 (Plan & DoD) * **P1. [未來方向] 代理模型 (Surrogate Model) 研究** * **預計產出：** 一份關於利用代理模型模擬適應度評估的調研報告。 * **DoD：** 搜尋並研讀 3 篇關於 Surrogate-Assisted Evolutionary Algorithms 的論文，尋求降低運算需求的解決方案。 *** ### 5. 文獻閱讀 (Literature Review) * **R1. [An Evolutionary Deep Learning Method Based on Improved HBO for Medical Image Classification](論文連結)** * **核心貢獻：** 提出 GOHBO 演算法，結合灰狼機制與正交學習，解決了傳統 HBO 易陷入局部最佳解的問題，並成功應用於醫學影像分類的超參數優化。 * **對本研究啟發：** 啟發了我們在面對超參數敏感的深度學習模型時，可採用進化演算法進行自動化搜尋，但需注意計算成本的控制。