## 進度報告:2026/02/03(第22週) ### 0. 本週總覽 (Executive Summary) > *針對 VIA 影像高噪聲與弱邊界問題,本週驗證了 SegFormer 結合解剖標籤優化與病灶特定增強策略的有效性。* * **本週最重要結論:** 證實將解剖標籤簡化為 3 類 (Col, L, OUE) 並搭配「不透明度調變 (Opacity Modulation, OM)」增強,可使 SegFormer 的病灶 IoU 達到 $0.6122$,顯著優於傳統 CNN 模型。 * **關鍵產出:** 完成標籤配置實驗分析表 (Table 10/11)、病灶特定增強 (LSA) 消融實驗 (Table 14)。 * **風險燈號:** 🟢 正常 ### 1. 本週完成事項 (Done & Evidence) #### D1. [方法論驗證] 解剖標籤最佳化 (Anatomical Label Optimization) * **DoD 達成狀況:** ✅ 已完成 * **設計動機:** 原始 VIA 影像包含 5 種解剖結構,但「轉化區 (TZ)」與「子宮頸區 (CA)」邊界模糊且重疊嚴重,導致模型學習發散。 * **方法論述 (Formulation):** * 比較了三種標籤配置:5-class (全標)、4-class (移除 TZ)、3-class (僅保留 Col, L, OUE)。 * 實驗證明 3-class 配置能最大化模型對關鍵病灶的關注力。定義最佳化後的分割目標為集合 $S_{opt} = \{C_{Col}, C_{L}, C_{OUE}\}$,其中 $C_{OUE}$ 作為關鍵解剖定位點。 * **交付物 (Deliverables):** * **[截圖]:** * 模型在訓練過程中的變化,它的橫軸標示為 Epoch(訓練週期),縱軸標示為 Overall IoU。 ![image](https://hackmd.io/_uploads/H1laem0IWx.png) * 模型在特定類別上的表現。雷達圖的每一角代表不同的標籤區域(如 Col, CA, L, OUE 等)。 ![image](https://hackmd.io/_uploads/B1QRgmA8Zg.png) >(3-class 的 IoU 成長曲線最穩定且收斂最佳)。 #### D2. [新方法設計] 病灶特定增強策略 (Lesion-Specific Augmentation, LSA) * **DoD 達成狀況:** ✅ 已完成 (理論與實驗驗證) * **設計動機:** VIA 影像中的病灶常呈現半透明、低對比度,且受光照反光 (Glare) 影響,通用增強 (Flip/Rotate) 無法模擬此物理特性。 * **數學表述 (Formulation):** * 提出 **不透明度調變 (Opacity Modulation, OM)** 作為最有效的增強手段。 * 針對影像 $I$ 中的病灶遮罩區域 $M_{lesion}$,我們引入亮度調節係數 $\alpha_2$,計算如下: $$ I'(x,y) = \begin{cases} \alpha_2 \cdot I(x,y), & \text{if } (x,y) \in M_{lesion} \\ I(x,y), & \text{otherwise} \end{cases} $$ * 其中 $\alpha_2$ 在範圍 $[1.2, 1.8]$ 內隨機取樣,旨在強迫模型學習病灶的紋理特徵而非單純依賴亮度。 * 另外包含 **局部輪廓變形 (RCW)** 與 **局部眩光注入 (LFNI)**,模擬真實臨床噪聲。 * **交付物 (Deliverables):** * **[截圖]:** 參考 **Figure 1**(架構圖中的 LSA 模組示意) ![image](https://hackmd.io/_uploads/rkb7MQ08-g.png) * **Table 5** (增強公式定義)。 ![image](https://hackmd.io/_uploads/SJ5CZQAU-x.png) ### 2. 實驗紀錄 (Experiments & Analysis) > *比較 SegFormer 在不同增強策略下的表現。* * **實驗 E1:** SegFormer 結合 LSA 之消融研究 (Ablation Study) * **實驗設定:** Dataset=RSMH (521 train/124 val), Model=SegFormer-B0/B1, Label=3-class. * **結果比較表 (基於論文 Table 14 整理):** | Augmentation Strategy | Overall IoU | Lesion IoU (L) | Remarks | | :--- | :---: | :---: | :--- | | None (Baseline) | 0.5558 | 0.5918 | 基礎表現 | | RCW (Contour Warping) | 0.5544 | 0.5873 | 邊緣變形對提升有限 | | LFNI (Flare Injection) | 0.5601 | 0.5853 | 增加魯棒性但 IoU 提升不大 | | **OM (Opacity Mod.)** | **0.5695** | **0.6121** | **最佳表現** (模擬真實病灶反光) | | OM + P (Sequential) | 0.5622 | 0.5850 | 組合增強反而略微下降 | * **結果分析:** * **OM (Opacity Modulation)** 表現最佳,Lesion IoU 提升至 $0.6121$。這證實了模擬病灶的「半透明度變化」對於 VIA 任務至關重要。 * **負面觀察:** 雖然整體效能提升,但從 Confusion Matrix (**Figure 7d**) 觀察到,OUE (外子宮口) 的 False Negative 仍然很高,顯示小物件分割仍是難點。 ### 3. 困難與求助 (Issues & Blockers) * **I1. 小物件 (OUE) 檢測困難 (Class Collapse on Minority Class)** * **現象描述:** 雖然病灶 (L) 分割效果好,但外子宮口 (OUE) 的 IoU 僅約 $0.1797$,且 Precision 極低 ($0.2062$)。 * **理論分析:** OUE 佔整體像素比例極低 (約 1.3%),且前處理將影像 Resize 至 $256 \times 256$,導致小結構特徵丟失。 * **可能解法:** 可能可以從 Focal Loss 方面去做更改來改善問題 ### 4. 下週計畫 (Plan & DoD) * **P1. [文獻探討] 針對聯邦蒸餾之 SOTA 教師模型選型調研 * **預計產出:** 整理出一份包含 3~4 個 2023-2024 年 Transformer 分割模型的候選清單,並分析其優劣。 * **DoD:** 完成一份比較表格,欄位包含:模型架構特點 (Architecture)、參數量 (Params)、在類似資料集上的 IoU 表現、以及是否開源。 *** ### 5. 文獻閱讀 (Literature Review) * **R1. Robust SegFormer-Based Cervical Neoplastic Lesion Segmentation Using Lesion-Specific Augmentation and Anatomical Label Optimization (論文連結)** https://ieeexplore.ieee.org/document/11275672 * **核心貢獻:** 提出 LSA (特別是 Opacity Modulation) 與 3-class 標籤優化,解決 VIA 影像分割難題。 * **對本研究啟發:** * 1. 醫療影像分割不應盲目追求多類別,**「臨床相關性 (Clinical Relevance)」** (如 3-class 配置) 比全分割更重要。 * 2. 資料增強必須符合物理特性 (Physically-plausible),OM 的成功給了我們設計聯邦學習資料增強的靈感。 ## 進度報告: 2026/01/26(第 21 週) ### 0. 本週總覽 (Executive Summary) * **本週最重要結論:** * 對於論文模型之「輕量化」主要來自 模型家族選型(YOLO Nano)與 以追蹤/規則濾波取代 3D CNN 的策略 * 確認 **YOLOv11n (Nano)** 搭配 **Tracking-by-detection** 機制,可作為聯邦蒸餾 (FD) 中極具潛力的「輕量化學生模型 (Student Model)」架構,其在維持 $mAP@50 \approx 0.631$ 的同時,計算量僅需 $6.5 \text{G FLOPs}$,遠低於 3D CNN。 * 針對教授所提出"「輕量化蒸餾」與「類別不平衡處理」問題合併解決的初步思路"做思考 * **關鍵產出:** 完成論文《CT Scans As Video》的解析,並提出「輕量化蒸餾」與「類別不平衡處理」的處理方法 * **風險燈號:** 🟢 正常 ### 1. 本週完成事項 (Done & Evidence) #### D1. [文獻研讀] 解析 "CT Scans As Video" 之輕量化策略 * **DoD 達成狀況:** ✅ 已完成 * **方法論述 (Formulation):** * 本研究的核心假設是將 3D CT Volume $V \in \mathbb{R}^{D \times H \times W}$ 視為時序影片序列 $S = \{I_1, I_2, ..., I_D\}$。 * 不同於傳統 3D CNN 直接對 $V$ 進行卷積運算(高算力消耗),該方法採用 2D Object Detector (YOLO) 處理單幀 $I_z$,並引入**時空一致性濾波 (Spatiotemporal Consistency Filter)**: $$ \text{Keep}(b_z) = \mathbb{1}\left( \max(\text{IoU}(b_z, \mathcal{B}_{z-1})) > 0 \lor \max(\text{IoU}(b_z, \mathcal{B}_{z+1})) > 0 \right) $$ * 其中 $b_z$ 為當前切片的預測框,$\mathcal{B}_{z \pm 1}$ 為相鄰切片的預測框集合。此公式將昂貴的 3D 上下文推理簡化為幾何重疊檢查,大幅降低邊緣運算成本。 * **交付物 (Deliverables):** * [圖表]: Tracking-by-detection 流程架構圖 ![image](https://hackmd.io/_uploads/Bkkev1B8Zg.png) #### D2. [架構評估] 聯邦蒸餾學生模型候選分析 * **DoD 達成狀況:** ✅ 已完成 * **分析摘要:** * 依據論文數據,YOLOv11n 作為 Backbone 具有極佳的 **Accuracy-Efficiency Trade-off**。 * 在聯邦蒸餾 (FD) 情境下,我可以選擇此架構設為 Client 端模型: 1. **Local Training:** Client 端僅訓練輕量級 YOLOv11n ($2.6\text{M}$ Params)。 2. **Inference:** 結合 Server 端聚合的知識,並在本地推論時加上論文提出的 **Hybrid ByteTrack** 模組作為後處理,以降低 False Positives。 ### 2. 實驗紀錄 (Experiments & Analysis) * **實驗 E1:** [文獻數據分析] YOLO Nano 家族選型評估 * **實驗設定:** 比較不同 YOLO Nano 版本在 Slice-level Detection 的表現 (Dataset: Hemorica)。 * **結果比較表:** | Backbone | Params (M) | FLOPs (G) | Recall | mAP@50 | 備註 | | :--- | :---: | :---: | :---: | :---: | :---: | | YOLOv8n | 3.2 | 8.7 | 0.537 | 0.595 | | | YOLOv10n | 2.3 | 6.7 | 0.509 | 0.594 | 參數最少 | | **YOLOv11n** | **2.6** | **6.5** | **0.542** | **0.631** | **最佳折衷** | | YOLOv12n | 2.6 | 6.5 | 0.529 | 0.597 | | * **結果分析:** * YOLOv11n 在參數量 ($2.6\text{M}$) 與運算量 ($6.5\text{G}$) 均處於低檔,但 $mAP@50$ 卻顯著高於其他版本 ($+3.6\% \text{ vs } v12n$)。 * **這證實了:** 在聯邦學習的邊緣端,選擇 YOLOv11n 作為 Student Model 是最具效益的起點。 * **實驗 E2:** [文獻數據分析] 追蹤模組對 Precision 的影響 * **觀察:** 引入 Hybrid ByteTrack 後,Precision 由 $0.703$ 提升至 $0.779$,且 Recall 保持穩定 ($0.643 \to 0.647$)。 * **啟發:** 聯邦蒸餾的學生模型通常較弱,容易產生雜訊(False Positives),此論文證實了「非學習式」的後處理(Tracking/Filter)能有效彌補學生模型的先天不足。 ### 3. 困難與求助 (Issues & Blockers) * I1.[將「輕量化蒸餾」與「類別不平衡處理」問題合併解決的初步思路] * **針對教授所提出的問題找出三大方案:** * **方案 1:權重重分配蒸餾** - **核心概念**: - 動態調整「音量」。 - 老師講**簡單題目(背景)** $\rightarrow$ 小聲(權重低)。 - 老師講**難題(腫瘤)** $\rightarrow$ 大聲(權重高)。 - **實作方式**: - 修改 KD Loss Function。 - 根據像素類別給予不同 Weighting。 - **優點**: - 實作最快,僅需修改公式。 - 計算成本最低。 * **方案 2:區域引導特徵蒸餾(Region-guided Feature Distillation)** - **核心概念**: - 不只看答案 (Logits),要看過程 (Features)。 - **強迫 Student 模仿 Teacher 的「中間層特徵圖」。** - **關鍵限制**:只模仿「腫瘤區域」的特徵。 - **比喻**: - 拿著老師的筆記,把重點(腫瘤)圈起來。 - 要求學生:「這裡的筆觸要畫得跟老師一模一樣!」 - **優點**: - 效果通常優於方案 1。 - 符合 "Feature-based Distillation" 主流趨勢。 * **方案 3:解耦蒸餾(Decoupled Distillation)** - **核心概念**:將「背景」與「前景」拆開處理。 - **背景**:使用寬鬆 Loss 或忽略。 - **前景(腫瘤)**:使用嚴格 Loss 強制對齊。 - **邏輯優勢**: - 直接回應「不要繼承背景偏見」的需求。 - 避免多數類別的梯度主導優化方向。 - **預期效益**: - 顯著提升 Student 對小物件的敏感度。 > **初步結論**:傾向優先嘗試 **方案 2**,因其能有效利用 Teacher 的深層知識,同時解決 CNN 與 Transformer 架構差異問題。 ---- ### 4. 下週計畫 (Plan & DoD) * **P1. [論文研讀] **本次YOLO 是基於 CNN 的一種方法,我有初步了解到CNN 與 Transformer 架構差異,所以下次打算以Transformer 做輕量化模型的視角去找論文 * **預計產出:** 解析論文並產出報告以及了解Transformer作為輕量化模型的表現 * **DoD:** 完成輕量化 Transformer (如 MobileViT 或 UNETR-Lite) 的研讀筆記。 *** ### 5. 文獻閱讀 (Literature Review) * **R1. CT Scans As Video: Efficient Intracranial Hemorrhage Detection Using Multi-Object Tracking** (/https://arxiv.org/pdf/2601.02521) * **核心貢獻:** 1. **視角轉換:** 將 3D 醫療影像分析重構為 2D 視訊目標追蹤問題,解決邊緣端算力不足問題。 2. **Hybrid Inference:** 結合 YOLO 高信心度檢測與 ByteTrack 低分關聯,解決追蹤初始化延遲 (Initialization Lag) 問題。 * **對本研究啟發:** * **Student Model 架構確立:** 確認使用 2D CNN (YOLOv11n) 搭配時序後處理,作為聯邦蒸餾中的輕量化學生模型標準配置。 * **Baseline 設定:** 該論文的實驗結果 (Precision 0.779 / F1 0.707) 將作為我們評估聯邦蒸餾成效的 Baseline 指標。 ## 進度報告: 2026/01/20 (第 20 週) ### 0. 本週總覽 (Executive Summary) * **本週最重要結論:** * 以 AI 論文推薦主題一「基於跨架構蒸餾的通用輕量化 3D 分割模型」作切入,深入了解 Swin UNETR 模型的應用。 * 本週研讀之論文證實了在小樣本 ($N=105$) 醫療數據中,將影像特徵 (Swin UNETR) 與臨床表格數據 (XGBoost) 進行**機率級集成 (Probability Ensemble)**,其準確率 ($68.6\%$) 優於單一模態模型及特徵級融合 (Feature Fusion) 方法。 * **關鍵產出:** 完成論文技術拆解報告,整理出 Swin Transformer 結合 XGBoost 的數學架構。 * **風險燈號:** 🟢 正常 ### 1. 本週完成事項 (Done & Evidence) #### D1. [文獻研讀] 深度分析 pLGG 化療反應預測之集成模型 * **DoD 達成狀況:** ✅ 已完成 * **方法論述 (Formulation):** * 本研究提出一個雙流 (Dual-stream) 架構。首先,針對 MRI 影像輸入 $x_{img}$,使用 **Swin UNETR** 作為特徵提取器。其核心 Swin Transformer Block 採用移動窗口注意力機制 (Shifted Window Attention) 計算如下: $$ \text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{Q K^T}{\sqrt{d}} + B\right) V $$ * 其中 $B$ 為相對位置編碼 (Relative Position Bias),旨在捕捉 3D 腫瘤的長距離依賴性 (Long-range Dependencies)。 * 第二流使用 **XGBoost** 處理結構化臨床數據與放射組學特徵 $x_{tab}$。 * 最終預測 $y_{pred}$ 採用模型輸出級的集成策略 (Ensemble Strategy),計算兩個模型預測機率的平均值: $$ P(y|x) = \frac{P_{\text{Swin}}(y|x_{img}) + P_{\text{XGB}}(y|x_{tab})}{2} $$ * 此方法有效解決了特徵級融合 (Feature Fusion) 因維度災難導致過擬合的問題。 * **交付物 (Deliverables):** * **[Report]:** 架構分析圖 ![F1架構分析](https://hackmd.io/_uploads/SkOVgIjBbl.png) #### D2. [技術與數據分析] 理解 SHAP 解釋性分析與數據前處理 * **DoD 達成狀況:** ✅ 已完成 * **分析內容:** * 針對模型解釋性,利用 SHAP (SHapley Additive exPlanations) 值分析特徵重要性。 * 數學上,特徵 $j$ 的 SHAP 值 $\phi_j$ 定義為: $$ \phi_j = \sum_{S \subseteq F \setminus \{j\}} \frac{|S|! (|F| - |S| - 1)!}{|F|!} [f_{S \cup \{j\}}(x_{S \cup \{j\}}) - f_S(x_S)] $$ * 論文數據顯示,「診斷年齡 (Age at event)」具有最高的平均 SHAP 值 ($0.99 \pm 0.17$),遠高於影像紋理特徵。 * **交付物 (Deliverables):** * **[Diagram]:** 整理 CBTN 數據集預處理流程圖 (CaPTK Pipeline $\to$ Skull Stripping)。 ```mermaid graph LR %% 定義節點樣式 - 修正顏色語法確保兼容性 classDef dataset fill:#e1f5fe,stroke:#01579b,stroke-width:2px; classDef process fill:#f3e5f5,stroke:#4a148c,stroke-width:2px; classDef pipeline fill:#e8f5e9,stroke:#1b5e20,stroke-width:2px,stroke-dasharray: 5 5; %% 流程開始 A[CBTN Dataset<br/>622 Patients]:::dataset --> B{Selection Criteria<br/>Chemotherapy +<br/>4 MRI Sequences} B -->|Qualified| C[Raw Cohort]:::dataset %% CaPTK Pipeline 子圖 subgraph CaPTK_Pipeline [CaPTK Preprocessing Pipeline] direction TB D[Reorientation<br/>to LPS/RAI]:::process E[Registration<br/>T1CE -> SRI-24 Atlas<br/>T1/T2/FLAIR -> T1CE]:::process F[N4 Bias Correction]:::process D --> E --> F end C --> CaPTK_Pipeline %% 後續步驟 F --> G[Skull Stripping<br/>nnU-Net based]:::process G --> H[Final Dataset<br/>105 Patients]:::dataset %% 引用標註 click CaPTK_Pipeline "Ref: Paper Section III-A" "See Paper" ``` ### 2. 實驗紀錄 (Experiments & Analysis) * **實驗 E1:** 不同模型架構與融合策略之性能比較 (Model Comparison) * **實驗設定:** Dataset=CBTN (105 patients), 5-Fold Cross Validation, Task=Binary Classification (Effective vs. Not Effective). * **結果比較表:** | Model | Modality | Accuracy (%) | Recall (Non-Eff) | F1-Score (Avg) | | :--- | :--- | :---: | :---: | :---: | | XGBoost (Baseline) | Clinical + Radiomics | 60.95 | 0.68 | 0.56 | | Swin UNETR | Image Only | 58.10 | 0.75 | 0.54 | | Mamba-Ensemble | Image + Clinical | 59.05 | 0.68 | 0.57 | | **Swin-Ensemble** | **Image + Clinical** | **68.57** | **0.85** | **0.63** | * **結果分析:** * **集成優勢:** Swin-Ensemble 的準確率 ($68.57\%$) 顯著優於單一模態模型,證明臨床資訊與影像特徵具有互補性。 * **觀察到的問題:** 雖然對「無效 (Not Effective)」類別的 Recall 高達 $0.85$,但對「有效 (Effective)」類別的 Recall 僅 $0.44$。這顯示模型深受**類別不平衡 (Class Imbalance)** 影響,是未來改進的重點。 ### 3. 困難與求助 (Issues & Blockers) * **I1. [論文方向諮詢] 確立碩士論文題目** * **現象描述:** 我會將完整的五大主題內容以 PDF 形式傳給教授 (Messenger),想請問教授有無特別推薦哪一個主題。 * **目前進度:** 目前我是針對 **主題一「基於跨架構蒸餾的通用輕量化 3D 分割模型」** 來做研究。 * **資料庫確認:** 我針對以上五個主題去尋找有無公開資料庫,查出來的結果是都能在 [MSD (Medical Segmentation Decathlon)](http://medicaldecathlon.com/) 中取得資料庫。 ### 4. 下週計畫 (Plan & DoD) * **P1. [論文研讀] 輕量化 3D 學生模型架構選型 (3D MobileNetV2 / EfficientNet-3D)** * **預計產出:** 產出一份**「候選學生模型評估報告」**,包含參數效率與性能的比較矩陣 (Comparison Matrix)。 * **DoD:** 1. 研讀並整理 3D MobileNetV2 / EfficientNet-3D 論文在醫學影像上的應用。 2. 完成比較表格:列出候選模型並比較各模型的參數量 (Params)、運算量 (FLOPs) 以及在標準資料集 (如 BTCV/MSD) 上的 Dice Score。 *** ### 5. 文獻閱讀 (Literature Review) * **R1. Ensemble Models for Predicting Treatment Response in Pediatric Low-Grade Glioma Managed with Chemotherapy** ([arXiv:2601.03899]) * **核心貢獻:** 提出首個結合 Swin UNETR 影像特徵與 XGBoost 臨床特徵的集成模型,解決 pLGG 化療反應預測問題。 * **對本研究啟發:** 1. **架構面:** 在小樣本醫療任務中,「模型輸出平均 (Probability Averaging)」比「特徵拼接 (Feature Concatenation)」更穩健。 2. **特徵面:** 臨床特徵 (如年齡) 不可或缺,純深度學習影像模型在預後預測上往往存在天花板。 ## 進度報告: 2026/01/12(第 19 週) ### 0. 本週總覽 (Executive Summary) * **本週最重要結論:** 研讀 IEEE Access 2025 論文《Fed3D-KDNet》,確認結合 **3D Spatial Adapter** 與 **雙重知識蒸餾 (Dual-KD)** 機制,能在聯邦學習環境下解決多器官弱標註問題,其 Dice Score 在 BTCV 數據集上達到 $80.53\%$,優於 SOTA (Multi-head KD) 約 $5\%$。 * **關鍵產出:** 完成論文方法論的數學推導整理、針對 3D Adapter 架構的復現規劃。 * **風險燈號:** 🟢 正常 ### 1. 本週完成事項 (Done & Evidence) #### D1. [論文研讀] Fed3D-KDNet 方法架構分析 * **DoD 達成狀況:** ✅ 已完成 * **方法論述 (Formulation):** * **核心問題**:解決醫學影像聯邦學習中的「部分標註 (Partial Labels)」與「災難性遺忘 (Catastrophic Forgetting)」。 * **3D Spatial Adapter**:為了解決 SAM 原生僅支援 2D 輸入的問題,論文在 Transformer Block 中引入適配器。輸入特徵 $X$,Adapter 計算如下: $$ \text{Adapter}(X) = X + \text{Act}(X W_{down}) W_{up} $$ * 此外,為了捕捉體積特徵,引入了深度方向的卷積 (Depth-wise 3D Conv)。 * **雙重知識蒸餾 (Dual Knowledge Distillation)**: 1. **Global-KD**:利用全域模型 $f_{\Phi}$ 指導本地模型 $f_{\phi_k}$ 預測未標註區域,損失函數定義為: $$ \mathcal{L}_{KD, i}^{global} = - \frac{1}{N_V} \frac{1}{N_T - n(\mathcal{T}^k)} \sum_{t \notin \mathcal{T}^k} \sum_{j=1}^{N_V} f_{\Phi}(X_{ij}^k, t) \log(f_{\phi_k}(X_{ij}^k, t)) $$ 2. **Local-KD**:客戶端之間交換「特定器官專家模型」$h_{\theta}$ 的知識: $$ \mathcal{L}_{KD, i}^{local} = - \frac{1}{N_V} \sum_{j=1}^{N_V} h_{\theta_k}(X_{ij}^k) \log(f_{\phi_k}(X_{ij}^k, t)) $$ * **交付物 (Deliverables):** * **[Note]:** Fed3D-KDNet 詳細筆記 ![Fed3D-KDNet流程筆記圖](https://hackmd.io/_uploads/SJiWDwQS-x.png) * **[Diagram]:** 重新繪製的 Dual-KD 架構流程圖 ![重新繪製的 Dual-KD 架構流程圖](https://hackmd.io/_uploads/B1IrUIMSbl.png) #### D2. [實驗數據整理] SOTA 方法比較與分析 * **DoD 達成狀況:** ✅ 已完成 * **數據整理:** * 整理論文 Table 2 與 Table 6,比較 Fed3D-KDNet 與 FedProx, SCAFFOLD 等方法。 * 發現該方法在參數效率上極高(Tuned Params 僅 26.53M,遠低於 Fed-MENU 的 128.54M)。 * **交付物 (Deliverables):** * **[Table2]:** Fed3D-KDNet 消融實驗性能對比表 ![Table2](https://hackmd.io/_uploads/HkU_PvXSZe.png) * **[Table6]:** Fed3D-KDNet 與 SOTA 模型之效率評估表 ![Table6](https://hackmd.io/_uploads/H1RdDv7rbl.png) ### 2. 實驗紀錄 (Experiments & Analysis) * **實驗 E1:** Fed3D-KDNet 在 BTCV 資料集上的性能評估 (論文數據復現分析) * **實驗設定:** Dataset=BTCV (Multi-organ), Clients=7 (Non-IID, partial labels), Backbone=ViT-B (SAM). * **結果比較表:** | Method | Avg Dice (%) | Avg HD (voxel) | GFLOPs | Params (M) | | :--- | :---: | :---: | :---: | :---: | | DoDNet | 30.37 | 60.14 | 458.4 | 45.81 | | FedProx | 53.04 | 35.86 | 531.8 | 58.78 | | Multi-head-KD | 76.66 | 15.78 | 461.0 | 47.28 | | **Fed3D-KDNet (Ours)** | **80.53** | **11.43** | **371.3** | **26.53** | * **結果分析:** * Fed3D-KDNet 在 **Dice Score** 上超越次佳的 Multi-head-KD 約 $3.87\%$,證明雙重蒸餾能有效結合全域與本地知識。 * 在 **HD (Hausdorff Distance)** 指標顯著降低,代表邊界分割更加精確,這歸功於 **APG (Auto Prompt Generator)** 產生的動態 Prompt 能更好適應器官形狀。 * **效率分析:** 參數量最少 ($26.53M$) 且 GFLOPs 最低,這對於我們實驗室目前算力有限的情況下,是一個非常值得復現的方向。 ### 3. 困難與求助 (Issues & Blockers) > 無 ### 4. 下週計畫 (Plan & DoD) * **P1. [論文主題 1:基於跨架構蒸餾的通用輕量化 3D 分割模型] 根據AI輔助得出的論文方向主題1,了解其應用** * **預計產出:** 一份有關"Swin UNETR"應用方法的論文簡報 * **DoD:** 精讀《Swin UNETR》原文,理解其架構。 *** ### 5. 文獻閱讀 (Literature Review) * **R1.[論文Link](https://ieeexplore.ieee.org/document/11000122) * **核心貢獻:** 這是本篇論文的基礎 (MedSAM),了解它是如何將 2D SAM 應用於醫學影像。 * **對本研究啟發:** 比較 Fed3D-KDNet 的 Adapter 設計與 MedSAM 的微調策略差異。 ## 進度報告: 2026/01/06(第 18 週) ### 0. 本週總覽 (Executive Summary) * **本週最重要結論:** 深入研讀《An Evolutionary Deep Learning Method Based on Improved HBO for Medical Image Classification》,確認 **GOHBO (Improved Heap-Based Optimization)** 結合 **灰狼機制 (GWM)** 與 **正交學習 (OL)**,能有效自動化搜尋 ResNet-18 的最佳學習率。實驗結果顯示,該方法在大腸癌 ($95.6\%$)、腦腫瘤 ($97.64\%$) 及胸部 X-ray ($96.48\%$) 分類準確率上,皆顯著優於傳統 CNN 模型與未優化的 ResNet。 * **關鍵產出:** 完成 GOHBO 演算法公式推導整理、GOHBO-ResNet 系統架構流程解析 (Figure 3)、多模態實驗數據效益評估 (Table 6)。 * **風險燈號:** 🟢 正常 ### 1. 本週完成事項 (Done & Evidence) #### D1. [論文研讀] GOHBO-ResNet 方法架構分析 * **DoD 達成狀況:** ✅ 已完成 * **方法論述 (Formulation):** * **核心問題**:解決深度學習模型(如 CNN)效果高度依賴超參數(特別是 Learning Rate),且手動調參低效盲目的問題。 * **堆疊優化算法 (HBO)**:模擬企業階層管理,基本位置更新公式如下: $$ X_{i}^{k}(t+1) = B^{k} + \gamma \lambda^{k} |B^{k} - X_{i}^{k}(t)| $$ * **增強型 GOHBO (Improved Mechanism)**: 1. **灰狼機制 (GWM)**:引入動態權重 $w_1$ 調整搜索步長,平衡前期探索與後期開發: $$ w_{1} = (1 - \frac{t}{T})^{(1 - \tan(\pi \cdot (rand - 0.5)) \cdot \frac{t}{T})} $$ 2. **正交學習策略 (OL)**:利用正交實驗設計法,從搜索空間挑選具代表性的點,強化局部開採精準度。 * **GOHBO-ResNet 框架**:系統流程如下圖所示,左側為演化演算法迴圈(生成 Learning Rate),右側為深度學習訓練迴圈(回傳 Accuracy 作為 Fitness)。 * **交付物 (Deliverables):** * **[Diagram]:** GOHBO-ResNet 系統架構流程圖 (Figure 3) ![演算法優化與DL](https://hackmd.io/_uploads/rJq805fHWl.png) #### D2. [實驗數據整理] 演算法效益與比較分析 * **DoD 達成狀況:** ✅ 已完成 * **數據整理:** * 整理論文中針對 **CEC 2017 標準測試函數集** 的基準測試結果,驗證演算法全域搜尋能力。 * 整理三種醫療影像模態(大腸癌、腦腫瘤、胸部 X-ray)的實驗數據,確認 GOHBO-ResNet 在各項指標(Accuracy, Precision, Recall, F1)皆優於對照組。 * **交付物 (Deliverables):** * **[Table]:** GOHBO-ResNet 與 SOTA 模型之性能對比表 (Table 6) ![table6實驗結果](https://hackmd.io/_uploads/BkRBAqzrWl.png) ### 2. 實驗紀錄 (Experiments & Analysis) * **實驗 E1:** GOHBO-ResNet 在多模態醫學影像上的性能評估 * **實驗設定:** Backbone=ResNet-18, Optimizer=GOHBO, Datasets=Colorectal Cancer/Brain Tumor/Chest X-ray, Split=70/15/15. * **結果比較表:** | Task (Dataset) | GOHBO-ResNet Accuracy (%) | vs. Baseline (AlexNet/GoogLeNet) | | :--- | :---: | :---: | | **大腸癌分類 (Colorectal)** | **95.6%** | Significant Improvement | | **腦腫瘤分類 (Brain Tumor)** | **97.64%** | Significant Improvement | | **胸部影像分類 (Chest X-ray)** | **96.48%** | Significant Improvement | * **結果分析:** * **準確率提升**:從交付物 Table 6 可見,GOHBO-ResNet 在三種不同模態的任務中,準確率 (Mean ACC) 皆顯著優於 AlexNet ($90.03\% \sim 95.81\%$)、GoogLeNet ($92.15\% \sim 97.42\%$) 及未經優化的 ResNet。 * **自動化優勢**:證明了引入演算法進行自動化超參數優化,能有效減少對人工經驗的依賴,並在標準差 (Std) 上展現出更高的強健性(如大腸癌資料集 Std 僅 $0.0055$)。 ### 3. 困難與求助 (Issues & Blockers) * **I1. [計算成本] 適應度評估耗時** * **現象描述:** 每次評估適應度 (Fitness) 都需要完整訓練一次 ResNet 模型,計算成本極高。 * **潛在風險:** 若應用於更大型的資料集或更深層的網路,搜尋時間恐過長。 ### 4. 下週計畫 (Plan & DoD) * **P1. [未來方向] 代理模型 (Surrogate Model) 研究** * **預計產出:** 一份關於利用代理模型模擬適應度評估的調研報告。 * **DoD:** 搜尋並研讀 3 篇關於 Surrogate-Assisted Evolutionary Algorithms 的論文,尋求降低運算需求的解決方案。 *** ### 5. 文獻閱讀 (Literature Review) * **R1. [An Evolutionary Deep Learning Method Based on Improved HBO for Medical Image Classification](論文連結)** * **核心貢獻:** 提出 GOHBO 演算法,結合灰狼機制與正交學習,解決了傳統 HBO 易陷入局部最佳解的問題,並成功應用於醫學影像分類的超參數優化。 * **對本研究啟發:** 啟發了我們在面對超參數敏感的深度學習模型時,可採用進化演算法進行自動化搜尋,但需注意計算成本的控制。