# 模組期末專題報告-評分與建議
## 1. AI Adventurer: An Interactive Adventure Game Combining LLM-Based Storytelling and Human Action Recognition
組員: 吳仁傑, 廖桓毅, 王瑋琛
### 評分: 88
### 評語:
有趣的題目。結合LLM於互動遊戲之中。破題的時候可以帶入一些圖例,會更好理解實際上後續會看到什麼,這樣讓評審比較能想像整個畫面。這是一個具有軟硬體整合系統整合的專題,具身AI越來越popular,這個專題能反應此趨勢。此研究屬系統整合的題目?整體完成度高。LLM所扮演的角色?它的輸入與輸出?(僅影響故事大綱編輯)
語言模型的用途可以更明顯一些。
1. 專題功能完整,但模組間的資料流與處理流程說明略顯不足,建議以簡化架構圖清楚標示各模組的輸入、輸出與運作順序,以提升系統可理解性與完整度。
2. 目前成果多為功能展示,建議補充基本量化指標(如準確率、誤差、處理時間或執行速度),使專題成果具備可比較與可驗證性。
3. 專題構想具潛力,但創新點與實際應用場景尚未充分凸顯,建議明確說明相較既有作法的改進之處,以及最適合的實際應用方向。
## 2. AI 模型倫理與偏見實驗
組員: 呂茗憲, 詹智雅
### 評分: 82
### 評語:
針對3種模型對職業,角色,姓別,膚色是否有偏見,是個有趣的研究。雖然具有偏見,但是否也符合目前的社會生態環境?屬於偏見嗎?或許我們反而可以根據這個結果,去瞭解模型所學會、與看到的社會現像與生態。膚色上辨識不出黃種人?東方人比較低調,所以不常曝光,故數據可能也相對不多。所以此研究可以再進行得精細,作更細緻的設計。是社會偏見還是環境生態現況?
分析可以更加細緻一些。
1. 目前實驗已展示偏見現象,但多為質性觀察,建議加入常用的公平性量測指標,如 Demographic Parity Difference、Equal Opportunity Difference、Disparate Impact Ratio,並以數值(例如差異 < 0.1 或比值介於 0.8–1.25)呈現模型偏見程度,以提升結果的客觀性與可比較性。
2. 影片對實驗流程已有說明,但對 training dataset 組成比例、sensitive attribute(如性別、族群)定義,以及 model hyperparameters 著墨不足,建議補充樣本數、類別比例與模型設定,讓觀眾能清楚理解偏見來源並評估實驗可重現性。
## 3. Circuit Element Identification Traditional SVM Approach versus YOLO Object Detection
組員: 楊尚諭, 王立宣
### 評分: 80
### 評語:
題目有趣。是否有設計cross validation? -->沒有。表現較弱的部份是否能設計策略或改善模型讓表現更佳。 整體的完整度可以再更高,例如辨識後把它轉換成數位圖,直接可以送入電腦把PCB洗出來。
1. 雖有對比 Traditional SVM 與 YOLO-based Object Detection 的方法差異,但成果多停留在定性描述,建議加入明確的量化指標,如 classification accuracy、mean Average Precision (mAP)、precision / recall、inference time (ms per image),以數值方式呈現 YOLO 與 SVM 在辨識率與即時性上的差距。
2. 目前對資料來源與訓練流程說明略為簡略,建議補充 training/testing split ratio、樣本數、電路元件類別數量,以及 SVM kernel type 或 YOLO model version(如 YOLOv5 / YOLOv8),有助於觀眾理解實驗公平性與結果可重現性。
## 4. A Multi-Agent System for Autonomous Narrative World-Building using LangGraph
組員: 曾慶哲, 林琮翊
### 評分: 84
### 評語:
world bible, a knowledge graph。投影片很精美,建議可以加入一個流程圖,把每種agents的關係更清楚在同一個畫面中展示。有完整介面,以及與其它baselines比較。最後效果不好,可能內部尚有bugs,或模型尚未真的善用到knowledge graph,或knowledge graph不夠完整。目前效果尚不好。很有趣的嘗試。
1. 影片概念清楚,但對核心方法的技術細節著墨不足,建議明確說明所採用的 生成模型架構(如 Diffusion / GAN / Transformer)、training epochs、loss function(如 MSE、Perceptual Loss),並提供基本效能指標(如 FID、Inference Time(ms)),以提升技術可信度與可重現性。
2. 目前成果多為視覺展示,建議加入 Baseline Comparison(如未訓練模型或簡化模型)與量化評估,例如生成成功率、使用者主觀評分平均值(Likert scale),或品質指標改善百分比,以客觀支撐系統成效。
## 5. Real-Time Visual Sketch Reproduction and AI Doodle Recognition System
組員: 李朋逸, 李娜, 洪瑋雪
### 評分: 92
### 評語:
動機與問題介紹得很清楚。流程相當完整,細緻。Phase 2 舉筆,下筆是online來進行的嗎?-->先校正一次,後續就固定紙張的位置。內部有不少自己的設計,同時整個系統與應用程式相當完整。是相當完整的專題。可以有一些ablation study。低延遲的部份怎麼保證?是否有類似的產品?
實用性不錯。
1. 成果展示以功能運作為主,建議補充量化效能指標,例如 Accuracy、Error Rate、Processing Time (ms) 或成功率百分比,以數值方式佐證系統表現,提升成果可信度。
2. 系統流程已具雛形,但對模組間資料流與關鍵參數設定說明不足,建議明確說明輸入資料格式、處理步驟與主要參數,使系統更具工程完整性與可重現性。
## 6. Frequency-Aware Deepfake Detection
組員: 王景誠, 黃品程, 李柏緯
### 評分: 85
### 評語:
很有意義的題目。最後是分類問題?會輸出哪些分類? 所以frequency特徵的加入是否有幫助? -->其實已經有論文有驗證此假設,目前的結果可能是因為數據或實驗上仍有些瑕疵。
1. 建議加入 **對照基準(Baseline)** 與量化比較,如效能提升百分比或結果差異數值,以凸顯方法優勢。
2. 影片中對實驗或應用條件著墨較少,建議補充資料量規模、測試情境或系統限制條件,讓成果更貼近實務應用與評估需求。
## 7. From Seeing to Doing: A Vision-Language Grounded Robotics System
組員: 俞博云, 陳柔亞, 鍾佳妘
### 評分: 89
### 評語:
看到什麼就作什麼有什麼缺點,可以用一些例子來作說明,會更清楚欲解的問題。像整理桌面這樣的命令,系統怎麼理解?設置放置規則,先寫好,若沒有,則由VLM自己判斷。大於10個bounding box就跳過,是不是表示不能處理太複雜的整理任務。剛剛有提到一些確認過程,是否有展示?這裡只需要關心上層的指令是嗎?關於如何控制機器手臂的每個馬達,是這裡的研究目標嗎?有完整的介面。是一個比較上層的工作規劃的問題。未來可擴展到多機器人協作。
1. 模型或系統設計具潛力,但缺乏標準化評估指標,建議加入如 Precision / Recall、F1-score、Inference Time 等指標,使結果更具比較性與學術完整度。
2. 創意與應用方向明確,但對未來擴充性或應用場景說明略顯不足,建議說明後續可延伸的功能或實際部署情境,以提升整體完成度。
## 8. 動物用藥小貼士
組員: 許於穆, 李郡益, 李捷新
### 評分: 89
### 評語:
相比傳統的RAG,創新之處是哪些?-->資料如何歸檔, 引入rerank, 與2階段方法。實驗蠻完整的,測試很多模型。有交互試網頁系統。錯誤的程度之分析,而不是單純的對或錯。因為是用於醫療,目前這方面相關的實驗或performance metrics還需要再補充。
技術部份完整度較高
1. 內容具實用性,但建議補充法規與專有名詞的明確引用,例如 動物用藥品管理法、休藥期(Withdrawal Period)、MRL(Maximum Residue Limit),並搭配實際數值或法規門檻(如幾日休藥期),可提升專業度與正確性。
2. 目前多以概念性說明為主,建議加入具體案例或量化佐證,例如不當用藥造成殘留超標的比例、正確用藥後風險降低百分比,或簡要案例比較,讓觀眾更容易理解實際影響。
## 9. CT-Guided PET Tumor Segmentation: Dual-Modal Fusion for False-Positive Suppression based on SAM-Med3D
組員: 危湘妤, 江明俊
### 評分: 84
### 評語:
偏研究的題目。PET影像可反映細胞代謝活性。如何對PET影像作切割,是否有相關工作?與單獨輸入CT或PET比較起來,所提的方法的效果增進如何?多次重輸入的ablation study。問題的設計可以再優化。
1. 建議補充量化效能指標以強化說服力,例如 Accuracy / Error Rate、Processing Time(ms)、Throughput(FPS),或前後改進的百分比差異,讓系統成效可被客觀比較與驗證。
2. 方法流程已有說明,但對實驗設定與關鍵參數著墨不足,建議明確交代 dataset 規模、training/testing split ratio、模型或演算法主要參數,以提升成果的可重現性與工程完整度。
## 10. Low-Light Image Enhancement Network Based on HVI Color Space
組員: 孫以瑭, 魏品華, 夏宇翔
### 評分: 86
### 評語:
既有論文的延伸跟加深。增加了一組下採樣跟上採樣。有沒有confidence interval跟time complexity的比較。-->後者有作實驗。然後model 1沒有去測試應該要有幾層LCA嗎?或它選擇2層LCA的原因? 模型內有一個trainable density參數,會影響最終的顏色。
1. 影片中提到系統存在 "Garbage in, Garbage out" 的現象,即校驗雖然能發現錯誤,但創作型 Agent 無法有效根據回饋進行精準修正。
2. 影片中的 World Bible 已具備知識圖譜雛形,但 8b 模型難以同時處理全局規則。建議將全局規則拆分為 "Active Rules"。當 Agent 正在創建「派系(Faction)」時,檢索系統應僅抓取知識圖譜中 1-hop(一跳範圍) 內的關聯實體與相關法律。
## 11. Detecting Poisoned Samples with Deep Abstaining Classifier
組員: 陳宣瑋, 李振維
### 評分: 84
### 評語:
分析DAC是不是可以處理資料投毒問題。可以進一步分析其結果,並嘗試提出解決方案。
1. 建議補充量化評估指標以強化成果說服力,例如 Detection Rate、False Positive Rate、AUROC、Abstention Rate (%),並說明在不同 poisoning ratio(如 5%、10%、20%)下的偵測效能變化,以凸顯模型在實際攻擊情境中的穩定性。
2. 實驗設定與比較基準仍可更完整,建議明確說明 attack type(如 label-flipping、backdoor attack)、baseline methods(如 standard CNN、robust training) 與 confidence threshold 設定方式,有助於評估 Deep Abstaining Classifier 在對抗資料汙染上的相對優勢與可重現性。
## 12. 智慧健康豬隻行為辨識系統
組員: 施冠宇, 陳邦亢, 簡榮霖
### 評分: 88
### 評語:
打鬥跟犬坐姿是異常行為。是否有哪些部份是屬於自己設計的方法。打架的偵測包含interaction嗎?-->使用單隻的數據來辨識。準確性如何?-->目前尚沒有量化數據。蠻完整的。結合SAM3, 完成提示化概念分割,減化人工成本。
1. 系統已成功辨識豬隻行為,但建議補充量化辨識效能指標,例如 Accuracy、Precision / Recall、F1-score,或以行為分類(進食、站立、躺臥、異常行為)分別呈現準確率,提升模型在畜牧健康監測上的可信度。
2. 目前對實驗資料與環境描述較為簡略,建議明確說明 dataset 規模(影像數量、錄影時長)、拍攝條件(角度、光照)、模型推論速度(FPS),有助於評估系統在實際畜舍長時間部署的可行性。
## 13. AI生成圖中文字的完整化與再渲染工具
組員: 高浚誠, 羅苡庭, 吳俊穎
### 評分: 90
### 評語:
問題:生成出來的中文字常常會破碎。只有顏色提取,是否有考慮風格或背景?實作上遇到不少問題,都有提出妥善的方法去處理跟應對解決。內容完整。
文字渲染與應用有有結果,但建議補充實際運行時各種公式與文字的情境,提升工程完整度與可信度。
## 14. 死而復聲-人工智慧語音聊天
組員: 朱昕頤, 陳柏樺
### 評分: 85
### 評語:
從心理學的角度來看,這樣子對於心理健康或心理撫慰上是否有正向的幫助。在串接的過程中,同學們在此專題中屬於自行設計的方法有哪些。李登輝部份誤差比較大,所以賴清德跟李登輝的訓練數據有何差別?然後風格如何確認一致性。-->李前總統的部份數據比較不好蒐集。
補充系統在不同環境或資料分佈下的表現與失效案例,並說明適用範圍,可提升工程可信度與完整度。例如:噪聲增加時準確率下降 ??%;低資源模式效能下降??%。
## 15. 基於VLM之車輛事故危險預測與場景語意敘述系統
組員: 陳廷曜, 江錦慧, 鐘家凱
### 評分: 85
### 評語:
即時性? 準確性如何? Phase 1模型與phase 2模型分別準確度多少? 事故前多少秒可以發出警示? 是否有ablation study?題目是危險預測,改成自動事故紀錄會不會比較合適?因為即時性恐怕不足。
對於實際部署條件(例如環境限制、硬體需求、資料假設)說明不足。建議明確指出「在哪些條件下效果最佳/可能失效」,可提升專題的工程完整度與可信度。
## 16. Efficient Edge Multimodal Biometrics via Hyperdimensional Computing
組員: 劉尚哲 , 詹沐恩, 王文廷
### 評分: 86
### 評語:
此想法從何而來?動機? 進步性? HDC之前沒有看到有人應用在人臉辨識。只用臉,準確度降10% (60%), 加上聲音則比只用臉加10% (達70%)。Ablation study的部份可以多補充,瞭解每個部份的貢獻如何。
建議補充實際運行所需的硬體資源、環境假設與可能失效情境,提升工程完整度與可信度。
## 17. Object Detection Using Turtlebot3 in a Two-Line Track
組員: 鍾名峰, 天佑, 蕭嘉甫
### 評分: 83
### 評語:
超音波的角色? 有整合iottalk 平台, 這是一個實作的work。沒有辨識速度方面的實驗數據。
1. 目前成果展示偏重流程與功能說明,建議加入至少 2 項核心效能指標並與 baseline 比較,例如準確率、推論延遲或處理吞吐量,以量化系統優勢。
2.補充模型或系統在資料分佈改變、極端輸入或硬體資源受限時的表現,提升工程完整度與可信度。
## 18. Hybrid Memory Architecture for Scalable ViT Token Reduction on FPGAs
組員: 林承慶, 林政勳
### 評分: 80
### 評語:
ping-pong activation buffers是誰提出來的? TR selection 有結合hardware constraint。哪些部份是同學們提出來的? -->目前沒有完成,也沒有模擬結果。
1. 主題具研究深度,建議補上 **不同記憶體配置(BRAM/DRAM 比例)** 與 token reduction 策略的交叉實驗,凸顯架構選擇的必要性。
2. 補充當 ViT 規模放大(token 數、layer 數)時,FPGA 資源成長趨勢與瓶頸分析。
## 19. 觀察LLM在親自操作股票時的盈利狀況
組員: 陳璽文, 簡鈺晴, 李承宗
### 評分: 82
### 評語:
有MLP classifier, RF, prototypical network, 作比較。看起來還沒有完全發揮模型的能力,像是在研究當衝,策略相當固定。
1. 目前偏重「總收益」,建議加入風險導向指標,避免模型因高波動而造成誤判。
2. 說明訓練與測試期間的切分方式,並加入樣本外測試以提高結論可信度。