# 模組期末專題規劃書-評分與建議 ## 1. AI Adventurer: An Interactive Adventure Game Combining LLM-Based Storytelling and Human Action Recognition 組員: 吳仁傑, 廖桓毅, 王瑋琛 ### 評分: 87 ### 評語: 從 MediaPipe 或 OpenPose 擷取骨架關鍵點、使用 TCN 或 GRU 進行動作分類,再到 LLM 生成動態敘事回饋的流程技術一致且邏輯明確。透過 LLM 即時生成的故事情節,玩家能獲得更高的沉浸感,展現了互動式冒險體驗的發展潛力。唯LLM生成故事有可能不具合理性或是怪異故事,可稍加注意。 1. 本專題提出以 LLM 敘事生成、姿態辨識以及 ROS 模組化整合的互動系統,整體概念完整,擬採用的技術具有可行性。 2. 由於系統的即時性需求、敘事生成的穩定性、動作辨識準確率與 ROS 架構延遲等,皆需更詳細規劃的關鍵項目,建議補充事件管理、動作分類評估指標與安全性考量,以提升系統可行性與可靠性。 3. 建議本專題在實作規格細節上,加以更為明確的說明,以有助於提升本專題的實用價值。 ## 2. AI 模型倫理與偏見實驗 組員: 呂茗憲, 詹智雅 ### 評分: 84 ### 評語: 研究中以量化方式整理多筆輸出結果,並以長條圖或圓餅圖呈現偏見比例,使偏見趨勢更為具象化,有助於後續分析與討論。針對偏見成因的探討也具有深度,能將問題連結到訓練資料、模型架構與預訓練策略,但是對於資料平衡化、模型審查與使用者教育等改進方向,是否有足夠的資料集訓練,實現專題目的,要謹慎評估。 1. 本專題的研究主題明確,主要聚焦於生成式 AI 模型在處理職業與角色社會偏見的問題。研究方向正確,研究流程規劃完整。 2. 由於目前研究方法仍偏向質性與基礎量化統計,建議對於偏見量測指標與評估標準,可更明確說明 3. 建議針對所選生成模型間的比較方式、輸出樣本數是否足夠、設計方式是否能避免引導性偏誤,均可更加詳細規範,以確保研究結果更具代表性與可重現性。 4. 建議後續強化偏見量化方法、樣本規模設定與模型間比較準則,以有助於研究結果之說服力與學術嚴謹度。 ## 3. Circuit Element Identification Traditional SVM Approach versus YOLO Object Detection 組員: 楊尚諭, 王立宣 ### 評分: 86 ### 評語: 指出 SVM 在複雜手繪電路元素辨識中的限制,同時說明 YOLO 透過自動特徵學習可顯著提升準確率與處理效率,這些觀察具體且符合目前影像辨識技術的發展趨勢。利用定量指標(如準確率、速度與元件支援度)比較兩種方法,也使評估過程更具客觀性與可信度。 1. 本專題之研究動機明確,主要針對工程教育與原型設計中常見的手繪電路圖,提出改善傳統人工數位化流程的必要性,並比較傳統 SVM 特徵工程方法與深度學習 YOLO 物件偵測模型的效能差異。研究目的具體,方法流程完整,包括前處理、特徵提取、分類/偵測以及後處理等實作步驟,應能有效支持對兩種技術的系統性比較。 2. 建議本專題的部分面向可加強:例如 SVM 與 YOLO 的資料量需求差異、HOG 特徵的限制、訓練資料標注品質的影響、以及 YOLO 模型微調細節等,均可更加清楚量化與討論。 3. 目前本專題的評估指標包含準確率與推論速度,建議可考慮加入混淆矩陣以及偵測召回率(Recall)等指標,以更全面呈現兩者在電路元件識別上的表現差異。 ## 4. A Multi-Agent System for Autonomous Narrative World-Building using LangGraph 組員: 曾慶哲, 林琮翊 ### 評分: 86 ### 評語: 專案清楚指出多代理創意生成常見的連貫性問題,如世界設定矛盾、角色背景不匹配、文化或地理描述互相衝突等,並提出以共享「World Bible」作為單一事實來源的解決方案。利用 Knowledge Graph 管理世界中的實體、關係與規則,也使整體架構具高度可擴充性與良好的治理能力。讓各 Agent 必須讀取並回寫這份 Bible,有助於維護創意內容的邏輯一致性,但這跟Bible 有關,足夠數量的Bible有助於生成正確性,但是Bible要多大才足夠應付所思考的主題呢? 1. 本專題以多個 AI agents 協作生成虛構世界為核心,主題具備高度創意性與技術挑戰性。研究動機明確,針對多代理創意生成中常見的「設定不一致、邏輯矛盾、創意發散」問題提出解決方向,並以 Knowledge Graph 作為唯一事實來源來維持世界觀的一致性。整體系統架構合理,技術方法結合緊密,展現良好的創新性與發展潛力。 2. 由於目前專題的 Knowledge Graph 的更新規則、衝突偵測方式、代理間權限與治理流程等細節仍略為抽象,建議可更明確定義,以提昇本系統對於一致性的控制能力。 3. 建議可更明確說明多代理創意輸出的品質評估方式,例如如何衡量世界觀的完整性、邏輯性與連貫度,同時也可補充相應指標,以期提升研究成果之可信度。 ## 5. Real-Time Visual Sketch Reproduction and AI Doodle Recognition System 組員: 李朋逸, 李娜, 洪瑋雪 ### 評分: 90 ### 評語: 在使用者完成書寫後,系統直接比較筆畫順序並提供明確的視覺回饋,能有效提升學習效率,在數位書法教育、智慧教學系統與 AI 輔助手寫訓練等領域具備高度的實務價值。 1. 本專題以 ROS 為核心整合框架,結合 OpenCV、筆跡追蹤、透視校正與筆順序列比對,建立一套即時互動式的手寫字分析系統。研究動機清楚,系統流程完善,包括筆尖追蹤、透視轉換、筆畫重建、筆順分析與視覺化回饋,並透過 ROS 進行模組化管理,有助於提升整體即時性與穩定度。 2. 建議本專題的部分技術細節可進一步強化,例如筆跡偵測對不同光源及紙張反射的敏感度、筆尖定位的誤差處理、筆畫分段的準確性,以及筆順資料庫的擴充方式等。 3. 建議加入量化評估,例如如筆尖追蹤延遲、筆畫偵測準確度、筆順比對成功率等,以使系統的實際應用可靠度更具說服力。 ## 6. 企業外發聲明影片之真實性驗證系統 組員: 王景誠, 黃品程, 李柏緯 ### 評分: 88 ### 評語: 系統架構分為嵌入端、驗證端與公開審計登錄三大模組,設計具有清晰的角色分工。企業可透過嵌入端將浮水印與簽章植入影片並進行登錄;大眾則能透過驗證端快速檢查外部影片的真實性;審計與登錄模組則作為公開可信來源,儲存影片指紋與公鑰,以提高整體系統的透明度與可驗證性。 1. 針對問題敘述的研究動機部分可以補強,建議可再加入深度偽造帶來的信任危機,多平台轉碼造成的指紋消失問題,以及現行認證方式不足的影響情形。 2. 目前的研究方向正確,建議針對目標可再加以明確說明: (1) 真實性驗證,也就是即使影片經過社群平台壓縮與二次剪輯,仍能驗證是否來自官方原始發布。 (2) 完整性檢查:能確認影片是否被篡改,包含刪減段落或是替換內容。 (3) 快速公開查驗:任何第三方(媒體、投資者、大眾)都能在數秒內完成驗證。 ## 7. From Seeing to Doing: A Vision-Language Grounded Robotics System 組員: 俞博云, 陳柔亞, 鍾佳妘 ### 評分: 88 ### 評語: 聚焦於視覺語言模型(VLM)在智慧型服務機器人領域中的應用,特別以「桌面整理」作為核心任務,切中當前智慧生活與高齡社會對自主機器人的需求。專案整體架構清晰,能夠從語意理解、環境感知到行動規劃,呈現出一套具整合性與前瞻性的系統設計,設計方向務實且具示範性。 1. 本專題針對智慧生活與高齡化需求,聚焦於桌面整理等日常服務型任務,並且提出結合視覺語言模型(VLM)與模擬環境學習的自主服務型機器人系統。研究動機明確,系統整合度高,採用 NVIDIA Isaac Lab 模擬真實物理環境,而且重視人機互動的自然性,提供跨裝置介面以支持直覺式指令下達與決策回饋,技術與應用價值兼具。 2. 建議改進之處包括針對 VLM 生成行為決策的可靠性與安全性,宜進一步量化評估,例如多步任務成功率、物體抓取精度及規劃錯誤容忍度;此外,可補充不同家庭環境及物體擺放變化下的系統適應能力與穩定性測試,更有助於提升實際部署的可行性與可靠度。 ## 8. 動物用藥小貼士 組員: 許於穆, 李郡益, 李捷新 ### 評分: 87 ### 評語: 其採用RAG作為核心技術策略,結合結構化知識庫與語言模型的彈性,保留了 LLM 的語意理解優勢,降低了錯誤生成風險。資料來源以政府開放平台、獸醫機構指南與藥物仿單為主,具有高度可信度與可溯源性,有助於提升專業領域應用中的安全性要求。專題具有可行性。 1. 本專題以 RAG 技術建置動物用藥系統,問題定位清楚,針對當前獸醫臨床與畜牧領域「資料分散、難以查詢、容易過時」的痛點提出解決方案。系統從資料蒐集、文本切割、向量嵌入到 LLM 生成,都有技術流程規劃,整體呈現成熟。 2. 建議擴充資料來源,並可考慮加入國際獸醫藥典或臨床指南,以使內容更完整。 3. 建議加強資料品質控管流程,例如重複資料的處理以及法規更新時如何同步更新資料庫,這部分若能系統化,應有助於提升可靠度。 4. 模型效能的評估可以更具體,例如增加錯誤範例分析、回答速度統計等,以有助於選擇最適合的本地模型。 5. Web 介面部分,建議加入用藥風險提示與免責聲明,以及更清楚的來源展開功能,以確保使用者在查詢時理解系統的資訊限制。 ## 9. 基於多模態影像分析的精準牧場管理:以牧草生物量預測為例 組員: 危湘妤 ### 評分: 85 ### 評語: 「多模態影像 × 精準畜牧」的跨領域題目,具有明確的實務價值與應用前景。使用高光譜與 RGB 等異質影像資料,並結合地面量測值作為標記,有助於建立具代表性的訓練資料庫。同時探索 CNN 與 XGBoost 等不同模型類型,能反映研究者對方法比較與性能提升的重視。透過 RMSE 等競賽導向的量化指標進行評估,使模型表現具備可比性,此研究成果具有參考價值 1. 本專題研究目標明確,涵蓋資料前處理、特徵工程、模型開發與競賽評估四大面向,內容完整具體,已展現對於處理多模態資料的基本理解。 2. 由於部分目標敘述仍偏概念性,建議增加可操作細節,對於部分關鍵技術也建議需儘量明確化,以減少執行時遇到瓶頸的機率。 3. 建議模型開發與效能驗證的策略需要更多結構化規劃,以避免後續出現「嘗試多個模型但無明顯改善」的情況。 ## 10. Low-Light Image Enhancement Network Based on HVI Color Space 組員: 孫以瑭, 魏品華, 夏宇翔 ### 評分: 86 ### 評語: 以 HVI 色彩空間為核心,探討其在低光影像增強中的應用,結合 CIDNet 架構進行模型重現與改良。研究動機更具理論基礎。HVI 色彩空間轉換的數學推導與實作,可建立後續模型改良的良好基礎。模型重現階段以 PyTorch 進行 HVI 轉換模組與 CIDNet 的實作,並使用公開資料集(如 LOLv2、LSUI)進行測試,有助於確保研究結果具備可比較性與可信度。此部分的規劃完整且可執行性高。 1. 本研究動機明確,能指出低光影像在亮度不足、雜訊與色偏上的問題,並適當引入 HVI 色彩空間與 CIDNet 架構,研究方向正確。整體呈現出良好的技術深度與實作能力。 2. 建議模型重現應補充更完整的訓練細節,並加入與傳統方法的基準比較,以使結果更具說服力。 3. 模型改良部分建議更加明確說明增加 conv 或 LCA 模組的目的與預期效果,並可再加強量化評估。 ## 11. 深層棄權分類器(DAC)在 FGSM 對抗性污染下的穩健性研究 組員: 陳宣瑋, 李振維 ### 評分: 86 ### 評語: 使用深層棄權分類器在 FGSM 對抗性污染情境下的行為表現與穩健性,嘗試延伸其應用範疇至對抗性擾動偵測,具備一定的創新性與研究意義。若能在後續實驗中進一步量化 DAC 對對抗樣本的 precision/recall、比較不同擾動強度下的棄權模式,並與其他對抗樣本偵測方法進行基準比較,將能更清楚呈現 DAC 的優勢及其限制。 1. 本研究以 深層棄權分類器Deep Abstaining Classifier(DAC)探討其對 FGSM 對抗性樣本的棄權能力,研究動機明確,能清楚區分標籤雜訊與對抗性擾動兩者的不同來源,具有新穎性與研究價值。研究目標與方法完整,整體設計合理可行。 2. 建議更明確界定FGSM 擾動是否等同於可學習的特徵,並思考如何避免 DAC 對微小擾動過度敏感。 3. 資料清理流程可補上更嚴謹的評估,如在不同擾動強度下測試 DAC 的棄權精確度與清理後模型的改善幅度。 4. 建議加入更多 baseline,比較 DAC 與其他抗噪或對抗訓練方法,以凸顯 DAC 的優勢與限制。 ## 12. 智慧健康豬隻行為辨識系統 組員: 施冠宇, 陳邦亢, 簡榮霖 ### 評分: 89 ### 評語: 以智慧化豬隻行為辨識為核心主題,符合精準畜牧在國際上的發展趨勢與臺灣畜牧業面臨的人力不足及疾病風險等現實挑戰,明確指出現有系統在「個體行為監測」上的技術缺口,實為現在發展的重要痛點,若後續能在模型效能評估中加入與傳統巡檢方式或既有商用系統進行比較,將能更全面凸顯此系統在實務落地上的優勢。 1. 本研究切入點明確,能掌握全球精準畜牧與本土養豬產業面臨的人力、疫病與自動化不足等挑戰,動機合理且具產業迫切性。研究清楚指出目前智慧農牧的關鍵缺口在於「個體行為辨識不足」,因此聚焦於建立完整的 AI 影像辨識管線,方向正確且具技術價值 2. 在方法設計上,本計畫以 YOLOv11/v12 進行高精準偵測,搭配 Re-ID 與 DeepSORT 形成穩定追蹤,並使用 LSTM 或 Transformer 進行時序行為辨識,整體架構完整、排程規畫具體、可執行性高。 3. 因行為辨識高度依賴標註品質,建議補充資料標註的一致性與品質控管方法 4. 行為模型部分可加上更明確的效能指標,例如進食或攻擊行為的score以便於後續驗證。 5. 建議探討系統在實際豬舍中的環境變異,如光線、遮蔽、空間限制,以使專題成果更具可行性。 ## 13. 語氣微調與知識擴充於AI心理輔助對話之應用研究 組員: 高浚誠, 羅苡庭, 吳俊穎 ### 評分: 86 ### 評語: 針對「語氣微調」與「知識擴充」在 AI 心理輔助對話系統中的應用,是目前 AI for Mental Health 領域中相當具前瞻性與實務價值的研究方向。若後續能加入系統評估指標(如語氣適切性評估、人機對話滿意度、RAG 溯源率或安全性測試),將能更全面展現所提出方法的效果與貢獻。 1. 本計畫在技術選擇、系統架構與應用方向上皆具良好基礎,整體可行性高且具社會貢獻潛力。然而,本計畫若欲作為心理輔助工具,需在倫理、安全性、資料品質與評估方法上進一步補強,方能確保系統之實際效益及可靠度。 2. 由於心理輔助系統存在高度倫理風險,建議明確規劃高風險語句的偵測與回應流程,同時在繁體轉譯的資料郭成,宜有心理專家校閱,以避免心理學術語、情緒語彙等出現誤譯,並應應加入對不同性別、文化、族群之語料檢視,避免模型輸出偏誤。 3. RAG 系統的優點在於結合資訊檢索系統與大語言模型(LLM)的功能,建議必須留意明確的知識來源與維護策略,對於資料異動、版本管理與更新流程,都需確實掌握,方能發揮最大功效。 ## 14. 死而復聲-人工智慧語音聊天 組員: 朱昕頤, 陳柏樺 ### 評分: 86 ### 評語: 該組別提出一套具互動性與臨場感的語音對話系統。研究動機與目標明確,並有效回應了現今語音 AI 在情感陪伴、語音模擬、數位人呈現等應用領域的高度發展需求。若未來能補充系統效能評估(如語音相似度、文本連貫性、辨識準確度)或針對倫理議題提出更明確的風險管控策略,將能使專題可信度更佳。 1. 本專題聚焦於以 AI 技術重建故人的聲音與談話風格,核心動機明確,具情感與技術雙重價值。在方法面上,整合了聲音克隆、ChatGPT 文本生成,以及 Web Speech API 語音辨識,系統架構完整、流程規劃明確。 2. 建議針對倫理與隱私議題更明確說明,尤其是模仿已故親友的聲音,需考量授權、濫用與情緒風險。 3. 建議語音生成融入情緒、語調與語句銜接的自然性,並可考慮多句連續生成機制,以提升流暢度。 4. 建議文本風格不僅包含,也可加入更多對話語料或微調策略,以使其更貼近聊天情境。 ## 15. 基於VLM之車輛事故危險預測與場景語意敘述系統 組員: 陳廷曜, 江錦慧, 鐘家凱 ### 評分: 86 ### 評語: 以視覺語言模型為核心,嘗試建立車輛事故危險預測與場景語意敘述系統,整合影像理解與語意生成,具有相當的創新性與實務價值。其結合「危險事件預兆判讀」與「語意敘述」兩種應用方向,有助於讓系統在未來朝向智慧駕駛輔助等場景,研究中提到系統透過 VLM 推論後進行危險預測,但在推論延遲情況下、事件發生前的反應窗口等技術細節尚未明確說明。由於交通風險偵測需要在極短時間內給出警告,若缺乏系統延遲評估,會使得「推論後是否來得及提前警示駕駛」成為研究成效的重要待確認點。 1. 本專題將行車安全從被動防禦提升到 事前主動預警,期許模型能判斷前方危險並生成場景描述,以提供即時可解釋警示,適用於智慧交通與自駕車應用場景。 2. 建議可補上「駕駛反應時間需求」或「事故預測提前秒數」數據,以增強研究成果的說服力。 3. 建議可簡述語意損失形式,並且說明二分類與語意生成的 multi-task 訓練策略。 4. 建議系統應用場景可更具體化,例如提供 1~2 個實際應用案例,包含行車記錄器即時警示或運輸車隊危險監控。 ## 16. 基於條件式擴散模型的 CIFAR-10 影像生成 組員: 江明俊 ### 評分: 83 ### 評語: 以「條件式擴散模型」為核心,探討其在 CIFAR-10 影像生成任務中的可控性與生成品質,然而模型條件嵌入方式的比較,例如單純 label embedding、classifier-free guidance、或 cross-attention 是否影響生成可控性。模型訓練穩定性與不同超參數對結果的敏感度分析。生成樣本多樣性(diversity)評估,須更佳詳細說明才能讓專題能執行的可信度較高。 1. 本專題旨在探索基於條件式擴散模型的 CIFAR-10 影像生成,並使用 U-Net 骨架,以及使用 FID及IS 指標進行評估,不僅能提升資料增強與特定物件生成的應用價值,也為未來多模態生成研究奠定基礎。 2. 建議研究動機更具體化,可考量補充實際應用場景,如資料增強提升分類模型表現或是特定物件生成以支援遊戲或模擬環境。 3. 建議模型設計細節明確化,說明 Label Embedding 與 Timestep Embedding 的融合方式,以增加技術透明度。 4. 建議加入不同條件強度的實驗設計說明,例如控制 label embedding 的權重,讓可控性分析更直觀。 5. 建議描述可能的文字到影像生成、多模態條件生成,以提升研究價值與前瞻性 ## 17. 基於超維度計算 (HDC) 之樹莓派即時學習物件辨識器 組員: 劉尚哲 , 詹沐恩, 王文廷 ### 評分: 86 ### 評語: 此專題致力於在樹莓派 4B資源受限的邊緣裝置上以超維度計算為目標實現「可即時學習」的物件辨識系統,解決面對傳統深度學習模型無法在端側訓練、再訓練成本高昂等問題,有對應當前物聯網與嵌入式系統的痛點。建議要增加即時學習效果的量化,與邊緣裝置效能限制的說明。 1. 本專題聚焦開發可即時學習的物件辨識系統,並且結合傳統電腦視覺特徵提取與超維度計算HDC分類器,實現 Few-Shot 即時學習。本專題在低資源邊緣裝置上證明增量式學習與高效辨識具有可行性,對於智慧助理、個人化機器人及隱私保護具有實用價值。 2. 建議補充對比現有 CNN 或 TinyML 模型的限制,以強化HDC 在邊緣即時學習的優勢。 3. 建議在 Demo 情境中,強調 Few-Shot 學習和即時辨識的切換能力。 4. 建議明確定位光照、角度、相似物件造成的困難,並闡述說明可行的解決策略 ## 18. Object Detection Using Turtlebot3 in a Two-Line Track 組員: 鍾名峰, 天佑, 蕭嘉甫 ### 評分: 85 ### 評語: 以低成本硬體為基礎,結合雙 Raspberry Pi 分工架構、ROS2 通訊平台、即時視覺感知與自主導航控制,整體設計方向明確且具實務價值。以循線控制、障礙物觸發偵測、YOLO/MobileNet 部署與 RTSP 監控等具體項目作為目標,規劃完整且可量化。若能提供 CPU 使用率、延遲、推論速度等比較數據,將能更具體展示分散式架構的優勢。建議補充 YOLO/MobileNet 在嵌入式平台下的 FPS、推論時間與偵測精度等數據,使影像辨識效能更具體。 1. 本作品以雙 Raspberry Pi 分散式架構結合 PID 循線控制、YOLO/MobileNetV2 影像偵測、超音波觸發機制與 RTSP 串流,整體系統設計完整,邏輯說明清晰,展現工程整合能力。 2. 建議加入不同環境光源下的偵測穩定度分析,以使循線與辨識模組更具完整性。 3. 建議加入系統故障應變機制,如偵測失敗或感測器異常時的安全策略,以有助於維持操作上之高可靠度。 ## 19. Expanding the Token Reduction FPGA Accelerator to Support MediumViT(DeiT-Small) 組員: 林承慶, 林政勳 ### 評分: 85 ### 評語: 將既有 token reduction 加速器擴展至更高複雜度的 DeiT-Small,並提出合理的資料流調度與階層式記憶體設計,使 TR 能在 FPGA 上維持低延遲與高能效的特性。方法具備工程完整度、硬體實作可行性強,驗證指標明確,最終能提供 timing 收斂改善方法將更完整。 1. 本專題研究目標是將 Token Reduction (TR) FPGA 加速器擴展至支持DeiT-Small,並採用階層化記憶體與分段Token Reduction,保留熱點數據在晶片內,並重用現有 TR 模組,以達到低延遲及高FPS/W能力。 2. 建議補充量化數據,例如DeiT-Small 未加速時之latency/FPS/W與 TR 加速後的預期改善百分比。 3. 建議簡述 DDR jitter、URAM 資源不足等風險,並說明已設計的 mitigation 策略。 ## 20. 觀察LLM在親自操作股票時的盈利狀況 組員: 陳璽文, 簡鈺晴, 李承宗 ### 評分: 88 ### 評語: 研究動機明確,並採取務實的方向:將課堂內學到的 AI 工具、資料流程、風險觀念整合成一個完整但不追求複雜度的端到端系統。刻意控制模型複雜度,以「明日漲跌」這種二分類作為任務核心,使整體實驗更具有可行性。但也同時要注意這樣刻意簡化的情況下,在「失敗模式與限制」部分要注意LLM 的決策偏誤來源,也建議補充對「風險調整後表現」的初步觀察。 1. 本專題旨在建立一個最小可行投資代理系統,並從 Yahoo Finance 抓取日線資料,以及提取 SMA、RSI 等技術指標,經由輕量模型預測明日漲跌,並進行簡單回測與下單模擬,以驗證 LLM/ML 在小樣本股票交易上的可行性與效益。 2. 建議補充驗證 LLM/ML 在小樣本、低頻資料上的可行性。 3. 建議展示累積報酬曲線 + 指標表,以強化結果說服力。 4. 建議提供模型/策略失敗模式與限制說明,以期增加風險掌握能力。