AI FORUM 2025 筆記＆心得

## AI FORUM 2025 筆記人員分配 | 時間 | 議程內容 | 負責人 | |------|----------|--------| | 9:10-10:00 | [Keynote Speech 1 - Ed Huai-Hsin Chi (Google DeepMind)](#Keynote-Speech-1---Ed-Huai-Hsin-Chi-Google-DeepMind) | **子芸** | | 10:20-11:40 | [Invited Talks 1 (3位講者)](#Invited-Talks-1-3位講者) | **子芸** | | 12:30-13:20 | [Tutorial - Shao-Hua Sun](#Tutorial---Shao-Hua-Sun) | **joy** | | 13:30-14:50 | [Invited Talks 2 (3位講者)](#Invited-Talks-2-3位講者) | **毅修** | | 15:10-15:50 | [Keynote Speech 2 - Scott Wen-tau Yih (Meta FAIR)](#Keynote-Speech-2---Scott-Wen-tau-Yih-Meta-FAIR) | **珺崴** | | 16:00-16:40 | [Keynote Speech 3 - Yu-Chiang Frank Wang (NTU & NVIDIA)](#Keynote-Speech-3---Yu-Chiang-Frank-Wang-NTU-amp-NVIDIA) | **栢希** | --- ## Keynote Speech 1 - Ed Huai-Hsin Chi (Google DeepMind) ### universal assistant - convergence -> u should pay attension - Feed & Search 幾乎所有的網路活動 - utube推薦增加三千億的營收（每提升約20%） - ranking function!!to implement all - 全部用dnn在做ranking 而且只用一種dnn-> 用resnet - 以前:挑一個東西或一群東西再出來做推薦 - 現在：personal的，以我自己的context 來做排列組合推薦 - context:和時間很有關係（早上只能看五分鐘新聞，晚上睡前可以看半小時） - item-item collaborative filtering(only context no user no query) - advertisement(no context no user no query)(扛棒) - seed to seed ? sid to sid?（這邊聽不懂） - Merge sort 是一種基於分治法（divide and conquer）的排序算法。（一休猛） - blue print(COT)和如何將一個概念教給人類一樣 - 我的兩個team member去openai 後chatgpt就弄出來了 - monthlt token從去年五月已經漲了50倍 - 快思慢想（整合system1 system2的書） - 發展機器人領域中：gemini robotics - 個人化llm非常重要 - manus 台灣為什麼不能做？ - --- ## Invited Talks 1 (3位講者) - 1. deep rl - 兩個元件：agent<->環境不斷去做互動，從中學習 - 每隔固定的時間點和環境互動，但沒有效率我們不需要每分鐘一直問：要往那裡走（if訓練一個走迷宮的agent）且需要大量資源 - option:讓agent做決策 - 但選項太多不知道要怎麼設計：planning with learned option - 不依靠專家給選項設計，自己學 - 但選項很多怎麼辦：重點：only consider the most promising options - 因為選機率最高：所以每個路徑最多只有一條邊Ｑ：還境隨機性怎麼學？？是否太overfitting A:當環境隨機性太大時，options就退化回去不學，避免overfitting Q: 若換關卡大概要玩多久？Ａ：沒有實際講時間，但一開始就是會從最簡單的路開始學，大概學1/4的時候可以學到終點 --- - when and why ML fail? - 有可能test traing 兩者ditribution差太多 - 有可能加一些對抗性noise 混淆ai - 有點像反函數反推回去對象是誰 - 如何讓output沒辦法反推回input->loss landscape manipulation - 但效果不是很好 - sota attack:PLG-MI - 防禦：netguard - ＴeD 訓練模型時主動加入一些後門攻擊->偵測是否有後門攻擊 - 壞人用grid攻擊時很容易走到一個short cut,不容易找到真正的隱私資料 - 偵測是否有trigger的性質 - 壞人可能可以攔截embedding去反推local端資料（當雲地混合的時候） - 有一點點像私鑰公鑰的概念！？Ｑ：是否會影響到原始model的performence? A:確實會，但這就是trade off Q:如何確保壞人會走到short cut? A:因為short cut 是一個很強的n to 1 去固定到某一類，所以有非常大機會走到short cut --- - LM 可不可以教學生解數學題？ - 架構：先用3.5當學生去解題，再用3.5去當老師，自己去看自己解題的結果 - 找大量相關科系同學去作答分析錯在哪裡跟答題風格，做標記 - --- ## Tutorial - Shao-Hua Sun - Deep RL - Reward function(假設有) - 泛化性：無他只是把所有8*8迷宮背起來 - 走迷宮：可以用右手定則一直走 - 解釋性：黑盒子 - training:寫程式 - testing:程式寫得好不好 - 學寫程式 - 從demotration到programs policy - https://claude.ai/share/9ec4b5e4-bb97-4978-a1de-007205f7698a - 但有兩個問題 - search embedding 100行不可能生成1000行的程式碼 - 沒辦法具體的修改部分policy，沒辦法告訴他哪裡單獨做得不好 - 所以去sample 一個action ,單純學一個policy不是學一整個 - 所以一小塊一小塊去學，每個小片段都給你reward 最後合起來 - 但又有一個問題：action space太大學太久 - 找到對的option 跟不錯的小program 再去學 - 找到有用的小program跟對的順序兩者分開 > - 人類文明的projection ->大語言模型！ - 結合llm的做法:LLMGS - 對任務的了解->生program->人就可以先看->exution - 任務了解跟任務執行 - lm 可以生成一個很好的initial policy - 但還是需要跟真實的環境互動，再把環境gain到的訓練進去 - --- ## Invited Talks 2 (3位講者) ## 📅 基本資訊 - **負責筆記**: 高毅修 --- ## 🎯 講題資訊 - **講者**: 陳奕廷國立陽明交通大學 - **講題**: Toward Human-Centered AI - **主持人**: 孫敏德國立中央大學 --- ### 1. 核心觀點 - **Physical AI**：在實體世界執行「感知 → 推理 → 行動」的 AI 系統，透過感測器與環境互動。 - **以人為本**：設計流程聚焦使用者需求與福祉，特別針對高齡社會與身心障礙者的日常自立。 - **研究目標**：結合傳統 Sense-Plan-Act 與多模態大模型，打造安全、可靠的助手型機器人。 --- ### 2. 技術與方法 #### 2-1. 資料蒐集 - 真人遙操作與示範。 - 以模擬器大量生成動作-結果數據，降低真實蒐集成本。 #### 2-2. 學習流程 1. **Imitation Learning**：學習基本操作（如挖食物）。 2. **Diffusion Policy**：將影像去噪概念延伸至動作生成，產生連續操作序列。 3. **動作預測器（Test-time Action Predictor）**：執行中即時預估後果並微調，減少失敗。 #### 2-3. 多任務整合 - 3D 重建、物件定位、路徑規劃、人臉／口部偵測，共同完成「挖 → 沾 → 餵」流程。 --- ### 3. 數據與案例 - **Assistive Feeding**：「Kinova Obi」自動餵食裝置: 冰淇淋失敗案例凸顯體驗缺陷。 - **Scooping Dataset**：涵蓋固體、半固體、流體等多種食材，提供 RGB-D 與手臂位姿標註。 - **實驗成果**：加入動態預測後，挖取成功率顯著提升，撒落情形大幅減少。 --- ### 4. 未來趨勢與展望 - **高擬真模擬器**：改進可變形與流體物理，引入數位雙生 (Digital Twin) 減少實驗成本。 - **基礎模型 × 機器人**：多模態大模型成為通用感知與規劃骨幹，可快速遷移新任務。 - **融入使用者偏好**：將口感、餵食節奏等主觀因素納入學習獎勵。 - **安全與法規**：建立碰撞避免、失效保護與責任規範，確保人機共處安全。 --- ### 5. Q & A 重點 - **研究室經費**：透過企業合作及學長贊助，共建含廚房、餐廳、客廳的真實測試場域。 - 其他問題因時間有限未深入討論。 --- ### 6. 個人心得與反思 - **最深刻之處**：看似簡單的「挖一口飯」需整合視覺、力覺、多步規劃與即時修正，凸顯高品質資料與真實場景的重要性。 - **與自身專業的連結**：專案可借鏡「模擬-真實混合」策略與動態風險調整機制，強化 RAG 或推薦系統的穩健性與安全性。 - **可應用構想**：在醫療／保險文本檢索中導入類似 Test-time Adjustor，依信心度即時調整RAG檢索深度。 --- ### 7. 相關資源 | 類別 | 資源 | 說明 | |------|------|------| | **論文** | Diffusion Policy, Hierarchical Diffusion Policy | 擴散模型動作生成與多任務操控。 | | | SCONE, Sequential Acquisition for Feeding | 食物挖取與多階段餵食策略。 | | **歷史** | Shakey the Robot 報告 | 早期感知-推理-行動機器人里程碑。 | | **開源** | Diffusion-Policy、HDP GitHub | 相關程式碼框架。 | | **資料** | SCONE Dataset、CMU Interactive Food Dataset | 食物操控訓練資料。 | | **產品** | Obi Assistive Eating Device | 市售自動餵食裝置，對照人本挑戰。 | | **標準** | ISO 9241-210:2019 | 以人為本設計流程指南。 | | **延伸** | Boston Dynamics、Tesla Humanoid 進展 | 產業界 Physical AI 動向參考。 | ## 🎯 講題資訊 - **講者**: 柯宗瑋國立台灣大學 - **講題**: Beyond Imitation, Exploring for Robot Learning - **主持人**: 孫敏德國立中央大學 --- ### 1. 核心觀點 - **從模仿走向自主探索**：只靠示範資料不足以面對真實世界的動態與不確定性，必須讓策略在環境中主動試誤、持續收集經驗。 - **「資料 × 模型」方程式延伸至具身智慧**：結合百萬小時操作資料與視覺-語言巨模型（VLM），為機械手臂提供語意化「路標」，並透過探索機制不斷優化策略。 - **安全且目標導向的探索**：以 2D／3D 雙重距離約束引導試探，降低隨機摸索帶來的風險與資源浪費。 --- ### 2. 技術／方法論 #### 2.1 大型離線資料庫 - 匯整 20–30 年機器人示範，累積逾 **10 萬小時**操作序列。 #### 2.2 Transformer Policy - 以 Transformer 同時處理視覺輸入與連續動作輸出，支援跨任務遷移。 #### 2.3 VLM-Guided Waypoints | 步驟 | 說明 | |------|------| | ① 產生語意目標點 | VLM 讀取 **場景＋指令**，自動產生 5 個藍色目標點。 | | ② 取樣候選動作 | 策略隨機取樣百餘綠點（候選動作）。 | | ③ 距離評分 | 若動作作用於物體表面 → 用 **3D** 距離；在空中 → 用 **2D** 影像距離。 | | ④ 執行最佳動作 | 選取距離最近且語意相符度最高者並執行。 | #### 2.4 Information-Seeking RL - 規劃失敗或環境不確定時，先主動蒐集關鍵資訊，再重新規劃（類似心理學 *information seeking*）。 --- ### 3. 數據／案例 | 測試條件 | 傳統隨機探索 | **VLM-Guided 探索** | |----------|--------------|---------------------| | 新場景成功率 | 30–40 % | **≈ 90 %** | | 加入陌生物體 | 大幅退化 | 幾乎不變 | | 零樣本指令 | 容易失敗 | 仍能成功 | > 與 Dreamer、Key-point 等基線比較，VLM-Guided 均顯著領先。 --- ### 4. 未來趨勢／展望 - **多模態世界模型升級**：隨 Gemini 2.0 等 VLM 推進，語意導航點更精準。 - **Sim-to-Real 自動銜接**：線上探索 + 合成資料交替，擴大策略涵蓋面。 - **安全探索框架**：結合關節扭矩／載重監測，確保硬體無損。 - **跨域應用**：家務 → 醫療輔助 → 倉儲物流 → 多機協作。 --- ### 5. Q&A 精華 | 提問 | 講者回覆（摘要） | |------|----------------| | VLM 與 Dreamer 等世界模型差異？ | VLM 提供「語意路標」而非完整物理預測；僅需一次性設定 2D／3D 距離切換。 | | 與李飛飛 Key-point 方法比較？ | 移除人工標註關鍵點，改由 VLM 自動產生語意點並以距離評分，更易遷移。 | | 距離計算是否過度人為？ | 只需指定「物體表面用 3D、空中用 2D」，判斷由模型自動完成。 | --- ### 6. 個人心得／反思 #### 6.1 與自身專業的連結 | 機器人領域做法 | 可借鏡到 RAG / 推薦系統 | |----------------|--------------------------| | 先在 **高擬真模擬器** 收集大量資料；僅少量真實操作做微調（sim2real）。 | 以 **合成查詢-文件對**（LLM 生成 Q-A）預訓練檢索器，再用少量真實日誌微調。 | | **Domain Randomization**：隨機變更光照、材質，增強對真環境的穩健性。 | 隨機改寫同義句、加入錯字或口語化，提升檢索器對「表達變形」的容忍度。 | | 執行中加入 **Test-time Action Predictor** 動態修正動作。 | 依即時信心分數動態決定：<br>– 是否擴大檢索範圍 (top-k↑)<br>– 是否啟用 reranker 或更重 LLM<br>– 是否轉人工審核。 | #### 6.2 可應用構想：Test-time Adjustor 在醫療／保險文本檢索 1. **基礎檢索**：向量索引 + BM25 取前 *k₀* 筆。 2. **置信度估計**：對每筆結果計算 `p_relevant`，統計平均與方差形成「信心分布」。 3. **動態調整** | 條件 | 動作 | |------|------| | 置信度高且一致 | 直接返回結果。 | | 置信度不足或變異大 | 擴大 top-k、啟用 reranker 或切換高階 LLM。 | | 仍無法滿足 | 觸發人工審核或等待更多訊息。 | --- SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models (2025年2月) 論文背景與問題現有的大型語言模型雖然能生成回應，但在引用外部資料來源時，引用品質往往不佳，缺乏高品質、細粒度且準確的引用。傳統方法依賴昂貴且勞力密集的人工標註來改善引用品質 ArXivThemoonlight。核心創新方法 1. 自監督獎勵機制 SelfCite提出了一種新穎的自監督方法，透過「上下文消融」(context ablation)來讓LLM自己提供獎勵信號。核心理念是：如果一個引用是必要的，移除被引用的文本應該會阻止產生相同的回應；如果引用是充分的，僅保留被引用的文本就能維持相同的回應 SelfCite使用兩個關鍵評分指標：必要性評分（Necessity Score）：量化當移除相關引用句子時，模型生成特定回應機率的下降程度。顯著的機率下降表明該引用是必要的。充分性評分（Sufficiency Score）：評估當上下文中僅保留被引用句子時，模型是否仍能維持高生成機率。較高的分數意味著引用足以支持回應 [Literature Review] SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models。 3. 實施策略該方法採用兩種主要策略： Best-of-N採樣：對每個回應陳述生成N個候選引用序列，選擇能最大化計算獎勵的引用序列偏好優化：透過SimPO方法將高品質引用的偏好內化到語言模型中，根據原始和改進引用輸出的相對品質進行對齊訓練 ThemoonlightHuggingface。實驗結果與效果 SelfCite的有效性在LongBench-Cite基準測試中得到驗證，在五項長篇問答任務中，引用F1分數提升高達5.3個百分點。該結果與2025年1月發布的專業商業API「Claude Citations」的表現相當 --- FLAME: Factuality-Aware Alignment for Large Language Models (2024年5月) 論文背景與問題：傳統的對齊（alignment）過程雖然能讓大型語言模型更好地遵循指令，但卻無法提升模型的事實準確性，甚至經常導致產生更多虛假資訊（幻覺hallucination） [2405.01525] FLAME: Factuality-Aware Alignment for Large Language Models。核心發現：研究發現，在監督微調（SFT）和強化學習（RL）兩個對齊步驟中，當模型被訓練在新知識或不熟悉的文本上時，容易產生幻覺。此外，標準RL中使用的獎勵函數傾向於產生更長、更詳細的回應，這也會無意中促進幻覺的產生 ArXivMarkTechPost。解決方案： FLAME提出了一個兩步驟的方法：1）事實感知監督微調（factuality-aware SFT），避免在不熟悉的資訊上訓練模型；2）通過直接偏好優化（DPO）實施事實感知強化學習，使用特定的事實性獎勵來區分基於事實和非基於事實的指令 Factuality-Aware Alignment (FLAME): Enhancing Large Language Models for Reliable and Accurate Responses - MarkTechPost。實驗結果：實驗使用Alpaca Eval基準測試（評估模型遵循指令的能力）和Biography數據集（評估生成內容的事實性），結果顯示FLAME在平衡事實性與指令遵循能力方面表現出色