## AI FORUM 2025 筆記人員分配 | 時間 | 議程內容 | 負責人 | |------|----------|--------| | 9:10-10:00 | [Keynote Speech 1 - Ed Huai-Hsin Chi (Google DeepMind)](#Keynote-Speech-1---Ed-Huai-Hsin-Chi-Google-DeepMind) | **子芸** | | 10:20-11:40 | [Invited Talks 1 (3位講者)](#Invited-Talks-1-3位講者) | **子芸** | | 12:30-13:20 | [Tutorial - Shao-Hua Sun](#Tutorial---Shao-Hua-Sun) | **joy** | | 13:30-14:50 | [Invited Talks 2 (3位講者)](#Invited-Talks-2-3位講者) | **毅修** | | 15:10-15:50 | [Keynote Speech 2 - Scott Wen-tau Yih (Meta FAIR)](#Keynote-Speech-2---Scott-Wen-tau-Yih-Meta-FAIR) | **珺崴** | | 16:00-16:40 | [Keynote Speech 3 - Yu-Chiang Frank Wang (NTU & NVIDIA)](#Keynote-Speech-3---Yu-Chiang-Frank-Wang-NTU-amp-NVIDIA) | **栢希** | --- ## Keynote Speech 1 - Ed Huai-Hsin Chi (Google DeepMind) ### universal assistant - convergence -> u should pay attension - Feed & Search 幾乎所有的網路活動 - utube推薦增加三千億的營收(每提升約20%) - ranking function!!to implement all - 全部用dnn在做ranking 而且只用一種dnn-> 用resnet - 以前:挑一個東西或一群東西再出來做推薦 - 現在:personal的,以我自己的context 來做排列組合推薦 - context:和時間很有關係(早上只能看五分鐘新聞,晚上睡前可以看半小時) - item-item collaborative filtering(only context no user no query) - advertisement(no context no user no query)(扛棒) - seed to seed ? sid to sid?(這邊聽不懂) - Merge sort 是一種基於分治法(divide and conquer)的排序算法。(一休猛) - blue print(COT)和如何將一個概念教給人類一樣 - 我的兩個team member去openai 後chatgpt就弄出來了 - monthlt token從去年五月已經漲了50倍 - 快思慢想(整合system1 system2的書) - 發展機器人領域中:gemini robotics - 個人化llm非常重要 - manus 台灣為什麼不能做? - --- ## Invited Talks 1 (3位講者) - 1. deep rl - 兩個元件:agent<->環境 不斷去做互動,從中學習 - 每隔固定的時間點和環境互動,但沒有效率 我們不需要每分鐘一直問:要往那裡走(if訓練一個走迷宮的agent)且需要大量資源 - option:讓agent做決策 - 但選項太多不知道要怎麼設計:planning with learned option - 不依靠專家給選項設計,自己學 - 但選項很多怎麼辦:重點:only consider the most promising options - 因為選機率最高:所以每個路徑最多只有一條邊 Q:還境隨機性怎麼學??是否太overfitting A:當環境隨機性太大時,options就退化回去不學,避免overfitting Q: 若換關卡大概要玩多久? A:沒有實際講時間,但一開始就是會從最簡單的路開始學,大概學1/4的時候可以學到終點 --- - when and why ML fail? - 有可能test traing 兩者ditribution差太多 - 有可能加一些對抗性noise 混淆ai - 有點像反函數反推回去對象是誰 - 如何讓output沒辦法反推回input->loss landscape manipulation - 但效果不是很好 - sota attack:PLG-MI - 防禦:netguard - TeD 訓練模型時主動加入一些後門攻擊->偵測是否有後門攻擊 - 壞人用grid攻擊時很容易走到一個short cut,不容易找到真正的隱私資料 - 偵測是否有trigger的性質 - 壞人可能可以攔截embedding去反推local端資料(當雲地混合的時候) - 有一點點像私鑰公鑰的概念!? Q:是否會影響到原始model的performence? A:確實會,但這就是trade off Q:如何確保壞人會走到short cut? A:因為short cut 是一個很強的n to 1 去固定到某一類,所以有非常大機會走到short cut --- - LM 可不可以教學生解數學題? - 架構:先用3.5當學生去解題,再用3.5去當老師,自己去看自己解題的結果 - 找大量相關科系同學去作答分析錯在哪裡跟答題風格,做標記 - --- ## Tutorial - Shao-Hua Sun - Deep RL - Reward function(假設有) - 泛化性:無 他只是把所有8*8迷宮背起來 - 走迷宮:可以用右手定則一直走 - 解釋性:黑盒子 - training:寫程式 - testing:程式寫得好不好 - 學寫程式 - 從demotration到programs policy - https://claude.ai/share/9ec4b5e4-bb97-4978-a1de-007205f7698a - 但有兩個問題 - search embedding 100行 不可能生成1000行的程式碼 - 沒辦法具體的修改部分policy,沒辦法告訴他哪裡單獨做得不好 - 所以去sample 一個action ,單純學一個policy不是學一整個 - 所以一小塊一小塊去學,每個小片段都給你reward 最後合起來 - 但又有一個問題:action space太大 學太久 - 找到對的option 跟不錯的小program 再去學 - 找到有用的小program跟對的順序 兩者分開 > - 人類文明的projection ->大語言模型! - 結合llm的做法:LLMGS - 對任務的了解->生program->人就可以先看->exution - 任務了解跟任務執行 - lm 可以生成一個很好的initial policy - 但還是需要跟真實的環境互動,再把環境gain到的訓練進去 - --- ## Invited Talks 2 (3位講者) ## 📅 基本資訊 - **負責筆記**: 高毅修 --- ## 🎯 講題資訊 - **講者**: 陳奕廷 國立陽明交通大學 - **講題**: Toward Human-Centered AI - **主持人**: 孫敏德 國立中央大學 --- ### 1. 核心觀點 - **Physical AI**:在實體世界執行「感知 → 推理 → 行動」的 AI 系統,透過感測器與環境互動。 - **以人為本**:設計流程聚焦使用者需求與福祉,特別針對高齡社會與身心障礙者的日常自立。 - **研究目標**:結合傳統 Sense-Plan-Act 與多模態大模型,打造安全、可靠的助手型機器人。 --- ### 2. 技術與方法 #### 2-1. 資料蒐集 - 真人遙操作與示範。 - 以模擬器大量生成動作-結果數據,降低真實蒐集成本。 #### 2-2. 學習流程 1. **Imitation Learning**:學習基本操作(如挖食物)。 2. **Diffusion Policy**:將影像去噪概念延伸至動作生成,產生連續操作序列。 3. **動作預測器(Test-time Action Predictor)**:執行中即時預估後果並微調,減少失敗。 #### 2-3. 多任務整合 - 3D 重建、物件定位、路徑規劃、人臉/口部偵測,共同完成「挖 → 沾 → 餵」流程。 --- ### 3. 數據與案例 - **Assistive Feeding**:「Kinova Obi」自動餵食裝置: 冰淇淋失敗案例凸顯體驗缺陷。 - **Scooping Dataset**:涵蓋固體、半固體、流體等多種食材,提供 RGB-D 與手臂位姿標註。 - **實驗成果**:加入動態預測後,挖取成功率顯著提升,撒落情形大幅減少。 --- ### 4. 未來趨勢與展望 - **高擬真模擬器**:改進可變形與流體物理,引入數位雙生 (Digital Twin) 減少實驗成本。 - **基礎模型 × 機器人**:多模態大模型成為通用感知與規劃骨幹,可快速遷移新任務。 - **融入使用者偏好**:將口感、餵食節奏等主觀因素納入學習獎勵。 - **安全與法規**:建立碰撞避免、失效保護與責任規範,確保人機共處安全。 --- ### 5. Q & A 重點 - **研究室經費**:透過企業合作及學長贊助,共建含廚房、餐廳、客廳的真實測試場域。 - 其他問題因時間有限未深入討論。 --- ### 6. 個人心得與反思 - **最深刻之處**:看似簡單的「挖一口飯」需整合視覺、力覺、多步規劃與即時修正,凸顯高品質資料與真實場景的重要性。 - **與自身專業的連結**:專案可借鏡「模擬-真實混合」策略與動態風險調整機制,強化 RAG 或推薦系統的穩健性與安全性。 - **可應用構想**:在醫療/保險文本檢索中導入類似 Test-time Adjustor,依信心度即時調整RAG檢索深度。 --- ### 7. 相關資源 | 類別 | 資源 | 說明 | |------|------|------| | **論文** | Diffusion Policy, Hierarchical Diffusion Policy | 擴散模型動作生成與多任務操控。 | | | SCONE, Sequential Acquisition for Feeding | 食物挖取與多階段餵食策略。 | | **歷史** | Shakey the Robot 報告 | 早期感知-推理-行動機器人里程碑。 | | **開源** | Diffusion-Policy、HDP GitHub | 相關程式碼框架。 | | **資料** | SCONE Dataset、CMU Interactive Food Dataset | 食物操控訓練資料。 | | **產品** | Obi Assistive Eating Device | 市售自動餵食裝置,對照人本挑戰。 | | **標準** | ISO 9241-210:2019 | 以人為本設計流程指南。 | | **延伸** | Boston Dynamics、Tesla Humanoid 進展 | 產業界 Physical AI 動向參考。 | ## 🎯 講題資訊 - **講者**: 柯宗瑋 國立台灣大學 - **講題**: Beyond Imitation, Exploring for Robot Learning - **主持人**: 孫敏德 國立中央大學 --- ### 1. 核心觀點 - **從模仿走向自主探索**:只靠示範資料不足以面對真實世界的動態與不確定性,必須讓策略在環境中主動試誤、持續收集經驗。 - **「資料 × 模型」方程式延伸至具身智慧**:結合百萬小時操作資料與視覺-語言巨模型(VLM),為機械手臂提供語意化「路標」,並透過探索機制不斷優化策略。 - **安全且目標導向的探索**:以 2D/3D 雙重距離約束引導試探,降低隨機摸索帶來的風險與資源浪費。 --- ### 2. 技術/方法論 #### 2.1 大型離線資料庫 - 匯整 20–30 年機器人示範,累積逾 **10 萬小時**操作序列。 #### 2.2 Transformer Policy - 以 Transformer 同時處理視覺輸入與連續動作輸出,支援跨任務遷移。 #### 2.3 VLM-Guided Waypoints | 步驟 | 說明 | |------|------| | ① 產生語意目標點 | VLM 讀取 **場景+指令**,自動產生 5 個藍色目標點。 | | ② 取樣候選動作 | 策略隨機取樣百餘綠點(候選動作)。 | | ③ 距離評分 | 若動作作用於物體表面 → 用 **3D** 距離;在空中 → 用 **2D** 影像距離。 | | ④ 執行最佳動作 | 選取距離最近且語意相符度最高者並執行。 | #### 2.4 Information-Seeking RL - 規劃失敗或環境不確定時,先主動蒐集關鍵資訊,再重新規劃(類似心理學 *information seeking*)。 --- ### 3. 數據/案例 | 測試條件 | 傳統隨機探索 | **VLM-Guided 探索** | |----------|--------------|---------------------| | 新場景成功率 | 30–40 % | **≈ 90 %** | | 加入陌生物體 | 大幅退化 | 幾乎不變 | | 零樣本指令 | 容易失敗 | 仍能成功 | > 與 Dreamer、Key-point 等基線比較,VLM-Guided 均顯著領先。 --- ### 4. 未來趨勢/展望 - **多模態世界模型升級**:隨 Gemini 2.0 等 VLM 推進,語意導航點更精準。 - **Sim-to-Real 自動銜接**:線上探索 + 合成資料交替,擴大策略涵蓋面。 - **安全探索框架**:結合關節扭矩/載重監測,確保硬體無損。 - **跨域應用**:家務 → 醫療輔助 → 倉儲物流 → 多機協作。 --- ### 5. Q&A 精華 | 提問 | 講者回覆(摘要) | |------|----------------| | VLM 與 Dreamer 等世界模型差異? | VLM 提供「語意路標」而非完整物理預測;僅需一次性設定 2D/3D 距離切換。 | | 與李飛飛 Key-point 方法比較? | 移除人工標註關鍵點,改由 VLM 自動產生語意點並以距離評分,更易遷移。 | | 距離計算是否過度人為? | 只需指定「物體表面用 3D、空中用 2D」,判斷由模型自動完成。 | --- ### 6. 個人心得/反思 #### 6.1 與自身專業的連結 | 機器人領域做法 | 可借鏡到 RAG / 推薦系統 | |----------------|--------------------------| | 先在 **高擬真模擬器** 收集大量資料;僅少量真實操作做微調(sim2real)。 | 以 **合成查詢-文件對**(LLM 生成 Q-A)預訓練檢索器,再用少量真實日誌微調。 | | **Domain Randomization**:隨機變更光照、材質,增強對真環境的穩健性。 | 隨機改寫同義句、加入錯字或口語化,提升檢索器對「表達變形」的容忍度。 | | 執行中加入 **Test-time Action Predictor** 動態修正動作。 | 依即時信心分數動態決定:<br>– 是否擴大檢索範圍 (top-k↑)<br>– 是否啟用 reranker 或更重 LLM<br>– 是否轉人工審核。 | #### 6.2 可應用構想:Test-time Adjustor 在醫療/保險文本檢索 1. **基礎檢索**:向量索引 + BM25 取前 *k₀* 筆。 2. **置信度估計**:對每筆結果計算 `p_relevant`,統計平均與方差形成「信心分布」。 3. **動態調整** | 條件 | 動作 | |------|------| | 置信度高且一致 | 直接返回結果。 | | 置信度不足或變異大 | 擴大 top-k、啟用 reranker 或切換高階 LLM。 | | 仍無法滿足 | 觸發人工審核或等待更多訊息。 | --- SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models (2025年2月) 論文背景與問題 現有的大型語言模型雖然能生成回應,但在引用外部資料來源時,引用品質往往不佳,缺乏高品質、細粒度且準確的引用。傳統方法依賴昂貴且勞力密集的人工標註來改善引用品質 ArXivThemoonlight。 核心創新方法 1. 自監督獎勵機制 SelfCite提出了一種新穎的自監督方法,透過「上下文消融」(context ablation)來讓LLM自己提供獎勵信號。核心理念是:如果一個引用是必要的,移除被引用的文本應該會阻止產生相同的回應;如果引用是充分的,僅保留被引用的文本就能維持相同的回應 SelfCite使用兩個關鍵評分指標: 必要性評分(Necessity Score):量化當移除相關引用句子時,模型生成特定回應機率的下降程度。顯著的機率下降表明該引用是必要的。 充分性評分(Sufficiency Score):評估當上下文中僅保留被引用句子時,模型是否仍能維持高生成機率。較高的分數意味著引用足以支持回應 [Literature Review] SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models。 3. 實施策略 該方法採用兩種主要策略: Best-of-N採樣:對每個回應陳述生成N個候選引用序列,選擇能最大化計算獎勵的引用序列 偏好優化:透過SimPO方法將高品質引用的偏好內化到語言模型中,根據原始和改進引用輸出的相對品質進行對齊訓練 ThemoonlightHuggingface。 實驗結果與效果 SelfCite的有效性在LongBench-Cite基準測試中得到驗證,在五項長篇問答任務中,引用F1分數提升高達5.3個百分點。該結果與2025年1月發布的專業商業API「Claude Citations」的表現相當 --- FLAME: Factuality-Aware Alignment for Large Language Models (2024年5月) 論文背景與問題: 傳統的對齊(alignment)過程雖然能讓大型語言模型更好地遵循指令,但卻無法提升模型的事實準確性,甚至經常導致產生更多虛假資訊(幻覺hallucination) [2405.01525] FLAME: Factuality-Aware Alignment for Large Language Models。 核心發現: 研究發現,在監督微調(SFT)和強化學習(RL)兩個對齊步驟中,當模型被訓練在新知識或不熟悉的文本上時,容易產生幻覺。此外,標準RL中使用的獎勵函數傾向於產生更長、更詳細的回應,這也會無意中促進幻覺的產生 ArXivMarkTechPost。 解決方案: FLAME提出了一個兩步驟的方法:1)事實感知監督微調(factuality-aware SFT),避免在不熟悉的資訊上訓練模型;2)通過直接偏好優化(DPO)實施事實感知強化學習,使用特定的事實性獎勵來區分基於事實和非基於事實的指令 Factuality-Aware Alignment (FLAME): Enhancing Large Language Models for Reliable and Accurate Responses - MarkTechPost。 實驗結果: 實驗使用Alpaca Eval基準測試(評估模型遵循指令的能力)和Biography數據集(評估生成內容的事實性),結果顯示FLAME在平衡事實性與指令遵循能力方面表現出色
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up