--- title: Mark Chen 演講筆記 tags: [2024_Fall, Speech] --- # Mark Chen 演講 teaching GPTs to reason Nov 25, 2024 MIT 畢業,去作 quant,然後加入 openai ## history of scaling gpt * GPT-2, build model to solve one thing * GPT-3, inner and outer loop. Can generate news that fools human * GPT-4, perform well on exams(高中生). Scales predictably important for safety ## Why reasoning 沒有邏輯 (thinking) system 1 ok, system 2 bad ## 方法 ### chain of thought 給一些範例思考過程 [Wei et al](https://arxiv.org/abs/2201.11903):甚至只需要叫 model think step by step(zero shot-few shot) **Insight**: * model 夠大(100B+)時才有效 * 解決需要結構化思考的問題 * 減少 "mental load per token",我猜是指不用根據 token 背下答案,而是能有思考過程。像是數學應用題,不用背下題目對應的答案(記下每一個 a-b 等於多少),而是拆解問題(問自己 a-b 應該是多少)。在應用題的情境中,ab pair 出現次數可能不夠讓模型學會,但是拆解成整數減法相對容易。 * 從 pre-training 中的解釋、敘述,學到推理過程。 [Wang et al](https://arxiv.org/abs/2203.11171): 試很多次 different reasoning paths,用最常見的答案 solve ambiguous ### tools+actions [Schick et al](https://arxiv.org/abs/2302.04761): 給模型用工具:用計算機、或是數字串有多少R。 [Yao et al](https://arxiv.org/abs/2210.03629): ReAct。 ### sequential reasoning [Lightman et al](https://arxiv.org/abs/2305.20050): Let's verify step by step 把問題拆成很多步驟,只把錯誤步驟挑出來,精準學習 [Tao et al](https://arxiv.org/abs/2305.10601): Tree of thought,有時候思考會分枝,external checker。 24 problem **Insight**: * search-based 的推論方法 * 可結合 MCTS DFS BFS 等經典搜尋演算法 * 可以用驗證來剪枝 * 限制: 計算成本、搜尋方式很重要、搜尋空間可能太大 ### ChatGPT-o1 [官網介紹](https://openai.com/index/learning-to-reason-with-llms/) PhD-level RL+CoT 訓練越久或是跑的時候CoT想更久都可以得到更好的效果 介紹官網上的 cipher task puzzgrid #### safety jailbreak更不容易,因為可以叫模型再想一想 補充:剛剛找到一篇持反對觀點的XD [Shaikh et al](https://arxiv.org/abs/2212.08061) ## QA 台積電:問cost down問題。回答:讓模型更強,同時也在cost down,廢話 zero shot CoT: separate knowledge from reasoning. 8e7: 語言不一定是最好的知識與思考介質。答:確實語言是個限制,以後或許可以發展非語言。 兩步驟(訓練、推論時CoT ToT) Agents。答:跟reasoning有很大關係 未來用處:把它當一個PhD來用 會讓使用者更笨或更聰明?答:smarter