Mark Chen 演講 teaching GPTs to reason

Nov 25, 2024

MIT 畢業，去作 quant，然後加入 openai

history of scaling gpt

沒有邏輯 (thinking) system 1 ok, system 2 bad

給一些範例思考過程
Wei et al:甚至只需要叫 model think step by step(zero shot-few shot)
Insight:

model 夠大(100B+)時才有效
解決需要結構化思考的問題
減少 "mental load per token"，我猜是指不用根據 token 背下答案，而是能有思考過程。像是數學應用題，不用背下題目對應的答案(記下每一個 a-b 等於多少)，而是拆解問題(問自己 a-b 應該是多少)。在應用題的情境中，ab pair 出現次數可能不夠讓模型學會，但是拆解成整數減法相對容易。
從 pre-training 中的解釋、敘述，學到推理過程。

Wang et al: 試很多次 different reasoning paths，用最常見的答案
solve ambiguous

Schick et al: 給模型用工具：用計算機、或是數字串有多少R。
Yao et al: ReAct。

Lightman et al: Let's verify step by step
把問題拆成很多步驟，只把錯誤步驟挑出來，精準學習

Tao et al: Tree of thought，有時候思考會分枝，external checker。
24 problem
Insight:

官網介紹
PhD-level
RL+CoT
訓練越久或是跑的時候CoT想更久都可以得到更好的效果
介紹官網上的 cipher task
puzzgrid

jailbreak更不容易，因為可以叫模型再想一想
補充：剛剛找到一篇持反對觀點的XD Shaikh et al

台積電：問cost down問題。回答：讓模型更強，同時也在cost down，廢話

zero shot CoT: separate knowledge from reasoning.

8e7: 語言不一定是最好的知識與思考介質。答：確實語言是個限制，以後或許可以發展非語言。

兩步驟（訓練、推論時CoT ToT）
Agents。答：跟reasoning有很大關係

未來用處：把它當一個PhD來用
會讓使用者更笨或更聰明？答：smarter