# 【生成式AI導論 2024】第16講:可以加速所有語言模型生成速度的神奇外掛 — Speculative Decoding ## Speculative Decoding * Speculative字義是投機、猜測 * 透過小模型猜測+平行運算的方式加速 ## 運作原理 * AG的缺點就是要依序預測 * 因此如果有個預言家,這個預言家的預言速度很快,可以預測接下來的生成結果,就可以把原本的輸入跟預測結果同時去做生成,速度會變兩倍 * 外人看到的結果,是使用一樣的時間,卻有更多的結果產生 * 但是預言家可能會出錯,但只要拿對的預測所產生出來的結果就好,就算部分有錯,速度還是會比較快。 * 即使預言家的預測全錯,時間也不會增加。(預言家本身速度快,可以不計) ## 如何挑選預言家 因此我們需要一個擔任預言家的角色,要求快,可以犯錯沒關係 * 可以用NAG作為預言家 * 可以用壓縮模型作為預言家 * 不一定要語言模型,像是也[有人拿搜尋引擎當預言家](https://arxiv.org/abs/2304.04487),透過常見的關鍵字(詞)來做為預測 * 不一定只有第一個預言家,也可以有[多個預言家](https://arxiv.org/abs/2305.09781)同時工作
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up