# 【生成式AI導論 2024】第12講:淺談檢定大型語言模型能力的各種方式 語言模型評分基本上就是去對答案看誰比較好  這些輸入跟標準答案就是Benchmark Corpus 但是語言模型的輸出是沒有限制的,這對答案的評分有了挑戰性 ## 選擇題 * MMLU蒐集了很多有挑戰性的選擇題,涵蓋許多領域 * 但相同模型在不同文獻中MMLU的正確率居然不同 * 因為語言模型本來就不是只會輸出選擇題答案,因此有可能會輸出`B`、`答案是 b`、`根據計算,我認為是 1`等多種結果,這樣不知道要不要算對 * 如果只限制輸出`A`、`B`、`C`、`D`,又變成是在訓練語言模型克制自己只能輸出這四個字母 * 假設只能輸出ABCD的情況下,如果查看輸出機率非ABCD的機率比較高又該算對還是錯呢?例如圖中想回答3,但因為限制只能回答B * 有人把MMLU所有答案移到A,洗牌了模型的結果由此可以發現讓機器考選擇題時,選項的代號(1234、ABCD、abcd)甚至順序都會有很大影響 * 更何況還有更多沒有標準答案的問題,如摘要、翻譯 ## 用人評比 Chatbot Arena是一個模型的競技場,會讓你選哪個答案比較好  之後透過投票去做排名 ## 用語言模型去評比 * 用人畢竟太耗時間了,於是有人[^1](https://arxiv.org/abs/2305.01937)[^2](https://arxiv.org/abs/2310.05657)用語言模型去評比 * 輸入語言模型輸出跟標準答案給評分模型,評估答案是否正確 * 或是比較兩個模型之間的優劣 *  * [MT-Bench](https://arxiv.org/abs/2306.05685)就是用語言模型(GPT-4)去評量的Benchmark * 通常是題組 * [以MT-Bench與Chatbot Arena排名比較](https://lmsys.org/blog/2024-04-19-arena-hard/),相關性很高(0.94) * 但語言模型喜歡長篇大論,所以AlpacaEval 2.0(也是用語言模型評比語言模型的Benchmark加入了一些[評分方法](https://arxiv.org/abs/2404.04475)讓他不會偏袒長篇大論,還有偏袒特定類型的答案。 * MT-Bench也釋出新的題目,叫做[Arena-Hard](https://lmsys.org/blog/2024-04-19-arena-hard/) ## Benchmark-評比時的輸入 * 因為可以做太多事情,所以我們現在會更想要用更多的任務去評比 * 透過這些Benchmark,可以看到題目越來越多 * BIG-bench中蒐集了很多奇葩任務 * Emoji Movie: 給語言任務一些Emoji,要他們猜這個Emoji對映到哪部電影 * Checkmate In One Move: 叫語言模型下西洋棋,問哪一部可以讓對面將軍 * ASCII word recognition: 叫模型讀奇怪的密碼,叫他回答出來,例如下面這張圖,要讀裡面藏著BENCH * [Needle in a Haystack](https://github.com/gkamradt/LLMTest_NeedleInAHaystack) * 在非常長的文章中插入一個訊息,看模型能不能找出來。 * 會在文章不同位置插入,避免模型只記得開頭、中間或結尾 * 這是GPT4的測試,可以看到如果128K的文章會忘記中前段的內容 * 這是Claude的結果,可以看到慘不忍睹但是Claude的團隊透過[修改Needle in a Haystack test的prompt](https://www.anthropic.com/news/claude-2-1-prompting),達到了幾乎完美的長文閱讀 * [MACHIAVELLI Benchmark](https://arxiv.org/abs/2304.03279) * 測試語言模型會不會為答目的不擇手段 * 讓語言模型玩文字冒險遊戲,讓語言模型做出不同選擇 * 透過遊戲中模型給的答案,去評量語言模型有沒有符合人類的道德 * 藍色的點是針對文字遊戲訓練過的模型,可以看到為求分數(橫軸)不則手段(縱軸)。而可以透過加入prompt讓語言模型有更高的道德。 ## 機器有沒有心智理論 Theory of Mind * 心智理論是揣測他人心裡在想什麼的能力 * 莎莉與小安測驗(Sally–Anne test) * 莎莉和小安他們旁邊有個箱子和籃子。 莎莉把球放在籃子後,莎莉就離開了。 小安在莎莉離開後,把球放到了箱子中。 請問莎莉回來後她會去哪裡找球? * 簡單來說就是給模型上帝視角,問劇中某個人的有限視角問題 * GPT3、Taide都沒有辦法正確答對,會答對是因為看過相關資料而不是可以揣摩,只要把人名換掉就會回答錯誤 * 透過[心智理論測驗](https://arxiv.org/abs/2310.15421),可以發現結果很糟 * 有時Benchmark不可信,因為現在模型太大訓練資料太多,有可能公開的Benchmark已經被當成訓練資料被模型看過了。 * [論文](https://arxiv.org/abs/2312.16337)中要求模型直接提供特定Benchmark的資料,有很多都可以吐出來,代表他們已經看過了。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up