【生成式AI導論 2024】第12講：淺談檢定大型語言模型能力的各種方式

# 【生成式AI導論 2024】第12講：淺談檢定大型語言模型能力的各種方式語言模型評分基本上就是去對答案看誰比較好 ![image](https://hackmd.io/_uploads/rkUXRNZpkg.png) 這些輸入跟標準答案就是Benchmark Corpus 但是語言模型的輸出是沒有限制的，這對答案的評分有了挑戰性 ## 選擇題 * MMLU蒐集了很多有挑戰性的選擇題，涵蓋許多領域![image](https://hackmd.io/_uploads/S1uxxSbT1x.png) * 但相同模型在不同文獻中MMLU的正確率居然不同 * 因為語言模型本來就不是只會輸出選擇題答案，因此有可能會輸出`B`、`答案是 b`、`根據計算,我認為是 1`等多種結果，這樣不知道要不要算對 * 如果只限制輸出`A`、`B`、`C`、`D`，又變成是在訓練語言模型克制自己只能輸出這四個字母 * 假設只能輸出ABCD的情況下，如果查看輸出機率非ABCD的機率比較高又該算對還是錯呢?![image](https://hackmd.io/_uploads/SkY1gHZpyl.png)例如圖中想回答3，但因為限制只能回答B * 有人把MMLU所有答案移到A，洗牌了模型的結果![【生成式AI導論 2024】第12講：淺談檢定大型語言模型能力的各種方式 7-30 screenshot](https://hackmd.io/_uploads/rytHxrbaJe.png)由此可以發現讓機器考選擇題時，選項的代號(1234、ABCD、abcd)甚至順序都會有很大影響 * 更何況還有更多沒有標準答案的問題，如摘要、翻譯![image](https://hackmd.io/_uploads/HJIheHWT1g.png) ## 用人評比 Chatbot Arena是一個模型的競技場，會讓你選哪個答案比較好 ![image](https://hackmd.io/_uploads/SJsZbSZT1g.png) 之後透過投票去做排名 ## 用語言模型去評比 * 用人畢竟太耗時間了，於是有人[^1](https://arxiv.org/abs/2305.01937)[^2](https://arxiv.org/abs/2310.05657)用語言模型去評比 * 輸入語言模型輸出跟標準答案給評分模型，評估答案是否正確 * 或是比較兩個模型之間的優劣 * ![image](https://hackmd.io/_uploads/BkAYbBbT1g.png) * [MT-Bench](https://arxiv.org/abs/2306.05685)就是用語言模型(GPT-4)去評量的Benchmark * 通常是題組 * [以MT-Bench與Chatbot Arena排名比較](https://lmsys.org/blog/2024-04-19-arena-hard/)，相關性很高(0.94) * 但語言模型喜歡長篇大論，所以AlpacaEval 2.0(也是用語言模型評比語言模型的Benchmark加入了一些[評分方法](https://arxiv.org/abs/2404.04475)讓他不會偏袒長篇大論，還有偏袒特定類型的答案。 * MT-Bench也釋出新的題目，叫做[Arena-Hard](https://lmsys.org/blog/2024-04-19-arena-hard/) ## Benchmark-評比時的輸入 * 因為可以做太多事情，所以我們現在會更想要用更多的任務去評比 * 透過這些Benchmark，可以看到題目越來越多![【生成式AI導論 2024】第12講：淺談檢定大型語言模型能力的各種方式 18-4 screenshot](https://hackmd.io/_uploads/Sysk4S-6ye.png) * BIG-bench中蒐集了很多奇葩任務 * Emoji Movie: 給語言任務一些Emoji，要他們猜這個Emoji對映到哪部電影 * Checkmate In One Move: 叫語言模型下西洋棋，問哪一部可以讓對面將軍 * ASCII word recognition: 叫模型讀奇怪的密碼，叫他回答出來，例如下面這張圖，要讀裡面藏著BENCH![image](https://hackmd.io/_uploads/BytySH-Tyx.png) * [Needle in a Haystack](https://github.com/gkamradt/LLMTest_NeedleInAHaystack) * 在非常長的文章中插入一個訊息，看模型能不能找出來。![image](https://hackmd.io/_uploads/BkrmrrbT1x.png) * 會在文章不同位置插入，避免模型只記得開頭、中間或結尾 * 這是GPT4的測試，可以看到如果128K的文章會忘記中前段的內容![image](https://hackmd.io/_uploads/B1zwSBWT1g.png) * 這是Claude的結果，可以看到慘不忍睹![image](https://hackmd.io/_uploads/S1BpHHWTyg.png)但是Claude的團隊透過[修改Needle in a Haystack test的prompt](https://www.anthropic.com/news/claude-2-1-prompting)，達到了幾乎完美的長文閱讀![image](https://hackmd.io/_uploads/B1QGIBZayx.png) * [MACHIAVELLI Benchmark](https://arxiv.org/abs/2304.03279) * 測試語言模型會不會為答目的不擇手段 * 讓語言模型玩文字冒險遊戲，讓語言模型做出不同選擇 * 透過遊戲中模型給的答案，去評量語言模型有沒有符合人類的道德 * 藍色的點是針對文字遊戲訓練過的模型，可以看到為求分數(橫軸)不則手段(縱軸)。而可以透過加入prompt讓語言模型有更高的道德。![image](https://hackmd.io/_uploads/ryS08BZpyx.png) ## 機器有沒有心智理論 Theory of Mind * 心智理論是揣測他人心裡在想什麼的能力 * 莎莉與小安測驗(Sally–Anne test) * 莎莉和小安他們旁邊有個箱子和籃子。莎莉把球放在籃子後,莎莉就離開了。小安在莎莉離開後,把球放到了箱子中。請問莎莉回來後她會去哪裡找球? * 簡單來說就是給模型上帝視角，問劇中某個人的有限視角問題 * GPT3、Taide都沒有辦法正確答對，會答對是因為看過相關資料而不是可以揣摩，只要把人名換掉就會回答錯誤 * 透過[心智理論測驗](https://arxiv.org/abs/2310.15421)，可以發現結果很糟![【生成式AI導論 2024】第12講：淺談檢定大型語言模型能力的各種方式 39-55 screenshot](https://hackmd.io/_uploads/Sy1bWY-6ke.png) * 有時Benchmark不可信，因為現在模型太大訓練資料太多，有可能公開的Benchmark已經被當成訓練資料被模型看過了。 * [論文](https://arxiv.org/abs/2312.16337)中要求模型直接提供特定Benchmark的資料，有很多都可以吐出來，代表他們已經看過了。![image](https://hackmd.io/_uploads/B17fGYbp1l.png)