李宏毅_生成式導論 2024_第12講：淺談檢定大型語言模型能力的各種方式

# 李宏毅_生成式導論 2024_第12講：淺談檢定大型語言模型能力的各種方式 ###### tags: `Hung-yi Lee` `NTU` `生成式導論 2024` [課程撥放清單](https://www.youtube.com/watch?v=AVIKFXLCPY8&list=PLJV_el3uVTsPz6CTopeRp2L2t4aL_KgiI) ## 第12講：淺談檢定大型語言模型能力的各種方式 [課程連結](https://www.youtube.com/watch?v=Hk8Z0uhmWg4&list=PLJV_el3uVTsPz6CTopeRp2L2t4aL_KgiI&index=13) ### 語言模型能力評比 ![image](https://hackmd.io/_uploads/HkeanfNXC.png) 一般來說是這樣的，你就準備幾個問題跟相對應的標準答案，然後看模型的輸出跟答案是不是有相同，就可以知道語言模型的能力。那這幾個問題跟答案的資料就是我們常聽到的benchmark，也就是基準。這個作法的一個問題就是，如何根據標準答案來決定模型的輸出是否正確，因為語言模型的輸出是沒有限制的，這導致了評估上的相對固難。 ### 考選擇題總不會有問題吧 ![image](https://hackmd.io/_uploads/SJiI6M4QC.png) [參考論文_Measuring Massive Multitask Language Understanding](https://arxiv.org/abs/2009.03300) 針對這個困難點就有人提出，給語言模型選擇題，看答案對不對就可以。其中一個知名的資料集，MMLU，裡面有著上萬題的題目可以拿來測試驗證。 ### 考選擇題總不會有問題吧 ![image](https://hackmd.io/_uploads/r14o6f4XR.png) 有趣的是，相同的模型相同的考題在不同的文獻中卻有不同的正確率。 ### 就連選擇題都有問題 ![image](https://hackmd.io/_uploads/S1e40fNmA.png) 這其中一個問題就是，語言模型的那張嘴不好管，你叫它答ABC，它就是要答abc，又或者你要它答ABC，它偏偏回答計算出來的結果，這種情況下要怎麼算？ ### 讓機器做選擇題 ![image](https://hackmd.io/_uploads/SJ39RGVmC.png) 有人提出一個想法，用語言模型的輸出分佈來評估，看ABCD那一個機率比較高，如果是正確答案的機率比較高那就算它對。但是以上面簡報為例，結果竟然是3的機率最高，那這時候到底算不算正確？這就有兩派的看法了。 ### 讓機器做選擇題 ![image](https://hackmd.io/_uploads/ByPDlmVm0.png) [參考論文_Large Language Models Are Not Robust Multiple Choice Selectors](https://arxiv.org/abs/2309.03882) 這個研究很有趣，Orig是原始MMLU的評比結果，其它的ABCD則是將所有正確答案都移到相對應位置去的時候的結果。可以發現到，答案位置移動之後竟然也影響到模型的正確率。甚至連選項的變更也會影響正確率(簡報左下圖)。這說明著，答案的位置跟選項的設置對語言模型都有一定的影響。 ### 沒有單一標準答案的問題類型 ![image](https://hackmd.io/_uploads/SyWH-X4QA.png) 選擇題的答案可以設計成唯一性，對錯一翻兩瞪眼，但有些問題是沒有標準答案的，像是翻譯、摘要。雖然針對這兩個問題也有著相對應的方式可以做為評比，但都是字面上的評比，簡單說就是你的回應跟答案有相同的字就給墨水分，不過這樣的評比方式還是有問題就是。 ### 也許還是人來評比最準？ ![image](https://hackmd.io/_uploads/rJ_YW7V7R.png) 這邊有個語言模型競技場，反正就是會隨機給個問題讓模型回答，然後由人來評比那一個模型給的回應比較好。 ### 也許還是人來評比最準？ ![image](https://hackmd.io/_uploads/S100ZXEmA.png) 一般常聽到那個模型排行榜最棒棒的通常指的就是這邊，排行榜來看似乎還是被GPT-4奪回榜一，後面緊追的就是Gemini跟Claude。 ### 也許可以用強大的語言模型來評估？ ![image](https://hackmd.io/_uploads/BkQqGXEXR.png) [參考論文1_Can Large Language Models Be an Alternative to Human Evaluations?](https://arxiv.org/abs/2305.01937) [參考論文2_A Closer Look into Automatic Evaluation Using Large Language Models](https://arxiv.org/abs/2310.05657) 用人來評比的成本終究是高，所以可以的話還是讓機器來代勞，我們可以把標準答案跟模型輸出丟給一個更強大的模型，讓它來決定答案是否正確。又或者我們可以把一個問題給兩個模型，然後把兩個模型的輸出丟給一個更強大的模型來決定誰的回應比較好。 ### 也許可以用強大的語言模型來評估？ ![image](https://hackmd.io/_uploads/Hy0dmXN70.png) [參考論文_Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena](https://arxiv.org/abs/2306.05685) MT-Bench就是用GPT-4來做衡量參加評比的模型。問題不多，但是我看起來都不簡單都是。 ### 也許可以用強大的語言模型來評估？ ![image](https://hackmd.io/_uploads/HyoJSQVmC.png) [參考論文_Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators](https://arxiv.org/abs/2404.04475) 上圖來看，MT-bench跟剛剛提到的語言模型競技場上的排名的相關性還蠻高的。不過有個問題就是，語言模型自己廢話多，所以也會偏愛廢話多的回應。因此，有個評比，AlpacaEval 2.0，它把回應的長度也考慮進去，即使GPT-4給了高分，但是因為回應長度比較長，所以給這個輸出回應很長的模型的排名就會比較後面。把這個因素考慮進去之後，它的相關性就整個拉上去了，這也可以視為是一種語言模型的偏見，我指的是對於回應比較長的就給比較高的分數這個問題。 ### 語言模型能力評比 ![image](https://hackmd.io/_uploads/rJmDB74XA.png) 知道怎麼評比了，那一個問題來了，要問什麼？ ### 語言模型能力評比 ![image](https://hackmd.io/_uploads/HJkN4Mdm0.png) 問就是分手，這是男女版在說的，上面給出的是各年代在評比語言模型的時候所給定的任務數量。這裡面的BIG-bench是一個蠻特別的檢測。 ### BIG-bench ![image](https://hackmd.io/_uploads/B1IF4fOQA.png) BIG-bench的文章作者高達444位且橫跨一百多個單位。 ### BIG-bench ![image](https://hackmd.io/_uploads/rJkxHGd7R.png) 這裡面最有趣的就是Emoji Movie，以上面簡報為例，給四個小圖詢問模型這代表那一部電影。只有大型語言模型才能成功回答這就是海底總動員，finding nemo。 ### BIG-bench ![image](https://hackmd.io/_uploads/H15_rGdQA.png) 這邊另一個範例是讓語言模型下西洋棋，詢問模型要怎麼樣一步將軍，正解是橘線，實線是大型語言模型的回答，虛線是小型語言模型的回答。結果來看雖然都是錯的，但大型語言模型的棋路至少是符合西洋淇規則的。 ### BIG-bench ![image](https://hackmd.io/_uploads/BJV5OM_XC.png) 這是給定一大串的ASCII碼排出來的字，讓語言模型回答，正確答案是BENCH。 ### 閱讀長文的能力 ![image](https://hackmd.io/_uploads/BkXtdGuQA.png) 我們會希望模型可以讀超大型長文，所以有著一個稱之為大海撈針的測試。這個測試的概念就是把一個測試關鍵資訊丟在文件中的某一個段落，可能是最前面，也可能是中間、後面，然後讓模型讀完之後再來詢問它。分段的測試另一個用意在於希望確認模型對於整個文章是不是會有對於某個片段的處理是比較弱的。 ### 閱讀長文的能力 ![image](https://hackmd.io/_uploads/Hk_FKf_mR.png) 上圖給出GPT-4的測試結果，橫軸的部份是整個input token的長度，蹤軸的部份則是關鍵資訊所在位置，愈上代表是開頭，愈下代表是結尾。結果來看，token長度在64k以內的情況下，GPT-4都可以完美探針。如果是最極端的128k的話，那針藏在太前面的地方就真的有可能是無法成功探針的。 ### 閱讀長文的能力 ![image](https://hackmd.io/_uploads/B1uM9fuX0.png) 紅色代表讀不到。這是相同的測試應用在claude的結果，嗯，好像soso。 ### 閱讀長文的能力 ![image](https://hackmd.io/_uploads/SJlaZ5MuQ0.png) 不過這樣的結果讓claude的團隊坐不住從輪椅上站起來，針對團隊的回應，他們說，只要調整一下提示詞就可以完美解決所有問題。所以說，問問題真的是一門藝術。 ### MACHIAVELLI Benchmark ![image](https://hackmd.io/_uploads/HywTsM_7R.png) [參考論文_Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark](https://arxiv.org/abs/2304.03279) 這邊測試的是語言模型會不會為了達成目的而不擇手段。測試的方式是人類準備一個文字遊戲來給語言模型玩，每個狀態都有多個action可以選擇，每個action都有相對應的分數評比。 ### MACHIAVELLI Benchmark ![image](https://hackmd.io/_uploads/HkE_3GdQ0.png) 上圖為測試結果，橫軸是得到的總分數，蹤軸是是否符合道德比例，愈高代表愈高道德，愈小就愈不擇手段。藍線是故意訓練來為得高分不擇手段的模型，GPT-4的話看起來有著一個底線。底線上再加入提示要求符合人類道德規範的情況下，它就更高道德。 ### 機器有沒有心智理論(Theory of Mind) ![image](https://hackmd.io/_uploads/HJxXuwFXR.png) 所謂的心智理論就是揣摩他人想法的能力，教授舉出輝夜大小姐想讓人告白的範例，輝夜知道白銀喜歡輝夜，白銀知道輝夜喜歡白銀，這就是揣摩他人想法的能力。這也行？一個字，絕。 ### 機器有沒有心智理論(Theory of Mind) ![image](https://hackmd.io/_uploads/ByqFODtmR.png) ![image](https://hackmd.io/_uploads/H1EpuDt70.png) [參考論文1_Sparks of Artificial General Intelligence: Early experiments with GPT-4](https://arxiv.org/abs/2303.12712) [參考論文2_Evaluating Large Language Models in Theory of Mind Tasks](https://arxiv.org/abs/2302.02083) 範例來結果來看，機器還真的知道，不過因為這問題是網路上抄來的，也許早就成為機器的養分了。 ### 機器有沒有心智理論(Theory of Mind) ![image](https://hackmd.io/_uploads/ry3lFPYXC.png) ![image](https://hackmd.io/_uploads/S1EbKvtXA.png) 這邊教授把範例做了調整再問一次測試。相同類似的問題得到的結果卻是不一樣。所以這邊的結論就是，有時候我們覺得好像很擬人，但其實是機器早就看過答案了。 ### 機器有沒有心智理論(Theory of Mind) ![image](https://hackmd.io/_uploads/SJHitPKQ0.png) [參考論文_FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions](https://arxiv.org/abs/2310.15421) 這邊範例說明的是，有人對於語言模型心智理論做了詳細的測試。人為設計幾個對話場景來做為驗證。總之就有一點閱讀測驗的感覺。 ### 機器有沒有心智理論(Theory of Mind) ![image](https://hackmd.io/_uploads/SkwAKPtXR.png) 測試結果來看，全部趴地上。 ### 不要盡信Benchmark的結果 ![image](https://hackmd.io/_uploads/Hylf6vt7A.png) [參考論文_Rethinking Benchmark and Contamination for Language Models with Rephrased Samples](https://arxiv.org/abs/2311.04850) Benchmark既然是公開拿來評量模型用的，那就代表模型是有機會看過資料的，當然不會是完全一樣，只是一種換句話說的概念。 ### 不要盡信Benchmark的結果 ![image](https://hackmd.io/_uploads/rJSspvY7A.png) [參考論文_Task Contamination: Language Models May Not Be Few-Shot Anymore](https://arxiv.org/abs/2312.16337) 這邊論文做了各式各樣的Benchmark跟模型的評比，蹤軸愈高代表表現愈好，橫軸左邊是在語言模型存在之前就已經存在的Benchmark資料集，右邊則是在語言模型出來之後才存在的Benchmark資料集。很明顯的，語言模型在後面才存在的Benchmark資料集上的效能是糟糕的，這很有可能就是早就看過題目了。 ### 不要盡信Benchmark的結果 ![image](https://hackmd.io/_uploads/rJaMCvKXC.png) 這邊是論文進一步給出的鐵證，就是讓模型吃誠實豆沙包，叫它自己輸出相關資料集內的題目，如果真的能夠完整輸出的話，那就代表它真的有偷看過資料。要注意，並不是沒有辦法吐出資料的就代表它們真的沒有看過，有可能是比較笨，沒有記下來而以。 ### 其他面向：價格、速度 ![image](https://hackmd.io/_uploads/S1J_APKX0.png) 錢跟反應速度是我們考量的重點之一。可參考簡報上的[連結](https://artificialanalysis.ai/)有更多比較多說。