# [2025李宏毅ML] 第9講:你這麽認這個評分系統幹什麽啊?談談有關大型語言模型評估的幾件事 :::success :+1: 筆記全集Book 請至: https://hackmd.io/@4j/r1U_UJ_pye/ ::: :::info 2025生成式AI時代下的機器學習_李宏毅 課程網站 https://speech.ee.ntu.edu.tw/~hylee/ml/2025-spring.php video: https://www.youtube.com/watch?v=s266BzGNKKc [[ppt]](https://docs.google.com/presentation/d/1OovnEYdAocl8HUFx2hMvPX8dsLrqPdmd/edit#slide=id.p1) [[pdf]](https://speech.ee.ntu.edu.tw/~hylee/ml/ml2025-course-data/reason_eval.pdf) (20250511) ::: :::spoiler 目錄 [TOC] :::  ## 如何評量大型語言模型的「推理」能力  常用 **數學問題** 來評論能力 但會不會只是剛好他有看過題目... ## 有多少答案可能是「記憶」出來的?   ▪ **案例:把GSM8K資料及內的詞彙或數字換掉(難度不變)** (圖)左邊這些模型就可能是背答案的,表現下降很多  ▪ **案例** 灰:原始 藍:把一些句子順序對調但不影響題目意思 結果還是有下降的趨勢,代表模型有學到一些不該學的能力 難檢驗模型是否已有看過類似的問題 ## ARC-AGI 資料集   像智力測驗那種推理題目 讓模型不能靠記憶回答 且有未公開的 testing set ARC-AGI 的作者就是 Keras 的  (給模型看的樣子是像這樣文字的格式)  縱軸: 正確率 橫軸: 此 benchmark corpus 被釋出多長的時間 多數模型在釋出1,2年內就會被玩壞,ARC-AGI 在五年內 還沒被打爆  橫軸: 回答一個問題要多少錢 o3 模型智力介於一般人類與數理人類間,但解一題需花費千元算力 ## 平台 Chatbot Arena  每次給你兩個模型 你問問題後票選較佳的答案 產生排行榜 但還是有瑕疵, ex: 人類喜歡有emoji, 粗體字條列的答案,... 且人也不一定知道正確答案 模型的回答內容都很強了,輸出的 **排版書寫風格** 反而影響打分比較大 ### Chatbot Arena - Elo Score Chatbot Arena 的評比機制:Elo 伊囉 score  根據對戰勝率去反推出各模型的戰力  要再加上 實力以外的影響因素 beta0  (圖) 各模型評分結果 左:沒有考慮影響因素的戰力計算 右:考慮影響因素後的戰力計算 claude 系列模型上升蠻多的(聰明但比較憨慢講話) ## Goodhart’s law  (圖)捕蛇一條一塊 結果大家偷偷繁殖 反而變得越來越多蛇 一項指標一旦被當作目標,它就不再是一個好的指標。 ==--> **結論: 沒有一個好的評分指標 不要過度在意**== --END--
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up