---
GA: UA-34467841-15
---
# 「我用的模型考試都考一百分」語言模型如何技術選型?內行人都這樣看模型跑分 - Summit Suen
###### tags: `HelloWorld2025` `HWDC2025` `2025` `DE 會議室` `AI 與系統架構設計`
<blockquote>
介紹現行大型/多模態語言模型評測方式的目的及遇到的瓶頸,透過文獻回顧來討論從更多面向(認知、知識、公平、資安⋯⋯等)去衡量語言模型能力的思路,亦可作為開發者在選用語言模型時的技術選型階段能夠參考的指引與架構。另外也介紹實作語言模型評測資料集時會遇到的挑戰以及處理方式。
聽眾收穫:
能夠理解現行語言模型評測方式的痛點,並且開啟一個從更多面向去衡量語言模型的思路,讓開發者在選用語言模型時,有更明確的指引及架構。
</blockquote>
{%hackmd @HWDC/announcement-2025 %}
## 會議資訊
**時間:** 15:10 ~ 15:40
**地點:** DE 會議室
**日期:** 2025年10月15日
**語言:** 中文
**難度:** 中階
**相關連結:**
- [Hello World Dev Conference 2025 官方網站](https://hwdc.ithome.com.tw/2025) [target=_blank]
- [Hello World 2025 議程表](https://hwdc.ithome.com.tw/2025/agenda) [target=_blank]
## 筆記區
### 語言模型評測
- **傳統 ML 模型**
- 解決特定問題
- 推薦系統:顧客瀏覽/購買記錄
- 文字客服:過往問答紀錄
- 手寫辨識:手寫字影像資料集
- 單一目的資料集
- 資料分割 split
- 80/20: 訓練 / 測試資料
- N-fold: 避免 overfitting
- 具有明確指標
- Accuracy
- Confusion matrix
- **LLM**
- 泛用目的/訓練方法:
- base model: 公開網路資料(wiki, 新聞, 論壇等)
- fine-tune:自行收集整理資料
- RAG:單位內部資料(知識庫)
- 廣泛用途資料集
- 再現率 vs. 準確率
- 文字輸出: free-form vs. structured
- metrics: Exact Match vs. ROUGE
- 本質是機率模型
- 多個指標覆蓋不同面向
- 資料如何具有代表性
評測資料集 -> 測驗題目
- 需要制定標準
- 考試
- example: [OpenVLM Leaderboard](https://huggingface.co/spaces/opencompass/open_vlm_leaderboard)
- example: [Open LLM Leaderboard](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/)
LLM 計分方式
- NLP way
- Model way
- LLM-as-a-judge
- LLM Use Case
- LLM system architecture
### VLM (Vision Language Model) benchmark 評測資料
- VQA
- VHELM
在選模型時,判斷使用的場景,挑選相似的 benchmark,最後挑在該 benchmark 高分的模型
每個 benchmark 的目的不同
- GQA
- PAIRS
### VLM benchmark 常見問題
### 燈塔計劃 VLM benchmark 介紹
高雄燈塔計劃
## 討論區
> 歡迎在此進行討論與 Q&A
## 相關資源
- 投影片連結:(待講者提供)
- 相關文件:(待更新)
## 逐字稿
**(前面沒轉到)**
其實這些問題,就是問答這件事,其實應該是要用你的 use case 去問它,其實才會比較合乎你去使用的狀況。 對,所以就好像現在如果大家什麼Codex出來或是Caldex出來,就在大家在使用就是這些大學模型的時候比較常見的一些做法這樣。 那他跟传统,就是说传统可能也不太对,因为大规模模型这件事情其实
再去看這些不同的備忘錄。 V5N後面也是接LN,所以我這邊用V5N的評測資料來做一個大概的Benchmark現在的現況。 大概是怎麼樣子。所以比如說如果是用 Vray Benchmark 來看的話,看現在比較常就是在那個Visible 上面大家會去跑分的這些 Benchmark 到底長什麼樣子。 所以你會發現說這些Benchmark的內容其實是包容萬象,它們的任務其實是包容萬象。那通常VLM的Benchmark都是一種叫做VQN的形式,就是Vision的... 提示文章的題目就是一張圖片加一個問題,答案就是你要輸出的回答。
Benchmark 資料集就是會有標註好的回答,然後就是拿這個影像跟我的題目去問 VLM,然後看它出來的回答跟我們標註的回答的相似程度這樣。 對,那基本上不同的那個VQA或者說不同的Benchmark他們的任務其實都非常不一樣,那像這是一篇 去年2014年10月的paper他去survey就是說既有的這些AVM Benchmark他們到底cover了哪些面向然後就發現說他其實整理出來很多不同的 不同的面向就比如說有的Benchmark是針對真實世界影像的有的Benchmark是針對 手寫文字的,或者是針對一些藝術作品的,然後有些是針對...有些是有前進,有些是沒有。
所以其實就是變成說這些不同的就是Benchmark其實你如果單純就只是看他的討分你可能其實不知道他在幹嘛但是你要你是需要去知道說他背後其實 這條語音備忘錄,已進行編輯以加入正確的標點 其實你可能就不會去看這個benchmark的分數。對,就是雖然你去,你可能會看到它好像general的跑分蠻高的,但是它其實高分的那幾項其實不一定是你要的。 所以你只需要比較仔細的去看說,今天這個模型出了它在你要用的場景,比較適合的Benchmark是什麼。 然後才能去挑出比較適合你用的model。然後也會看到說其實不同的model通常它在不同的benchmark跑
因此,你很難有一個標準模式,就是所有的標準標準都超級高分,就是完全碾壓,通常不太會這樣,就是它會是某幾項比較強,某幾項比較弱。 所以我們都是可以在這些Leaderboard上面去看,就是你在挑model的時候可以從這邊去看。
它有做一些比較。然後所以這邊就剛剛講到說,其實每個Benchmark的目的寫不到。例如說,這裡有一個real-world QA,那它就是拿真實世界的影像,然後去做問答。 然後或者是另外有一個 VQA Me Too這兩種都是比較真實事件影像去做問答就是問說這張圖片裡面在講什麼可能有幾個建築物的幾個人 然後描述一下他們現在的狀況。但是也有的是說,譬如說有的benchmark是專門去做fairness的,對,就是公平性的,像這個呢,對,fairness這個右邊這一張,這個它就是 圖片裡的每個物體之間的相關性,將他們的關係建立成一個圖的概念。
## 會後摘要
### 視覺語言模型基準測試概述
- 視覺語言模型(VLM)評估通常採用視覺問答(VQA)形式,包含圖片、問題和預期回答
- 不同基準測試覆蓋不同面向:真實世界影像、藝術作品、手寫文字等多種類型
- 基準測試分數並非唯一選擇依據,應根據實際使用場景選擇適合的模型
- 模型通常在某些方面表現較強,某些方面較弱,很少有全面超越的模型
### 資料集與評估挑戰
- 資料集需具備平衡性以避免模型產生偏誤(如行車影像測試中過多直線行駛場景)
- GQA等基準測試專注於物體之間的關係識別能力,而非僅識別物體
- 評估方法包括自由文本比對(使用BLEU等指標)和結構化數據比對
- 信度效度評估是新興研究方向,目前發現跑分較高的模型通常信度效度也較高
### 項目實例與應用
- 講者團隊與高雄市政府合作開發視覺語言模型應用
- 專案與NVIDIA合作,用於實時分析CCTV監控畫面
- 團隊建立自己的基準測試資料集以評估模型表現
- 目前開發的模型性能優於GPT-4o和Lambda等先進模型
### 評估框架建議
- 評估VLM時應從多個面向考量:影像感知能力、公平性、偏見等
- 模型選擇應基於使用場景需求,而非僅看總體分數
- 資料多樣性對基準測試和模型訓練至關重要
- 目前評估多為相對性比較,尚難有絕對標準