# 各AI領域SOTA (State-of-the-Art) 成績概覽
## 1. 大型語言模型 (LLM) SOTA
### 通用知識與理解能力
| 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 |
|---------|------|----------|------|---------|
| **MMLU** | 涵蓋57個學科的多任務語言理解 | 90.3% | Claude 3.5 Sonnet | 2024年7月 |
| **GPQA** | 研究生級專業問題解答 | 47.1% | GPT-4o | 2024年5月 |
| **MATH** | 高級數學問題解決 | 68.4% | Claude 3.5 Sonnet | 2024年7月 |
| **BBH** | Big-Bench Hard,具挑戰性任務集 | 88.3% | GPT-4o | 2024年5月 |
| **AGIEval** | 人類考試題集 (GRE, LSAT等) | 76.6% | GPT-4o | 2024年5月 |
### 程式編寫與推理
| 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 |
|---------|------|----------|------|---------|
| **HumanEval** | 函數實現編程評估 | 94.5% | Claude 3.5 Sonnet | 2024年7月 |
| **APPS** (Advanced) | 複雜編程問題集 | 65.8% | GPT-4o | 2024年5月 |
| **GSM8K** | 年級數學應用題 | 99.7% | Claude 3.5 Sonnet | 2024年7月 |
| **MT-Bench** | 多轉對話基準測試 | 9.54/10 | Claude 3 Opus | 2024年3月 |
| **AlpacaEval** | 指令遵循能力評估 | 98.2% | Claude 3.5 Sonnet | 2024年7月 |
### 開源模型 SOTA
| 基準測試 | 說明 | SOTA 成績 | 開源模型 | 發布日期 |
|---------|------|----------|--------|---------|
| **MMLU** | 多任務語言理解 | 83.7% | Llama 3 70B | 2024年4月 |
| **GSM8K** | 數學推理 | 94.2% | DeepSeek-Math 67B | 2024年5月 |
| **HumanEval** | 程式編寫 | 87.2% | DeepSeek-Coder V2 | 2024年8月 |
| **GPQA** | 專業知識 | 29.4% | Llama 3 70B | 2024年4月 |
## 2. 多模態模型 SOTA
### 視覺-語言理解
| 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 |
|---------|------|----------|------|---------|
| **MMMU** | 多模態理解 (文理科知識) | 76.2% | GPT-4o | 2024年5月 |
| **MM-Bench** | 視覺指令遵循 | 85.4% | Gemini 1.5 Pro | 2024年2月 |
| **MME** | 多模態評估 | 2119.2 | Claude 3 Opus | 2024年3月 |
| **SEED-Bench** | 多模態功能評估 | 73.8% | Gemini 1.5 Pro | 2024年2月 |
### 圖像生成
| 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 |
|---------|------|----------|------|---------|
| **DrawBench** | 文本到圖像質量評估 | 8.8/10 | Midjourney v6 | 2023年12月 |
| **HPS** | 人類偏好評分 | 9.12/10 | DALL·E 3 | 2023年10月 |
| **CLIP Score** | 文本-圖像對齊度 | 0.87 | Stable Diffusion 3 | 2024年6月 |
## 3. 計算機視覺 SOTA
### 圖像分類
| 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 |
|---------|------|----------|------|---------|
| **ImageNet** | 圖像分類基準 | 92.8% | ViT-Giant | 2024年6月 |
| **CIFAR-100** | 小型圖像分類 | 97.5% | ConvNeXt-XXL | 2024年2月 |
### 目標檢測與分割
| 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 |
|---------|------|----------|------|---------|
| **COCO** (目標檢測) | 通用目標檢測 | 65.7 mAP | RT-DETR | 2024年3月 |
| **COCO** (實例分割) | 實例分割 | 62.3 mAP | Segment Anything 2 | 2024年7月 |
| **ADE20K** (語義分割) | 場景分析分割 | 65.8 mIoU | SegGPT | 2024年4月 |
## 4. 語音與音頻 SOTA
### 語音識別
| 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 |
|---------|------|----------|------|---------|
| **LibriSpeech** (測試-乾淨) | 英語語音識別 | 1.1% WER | Whisper Large v3 | 2024年2月 |
| **LibriSpeech** (測試-其他) | 較難語音識別 | 1.9% WER | Whisper Large v3 | 2024年2月 |
| **CommonVoice** (多語言) | 多語言語音識別 | 8.7% WER | MMS-2B | 2024年1月 |
### 語音合成
| 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 |
|---------|------|----------|------|---------|
| **LJSpeech** (MOS) | 自然度平均意見得分 | 4.52/5 | VALL-E X | 2024年3月 |
| **LibriTTS** (PESQ) | 感知評估語音質量 | 4.71/5 | AudioLM 2 | 2024年5月 |
## 5. 強化學習 SOTA
### 遊戲與控制
| 基準測試 | 說明 | SOTA 成績 | 模型/方法 | 發布日期 |
|---------|------|----------|---------|---------|
| **Atari 100k** | 100K步內Atari遊戲表現 | 3500% | EfficientZero | 2023年12月 |
| **MuJoCo** | 連續控制任務 | 95.7% | TDMPC2 | 2024年1月 |
| **Minecraft** | 開放世界遊戲 | 鑽石裝備 | SIMA | 2024年5月 |
| **StarCraft II** | 複雜即時戰略遊戲 | 大師級 | AlphaStar 2 | 2023年11月 |
## 6. 醫療與生物學 SOTA
### 醫學影像
| 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 |
|---------|------|----------|------|---------|
| **ChestX-ray14** | 胸部X光分類 | 94.2% AUC | Med-PaLM 2 | 2023年12月 |
| **MIMIC-CXR** | 臨床X光報告生成 | 0.93 CheXbert | ClinicalGPT | 2024年2月 |
| **BraTS** | 腦腫瘤分割 | 92.6% Dice | 3D UX-Net | 2024年3月 |
### 蛋白質結構預測
| 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 |
|---------|------|----------|------|---------|
| **CASP15** | 蛋白質結構預測 | 92.4 GDT | AlphaFold 3 | 2023年12月 |
| **ATOM3D** | 小分子結合預測 | 0.87 AUC | RoseTTAFold 2 | 2024年1月 |
## 7. SOTA進展速度與趨勢
### LLM領域進展速度
| 基準測試 | 2022年SOTA | 2023年SOTA | 2024年SOTA | 提升百分比 |
|---------|-----------|-----------|-----------|----------|
| MMLU | 70.7% (PaLM) | 86.4% (GPT-4) | 90.3% (Claude 3.5) | +28% |
| GSM8K | 74.6% (Minerva) | 92.0% (GPT-4) | 99.7% (Claude 3.5) | +34% |
| HumanEval | 48.1% (LaMDA) | 67.0% (GPT-4) | 94.5% (Claude 3.5) | +96% |
### 多模態領域進展速度
| 基準測試 | 2022年SOTA | 2023年SOTA | 2024年SOTA | 提升百分比 |
|---------|-----------|-----------|-----------|----------|
| MMMU | - | 56.8% (GPT-4V) | 76.2% (GPT-4o) | +34% |
| 圖像生成HPS | 7.2/10 | 8.6/10 | 9.1/10 | +26% |
## 8. 未來發展方向
### 預期突破領域
1. **長上下文理解**: 目前最先進模型已支持100萬token上下文,預計將向更高效的無限上下文方向發展
2. **多智能體協作**: 研究集中在多個AI智能體協同解決複雜問題
3. **推理能力增強**: 通過更先進的訓練方法提高模型的推理能力
4. **數據效率**: 減少對大量訓練數據的依賴,更有效利用現有資源
5. **模型解釋性**: 增強對大型模型決策過程的理解與解釋
6. **實時學習**: 向持續學習和實時適應方向發展
7. **安全與公平性**: 強化模型的安全機制和減少偏見
### 注意事項
- SOTA成績可能因評估方法不同而有所差異
- 閉源商業模型的實際性能可能高於公開報告數據
## 排行榜
{%preview https://claude.site/artifacts/e71f33e4-4c42-43d6-8b06-5427b6ac9c74 %}
# LLM評估基準與排行榜報告
## 1. 大型語言模型(LLM)排行榜概述
大型語言模型(Large Language Models, LLM)排行榜是評估和比較不同AI模型能力的標準化平台。這些排行榜通過一系列特定任務和基準測試來衡量模型的性能,使研究人員、開發者和使用者能夠客觀地比較不同模型的優劣。
### 排行榜的重要性
- **標準化比較**:提供統一的評估標準
- **推動技術進步**:鼓勵研發更強大的模型
- **指導應用選擇**:幫助用戶選擇適合特定任務的模型
- **透明度**:提高AI領域的研究透明度
## 2. 主要評估基準與指標
### MMLU (Massive Multitask Language Understanding)
**概述**:衡量模型在57個不同學科領域的知識,包括STEM、人文、社會科學和專業知識等。
**測試方式**:
- 多選題格式(通常為4選1)
- 橫跨初級到專業級別的難度
- 總計約15,000個問題
**重要性**:
- 被視為通用知識和學科專業知識的核心指標
- 評估模型在不同領域的知識廣度和準確性
**頂尖表現**:
- Claude 3 Opus: 86.8%
- GPT-4: 86.4%
- Gemini Ultra: 83.7%
- Llama 3: 81.2%
### GPQA (Graduate-level Professional Question Answering)
**概述**:測試模型解答研究生水平專業問題的能力,專注於物理、化學、生物和醫學等學科的高難度問題。
**測試方式**:
- 由Ph.D專家撰寫的高級專業問題
- 要求深入的推理和專業知識
- 評估採用專家評分方式
**重要性**:
- 測試模型處理專業領域複雜問題的能力
- 評估模型在未見過的高級知識上的泛化能力
**頂尖表現**:
- Claude 3 Opus: 38.2%
- GPT-4: 32.1%
- Gemini Ultra: 32.8%
### MATH
**概述**:一個高級數學問題集,包含競賽級別的數學題目。
**測試方式**:
- 涵蓋代數、幾何、組合數學、微積分等
- 問題需要多步驟推理及解題
- 評估解題的正確性和完整性
**重要性**:
- 測試模型的數學推理能力
- 評估解決複雜問題的步驟性推理能力
**頂尖表現**:
- Claude 3 Opus: 53.9%
- GPT-4: 52.9%
- Gemini Ultra: 50.3%
### HumanEval
**概述**:評估模型的程式編寫能力。
**測試方式**:
- 提供函數描述,要求模型完成代碼
- 通過功能測試驗證代碼正確性
- 主要基於Python編程
**重要性**:
- 衡量模型的實際編程能力
- 測試理解需求並轉換為功能性代碼的能力
**頂尖表現**:
- Claude 3 Opus: 84.8%
- GPT-4: 78.6%
- Gemini Ultra: 74.4%
### GSM8K (Grade School Math 8K)
**概述**:評估基礎數學文字題解決能力的數據集。
**測試方式**:
- 包含約8,000道小學/初中水平數學應用題
- 需要多步驟推理
- 評估解題的正確性
**重要性**:
- 測試基本的數學推理能力
- 評估模型理解日常應用問題的能力
**頂尖表現**:
- Claude 3 Opus: 97.6%
- GPT-4: 95.3%
- Gemini Ultra: 94.4%
### HELM (Holistic Evaluation of Language Models)
**概述**:一個綜合性評估框架,從多個維度評估語言模型。
**測試方式**:
- 評估多種能力:準確性、校準性、公平性、效率等
- 包含多種任務類型
- 提供更全面的模型分析
**重要性**:
- 提供多維度評估,而非單一分數
- 幫助理解模型的優勢和局限性
## 3. 其他重要評估基準
### TruthfulQA
**概述**:評估模型回答問題的真實性,特別是對抗常見誤解和虛假信息。
### Chatbot Arena
**概述**:基於人類偏好的排名系統,讓用戶直接比較不同模型的回答。
### LMSYS Leaderboard
**概述**:結合多種評估方法,包括人類評估和自動化測試。
### BIG-Bench
**概述**:超過200個不同任務的大型基準測試集,評估多種能力。
## 4. 主要LLM排行榜平台
### 1. LMSYS排行榜
- **特點**:基於人類偏好的排名
- **測評方式**:Chatbot Arena平台上的人類評判
- **參與模型範圍**:開源和閉源模型
- **網址**:[https://chat.lmsys.org/](https://chat.lmsys.org/)
### 2. Hugging Face Open LLM Leaderboard
- **特點**:專注於開源模型的評估
- **測評指標**:MMLU, ARC, TruthfulQA, Winogrande等
- **優勢**:透明且易於獲取的評估結果
- **網址**:[https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)
### 3. Stanford HELM
- **特點**:全面且多維度的評估
- **測評方式**:超過50個場景的多維度評估
- **優勢**:提供詳細的模型能力分析
- **網址**:[https://crfm.stanford.edu/helm/](https://crfm.stanford.edu/helm/)
## 5. 評估方法的局限性
### 現有評估方法的不足
- **過度優化問題**:模型可能過度適應特定基準測試
- **真實世界應用差距**:基準測試未必反映實際應用場景
- **文化與語言偏見**:大多數測試以英語和西方知識為中心
- **動態變化**:模型不斷更新,排名也隨時變化
- **缺乏創造力評估**:難以量化創造力和獨特思維
### 解決方法趨勢
- **多維度評估**:結合多種測試和評估方法
- **人機結合評估**:融合自動化測試和人類評估
- **實際應用評估**:在真實場景中評估模型表現
## 6. 未來發展趨勢
### 新興評估方向
- **多模態評估**:評估模型處理圖像、音頻等多種數據類型的能力
- **道德與安全評估**:測試模型在道德決策和安全方面的表現
- **長期記憶與上下文理解**:評估模型處理長對話和複雜上下文的能力
- **多輪對話能力**:評估模型在延續對話中的連貫性和適應性
### 行業影響
- **標準化測試框架**:建立更統一的評估標準
- **垂直領域評估**:針對特定行業的專業評估標準
- **開源評估工具**:更多開放、透明的評估工具和方法
## 7. 結論
LLM評估基準與排行榜提供了比較不同模型性能的重要框架,但需要理解每個指標的特點和局限性。隨著技術發展,評估方法也在不斷演進,未來將更加全面和貼近實際應用。選擇適合特定用途的模型時,應結合多種評估指標,並考慮實際應用場景的需求。
一些大模型榜单
=======
[https://web.lmarena.ai/leaderboard](https://web.lmarena.ai/leaderboard) WebDev Arena 数据更新及时
[https://lmarena.ai/?leaderboard](https://lmarena.ai/?leaderboard) 之前是 lmsys.org 数据更新及时
[目前到底有多少基于大模型的服务?](https://www.cac.gov.cn/2024-04/02/c_1713729983803145.htm)
个人推荐看上面几个,下面的也可以看一下。
[https://huggingface.co/spaces/open-llm-leaderboard/open\_llm\_leaderboard#/](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/) reproducible
[https://llm-stats.com/](https://llm-stats.com/) 前端很好看,数据可视化做得很好。Live Benchmarks,数据更新不及时
[https://artificialanalysis.ai/models/claude-3-7-sonnet](https://artificialanalysis.ai/models/claude-3-7-sonnet) 这个也能看一看。