各AI領域SOTA (State-of-the-Art) 成績概覽

# 各AI領域SOTA (State-of-the-Art) 成績概覽 ## 1. 大型語言模型 (LLM) SOTA ### 通用知識與理解能力 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **MMLU** | 涵蓋57個學科的多任務語言理解 | 90.3% | Claude 3.5 Sonnet | 2024年7月 | | **GPQA** | 研究生級專業問題解答 | 47.1% | GPT-4o | 2024年5月 | | **MATH** | 高級數學問題解決 | 68.4% | Claude 3.5 Sonnet | 2024年7月 | | **BBH** | Big-Bench Hard，具挑戰性任務集 | 88.3% | GPT-4o | 2024年5月 | | **AGIEval** | 人類考試題集 (GRE, LSAT等) | 76.6% | GPT-4o | 2024年5月 | ### 程式編寫與推理 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **HumanEval** | 函數實現編程評估 | 94.5% | Claude 3.5 Sonnet | 2024年7月 | | **APPS** (Advanced) | 複雜編程問題集 | 65.8% | GPT-4o | 2024年5月 | | **GSM8K** | 年級數學應用題 | 99.7% | Claude 3.5 Sonnet | 2024年7月 | | **MT-Bench** | 多轉對話基準測試 | 9.54/10 | Claude 3 Opus | 2024年3月 | | **AlpacaEval** | 指令遵循能力評估 | 98.2% | Claude 3.5 Sonnet | 2024年7月 | ### 開源模型 SOTA | 基準測試 | 說明 | SOTA 成績 | 開源模型 | 發布日期 | |---------|------|----------|--------|---------| | **MMLU** | 多任務語言理解 | 83.7% | Llama 3 70B | 2024年4月 | | **GSM8K** | 數學推理 | 94.2% | DeepSeek-Math 67B | 2024年5月 | | **HumanEval** | 程式編寫 | 87.2% | DeepSeek-Coder V2 | 2024年8月 | | **GPQA** | 專業知識 | 29.4% | Llama 3 70B | 2024年4月 | ## 2. 多模態模型 SOTA ### 視覺-語言理解 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **MMMU** | 多模態理解 (文理科知識) | 76.2% | GPT-4o | 2024年5月 | | **MM-Bench** | 視覺指令遵循 | 85.4% | Gemini 1.5 Pro | 2024年2月 | | **MME** | 多模態評估 | 2119.2 | Claude 3 Opus | 2024年3月 | | **SEED-Bench** | 多模態功能評估 | 73.8% | Gemini 1.5 Pro | 2024年2月 | ### 圖像生成 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **DrawBench** | 文本到圖像質量評估 | 8.8/10 | Midjourney v6 | 2023年12月 | | **HPS** | 人類偏好評分 | 9.12/10 | DALL·E 3 | 2023年10月 | | **CLIP Score** | 文本-圖像對齊度 | 0.87 | Stable Diffusion 3 | 2024年6月 | ## 3. 計算機視覺 SOTA ### 圖像分類 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **ImageNet** | 圖像分類基準 | 92.8% | ViT-Giant | 2024年6月 | | **CIFAR-100** | 小型圖像分類 | 97.5% | ConvNeXt-XXL | 2024年2月 | ### 目標檢測與分割 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **COCO** (目標檢測) | 通用目標檢測 | 65.7 mAP | RT-DETR | 2024年3月 | | **COCO** (實例分割) | 實例分割 | 62.3 mAP | Segment Anything 2 | 2024年7月 | | **ADE20K** (語義分割) | 場景分析分割 | 65.8 mIoU | SegGPT | 2024年4月 | ## 4. 語音與音頻 SOTA ### 語音識別 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **LibriSpeech** (測試-乾淨) | 英語語音識別 | 1.1% WER | Whisper Large v3 | 2024年2月 | | **LibriSpeech** (測試-其他) | 較難語音識別 | 1.9% WER | Whisper Large v3 | 2024年2月 | | **CommonVoice** (多語言) | 多語言語音識別 | 8.7% WER | MMS-2B | 2024年1月 | ### 語音合成 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **LJSpeech** (MOS) | 自然度平均意見得分 | 4.52/5 | VALL-E X | 2024年3月 | | **LibriTTS** (PESQ) | 感知評估語音質量 | 4.71/5 | AudioLM 2 | 2024年5月 | ## 5. 強化學習 SOTA ### 遊戲與控制 | 基準測試 | 說明 | SOTA 成績 | 模型/方法 | 發布日期 | |---------|------|----------|---------|---------| | **Atari 100k** | 100K步內Atari遊戲表現 | 3500% | EfficientZero | 2023年12月 | | **MuJoCo** | 連續控制任務 | 95.7% | TDMPC2 | 2024年1月 | | **Minecraft** | 開放世界遊戲 | 鑽石裝備 | SIMA | 2024年5月 | | **StarCraft II** | 複雜即時戰略遊戲 | 大師級 | AlphaStar 2 | 2023年11月 | ## 6. 醫療與生物學 SOTA ### 醫學影像 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **ChestX-ray14** | 胸部X光分類 | 94.2% AUC | Med-PaLM 2 | 2023年12月 | | **MIMIC-CXR** | 臨床X光報告生成 | 0.93 CheXbert | ClinicalGPT | 2024年2月 | | **BraTS** | 腦腫瘤分割 | 92.6% Dice | 3D UX-Net | 2024年3月 | ### 蛋白質結構預測 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **CASP15** | 蛋白質結構預測 | 92.4 GDT | AlphaFold 3 | 2023年12月 | | **ATOM3D** | 小分子結合預測 | 0.87 AUC | RoseTTAFold 2 | 2024年1月 | ## 7. SOTA進展速度與趨勢 ### LLM領域進展速度 | 基準測試 | 2022年SOTA | 2023年SOTA | 2024年SOTA | 提升百分比 | |---------|-----------|-----------|-----------|----------| | MMLU | 70.7% (PaLM) | 86.4% (GPT-4) | 90.3% (Claude 3.5) | +28% | | GSM8K | 74.6% (Minerva) | 92.0% (GPT-4) | 99.7% (Claude 3.5) | +34% | | HumanEval | 48.1% (LaMDA) | 67.0% (GPT-4) | 94.5% (Claude 3.5) | +96% | ### 多模態領域進展速度 | 基準測試 | 2022年SOTA | 2023年SOTA | 2024年SOTA | 提升百分比 | |---------|-----------|-----------|-----------|----------| | MMMU | - | 56.8% (GPT-4V) | 76.2% (GPT-4o) | +34% | | 圖像生成HPS | 7.2/10 | 8.6/10 | 9.1/10 | +26% | ## 8. 未來發展方向 ### 預期突破領域 1. **長上下文理解**: 目前最先進模型已支持100萬token上下文，預計將向更高效的無限上下文方向發展 2. **多智能體協作**: 研究集中在多個AI智能體協同解決複雜問題 3. **推理能力增強**: 通過更先進的訓練方法提高模型的推理能力 4. **數據效率**: 減少對大量訓練數據的依賴，更有效利用現有資源 5. **模型解釋性**: 增強對大型模型決策過程的理解與解釋 6. **實時學習**: 向持續學習和實時適應方向發展 7. **安全與公平性**: 強化模型的安全機制和減少偏見 ### 注意事項 - SOTA成績可能因評估方法不同而有所差異 - 閉源商業模型的實際性能可能高於公開報告數據 ## 排行榜 {%preview https://claude.site/artifacts/e71f33e4-4c42-43d6-8b06-5427b6ac9c74 %} # LLM評估基準與排行榜報告 ## 1. 大型語言模型(LLM)排行榜概述大型語言模型(Large Language Models, LLM)排行榜是評估和比較不同AI模型能力的標準化平台。這些排行榜通過一系列特定任務和基準測試來衡量模型的性能，使研究人員、開發者和使用者能夠客觀地比較不同模型的優劣。 ### 排行榜的重要性 - **標準化比較**：提供統一的評估標準 - **推動技術進步**：鼓勵研發更強大的模型 - **指導應用選擇**：幫助用戶選擇適合特定任務的模型 - **透明度**：提高AI領域的研究透明度 ## 2. 主要評估基準與指標 ### MMLU (Massive Multitask Language Understanding) **概述**：衡量模型在57個不同學科領域的知識，包括STEM、人文、社會科學和專業知識等。 **測試方式**： - 多選題格式(通常為4選1) - 橫跨初級到專業級別的難度 - 總計約15,000個問題 **重要性**： - 被視為通用知識和學科專業知識的核心指標 - 評估模型在不同領域的知識廣度和準確性 **頂尖表現**： - Claude 3 Opus: 86.8% - GPT-4: 86.4% - Gemini Ultra: 83.7% - Llama 3: 81.2% ### GPQA (Graduate-level Professional Question Answering) **概述**：測試模型解答研究生水平專業問題的能力，專注於物理、化學、生物和醫學等學科的高難度問題。 **測試方式**： - 由Ph.D專家撰寫的高級專業問題 - 要求深入的推理和專業知識 - 評估採用專家評分方式 **重要性**： - 測試模型處理專業領域複雜問題的能力 - 評估模型在未見過的高級知識上的泛化能力 **頂尖表現**： - Claude 3 Opus: 38.2% - GPT-4: 32.1% - Gemini Ultra: 32.8% ### MATH **概述**：一個高級數學問題集，包含競賽級別的數學題目。 **測試方式**： - 涵蓋代數、幾何、組合數學、微積分等 - 問題需要多步驟推理及解題 - 評估解題的正確性和完整性 **重要性**： - 測試模型的數學推理能力 - 評估解決複雜問題的步驟性推理能力 **頂尖表現**： - Claude 3 Opus: 53.9% - GPT-4: 52.9% - Gemini Ultra: 50.3% ### HumanEval **概述**：評估模型的程式編寫能力。 **測試方式**： - 提供函數描述，要求模型完成代碼 - 通過功能測試驗證代碼正確性 - 主要基於Python編程 **重要性**： - 衡量模型的實際編程能力 - 測試理解需求並轉換為功能性代碼的能力 **頂尖表現**： - Claude 3 Opus: 84.8% - GPT-4: 78.6% - Gemini Ultra: 74.4% ### GSM8K (Grade School Math 8K) **概述**：評估基礎數學文字題解決能力的數據集。 **測試方式**： - 包含約8,000道小學/初中水平數學應用題 - 需要多步驟推理 - 評估解題的正確性 **重要性**： - 測試基本的數學推理能力 - 評估模型理解日常應用問題的能力 **頂尖表現**： - Claude 3 Opus: 97.6% - GPT-4: 95.3% - Gemini Ultra: 94.4% ### HELM (Holistic Evaluation of Language Models) **概述**：一個綜合性評估框架，從多個維度評估語言模型。 **測試方式**： - 評估多種能力：準確性、校準性、公平性、效率等 - 包含多種任務類型 - 提供更全面的模型分析 **重要性**： - 提供多維度評估，而非單一分數 - 幫助理解模型的優勢和局限性 ## 3. 其他重要評估基準 ### TruthfulQA **概述**：評估模型回答問題的真實性，特別是對抗常見誤解和虛假信息。 ### Chatbot Arena **概述**：基於人類偏好的排名系統，讓用戶直接比較不同模型的回答。 ### LMSYS Leaderboard **概述**：結合多種評估方法，包括人類評估和自動化測試。 ### BIG-Bench **概述**：超過200個不同任務的大型基準測試集，評估多種能力。 ## 4. 主要LLM排行榜平台 ### 1. LMSYS排行榜 - **特點**：基於人類偏好的排名 - **測評方式**：Chatbot Arena平台上的人類評判 - **參與模型範圍**：開源和閉源模型 - **網址**：[https://chat.lmsys.org/](https://chat.lmsys.org/) ### 2. Hugging Face Open LLM Leaderboard - **特點**：專注於開源模型的評估 - **測評指標**：MMLU, ARC, TruthfulQA, Winogrande等 - **優勢**：透明且易於獲取的評估結果 - **網址**：[https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard) ### 3. Stanford HELM - **特點**：全面且多維度的評估 - **測評方式**：超過50個場景的多維度評估 - **優勢**：提供詳細的模型能力分析 - **網址**：[https://crfm.stanford.edu/helm/](https://crfm.stanford.edu/helm/) ## 5. 評估方法的局限性 ### 現有評估方法的不足 - **過度優化問題**：模型可能過度適應特定基準測試 - **真實世界應用差距**：基準測試未必反映實際應用場景 - **文化與語言偏見**：大多數測試以英語和西方知識為中心 - **動態變化**：模型不斷更新，排名也隨時變化 - **缺乏創造力評估**：難以量化創造力和獨特思維 ### 解決方法趨勢 - **多維度評估**：結合多種測試和評估方法 - **人機結合評估**：融合自動化測試和人類評估 - **實際應用評估**：在真實場景中評估模型表現 ## 6. 未來發展趨勢 ### 新興評估方向 - **多模態評估**：評估模型處理圖像、音頻等多種數據類型的能力 - **道德與安全評估**：測試模型在道德決策和安全方面的表現 - **長期記憶與上下文理解**：評估模型處理長對話和複雜上下文的能力 - **多輪對話能力**：評估模型在延續對話中的連貫性和適應性 ### 行業影響 - **標準化測試框架**：建立更統一的評估標準 - **垂直領域評估**：針對特定行業的專業評估標準 - **開源評估工具**：更多開放、透明的評估工具和方法 ## 7. 結論 LLM評估基準與排行榜提供了比較不同模型性能的重要框架，但需要理解每個指標的特點和局限性。隨著技術發展，評估方法也在不斷演進，未來將更加全面和貼近實際應用。選擇適合特定用途的模型時，應結合多種評估指標，並考慮實際應用場景的需求。一些大模型榜单 ======= [https://web.lmarena.ai/leaderboard](https://web.lmarena.ai/leaderboard) WebDev Arena 数据更新及时 [https://lmarena.ai/?leaderboard](https://lmarena.ai/?leaderboard) 之前是 lmsys.org 数据更新及时 [目前到底有多少基于大模型的服务？](https://www.cac.gov.cn/2024-04/02/c_1713729983803145.htm) 个人推荐看上面几个，下面的也可以看一下。 [https://huggingface.co/spaces/open-llm-leaderboard/open\_llm\_leaderboard#/](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/) reproducible [https://llm-stats.com/](https://llm-stats.com/) 前端很好看，数据可视化做得很好。Live Benchmarks，数据更新不及时 [https://artificialanalysis.ai/models/claude-3-7-sonnet](https://artificialanalysis.ai/models/claude-3-7-sonnet) 这个也能看一看。