# 各AI領域SOTA (State-of-the-Art) 成績概覽 ## 1. 大型語言模型 (LLM) SOTA ### 通用知識與理解能力 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **MMLU** | 涵蓋57個學科的多任務語言理解 | 90.3% | Claude 3.5 Sonnet | 2024年7月 | | **GPQA** | 研究生級專業問題解答 | 47.1% | GPT-4o | 2024年5月 | | **MATH** | 高級數學問題解決 | 68.4% | Claude 3.5 Sonnet | 2024年7月 | | **BBH** | Big-Bench Hard,具挑戰性任務集 | 88.3% | GPT-4o | 2024年5月 | | **AGIEval** | 人類考試題集 (GRE, LSAT等) | 76.6% | GPT-4o | 2024年5月 | ### 程式編寫與推理 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **HumanEval** | 函數實現編程評估 | 94.5% | Claude 3.5 Sonnet | 2024年7月 | | **APPS** (Advanced) | 複雜編程問題集 | 65.8% | GPT-4o | 2024年5月 | | **GSM8K** | 年級數學應用題 | 99.7% | Claude 3.5 Sonnet | 2024年7月 | | **MT-Bench** | 多轉對話基準測試 | 9.54/10 | Claude 3 Opus | 2024年3月 | | **AlpacaEval** | 指令遵循能力評估 | 98.2% | Claude 3.5 Sonnet | 2024年7月 | ### 開源模型 SOTA | 基準測試 | 說明 | SOTA 成績 | 開源模型 | 發布日期 | |---------|------|----------|--------|---------| | **MMLU** | 多任務語言理解 | 83.7% | Llama 3 70B | 2024年4月 | | **GSM8K** | 數學推理 | 94.2% | DeepSeek-Math 67B | 2024年5月 | | **HumanEval** | 程式編寫 | 87.2% | DeepSeek-Coder V2 | 2024年8月 | | **GPQA** | 專業知識 | 29.4% | Llama 3 70B | 2024年4月 | ## 2. 多模態模型 SOTA ### 視覺-語言理解 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **MMMU** | 多模態理解 (文理科知識) | 76.2% | GPT-4o | 2024年5月 | | **MM-Bench** | 視覺指令遵循 | 85.4% | Gemini 1.5 Pro | 2024年2月 | | **MME** | 多模態評估 | 2119.2 | Claude 3 Opus | 2024年3月 | | **SEED-Bench** | 多模態功能評估 | 73.8% | Gemini 1.5 Pro | 2024年2月 | ### 圖像生成 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **DrawBench** | 文本到圖像質量評估 | 8.8/10 | Midjourney v6 | 2023年12月 | | **HPS** | 人類偏好評分 | 9.12/10 | DALL·E 3 | 2023年10月 | | **CLIP Score** | 文本-圖像對齊度 | 0.87 | Stable Diffusion 3 | 2024年6月 | ## 3. 計算機視覺 SOTA ### 圖像分類 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **ImageNet** | 圖像分類基準 | 92.8% | ViT-Giant | 2024年6月 | | **CIFAR-100** | 小型圖像分類 | 97.5% | ConvNeXt-XXL | 2024年2月 | ### 目標檢測與分割 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **COCO** (目標檢測) | 通用目標檢測 | 65.7 mAP | RT-DETR | 2024年3月 | | **COCO** (實例分割) | 實例分割 | 62.3 mAP | Segment Anything 2 | 2024年7月 | | **ADE20K** (語義分割) | 場景分析分割 | 65.8 mIoU | SegGPT | 2024年4月 | ## 4. 語音與音頻 SOTA ### 語音識別 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **LibriSpeech** (測試-乾淨) | 英語語音識別 | 1.1% WER | Whisper Large v3 | 2024年2月 | | **LibriSpeech** (測試-其他) | 較難語音識別 | 1.9% WER | Whisper Large v3 | 2024年2月 | | **CommonVoice** (多語言) | 多語言語音識別 | 8.7% WER | MMS-2B | 2024年1月 | ### 語音合成 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **LJSpeech** (MOS) | 自然度平均意見得分 | 4.52/5 | VALL-E X | 2024年3月 | | **LibriTTS** (PESQ) | 感知評估語音質量 | 4.71/5 | AudioLM 2 | 2024年5月 | ## 5. 強化學習 SOTA ### 遊戲與控制 | 基準測試 | 說明 | SOTA 成績 | 模型/方法 | 發布日期 | |---------|------|----------|---------|---------| | **Atari 100k** | 100K步內Atari遊戲表現 | 3500% | EfficientZero | 2023年12月 | | **MuJoCo** | 連續控制任務 | 95.7% | TDMPC2 | 2024年1月 | | **Minecraft** | 開放世界遊戲 | 鑽石裝備 | SIMA | 2024年5月 | | **StarCraft II** | 複雜即時戰略遊戲 | 大師級 | AlphaStar 2 | 2023年11月 | ## 6. 醫療與生物學 SOTA ### 醫學影像 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **ChestX-ray14** | 胸部X光分類 | 94.2% AUC | Med-PaLM 2 | 2023年12月 | | **MIMIC-CXR** | 臨床X光報告生成 | 0.93 CheXbert | ClinicalGPT | 2024年2月 | | **BraTS** | 腦腫瘤分割 | 92.6% Dice | 3D UX-Net | 2024年3月 | ### 蛋白質結構預測 | 基準測試 | 說明 | SOTA 成績 | 模型 | 發布日期 | |---------|------|----------|------|---------| | **CASP15** | 蛋白質結構預測 | 92.4 GDT | AlphaFold 3 | 2023年12月 | | **ATOM3D** | 小分子結合預測 | 0.87 AUC | RoseTTAFold 2 | 2024年1月 | ## 7. SOTA進展速度與趨勢 ### LLM領域進展速度 | 基準測試 | 2022年SOTA | 2023年SOTA | 2024年SOTA | 提升百分比 | |---------|-----------|-----------|-----------|----------| | MMLU | 70.7% (PaLM) | 86.4% (GPT-4) | 90.3% (Claude 3.5) | +28% | | GSM8K | 74.6% (Minerva) | 92.0% (GPT-4) | 99.7% (Claude 3.5) | +34% | | HumanEval | 48.1% (LaMDA) | 67.0% (GPT-4) | 94.5% (Claude 3.5) | +96% | ### 多模態領域進展速度 | 基準測試 | 2022年SOTA | 2023年SOTA | 2024年SOTA | 提升百分比 | |---------|-----------|-----------|-----------|----------| | MMMU | - | 56.8% (GPT-4V) | 76.2% (GPT-4o) | +34% | | 圖像生成HPS | 7.2/10 | 8.6/10 | 9.1/10 | +26% | ## 8. 未來發展方向 ### 預期突破領域 1. **長上下文理解**: 目前最先進模型已支持100萬token上下文,預計將向更高效的無限上下文方向發展 2. **多智能體協作**: 研究集中在多個AI智能體協同解決複雜問題 3. **推理能力增強**: 通過更先進的訓練方法提高模型的推理能力 4. **數據效率**: 減少對大量訓練數據的依賴,更有效利用現有資源 5. **模型解釋性**: 增強對大型模型決策過程的理解與解釋 6. **實時學習**: 向持續學習和實時適應方向發展 7. **安全與公平性**: 強化模型的安全機制和減少偏見 ### 注意事項 - SOTA成績可能因評估方法不同而有所差異 - 閉源商業模型的實際性能可能高於公開報告數據 ## 排行榜 {%preview https://claude.site/artifacts/e71f33e4-4c42-43d6-8b06-5427b6ac9c74 %} # LLM評估基準與排行榜報告 ## 1. 大型語言模型(LLM)排行榜概述 大型語言模型(Large Language Models, LLM)排行榜是評估和比較不同AI模型能力的標準化平台。這些排行榜通過一系列特定任務和基準測試來衡量模型的性能,使研究人員、開發者和使用者能夠客觀地比較不同模型的優劣。 ### 排行榜的重要性 - **標準化比較**:提供統一的評估標準 - **推動技術進步**:鼓勵研發更強大的模型 - **指導應用選擇**:幫助用戶選擇適合特定任務的模型 - **透明度**:提高AI領域的研究透明度 ## 2. 主要評估基準與指標 ### MMLU (Massive Multitask Language Understanding) **概述**:衡量模型在57個不同學科領域的知識,包括STEM、人文、社會科學和專業知識等。 **測試方式**: - 多選題格式(通常為4選1) - 橫跨初級到專業級別的難度 - 總計約15,000個問題 **重要性**: - 被視為通用知識和學科專業知識的核心指標 - 評估模型在不同領域的知識廣度和準確性 **頂尖表現**: - Claude 3 Opus: 86.8% - GPT-4: 86.4% - Gemini Ultra: 83.7% - Llama 3: 81.2% ### GPQA (Graduate-level Professional Question Answering) **概述**:測試模型解答研究生水平專業問題的能力,專注於物理、化學、生物和醫學等學科的高難度問題。 **測試方式**: - 由Ph.D專家撰寫的高級專業問題 - 要求深入的推理和專業知識 - 評估採用專家評分方式 **重要性**: - 測試模型處理專業領域複雜問題的能力 - 評估模型在未見過的高級知識上的泛化能力 **頂尖表現**: - Claude 3 Opus: 38.2% - GPT-4: 32.1% - Gemini Ultra: 32.8% ### MATH **概述**:一個高級數學問題集,包含競賽級別的數學題目。 **測試方式**: - 涵蓋代數、幾何、組合數學、微積分等 - 問題需要多步驟推理及解題 - 評估解題的正確性和完整性 **重要性**: - 測試模型的數學推理能力 - 評估解決複雜問題的步驟性推理能力 **頂尖表現**: - Claude 3 Opus: 53.9% - GPT-4: 52.9% - Gemini Ultra: 50.3% ### HumanEval **概述**:評估模型的程式編寫能力。 **測試方式**: - 提供函數描述,要求模型完成代碼 - 通過功能測試驗證代碼正確性 - 主要基於Python編程 **重要性**: - 衡量模型的實際編程能力 - 測試理解需求並轉換為功能性代碼的能力 **頂尖表現**: - Claude 3 Opus: 84.8% - GPT-4: 78.6% - Gemini Ultra: 74.4% ### GSM8K (Grade School Math 8K) **概述**:評估基礎數學文字題解決能力的數據集。 **測試方式**: - 包含約8,000道小學/初中水平數學應用題 - 需要多步驟推理 - 評估解題的正確性 **重要性**: - 測試基本的數學推理能力 - 評估模型理解日常應用問題的能力 **頂尖表現**: - Claude 3 Opus: 97.6% - GPT-4: 95.3% - Gemini Ultra: 94.4% ### HELM (Holistic Evaluation of Language Models) **概述**:一個綜合性評估框架,從多個維度評估語言模型。 **測試方式**: - 評估多種能力:準確性、校準性、公平性、效率等 - 包含多種任務類型 - 提供更全面的模型分析 **重要性**: - 提供多維度評估,而非單一分數 - 幫助理解模型的優勢和局限性 ## 3. 其他重要評估基準 ### TruthfulQA **概述**:評估模型回答問題的真實性,特別是對抗常見誤解和虛假信息。 ### Chatbot Arena **概述**:基於人類偏好的排名系統,讓用戶直接比較不同模型的回答。 ### LMSYS Leaderboard **概述**:結合多種評估方法,包括人類評估和自動化測試。 ### BIG-Bench **概述**:超過200個不同任務的大型基準測試集,評估多種能力。 ## 4. 主要LLM排行榜平台 ### 1. LMSYS排行榜 - **特點**:基於人類偏好的排名 - **測評方式**:Chatbot Arena平台上的人類評判 - **參與模型範圍**:開源和閉源模型 - **網址**:[https://chat.lmsys.org/](https://chat.lmsys.org/) ### 2. Hugging Face Open LLM Leaderboard - **特點**:專注於開源模型的評估 - **測評指標**:MMLU, ARC, TruthfulQA, Winogrande等 - **優勢**:透明且易於獲取的評估結果 - **網址**:[https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard) ### 3. Stanford HELM - **特點**:全面且多維度的評估 - **測評方式**:超過50個場景的多維度評估 - **優勢**:提供詳細的模型能力分析 - **網址**:[https://crfm.stanford.edu/helm/](https://crfm.stanford.edu/helm/) ## 5. 評估方法的局限性 ### 現有評估方法的不足 - **過度優化問題**:模型可能過度適應特定基準測試 - **真實世界應用差距**:基準測試未必反映實際應用場景 - **文化與語言偏見**:大多數測試以英語和西方知識為中心 - **動態變化**:模型不斷更新,排名也隨時變化 - **缺乏創造力評估**:難以量化創造力和獨特思維 ### 解決方法趨勢 - **多維度評估**:結合多種測試和評估方法 - **人機結合評估**:融合自動化測試和人類評估 - **實際應用評估**:在真實場景中評估模型表現 ## 6. 未來發展趨勢 ### 新興評估方向 - **多模態評估**:評估模型處理圖像、音頻等多種數據類型的能力 - **道德與安全評估**:測試模型在道德決策和安全方面的表現 - **長期記憶與上下文理解**:評估模型處理長對話和複雜上下文的能力 - **多輪對話能力**:評估模型在延續對話中的連貫性和適應性 ### 行業影響 - **標準化測試框架**:建立更統一的評估標準 - **垂直領域評估**:針對特定行業的專業評估標準 - **開源評估工具**:更多開放、透明的評估工具和方法 ## 7. 結論 LLM評估基準與排行榜提供了比較不同模型性能的重要框架,但需要理解每個指標的特點和局限性。隨著技術發展,評估方法也在不斷演進,未來將更加全面和貼近實際應用。選擇適合特定用途的模型時,應結合多種評估指標,並考慮實際應用場景的需求。 一些大模型榜单 ======= [https://web.lmarena.ai/leaderboard](https://web.lmarena.ai/leaderboard) WebDev Arena 数据更新及时 [https://lmarena.ai/?leaderboard](https://lmarena.ai/?leaderboard) 之前是 lmsys.org 数据更新及时 [目前到底有多少基于大模型的服务?](https://www.cac.gov.cn/2024-04/02/c_1713729983803145.htm) 个人推荐看上面几个,下面的也可以看一下。 [https://huggingface.co/spaces/open-llm-leaderboard/open\_llm\_leaderboard#/](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/) reproducible [https://llm-stats.com/](https://llm-stats.com/) 前端很好看,数据可视化做得很好。Live Benchmarks,数据更新不及时 [https://artificialanalysis.ai/models/claude-3-7-sonnet](https://artificialanalysis.ai/models/claude-3-7-sonnet) 这个也能看一看。
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.