# Humanity's Last Exam 人类的最后考验 arXiv: https://arxiv.org/abs/2501.14249 ## AI 解析 ## Humanity's Last Exam (人类的最后考试) ### 📝 研究概要 该研究发布了一个名为 HLE (Humanity's LaSt EXAM) 的多模态基准测试,旨在评估大型语言模型 (LLM) 在人类知识前沿的学术能力,并发现现有 LLM 仍存在显著差距。 ### ⭐ 研究亮点 * **创新点一**: 提出了 HLE 基准测试,包含 2700 道跨学科难题,覆盖数学、人文、自然科学等领域。 * **创新点二**: HLE 题目由领域专家设计,强调原创性、精确性和不可搜索性,旨在测试 LLM 的深度推理能力。 * **潜在影响**: 为评估 LLM 的学术能力提供了一个更具挑战性的标准,有助于推动 AI 研究和政策制定。 ## 深度解析 ### 📚 研究背景 * **理论意义**: 现有 LLM 基准测试已趋于饱和,无法有效衡量 LLM 在人类知识前沿的能力。 * **现实意义**: 精确评估 LLM 的能力对于指导 AI 研究、治理和公众认知至关重要。 * **研究目标**: 设计一个高难度、多学科的基准测试,以准确衡量 LLM 与人类专家水平之间的差距。 ### 🔬 研究方法 * **研究设计**: 设计并构建了包含多选题和简答题的 HLE 基准测试。 * **数据来源**: 题目由来自全球 50 多个国家、500 多个机构的近 1000 名领域专家贡献,包括教授、研究人员和研究生。 * **分析方法**: 使用最先进的 LLM 在 HLE 上进行评估,并分析其准确率、校准误差和 token 使用情况。 ### 📊 研究发现 #### 实证结果 * **发现一**: 最先进的 LLM 在 HLE 上的准确率很低(低于 10%),表明 LLM 与人类专家水平之间存在显著差距。 * **发现二**: LLM 在 HLE 上表现出较差的校准性,即对错误答案的置信度很高,表明存在幻觉现象。 * **发现三**: 使用推理模型的 LLM 需要生成更多的 token,计算成本更高。 #### 理论贡献 * **贡献点一**: 提出了一个更具挑战性的 LLM 基准测试,有助于推动 LLM 的能力评估研究。 * **贡献点二**: 揭示了现有 LLM 在深度推理和知识掌握方面的局限性。 #### 实践启示 * **启示一**: 需要开发更强大的 LLM,以缩小与人类专家水平之间的差距。 * **启示二**: 在评估 LLM 的能力时,需要考虑其校准性和计算成本。 ### 🔍 研究局限 * **局限一**: HLE 主要关注封闭式学术问题,可能无法全面评估 LLM 的所有能力。 * **局限二**: HLE 的题目难度较高,可能不适用于评估 LLM 在日常应用中的能力。 * **未来研究方向**: 可以探索开发更全面的 LLM 基准测试,涵盖开放式问题和实际应用场景。 ## 学术对话 ### 💡 理论延伸 * **与现有研究的关系**: HLE 延续了 LLM 基准测试的研究方向,但通过提高难度和扩大学科范围,弥补了现有基准测试的不足。 * **理论框架的拓展**: HLE 的设计理念可以应用于其他领域的基准测试,例如编程、医学等。 * **新的研究方向**: 可以研究如何利用 HLE 来指导 LLM 的训练,提高其推理能力和知识掌握水平。 ### ❓ 核心问答 #### Q1: HLE 如何确保题目的原创性和不可搜索性? 研究团队通过多阶段的审核流程来确保题目的原创性和不可搜索性。首先,每个题目都会经过 LLM 的测试,如果 LLM 能够正确回答,则会被拒绝。其次,题目会经过多轮人工审核,由领域专家评估其原创性和难度。此外,研究团队还鼓励作者修改题目参数,例如增加答案选项的数量,以减少 LLM 猜对答案的可能性。 #### Q2: HLE 的发布对 AI 研究和政策制定有何意义? HLE 的发布为 AI 研究人员提供了一个更具挑战性的基准测试,可以帮助他们更准确地评估 LLM 的能力,并推动 LLM 的发展。对于政策制定者来说,HLE 可以帮助他们更好地了解 LLM 的局限性,并制定更合理的 AI 治理政策。 #### Q3: HLE 的未来发展方向是什么? HLE 的未来发展方向包括:扩大题目的范围,涵盖更多学科和领域;增加题目的类型,例如开放式问题和实际应用场景;开发更智能的评估方法,例如自动评估 LLM 的推理过程;以及建立一个开放的平台,鼓励社区参与题目的贡献和评估。 ## 📌 总结评价 "Humanity's Last Exam" 是一项有价值的研究,它提出了一个更具挑战性的 LLM 基准测试,有助于推动 LLM 的能力评估研究。HLE 的发布为 AI 研究人员和政策制定者提供了一个重要的参考点,可以帮助他们更好地了解 LLM 的局限性,并推动 AI 的健康发展。 希望这个分析对您有所帮助! ## 摘要三问 ### 研究问题 该研究旨在解决现有大型语言模型 (LLM) 基准测试难度不足的问题,具体研究问题如下: * **核心问题:** 现有 LLM 基准测试(如 MMLU)已达到饱和状态,无法有效衡量 LLM 在人类知识前沿的能力。 * **研究目标:** 设计并构建一个更具挑战性的多模态基准测试 Humanity's LaSt EXAM (HLE),以准确评估 LLM 在广泛学科领域中的专家级知识和推理能力。 ### 采用方法 该研究通过以下方法构建和评估 HLE 基准测试: * **数据集构建:** * **问题收集:** 收集了来自全球 50 多个国家、500 多个机构的近 1000 名学科专家贡献的 2700 道难题,涵盖数学、人文科学和自然科学等数十个学科。 * **问题筛选:** 采用多阶段审核流程,包括: * **LLM 难度检查:** 在提交前,使用前沿 LLM 测试每个问题的难度,如果 LLM 能够正确回答,则拒绝该问题。 * **专家评审:** 通过多轮专家评审(包括研究生水平的评审员和组织者/专家评审员),确保问题质量和符合提交标准。 * **公开评审:** 计划在发布后进行公开评审,欢迎社区反馈以纠正数据集中的任何问题。 * **问题设计原则:** 问题具有明确的解决方案,无法通过简单的互联网检索快速回答,强调原创性、精确性和非歧义性。 * **模型评估:** * **评估设置:** 使用标准化的系统提示,引导 LLM 提供推理过程和最终答案。 * **评估指标:** 评估 LLM 在 HLE 上的准确率和校准误差 (Calibration Error)。 * **模型选择:** 评估了多个前沿 LLM,包括 GPT-40, Grok 2, Claude 3.5 Sonnet, Gemini 1.5 Pro, Gemini 2.0 Flash Thinking, oI, DeepSeek-RI, O3-MINI (MEDIUM), O3-MINI (HIGH) 等。 * **答案验证:** 使用 GPT-40 作为裁判,验证模型预测的答案是否正确。 ### 关键结果 该研究的主要发现和贡献如下: * **HLE 基准测试的有效性:** HLE 成功地构建了一个难度远高于现有基准测试的评估数据集,能够有效区分不同 LLM 的能力。 * **LLM 能力差距:** 前沿 LLM 在 HLE 上的准确率极低(低于 10%),表明当前 LLM 的能力与人类专家水平的学术能力之间存在显著差距。 * **模型校准问题:** LLM 在 HLE 上表现出较差的校准,即模型经常以高置信度给出错误答案,而不是承认不确定性。 * **资源公开:** 公开发布 HLE 数据集([https://lastexam.ai](https://lastexam.ai)),为研究人员和政策制定者提供了一个评估 LLM 能力的共同参考点。 * **未来展望:** 强调了 HLE 作为衡量 LLM 在封闭式学术问题上能力的基准的重要性,并指出未来模型需要提高准确率和计算效率。 总而言之,该研究通过构建高难度的 HLE 基准测试,揭示了当前 LLM 在专家级知识和推理能力方面的局限性,为未来的 LLM 研究和评估提供了有价值的资源和方向。
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.