Try   HackMD

Humanity's Last Exam

人类的最后考验

arXiv: https://arxiv.org/abs/2501.14249

AI 解析

Humanity's Last Exam (人类的最后考试)

📝 研究概要

该研究发布了一个名为 HLE (Humanity's LaSt EXAM) 的多模态基准测试,旨在评估大型语言模型 (LLM) 在人类知识前沿的学术能力,并发现现有 LLM 仍存在显著差距。

⭐ 研究亮点

  • 创新点一: 提出了 HLE 基准测试,包含 2700 道跨学科难题,覆盖数学、人文、自然科学等领域。
  • 创新点二: HLE 题目由领域专家设计,强调原创性、精确性和不可搜索性,旨在测试 LLM 的深度推理能力。
  • 潜在影响: 为评估 LLM 的学术能力提供了一个更具挑战性的标准,有助于推动 AI 研究和政策制定。

深度解析

📚 研究背景

  • 理论意义: 现有 LLM 基准测试已趋于饱和,无法有效衡量 LLM 在人类知识前沿的能力。
  • 现实意义: 精确评估 LLM 的能力对于指导 AI 研究、治理和公众认知至关重要。
  • 研究目标: 设计一个高难度、多学科的基准测试,以准确衡量 LLM 与人类专家水平之间的差距。

🔬 研究方法

  • 研究设计: 设计并构建了包含多选题和简答题的 HLE 基准测试。
  • 数据来源: 题目由来自全球 50 多个国家、500 多个机构的近 1000 名领域专家贡献,包括教授、研究人员和研究生。
  • 分析方法: 使用最先进的 LLM 在 HLE 上进行评估,并分析其准确率、校准误差和 token 使用情况。

📊 研究发现

实证结果

  • 发现一: 最先进的 LLM 在 HLE 上的准确率很低(低于 10%),表明 LLM 与人类专家水平之间存在显著差距。
  • 发现二: LLM 在 HLE 上表现出较差的校准性,即对错误答案的置信度很高,表明存在幻觉现象。
  • 发现三: 使用推理模型的 LLM 需要生成更多的 token,计算成本更高。

理论贡献

  • 贡献点一: 提出了一个更具挑战性的 LLM 基准测试,有助于推动 LLM 的能力评估研究。
  • 贡献点二: 揭示了现有 LLM 在深度推理和知识掌握方面的局限性。

实践启示

  • 启示一: 需要开发更强大的 LLM,以缩小与人类专家水平之间的差距。
  • 启示二: 在评估 LLM 的能力时,需要考虑其校准性和计算成本。

🔍 研究局限

  • 局限一: HLE 主要关注封闭式学术问题,可能无法全面评估 LLM 的所有能力。
  • 局限二: HLE 的题目难度较高,可能不适用于评估 LLM 在日常应用中的能力。
  • 未来研究方向: 可以探索开发更全面的 LLM 基准测试,涵盖开放式问题和实际应用场景。

学术对话

💡 理论延伸

  • 与现有研究的关系: HLE 延续了 LLM 基准测试的研究方向,但通过提高难度和扩大学科范围,弥补了现有基准测试的不足。
  • 理论框架的拓展: HLE 的设计理念可以应用于其他领域的基准测试,例如编程、医学等。
  • 新的研究方向: 可以研究如何利用 HLE 来指导 LLM 的训练,提高其推理能力和知识掌握水平。

❓ 核心问答

Q1: HLE 如何确保题目的原创性和不可搜索性?

研究团队通过多阶段的审核流程来确保题目的原创性和不可搜索性。首先,每个题目都会经过 LLM 的测试,如果 LLM 能够正确回答,则会被拒绝。其次,题目会经过多轮人工审核,由领域专家评估其原创性和难度。此外,研究团队还鼓励作者修改题目参数,例如增加答案选项的数量,以减少 LLM 猜对答案的可能性。

Q2: HLE 的发布对 AI 研究和政策制定有何意义?

HLE 的发布为 AI 研究人员提供了一个更具挑战性的基准测试,可以帮助他们更准确地评估 LLM 的能力,并推动 LLM 的发展。对于政策制定者来说,HLE 可以帮助他们更好地了解 LLM 的局限性,并制定更合理的 AI 治理政策。

Q3: HLE 的未来发展方向是什么?

HLE 的未来发展方向包括:扩大题目的范围,涵盖更多学科和领域;增加题目的类型,例如开放式问题和实际应用场景;开发更智能的评估方法,例如自动评估 LLM 的推理过程;以及建立一个开放的平台,鼓励社区参与题目的贡献和评估。

📌 总结评价

"Humanity's Last Exam" 是一项有价值的研究,它提出了一个更具挑战性的 LLM 基准测试,有助于推动 LLM 的能力评估研究。HLE 的发布为 AI 研究人员和政策制定者提供了一个重要的参考点,可以帮助他们更好地了解 LLM 的局限性,并推动 AI 的健康发展。

希望这个分析对您有所帮助!

摘要三问

研究问题

该研究旨在解决现有大型语言模型 (LLM) 基准测试难度不足的问题,具体研究问题如下:

  • 核心问题: 现有 LLM 基准测试(如 MMLU)已达到饱和状态,无法有效衡量 LLM 在人类知识前沿的能力。
  • 研究目标: 设计并构建一个更具挑战性的多模态基准测试 Humanity's LaSt EXAM (HLE),以准确评估 LLM 在广泛学科领域中的专家级知识和推理能力。

采用方法

该研究通过以下方法构建和评估 HLE 基准测试:

  • 数据集构建:
  • 问题收集: 收集了来自全球 50 多个国家、500 多个机构的近 1000 名学科专家贡献的 2700 道难题,涵盖数学、人文科学和自然科学等数十个学科。
  • 问题筛选: 采用多阶段审核流程,包括:
  • LLM 难度检查: 在提交前,使用前沿 LLM 测试每个问题的难度,如果 LLM 能够正确回答,则拒绝该问题。
  • 专家评审: 通过多轮专家评审(包括研究生水平的评审员和组织者/专家评审员),确保问题质量和符合提交标准。
  • 公开评审: 计划在发布后进行公开评审,欢迎社区反馈以纠正数据集中的任何问题。
  • 问题设计原则: 问题具有明确的解决方案,无法通过简单的互联网检索快速回答,强调原创性、精确性和非歧义性。
  • 模型评估:
  • 评估设置: 使用标准化的系统提示,引导 LLM 提供推理过程和最终答案。
  • 评估指标: 评估 LLM 在 HLE 上的准确率和校准误差 (Calibration Error)。
  • 模型选择: 评估了多个前沿 LLM,包括 GPT-40, Grok 2, Claude 3.5 Sonnet, Gemini 1.5 Pro, Gemini 2.0 Flash Thinking, oI, DeepSeek-RI, O3-MINI (MEDIUM), O3-MINI (HIGH) 等。
  • 答案验证: 使用 GPT-40 作为裁判,验证模型预测的答案是否正确。

关键结果

该研究的主要发现和贡献如下:

  • HLE 基准测试的有效性: HLE 成功地构建了一个难度远高于现有基准测试的评估数据集,能够有效区分不同 LLM 的能力。
  • LLM 能力差距: 前沿 LLM 在 HLE 上的准确率极低(低于 10%),表明当前 LLM 的能力与人类专家水平的学术能力之间存在显著差距。
  • 模型校准问题: LLM 在 HLE 上表现出较差的校准,即模型经常以高置信度给出错误答案,而不是承认不确定性。
  • 资源公开: 公开发布 HLE 数据集(https://lastexam.ai),为研究人员和政策制定者提供了一个评估 LLM 能力的共同参考点。
  • 未来展望: 强调了 HLE 作为衡量 LLM 在封闭式学术问题上能力的基准的重要性,并指出未来模型需要提高准确率和计算效率。
    总而言之,该研究通过构建高难度的 HLE 基准测试,揭示了当前 LLM 在专家级知识和推理能力方面的局限性,为未来的 LLM 研究和评估提供了有价值的资源和方向。