Humanity's Last Exam

人类的最后考验

AI 解析

该研究发布了一个名为 HLE (Humanity's LaSt EXAM) 的多模态基准测试，旨在评估大型语言模型 (LLM) 在人类知识前沿的学术能力，并发现现有 LLM 仍存在显著差距。

研究团队通过多阶段的审核流程来确保题目的原创性和不可搜索性。首先，每个题目都会经过 LLM 的测试，如果 LLM 能够正确回答，则会被拒绝。其次，题目会经过多轮人工审核，由领域专家评估其原创性和难度。此外，研究团队还鼓励作者修改题目参数，例如增加答案选项的数量，以减少 LLM 猜对答案的可能性。

HLE 的发布为 AI 研究人员提供了一个更具挑战性的基准测试，可以帮助他们更准确地评估 LLM 的能力，并推动 LLM 的发展。对于政策制定者来说，HLE 可以帮助他们更好地了解 LLM 的局限性，并制定更合理的 AI 治理政策。

HLE 的未来发展方向包括：扩大题目的范围，涵盖更多学科和领域；增加题目的类型，例如开放式问题和实际应用场景；开发更智能的评估方法，例如自动评估 LLM 的推理过程；以及建立一个开放的平台，鼓励社区参与题目的贡献和评估。

"Humanity's Last Exam" 是一项有价值的研究，它提出了一个更具挑战性的 LLM 基准测试，有助于推动 LLM 的能力评估研究。HLE 的发布为 AI 研究人员和政策制定者提供了一个重要的参考点，可以帮助他们更好地了解 LLM 的局限性，并推动 AI 的健康发展。

希望这个分析对您有所帮助！

该研究旨在解决现有大型语言模型 (LLM) 基准测试难度不足的问题，具体研究问题如下：

核心问题： 现有 LLM 基准测试（如 MMLU）已达到饱和状态，无法有效衡量 LLM 在人类知识前沿的能力。
研究目标： 设计并构建一个更具挑战性的多模态基准测试 Humanity's LaSt EXAM (HLE)，以准确评估 LLM 在广泛学科领域中的专家级知识和推理能力。

该研究通过以下方法构建和评估 HLE 基准测试：

数据集构建：
问题收集： 收集了来自全球 50 多个国家、500 多个机构的近 1000 名学科专家贡献的 2700 道难题，涵盖数学、人文科学和自然科学等数十个学科。
问题筛选： 采用多阶段审核流程，包括：
LLM 难度检查： 在提交前，使用前沿 LLM 测试每个问题的难度，如果 LLM 能够正确回答，则拒绝该问题。
专家评审： 通过多轮专家评审（包括研究生水平的评审员和组织者/专家评审员），确保问题质量和符合提交标准。
公开评审： 计划在发布后进行公开评审，欢迎社区反馈以纠正数据集中的任何问题。
问题设计原则： 问题具有明确的解决方案，无法通过简单的互联网检索快速回答，强调原创性、精确性和非歧义性。
模型评估：
评估设置： 使用标准化的系统提示，引导 LLM 提供推理过程和最终答案。
评估指标： 评估 LLM 在 HLE 上的准确率和校准误差 (Calibration Error)。
模型选择： 评估了多个前沿 LLM，包括 GPT-40, Grok 2, Claude 3.5 Sonnet, Gemini 1.5 Pro, Gemini 2.0 Flash Thinking, oI, DeepSeek-RI, O3-MINI (MEDIUM), O3-MINI (HIGH) 等。
答案验证： 使用 GPT-40 作为裁判，验证模型预测的答案是否正确。

该研究的主要发现和贡献如下：

HLE 基准测试的有效性： HLE 成功地构建了一个难度远高于现有基准测试的评估数据集，能够有效区分不同 LLM 的能力。
LLM 能力差距： 前沿 LLM 在 HLE 上的准确率极低（低于 10%），表明当前 LLM 的能力与人类专家水平的学术能力之间存在显著差距。
模型校准问题： LLM 在 HLE 上表现出较差的校准，即模型经常以高置信度给出错误答案，而不是承认不确定性。
资源公开： 公开发布 HLE 数据集（https://lastexam.ai），为研究人员和政策制定者提供了一个评估 LLM 能力的共同参考点。
未来展望： 强调了 HLE 作为衡量 LLM 在封闭式学术问题上能力的基准的重要性，并指出未来模型需要提高准确率和计算效率。
总而言之，该研究通过构建高难度的 HLE 基准测试，揭示了当前 LLM 在专家级知识和推理能力方面的局限性，为未来的 LLM 研究和评估提供了有价值的资源和方向。