# 大模型评测 [目前大语言模型的评测基准有哪些?](https://www.zhihu.com/question/601328258) ## OpenCompass [安装](https://opencompass.org.cn/doc) ```shell= # runner 根据partion划分为不同的tasks 执行python命令运行task # icl infer task 获取model执行infer ``` # 综述 [MLGroupJLU/LLM-eval-survey](https://github.com/MLGroupJLU/LLM-eval-survey) [A Survey on Evaluation of Large Language Models - 20230706](https://arxiv.org/abs/2307.03109) [大型语言模型评估综述](https://blog.csdn.net/c_cpp_csharp/article/details/131595335) [大型语言模型评估综述 - 翻译与解读](https://aitechtogether.com/python/157234.html) [microsoft/promptbench](https://github.com/microsoft/promptbench) [大模型评测相关研究](https://llm-eval.github.io/) [如何评测一个大语言模型? - 微软 - 20230720](https://www.msra.cn/zh-cn/news/features/evaluation-of-large-language-models) ## 评测意义 - 研究评测可以帮助我们更好地理解大模型的长处和短处 - 研究评测可以更好地为人与大模型的协同交互提供指导和帮助 - 研究评测可以更好地统筹和规划大模型未来的发展的演变、防范未知和可能的风险 ## 评测内容 What to evaluate 对海量的 LLMs 评测任务进行分类并总结评测结果 1. 自然语言处理:包括自然语言理解、推理、自然语言生成和多语言任务 2. 鲁棒性、伦理、偏见和真实性 3. 医学应用:包括医学问答、医学考试、医学教育和医学助手 4. 社会科学 5. 自然科学与工程:包括数学、通用科学和工程 6. 代理应用:将 LLMs 作为代理使用 7. 其他应用 ## 评测领域 Where to evaluate 对 LLMs 评测常用的数据集和基准进行了总结 1. 用基准(General benchmarks) 2. 具体基准(Specific benchmarks) ## 评测方法 How to evaluate 总结了目前流行的两种 LLMs 评测方法 1. 自动评测:基于计算机算法和自动生成的指标,能够快速且高效地评测模型的性能 2. 工评测则:侧重于人类专家的主观判断和质量评测,能够提供更深入、细致的分析和意见 ## 评测总结 LLMs 能够在哪些方面表现出色: 1. LLMs 在生成文本方面展现出熟练度,能够产生流畅且准确的语言表达。 2. LLMs 在语言理解方面表现出色,能够进行情感分析和文本分类等任务。 3. LLMs 具备强大的语境理解能力,能够生成与输入一致的连贯回答。 4. LLMs 在多个自然语言处理任务中表现出令人称赞的性能,包括机器翻译、文本生成和问答任务。 LLMs 在什么情况下可能会失败: 1. LLMs 在生成过程中可能会表现出偏差和不准确性,导致产生有偏差的输出。 2. LLMs 在理解复杂的逻辑和推理任务方面能力有限,在复杂的环境中经常出现混乱或错误。 3. LLMs 在处理大量数据集和长期记忆方面面临限制,这可能会在处理冗长的文本和涉及长期依赖的任务方面带来挑战。 4. LLMs 在整合实时或动态信息方面存在局限性,使得它们不太适合需要最新知识或快速适应变化环境的任务。 5. LLMs 对提示非常敏感,尤其是敌对提示 ,这些提示会触发新的评测和算法,提高其鲁棒性。 6. 在文本摘要领域,可以观察到 LLMs 可能在特定的评测指标上表现出低于标准的性能,这可能归因于那些特定指标的内在限制或不足。 7. LLMs 在反事实任务中 的表现不令人满意。 ## 评测挑战 1. 设计 AGI 基准测试。什么是可靠、可信任、可计算的能正确衡量 AGI 任务的评测指标? 2. 设计 AGI 基准完成行为评测。除去标准任务之外,如何衡量 AGI 在其他任务,如机器人交互中的表现? 3. 稳健性评测。目前的大模型对输入的 prompt 非常不鲁棒,如何构建更好的鲁棒性评测准则? 4. 动态演化评测。大模型的能力在不断进化、也存在记忆训练数据的问题。如何设计更动态更进化式的评测方法? 5. 可信赖的评测。如何保证所设计的评测准则是可信任的? 6. 支持所有大模型任务的统一评测。大模型的评测并不是终点、如何将评测方案与大模型有关的下游任务进行融合? 7. 超越单纯的评测:大模型的增强。评测出大模型的优缺点之后,如何开发新的算法来增强其在某方面的表现? # 中文榜单 ## FlagEval [FlagEval](https://flageval.baai.ac.cn/#/home) 智源 白盒(数据集公开) 22 个评测数据集,84,433 道题目 选择题,文本分类,主观题 提交方法:需要安装flageval提供的工具(python库)来上传模型,而且自己写好预测代码,平台提供算力 ## OpenCompass [OpenCompass](https://opencompass.org.cn/leaderboard-llm) 上海AI实验室 白盒(代码数据均开源) 五大维度设计,提供 70+ 个数据集约 40 万题的的模型评测方案,全面评估模型能力 提交方法:模型仓库地址或标准的 API 接口,平台提供算力 ## Xiezhi(獬豸) [mikegu721/xiezhibenchmark](https://github.com/mikegu721/xiezhibenchmark) 复旦大学 白盒 516个具体学科,249587道题目 提交方法:自测 ## C-Eval [C-Eval](https://cevalbenchmark.com/static/leaderboard_zh.html) [hkust-nlp/ceval](https://github.com/hkust-nlp/ceval) 清华大学、上海交通大学和爱丁堡大学合作 灰盒(数据公开,答案未公开) 52个不同学科的13948个多项选择题 选择题 提交方法:自己预测答案,提交答案 C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别 ## CMMLU [haonan-li/CMMLU](https://github.com/haonan-li/CMMLU) MBZUAI、上海交通大学、微软亚洲研究院 白盒 67个学科,11582道选择题 CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。 ## MMCU [Felixgithub2017/MMCU](https://github.com/Felixgithub2017/MMCU) BESTEASY(甲骨易) 白盒 11个学科,11845道选择题 数据需要申请,申请了之后老给你打电话寻求商务合作 ## AGIEval 微软 白盒 8062 ## GaoKao 复旦大学 白盒 1781道客观题和1030道主观题
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up