SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

# SWE-bench: Can Language Models Resolve Real-World GitHub Issues? SWE-bench：语言模型能否解决真实的GitHub问题？ arXiv: https://arxiv.org/abs/2310.06770 ## AI 解析 ## SWE-bench: Can Language Models Resolve Real-World GitHub Issues? ### 📝 研究概要该研究提出了 SWE-bench，一个基于真实 GitHub 问题的软件工程基准测试，用于评估语言模型在解决实际编程问题上的能力，结果表明现有模型表现远低于预期。 ### ⭐ 研究亮点 * **真实性：** 基于真实 GitHub 问题和 Pull Request，更贴近实际软件开发场景。 * **挑战性：** 需要理解跨多个文件和函数的复杂代码交互，远超传统代码生成任务。 * **可扩展性：** 可以持续更新新的问题实例，保持基准测试的有效性。 ## 深度解析 ### 📚 研究背景 * **理论意义：** 现有代码生成基准测试已饱和，无法有效评估语言模型的最新能力。 * **现实意义：** 语言模型在商业产品中快速部署，需要更具挑战性的基准来指导其发展。 * **研究目标：** 构建一个能够反映真实软件工程场景，并能有效评估语言模型解决实际编程问题能力的基准测试。 ### 🔬 研究方法 * **研究设计：** 构建包含 2294 个来自 12 个 Python 仓库的 GitHub 问题和对应 Pull Request 的 SWE-bench 基准测试。 * **数据来源：** 从 GitHub 收集开源 Python 仓库的 Pull Request，并进行多阶段过滤，筛选出高质量的问题实例。 * **分析方法：** 使用 BM25 检索器，评估 ChatGPT-3.5、GPT-4、Claude 2 和 SWE-Llama 等模型在 SWE-bench 上的性能，并分析模型在不同设置下的表现。 ### 📊 研究发现 #### 实证结果 * **发现一：** 现有语言模型在 SWE-bench 上的表现普遍较差，即使是表现最好的 Claude 2 也仅能解决 1.96% 的问题。 * **发现二：** 模型性能受上下文长度影响，过长的上下文会导致性能下降。 * **发现三：** 模型在不同仓库上的表现存在差异，解决的问题不一定重叠。 #### 理论贡献 * **贡献点一：** 提出了 SWE-bench 基准测试，为评估语言模型在真实软件工程场景下的能力提供了一个新的平台。 * **贡献点二：** 发布了 SWE-bench-train 训练数据集，促进了开源模型在该领域的进一步发展。 #### 实践启示 * **启示一：** 现有语言模型在解决实际软件工程问题方面仍有很大提升空间。 * **启示二：** 需要进一步研究如何提高模型对长上下文的理解和处理能力，以及如何更好地利用代码库中的信息。 ### 🔍 研究局限 * **局限一：** SWE-bench 目前仅包含 Python 语言的问题，覆盖范围有限。 * **局限二：** 评估方法主要依赖于执行测试，无法全面评估代码质量，如可读性和效率。 * **未来研究方向：** 将 SWE-bench 扩展到更多编程语言和领域，探索更全面的评估方法，并研究如何将软件工程工具和实践融入到语言模型中。 ## 学术对话 ### 💡 理论延伸 * **与现有研究的关系：** 该研究是对现有代码生成基准测试的补充，旨在解决现有基准测试与实际软件工程场景脱节的问题。 * **理论框架的拓展：** 可以将 SWE-bench 作为评估语言模型在软件工程领域应用能力的平台，并结合其他软件工程理论和方法，进一步研究如何提高语言模型在软件开发过程中的效率和质量。 * **新的研究方向：** 基于 SWE-bench，可以研究如何利用语言模型自动生成测试用例、进行代码审查、修复 Bug 等。 ### ❓ 核心问答 #### Q1: SWE-bench 相比于 HumanEval 等现有代码生成基准测试，有哪些优势？ SWE-bench 的优势在于其真实性、挑战性和可扩展性。它基于真实 GitHub 问题和 Pull Request，更贴近实际软件开发场景；需要理解跨多个文件和函数的复杂代码交互，远超传统代码生成任务；可以持续更新新的问题实例，保持基准测试的有效性。而 HumanEval 等现有基准测试主要关注代码生成能力，问题相对简单，与实际软件工程场景存在脱节。 #### Q2: 为什么现有语言模型在 SWE-bench 上的表现普遍较差？现有语言模型在 SWE-bench 上的表现较差，主要原因在于 SWE-bench 的问题需要理解复杂的代码交互、处理长上下文、进行复杂推理，这些都是现有语言模型的弱点。此外，现有模型可能缺乏对特定代码库的深入理解，难以生成高质量的解决方案。 #### Q3: 如何提高语言模型在 SWE-bench 上的性能？可以通过以下几个方面来提高语言模型在 SWE-bench 上的性能： * **提高模型对长上下文的理解和处理能力：** 可以采用更有效的上下文编码方法，或者利用检索技术来减少需要处理的上下文长度。 * **增强模型对代码库的理解：** 可以通过预训练或微调的方式，让模型学习特定代码库的结构和语义信息。 * **融入软件工程工具和实践：** 可以将代码分析、测试等工具融入到模型中，提高模型生成代码的质量和可靠性。 * **探索新的模型架构和训练方法：** 可以尝试使用更适合处理代码的 Transformer 变体，或者采用强化学习等方法来训练模型。 ## 📌 总结评价 SWE-bench 是一个有价值的基准测试，它为评估语言模型在真实软件工程场景下的能力提供了一个新的平台。该研究结果表明，现有语言模型在解决实际编程问题方面仍有很大提升空间，需要进一步研究如何提高模型对长上下文的理解和处理能力，以及如何更好地利用代码库中的信息。SWE-bench 的提出和 SWE-bench-train 数据集的发布，将促进开源模型在该领域的进一步发展。 ## 摘要三问 ### 研究问题本研究旨在评估当前语言模型（LMs）在解决真实世界软件工程问题上的能力，并为此提出了一个新的基准测试框架 SWE-bench。核心研究问题包括： * 当前最先进的语言模型在多大程度上能够解决从真实 GitHub issues 中提取的软件工程问题？ * SWE-bench 作为一个评估框架，如何更有效地反映语言模型在实际软件开发中的应用潜力，并推动其未来发展？ ### 采用方法研究者通过以下方法构建和评估 SWE-bench： * **基准测试构建：** 从 GitHub 上 12 个流行的 Python 仓库中收集了 2294 个软件工程问题，这些问题对应于已解决的 issues 和 pull requests。构建了一个三阶段的 pipeline，包括仓库选择和数据抓取、基于属性的过滤、以及基于执行的过滤，以确保任务实例的质量。 * **任务形式化：** 将问题描述和完整的代码库作为模型的输入，要求模型生成一个补丁（patch）来解决问题。通过执行与任务实例相关的单元测试和系统测试来评估提出的解决方案。 * **模型评估：** 在 SWE-bench 上评估了多个最先进的语言模型，包括 Claude 2, ChatGPT-3.5, GPT-4 以及作者自己微调的 SWE-Llama 模型。使用了 BM25 检索器来选择相关的上下文，并与 "oracle" 检索设置进行比较。 ### 关键结果研究的主要发现和贡献包括： * 现有语言模型在 SWE-bench 上的表现不佳，即使是性能最佳的 Claude 2 也仅能解决 1.96% 的问题，表明当前语言模型在解决复杂、真实的软件工程问题方面仍存在很大差距。 * 发布了 SWE-bench 基准测试框架，以及一个包含 19,000 个非测试任务实例的训练数据集 SWE-bench-train，用于促进该领域开放模型的发展。 * 通过在 CodeLlama 模型上进行微调，发布了 SWE-Llama 7b 和 13b 模型，并在某些设置下与 Claude 2 具有竞争力，能够处理超过 100,000 个 token 的上下文。 * 研究结果表明，模型在处理长上下文时会受到干扰，并且难以定位需要更新的问题代码。难度与上下文长度相关，但与 issue 解决日期无关。 * 定性分析表明，模型倾向于生成较短、较简单的编辑，并且在生成格式良好的补丁文件方面存在困难。希望这个分析对您有所帮助！