【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: Multi-SWE-bench是首个覆盖Python外7种主流编程语言的代码修复基准,包含1632个真实GitHub问题样本,通过严格筛选与人工验证确保数据质量。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎯 "谁才是AI界的问题终结者?!字节开源7语言代码修复基准,1632个Bug等你来战"

大家好,我是蚝油菜花。当开发者还在为多语言项目的Bug修复焦头烂额时,这个来自字节跳动的基准正在重新定义「全栈调试」的标准!

你是否经历过这些崩溃时刻:

  • 💻 Java和Python混编项目报错,AI修复工具只会处理.py文件
  • 🐞 好不容易找到Rust内存泄漏的issue,却发现测试环境无法复现
  • 📊 想评估模型跨语言修复能力,却只能找到零散的单语言数据集...

今天要解剖的 Multi-SWE-bench ,正是破解这些痛点的「多语言调试罗盘」!这个由字节豆包团队开源的基准,用三大核心理念重塑代码修复评估:

  • 真·全栈覆盖:首次同时支持Java/TS/JS/Go/Rust/C/C++7大语言
  • 工业级样本:1632个GitHub真实issue,带完整Docker测试环境
  • 难度分级系统:从单行修改到多文件联调,精准定位模型短板

已有团队用它对比9个大模型在3种框架下的表现——你的代码修复工具,准备好迎接多语言挑战了吗?

🚀 快速阅读

Multi-SWE-bench是首个系统化评估多语言代码修复能力的基准数据集。

  1. 覆盖广度:支持7种主流编程语言,包含1632个经过严格验证的真实GitHub问题样本。
  2. 技术深度:采用五阶段数据构建流程,每个任务配备可复现的Docker环境与难度分级标签。

Multi-SWE-bench 是什么

Multi-SWE-bench-Leaderboard.png

文末附多语言完整榜单!

Multi-SWE-bench 是字节跳动豆包大模型团队开源的首个多语言代码修复基准。在SWE-bench基础上,首次覆盖Python之外的7种主流编程语言,包括Java、TypeScript、JavaScript、Go、Rust、C和C++,是真正面向"全栈工程"的评测基准。

数据集包含1632个真实修复任务,均来自GitHub issue,经过严格筛选与人工验证,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。引入任务难度分级机制,将问题划分为简单、中等和困难三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战。

Multi-SWE-bench 的主要功能

  • 多语言代码修复评估:作为业内首个多语言代码修复基准数据集,首次覆盖了除Python之外的7种主流编程语言,包括Java、TypeScript、JavaScript、Go、Rust、C和C++。
  • 任务难度分级:数据集引入了任务难度分级机制,将问题划分为简单(Easy)、中等(Medium)和困难(Hard)三类。
  • 真实数据支持:Multi-SWE-bench的1632个实例全部来源于真实的开源仓库(GitHub issue),经过统一的测试标准和专业开发者的审核筛选。

Multi-SWE-bench 的技术原理

  • 数据来源与质量控制:数据集中的1632个实例全部来源于真实的开源仓库(GitHub issue),经过统一的测试标准和专业开发者的审核筛选。
  • 强化学习支持:为了支持强化学习(RL)在代码修复任务中的应用,团队开源了Multi-SWE-RL。该社区提供了4723个结构化的训练样本,每个样本均配备可复现的Docker环境。

如何运行 Multi-SWE-bench

1. 准备评估环境

需要准备以下文件:

  • Patch文件:JSONL格式的补丁文件
  • 数据集文件:HuggingFace提供的JSONL格式数据集文件
  • (可选)Docker镜像:可通过脚本下载或构建

2. 运行评估命令

python -m multi_swe_bench.harness.run_evaluation --config /path/to/your/config.json

3. 配置文件示例

{
   
    "mode": "evaluation",
    "workdir": "./data/workdir",
    "patch_files": ["./data/patches/<your_patch_file>.jsonl"],
    "dataset_files": ["./data/patches/<to_evaluate_dataset_file>.jsonl"],
    "output_dir": "./data/dataset",
    "log_dir": "./data/logs"
}

Multi-SWE-bench 完整榜单 - 20250329

综合成绩

Multi-SWE-bench-Leaderboard.png

Python

Multi-SWE-bench-Leaderboard-Python.png

Java

Multi-SWE-bench-Leaderboard-Java.png

TypeScript

Multi-SWE-bench-Leaderboard-TS.png

JavaScript

Multi-SWE-bench-Leaderboard-JS.png

Go

Multi-SWE-bench-Leaderboard-Go.png

Rust

Multi-SWE-bench-Leaderboard-Rust.png

C

Multi-SWE-bench-Leaderboard-C.png

C++

Multi-SWE-bench-Leaderboard-C__.png

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
347 121
|
1月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
267 114
|
1月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
258 120
|
1月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
245 117
|
1月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
3114 43
|
1月前
|
人工智能 API 开发工具
构建AI智能体:一、初识AI大模型与API调用
本文介绍大模型基础知识及API调用方法,涵盖阿里云百炼平台密钥申请、DashScope SDK使用、Python调用示例(如文本情感分析、图像文字识别),助力开发者快速上手大模型应用开发。
987 16
构建AI智能体:一、初识AI大模型与API调用
|
1月前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
243 5
我们开源了一款 AI 驱动的用户社区

热门文章

最新文章