AI 真会编程还是只会“背题” | Code Bench 专场直播带你洞悉代码能力的真实象限

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: AI 编程助手已成为开发者不可或缺的伙伴,但一个核心问题也随之而来:我们该如何衡量它们真正的代码实力?现有 Benchmark(基准测试)正面临严峻挑战——数据污染、测试用例不足等问题频出,导致模型排

AI 编程助手已成为开发者不可或缺的伙伴,但一个核心问题也随之而来:我们该如何衡量它们真正的代码实力?现有 Benchmark(基准测试)正面临严峻挑战——数据污染、测试用例不足等问题频出,导致模型排行榜可能只是“虚假繁荣”的幻象。

模型是真的“会”编程,还是仅仅“背”熟了考题?为了揭开真相,由 OpenMMLab、司南评测体系、Hugging Face、ModelScope、知乎、MlNLP 、模速空间和机智流等社区发起的 AI Insight Talk 特别策划了本周四 19:30——21:30 的 Code Bench 专场直播活动!

我们荣幸地邀请到了 HF Papers 的 4 位 Code Bench 论文作者,他们将直击行业痛点,分享前沿洞见,与你一同探索如何构建更强大、更公平的代码能力评测体系!

分享嘉宾及主题介绍

No.1

CPRet:模型是“背题”还是真懂算法?揭示相似问题下的性能“通胀”


邓晗

香港中文大学 MMLab 零年级博士生,本科毕业于清华大学信息与计算科学专业,同时为上海人工智能实验室实习生,主要研究方向为大语言模型在科学领域的应用。中学及本科期间积极参与编程竞赛(如 NOI、ICPC),并获得多项奖项。

简要概述

CPRet 针对编程竞赛基准中重复或高度相似问题日益增多的问题,构建了一个全新的检索式评测基准 CPRet。它不仅提供了高质量的训练数据和测试集,还开发了专用检索模型,并首次通过分析揭示了问题相似性会显著“夸大”模型通过率,为构建更公平的编程能力评测敲响了警钟。

论文地址

Compass Hub

https://hub.opencompass.org.cn/dataset-detail/CPRet

No.2

DyCodeEval:动态“换皮”编程题,破解数据污染下的模型“高分幻觉”


陈思敏

现为哥伦比亚大学计算机科学系博士后研究员,2024 年 8 月于德克萨斯大学达拉斯分校(UTD)获得博士学位。他的研究方向聚焦于软件工程与机器学习的交叉,致力于提升机器学习系统的可信性与效率 (SE4AI),并推动机器学习在实际软件工程场景中的应用落地 (AI4SE)。为实现这一目标,他提出了涵盖机器学习全流程的系统性解决方案,协同推进模型算法(ESEC/FSE 2020、ASE 2022、CVPR 2022、ESEC/FSE 2022、ACL 2023、FSE 2024(b)、Usenix Security 2025)、系统软件栈(ISSTA 2023、IJCAI 2022)与数据集(CVPR 2023、FSE 2024(a)、ICML 2025)的创新研究。基于这些研成果,他的博士论文荣获 2024 年度 David Daniel Thesis Award。

简要概述

DyCodeEval 是一套在数据污染背景下动态评测代码大模型推理能力的新型基准套件。该方法借鉴“蜕变测试”思想,利用多智能体自动生成与原题核心逻辑相同但描述迥异的变体问题。实验证明,DyCodeEval 能有效抵御数据污染带来的评估偏差,为模型真实能力的透明评估提供了可靠方案。

论文地址

Compass Hub

https://hub.opencompass.org.cn/dataset-detail/DyCodeEval

No.3

OSS-Bench:告别静态数据集!从真实开源项目中“活捉”高难度编程任务


蒋元丞

新加坡国立大学计算机学院的博士生,由梁振凯教授和 Roland Yap 教授共同指导,研究方向为系统安全。他与 Manuel Rigger 教授合作进行模糊测试研究。在攻读博士学位之前,他于新加坡国立大学获得硕士学位,并于复旦大学获得学士学位。

简要概述

OSS-Bench 一个能够从真实世界的开源软件中自动构建大规模、实时评测任务的基准生成器。该工作通过让 LLM 直接修改 PHP、SQLite 等复杂项目的核心函数,并利用编译、测试、内存安全三大自然指标进行评估,有效避免了静态数据集的过拟合问题,并深入揭示了 LLM 在底层代码安全方面的短板。

论文地址

https://oss-bench.github.io/

Compass Hub

https://hub.opencompass.org.cn/dataset-detail/OSS-Bench

No.4

UTBoost:修复“漏风”的 SWE-Bench,揪出 345 个“假通过”补丁


余博西

香港中文大学(深圳)数据科学学院的博士生,指导老师为贺品嘉教授,研究方向为 Coding Agent 和Automated Testing。他的研究方向致力于通过智能化测试来提高软件质量和软件自动化评估能力。

简要概述

UTBoost 旨在解决广泛使用的代码生成基准 SWE-Bench 测试用例不足的挑战。通过引入 LLM 驱动的测试用例生成器 UTGenerator,UTBoost 能够自动增强测试套件,从而识别出那些看似通过测试但并未真正解决问题的错误代码补丁,大幅提升了 Benchmark 的评估严谨性,并修正了 40.9% 的 SWE-Bench Lite 榜单和 24.4% 的 SWE-Bench Verified 榜单。

论文地址

Compass Hub

https://hub.opencompass.org.cn/dataset-detail/UTBoost

No.5

圆桌讨论环节

讨论主题:模型 Code 能力发展趋势

欢迎在公众号评论区留下您对本场 Code Bench 直播分享的疑问或期待,直播当天,主持人将精选问题与嘉宾深入互动,带来最前沿的洞见!

参与方式

观看直播

参与讨论

同时为了方便大家交流沟通,我们建立了相关的交流群,本期分享的大佬也在群里哦,可与大佬进行面对面沟通 ,扫码即可入群~


期待与您相约 7 月 3 日(周四)晚 19:30 的 AI Insight Talk:Hugging Face Papers Live Code Bench 专场,一起探索前沿科技,共享 AI 盛宴!

image.gif


目录
相关文章
|
1月前
|
人工智能 IDE Java
AI Coding实践:CodeFuse + prompt 从系分到代码
在蚂蚁国际信贷业务系统建设过程中,技术团队始终面临双重考验:一方面需应对日益加速的需求迭代周期,满足严苛的代码质量规范与金融安全合规要求;另一方面,跨地域研发团队的协同效率与代码标准统一性,在传统开发模式下逐渐显现瓶颈。为突破效率制约、提升交付质量,我们积极探索人工智能辅助代码生成技术(AI Coding)的应用实践。本文基于蚂蚁国际信贷技术团队近期的实际项目经验,梳理AI辅助开发在金融级系统快速迭代场景中的实施要点并分享阶段性实践心得。
339 25
AI Coding实践:CodeFuse + prompt 从系分到代码
|
1月前
|
人工智能 自然语言处理 安全
氛围编程陷阱:为什么AI生成代码正在制造大量"伪开发者"
AI兴起催生“氛围编程”——用自然语言生成代码,看似高效实则陷阱。它让人跳过编程基本功,沦为只会提示、不懂原理的“中间商”。真实案例显示,此类项目易崩溃、难维护,安全漏洞频出。AI是技能倍增器,非替代品;真正强大的开发者,永远是那些基础扎实、能独立解决问题的人。
190 11
氛围编程陷阱:为什么AI生成代码正在制造大量"伪开发者"
|
1月前
|
人工智能
Claude code AI 技能神器:Anthropic Skills!
Anthropic推出Claude AI技能神器Skills,将复杂任务打包成即插即用的“外挂”,让AI秒懂流程,告别重复提示。支持团队共享,提升效率数倍,三步搞定专业报告,堪称AI办公革命!
528 4
|
1月前
|
人工智能 机器人 测试技术
AI写的代码为何金玉其外败絮其中
本文分析AI编码看着好看其实很烂的现象、原因,探索行之有效的的解决方案。并从理论上延伸到如何更好的与AI协作的方式上。
70 3
|
2月前
|
人工智能 测试技术 开发工具
如何将 AI 代码采纳率从30%提升到80%?
AI编码采纳率低的根本原因在于人类期望其独立完成模糊需求,本文提出了解决之道,讲解如何通过结构化文档和任务拆解提高AI的基础可靠性。
923 24
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:ChatGPT Atlas、Claude Code、Haiku 4.5、Veo 3.1、nanochat、DeepSeek-OCR
AI Compass前沿速览:ChatGPT Atlas、Claude Code、Haiku 4.5、Veo 3.1、nanochat、DeepSeek-OCR
243 37
AI Compass前沿速览:ChatGPT Atlas、Claude Code、Haiku 4.5、Veo 3.1、nanochat、DeepSeek-OCR
|
1月前
|
存储 人工智能 JSON
揭秘 Claude Code:AI 编程入门、原理和实现,以及免费替代 iFlow CLI
本文面向对 AI Coding 感兴趣的朋友介绍 Claude Code。通过此次分享,可以让没有体验过的快速体验,体验过的稍微理解其原理,以便后续更好地使用。
759 18
揭秘 Claude Code:AI 编程入门、原理和实现,以及免费替代 iFlow CLI
|
1月前
|
人工智能 监控 Java
零代码改造 + 全链路追踪!Spring AI 最新可观测性详细解读
Spring AI Alibaba 通过集成 OpenTelemetry 实现可观测性,支持框架原生和无侵入探针两种方式。原生方案依赖 Micrometer 自动埋点,适用于快速接入;无侵入探针基于 LoongSuite 商业版,无需修改代码即可采集标准 OTLP 数据,解决了原生方案扩展性差、调用链易断链等问题。未来将开源无侵入探针方案,整合至 AgentScope Studio,并进一步增强多 Agent 场景下的观测能力。
1344 33
|
1月前
|
人工智能 安全 开发工具
C3仓库AI代码门禁通用实践:基于Qwen3-Coder+RAG的代码评审
本文介绍基于Qwen3-Coder、RAG与Iflow在C3级代码仓库落地LLM代码评审的实践,实现AI辅助人工评审。通过CI流水线自动触发,结合私域知识库与生产代码同仓管理,已成功拦截数十次高危缺陷,显著提升评审效率与质量,具备向各类代码门禁平台复用推广的价值。(239字)
356 24

热门文章

最新文章