2024 年 6 月 26 日,中国信息通信研究院(以下简称“中国信通院”)在可信 AI·南京人工智能产业发展论坛正式发布了代码大模型评估结果。
可信 AI 代码大模型评估结果证书颁发
阿里云计算有限公司的通义灵码代码大模型顺利通过评估,获得目前最高等级 4+ 级。该等级代表阿里云通义灵码大模型在通用能力及专用场景能力绝大多部分达到优秀水平,同时具备较为成熟的管理机制。
此次,我们邀请到了阿里云通义灵码产品技术负责人陈鑫先生进行采访,分享参与评估的细节及阿里云在代码大模型领域的实践经验。
阿里云计算有限公司
通义灵码产品技术负责人 陈鑫
Q:请介绍一下贵公司及此次参与评估的代码大模型。
A:本次阿里云参评大模型为通义灵码大模型。通义灵码大模型基于通义基础模型的底座能力,覆盖更全面的词表,支持更长的上下文 64K-128K,可跟随更优的系统指令,具备强大的代码补全和研发问答能力。代码补全能力用于行间续写任务,具有代码生成、长序列建模、代码修改、SQL 编写等能力;研发问答能力用于代码转换、代码优化、单测生成、智能问答等环节,以完成更复杂的代码任务。
Q:贵司的通义灵码代码大模型经过评估获得了综合评级 4+ 的好成绩,贵司因此成为了代码大模型首批 4+ 级的企业,也是当前评估体系中最高水平。请分享一下您此时的感受。
A:通义灵码自从去年 11 月正式发布以来,广受开发者群体的欢迎,目前插件市场下载量也超过了 350 万次,位居中国第一。同时大量企业客户与我们联系,期望在今年落地AI辅助编程项目,提升内部软件开发效率。这些用户的期望给了我们强大的动力去不断改进模型和产品能力。因此在过去,我们不断的进行模型升级,例如用于代码补全的 codeqwen1.5 模型(同等参数量级最优模型),以及用于研发问答的qwen2模型(全球最强开源模型)。同时也不断地推出新的产品能力,例如代码补全和研发问答检索增强、模型微调训练、企业专属安全架构等满足中大型企业代码安全和模型个性化诉求。这些举措都让我们的模型效果节节攀升,到目前核心语言的 AI 代码生成占比都超过了 30%,也就是使用通义灵码后,三成代码将由 AI 编写。
Q:贵司参与代码大模型评估的考虑是什么?您认为本次评估的最大收获是什么?
A:信通院代码大模型标准是国内权威的评估标准,能够参与建设标准并首批通过是通义灵码非常重要的产品里程碑。本次评估过程中能够感受到此标准的全面性、复杂性、高标准以及严谨性。评估用例达到了数千条,从通用能力,到专用场景能力,再到应用成熟度对代码大模型能力做了全面评估,难度大,要求高。评估过程就是对通义灵码做了全面体检,也让我们发现了非常多可以改进的空间,能够顺利通过感到非常的荣幸。
Q:请您详细介绍一下,当前阶段贵司的代码大模型都有哪些亮点以及核心优势?
A:通义灵码代码大模型是业界公认的具备全球领先能力的模型。例如用于代码补全的 codeqwen 模型,其拥有 GQA 架构,经过了超过 3T tokens 代码相关的数据进行预训练,共计支持上百种编程语言、且最长支持 64K 的上下文输入。效果方面,codeqwen 展现出了非凡的代码生成、长序列建模、代码修改、SQL 能力等。基于 codeqwen 模型构建的通义灵码产品,能够在代码生成方面拥有优异表现,成为了各大企业 AI 代码助手项目的首选产品。
Q:请您展开谈谈,贵司代码大模型有哪些典型应用?对企业的效能提升体现在哪些方面?
A:我们目前核心是基于代码大模型打造通义灵码智能编码助手,因为这是目前已经可以成熟落地的大模型场景之一。企业开始使用通义灵码后,就能够直接获得 10%-15% 的综合人效提升,见效快,性价比极高。另一方面我们也和企业探索代码大模型在 DevOps 全流程上的应用,期望能够从需求管理、测试生成、部署运维辅助等端到端实现智能化体验。最后我们也在探索 AI 程序员多智能体自主编程领域,并计划在未来合适时间推出相应产品,从而实现 AI 为主人为辅的新一代软件研发范式。
Q:关于代码大模型,贵司的下一步计划是什么?
A:通义灵码下一步将不断推出能力更强、上下文更宽、代码技能更多的大模型,从而在企业代码检索增强、项目级代码任务解决、代码和测试 Agent 等方面能力上突破,进一步满足企业对于复杂工程和复杂研发任务的提效诉求。
Q:对于代码大模型的发展前景和趋势,您怎么看?
A:我认为编码辅助是大模型应用的最大场景之一,随着模型能力不断提升,新产品不断出现,有望在未来 1-2 年内为软件研发过程带来颠覆性影响。AI 替代人类工程师完成基础事务性工作的趋势不可避免,我们需要从现在开始就拥抱这项技术,甚至参与到模型构建、场景挖掘、产品研发过程中,不断探索 AI 原生开发范式,思考未来基于代码大模型之上的软件研发流程如何重塑。