CodeFuse 开源一周年,焕新出发!

简介: CodeFuse 是蚂蚁集团推出的开源项目,旨在通过大型代码语言模型(Code LLMs)支持软件开发生命周期各阶段,包括设计、编码、测试、部署等。自2023年9月开源以来,CodeFuse 不断迭代,推出了一系列创新产品和技术,如 CodeFuse IDE、muAgent 2.0 框架及 CGE 和 Rodimus 模型。项目已在蚂蚁集团内部广泛应用,并在多个行业会议上展示分享。未来,CodeFuse 将继续深耕开源,推出更多创新产品,并加强社区互动与合作。欢迎访问 CodeFuse 官网和 GitHub 项目主页了解更多详情。

欢迎各位来到 CodeFuse!

CodeFuse 开源之初,就明确了使命:“开发用于支持整个软件开发生命周期的大型代码语言模型(Code LLMs)”,涵盖设计、需求、编码、测试、部署、运维等关键阶段。我们致力于打造创新的解决方案,让软件开发者们在研发的过程中如丝般顺滑。

2023 年可以称得上是大模型元年,在过去的这一年里,大模型领域飞速发展,新的大模型纷纷涌现,基于大模型的新产品也吸引着众人的眼球,未来,这个领域又会给大家带来多少惊喜?

蚂蚁也推出了自己的百灵代码大模型 CodeFuse,经历近半年内部打磨后,在 2023 年 9 月正式对外开源。下面就让我们来看一下,在过去的一年里,CodeFuse 在开源方面取得了哪些进展?

01让研发变得更简单


自大型模型技术问世以来,大模型已经落地到多个场景的过程中,代码自动生成,成为技术实现的必要环节。在这一趋势下,蚂蚁集团基于百灵大模型,推出了蚂蚁百灵研发助手,帮助开发者自动生成代码、注释代码、生成测试用例等,提高研发效率。

CodeFuse 在行业内获得广泛的认可。下面请跟随我们的脚步回顾下 CodeFuse 的开源历程。

幻灯片5.PNG

CodeFuse 源于蚂蚁自身的开发场景及代码库沉淀,基于海量高质量代码数据和代码领域特色词表,以及多任务微调技术 MFT,在一万多蚂蚁内部研发人员的日常编码、测试、运维等场景中经过反复验证与迭代。当前,CodeFuse 已从单环节智能化(如开发、测试和运维)演进到了企业级端到端的研发智能体的探索。

1、外滩首发

23 年 9 月,CodeFuse 面向技术社区首次开源开放必要的工具链 MFTCoder 训练框架和 MFTCoder 模型系列,帮助社区开发人员在此之上作研究、评价和二次开发和训练。

2、全程发力

10 月,发布了上下游多个模型和框架组件,包括LLM推理缓存框架 ModelCache、DevOps 和 Test 两个系列的模型。

3、刷新榜单

12 月到 24 年 1 月及紧随其后的月份里,多次刷新 HumanEval 榜单并完成 BigCode 对抗评测的登顶。

4、持续打磨

24 年 4 月发布了全新的 muAgent 多智能体框架、以及对 MFTCoder、ModelCache 进行多次版本迭代。

5、主页上线

为更好推广大模型技术的发展,6 月,构建并对外开放了 CodeFuse 开源主页 https://codefuse.ai,涵盖语义检索、上下文理解、大模型训练和微调、大模型推理加速等多项关键技术文档,同期开展 CodeFuse 公众号技术文章的更新,让用户能更好地了解 CodeFuse 背后的技术发展。

截至目前,CodeFuse 在蚂蚁各部门落地支持 40 多种编程语言,10 多个主流 IDE 平台。整体覆盖了 1 万多蚂蚁研发人员,通过 AI 生成代码占比达到 20%。CodeFuse  在蚂蚁数字科技的 SOFAStack 云原生应用智能商业产品线全面融合,涵盖设计、研发、测试、运维等领域,形成从领域建模到智能运维端到端 Copilot 产品解决方案,提升了企业级应用的交付效率和质量,加速行业数字化降本增效。

02丰富的开源内容


CodeFuse 的使命是开发并设计用于支持整个软件开发生命周期的大型代码语言模型(Code LLMs),当前内容涵盖模型域、框架域、数据域三大方向。截止目前,CodeFuse 已累计开源了 17 个代码仓库、4 个数据集、16 个大模型参数文件,总计关注/点赞数超过 6k、下载量超过 1.9M,外部 PR 累积 21 人参与。研发过程中的技术累积发表了 6 篇顶会顶刊论文(2 篇ACL,1 篇 KDD,1 篇 ICDE,1 篇 ICSE,1 篇 ICWS)。

image.png

23 年我们在研发生命周期各个环节多点开花,关于这一部分的内容我们在今年 2 月做过一次总结。

原文推荐CodeFuse 开源这半年

在开源一周年之际,我们焕新了开源思路,以研发智能体产品为中心,集成生命周期各个环节的智能体,持续发力,打磨和创新智能体框架、基座模型、以及数据和评测这 3 个基本点。

这里我们重点介绍焕新发布的内容。

产品域:CodeFuse IDE

一款基于蚂蚁自研大模型 CodeFuse 和自研 IDE 框架 OpenSumi 开发的 AI IDE,支持主流的编程语言,在开发过程中提供单行代码或整个函数的编写建议,此外还支持代码解释、单测生成、问题修复、智能终端等功能,提升开发质量和效率。CodeFuse IDE 也有开放的扩展能力,支持 VS Code 插件生态,除接入 CodeFuse 模型以外,也支持接入任意模型服务。

幻灯片10.PNG


框架域:muAgent 2.0

全新体验的 Agent 框架,基于 LLM+ EKG(Eventic Knowledge Graph 行业知识承载)驱动,协同 MultiAgent、FunctionCall、CodeInterpreter 等技术,通过画布式拖拽、轻文字编写,让大模型在人的经验指导下帮助你实现各类复杂 SOP 流程。兼容现有市面各类 Agent 框架,同时可实现复杂推理、在线协同、人工交互、知识即用四大核心差异技术功能。目前 muAgent 在蚂蚁集团内 DevOps 场景和创新场景均有产品落地。

幻灯片11.PNG


模型域:CGE & Rodimus

CodeFuse-CGE模型:通用代码相关向量搜索模型,在 CSN 和 AdvTest业界 SOTA,效果超越当前其他基于 encoder 或 encoder-decoder 的代码搜索模型,向量维度下降到 384 也不会牺牲太多性能,支持 7 种代码语言。

CodeFuse-Rodimus 模型:全新设计超强性能、低内存占用 SSM 端侧小模型,推理阶段更低的常量内存占用、训练阶段仅次二次方的计算复杂度,1B 尺寸超越同等大小 Mamba2 和 LLaMA2 。

幻灯片12.PNG


03精彩的社区活动

我们深知,开源不只是开放代码,还包括在社区的分享与交流。在开源内容上干货满满,社区活动定也不落下风,让我们看看都有哪些吧!!

23 年 8 月

在 AI+ 软件研发数字峰会上进行了专场分享《基于 AIGC 的测试生成》;

23 年 9 月

外滩大会上正式对外宣布 CodeFuse 开源;

image.png

23年 10 月

MLSummit 2023 上,对外分享 CodeFuse 的研发经验;

23 年 11 月初

云栖大会上进行 CodeFuse 专题演讲,正式对外开放;

23  年 11 月

与始智 AI 等联合举办了“代码大模型技术与应用发展”论坛;

23 年 12 月初

CCF 中国软件大会上,与参会者现场体验、互动交流;

image.png

23 年 12 月末

在全球软件开发者大会 QCon 上经验分享《基于 CodeFuse 的下一代研发探索》;

24 年 2 月

CodeFuse 成功支持了通义千问算法大赛,大会取得圆满成功;

24 年 3 月

在 2024 全球开发者大会技术讲坛,CodeFuse 面向公众介绍了蚂蚁代码大模型推理部署探索与实践;

24 年 4 月

QCon 2024 北京站分享了《MFTcoder:大模型多任务微调框架》;量子位第二届中国 AIGC 产业峰会分享了《代码生成革命:从 Copilot 到自动化研发智能体》;在 GOPS 2024 深圳站分享了《蚂蚁集团 OpsGPT 落地探索与技术开源》;

24 年 5 月

在 AiDD 2024 AI+ 研发数字峰会上海分会分享了《MFTcoder:大模型多任务微调框架》、《蚂蚁集团基于 CodeFuse 的智能研发探索》;QECon-深圳站分享了《蚂蚁集团基于 CodeFuse 的智能研发探索》;在 XCOPS 智能运维管理人年会广州站上分享了《蚂蚁集团 OpsGPT 落地探索与技术开源》;

5 月 7-11 日,CodeFuse 参加奥地利维也纳举办的顶会“ICLR”活动,面向公众详细介绍 CodeFuse 的 6 大产品及核心特色;

24 年 6 月

对外发布 CodeFuse 开源主页,https://codefuse-ai.github.io/;同时携  muAgent 和 ModelCache 参加 OSPP 开源之夏活动;

24 年 7 月

正式更换 CodeFuse 主页域名为 https://codefuse.ai

24 年 9 月

CodeFuse 携全新项目参加 9月外滩大会。

幻灯片9.PNG

04获得业界认可


今年,CodeFuse 还获得了多个奖项,感谢业界对我们的认可:

  1. 联想 AI PC 接入蚂蚁 CodeFuse 代码大模型,为企业客户提供智能研发服务;

  1. 深度参与国际清算银行(BIS)发布的“AI对宏观经济的影响”主题年度经济报告;

  1. AIIAAI4SE 工作组:《智能化软件工程技术和应用要求》 核心编写单位;

  1. AIIAAI4SE 工作组:代码大模型数据集共建单位;

  1. 参与 2024年 ITU 相关标准制定,该标准对代码大模型提出了全栈技术和管理要求。

未命名的设计 (2).png

05新的期待

2023 年以来,大模型在代码领域落地不断深入。经过一年多的开源实践,我们对相关的技术也有了更深层次的理解与认知。也看到了很多有趣的方向与落地实践。在未来,我们还将继续深耕开源:

  • 更多创新产品,如 CodeFuse AI IDE、全新体验支持 DynaSOP 的 Agent 框架 muAgent 2.0 - EKG、新版模型 Rodimus 和 CGE;
  • 更多的线下活动,会组织 CodeFuse 线下meetup,欢迎感兴趣的同行多多参与;
    也会积极参与国内和国际行业会议/论坛,分享 CodeFuse 的实践经验;
  • 更多的社区参与和互动,进行社区调研,让用户能够参与到项目中来;
    包括不限于发起社区一起捉虫、一起贡献新特性,推动相关体系的标准化,甚至组织相关比赛活动等。

幻灯片15.PNG


非常欢迎大家能够跟我们一起交流探索,一起来定义下一代基于大模型的全生命周期研发解决方案。欢迎大家参与到我们社区中,一起探讨、交流。

道阻且长,行则将至!一起向未来!

06联系我们

CodeFuse 相关模型、数据集陆续开源中,如果您喜欢我们的工作,欢迎试用、指正错误和贡献代码,也可以给我们的项目增加 Star 🌟,支持我们💪

开源官网:https://codefuse.ai

GitHub 项目主页:https://github.com/codefuse-ai

HuggingFace 项目主页:https://huggingface.co/codefuse-ai

魔搭社区主页:https://modelscope.cn/organization/codefuse-ai

如果您想更快地获取到最新信息,欢迎加入我们的企业微信群


目录
相关文章
|
5月前
|
人工智能 IDE Java
AI Coding实践:CodeFuse + prompt 从系分到代码
在蚂蚁国际信贷业务系统建设过程中,技术团队始终面临双重考验:一方面需应对日益加速的需求迭代周期,满足严苛的代码质量规范与金融安全合规要求;另一方面,跨地域研发团队的协同效率与代码标准统一性,在传统开发模式下逐渐显现瓶颈。为突破效率制约、提升交付质量,我们积极探索人工智能辅助代码生成技术(AI Coding)的应用实践。本文基于蚂蚁国际信贷技术团队近期的实际项目经验,梳理AI辅助开发在金融级系统快速迭代场景中的实施要点并分享阶段性实践心得。
1185 25
AI Coding实践:CodeFuse + prompt 从系分到代码
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
代码检索新王登基!CodeFuse开源C2LLM,用“注意力池化”刷新MTEB-Code榜单
CodeFuse Embedding 家族最新成员 C2LLM 登顶 MTEB-Code 代码检索榜单,用注意力池化打破平均池化与 EOS 的僵局。
179 0
代码检索新王登基!CodeFuse开源C2LLM,用“注意力池化”刷新MTEB-Code榜单
|
3月前
|
人工智能 API 调度
在 VSCode 中薅大模型羊毛?我用 Kilo Code + AI Ping 实现大模型智能编程
如今,借助开放的大模型调度平台,普通开发者也能灵活接入高性能大模型。 Kilo Code + 兼容 OpenAI 协议平台的组合,体现了技术民主化的趋势——让创新不再被使用门槛阻挡。
1699 0
|
人工智能 自然语言处理 IDE
CodeFuse IDE 0.7 版本发布,支持 Lint Error 智能改写
CodeFuse IDE 0.7 版本发布,支持 Lint Error 智能改写和 zsh 终端自然语言生成命令。它基于蚂蚁自研大模型和 OpenSumi 框架开发,提供代码编写建议、解释、单测生成等功能,提升开发效率。内置插件升级至 VS Code 1.88.1,未来将支持更多模型服务。下载地址:[GitHub](https://github.com/codefuse-ai/codefuse-ide/releases)。
559 4
|
运维 前端开发 算法
开源中国【专访】 | CodeFuse:让研发变得更简单
CodeFuse 是蚂蚁集团自研的代码生成大模型,旨在简化研发流程,提供智能建议和实时支持。它能自动生成代码、添加注释、生成测试用例并优化代码。通过创新的 Rodimus 架构,CodeFuse 实现了“小体量,大能量”,显著提升了资源利用效率。其特色功能“图生代码”可将设计图一键转换为代码,准确率超过90%,大幅提高前端开发效率。此外,CodeFuse 还引入了“Code Graph”概念,帮助 LLM 更好地理解仓库级代码结构,缩短任务处理时间。未来,CodeFuse 将致力于全生命周期的研发支持,涵盖需求分析、代码生成到运维监测,推动行业技术迭代与创新。
763 3
|
存储 算法 测试技术
CodeFuse-AAIS:改进低智能体框架助力高效程序修复
本文提出了一种基于低智能体框架的自适应自动化程序修复(APR)解决方案——AAIS。该方案结合了智能体的自适应性和低智能体的高效控制流,通过引入交互式缺陷定位和多模型辅助生成,显著提升了程序修复的准确性和多样性。实验结果表明,AAIS在SWE-Bench基准测试中表现出色,函数级定位准确率提升了46.94%-113.32%,Issue Solving任务上达到了35.67%的性能,展示了其在未来软件开发中的应用潜力。
394 0
CodeFuse-AAIS:改进低智能体框架助力高效程序修复
|
JSON Devops 决策智能
muAgent v2.2版本发布,支持ekg-sdk使用
CodeFuse-muAgent 是一款创新的 Agent 框架,将知识图谱(KG)直接升级为 Agent 编排引擎。它基于大语言模型(LLM)和事理图谱(EKG),结合多智能体、工具学习等技术,通过拖拽式画布和轻量级文本编辑,实现复杂 SOP 流程的自动化。支持复杂推理、在线协同、人工交互和即时知识应用。该框架已在蚂蚁集团多个 DevOps 场景中成功落地。
425 1
muAgent v2.2版本发布,支持ekg-sdk使用
|
人工智能 自然语言处理 IDE
CodeFuse IDE 0.6 版本发布,支持编辑器诊断问题 AI 修复
CodeFuse IDE 是基于蚂蚁自研大模型和 OpenSumi 框架的 AI 编程助手,支持多语言,提供代码建议、解释、测试生成等,增强开发效率。最新版增加 AI 修复和智能补全功能,开源并支持 VS Code 插件生态。[了解更多](https://github.com/codefuse-ai/codefuse-ide)
859 0
|
人工智能 Oracle Java
蚂蚁 CodeFuse 代码大模型技术解析:基于全仓库上下文的代码补全
CodeFuse 代码补全插件是 CodeFuse 系列产品中用户数量最多、留存率最大,调用AI能力最多的产品~欢迎大家体验试用https://github.com/codefuse-ai/RepoFuse
2610 7
蚂蚁 CodeFuse 代码大模型技术解析:基于全仓库上下文的代码补全

热门文章

最新文章