欢迎各位来到 CodeFuse!
CodeFuse 开源之初,就明确了使命:“开发用于支持整个软件开发生命周期的大型代码语言模型(Code LLMs)”,涵盖设计、需求、编码、测试、部署、运维等关键阶段。我们致力于打造创新的解决方案,让软件开发者们在研发的过程中如丝般顺滑。
2023 年可以称得上是大模型元年,在过去的这一年里,大模型领域飞速发展,新的大模型纷纷涌现,基于大模型的新产品也吸引着众人的眼球,未来,这个领域又会给大家带来多少惊喜?
蚂蚁也推出了自己的百灵代码大模型 CodeFuse,经历近半年内部打磨后,在 2023 年 9 月正式对外开源。下面就让我们来看一下,在过去的一年里,CodeFuse 在开源方面取得了哪些进展?
01让研发变得更简单
自大型模型技术问世以来,大模型已经落地到多个场景的过程中,代码自动生成,成为技术实现的必要环节。在这一趋势下,蚂蚁集团基于百灵大模型,推出了蚂蚁百灵研发助手,帮助开发者自动生成代码、注释代码、生成测试用例等,提高研发效率。
CodeFuse 在行业内获得广泛的认可。下面请跟随我们的脚步回顾下 CodeFuse 的开源历程。
CodeFuse 源于蚂蚁自身的开发场景及代码库沉淀,基于海量高质量代码数据和代码领域特色词表,以及多任务微调技术 MFT,在一万多蚂蚁内部研发人员的日常编码、测试、运维等场景中经过反复验证与迭代。当前,CodeFuse 已从单环节智能化(如开发、测试和运维)演进到了企业级端到端的研发智能体的探索。
1、外滩首发
23 年 9 月,CodeFuse 面向技术社区首次开源开放必要的工具链 MFTCoder 训练框架和 MFTCoder 模型系列,帮助社区开发人员在此之上作研究、评价和二次开发和训练。
2、全程发力
10 月,发布了上下游多个模型和框架组件,包括LLM推理缓存框架 ModelCache、DevOps 和 Test 两个系列的模型。
3、刷新榜单
12 月到 24 年 1 月及紧随其后的月份里,多次刷新 HumanEval 榜单并完成 BigCode 对抗评测的登顶。
4、持续打磨
24 年 4 月发布了全新的 muAgent 多智能体框架、以及对 MFTCoder、ModelCache 进行多次版本迭代。
5、主页上线
为更好推广大模型技术的发展,6 月,构建并对外开放了 CodeFuse 开源主页 https://codefuse.ai,涵盖语义检索、上下文理解、大模型训练和微调、大模型推理加速等多项关键技术文档,同期开展 CodeFuse 公众号技术文章的更新,让用户能更好地了解 CodeFuse 背后的技术发展。
截至目前,CodeFuse 在蚂蚁各部门落地支持 40 多种编程语言,10 多个主流 IDE 平台。整体覆盖了 1 万多蚂蚁研发人员,通过 AI 生成代码占比达到 20%。CodeFuse 在蚂蚁数字科技的 SOFAStack 云原生应用智能商业产品线全面融合,涵盖设计、研发、测试、运维等领域,形成从领域建模到智能运维端到端 Copilot 产品解决方案,提升了企业级应用的交付效率和质量,加速行业数字化降本增效。
02丰富的开源内容
CodeFuse 的使命是开发并设计用于支持整个软件开发生命周期的大型代码语言模型(Code LLMs),当前内容涵盖模型域、框架域、数据域三大方向。截止目前,CodeFuse 已累计开源了 17 个代码仓库、4 个数据集、16 个大模型参数文件,总计关注/点赞数超过 6k、下载量超过 1.9M,外部 PR 累积 21 人参与。研发过程中的技术累积发表了 6 篇顶会顶刊论文(2 篇ACL,1 篇 KDD,1 篇 ICDE,1 篇 ICSE,1 篇 ICWS)。
23 年我们在研发生命周期各个环节多点开花,关于这一部分的内容我们在今年 2 月做过一次总结。
原文推荐:CodeFuse 开源这半年
在开源一周年之际,我们焕新了开源思路,以研发智能体产品为中心,集成生命周期各个环节的智能体,持续发力,打磨和创新智能体框架、基座模型、以及数据和评测这 3 个基本点。
这里我们重点介绍焕新发布的内容。
产品域:CodeFuse IDE
一款基于蚂蚁自研大模型 CodeFuse 和自研 IDE 框架 OpenSumi 开发的 AI IDE,支持主流的编程语言,在开发过程中提供单行代码或整个函数的编写建议,此外还支持代码解释、单测生成、问题修复、智能终端等功能,提升开发质量和效率。CodeFuse IDE 也有开放的扩展能力,支持 VS Code 插件生态,除接入 CodeFuse 模型以外,也支持接入任意模型服务。
框架域:muAgent 2.0
全新体验的 Agent 框架,基于 LLM+ EKG(Eventic Knowledge Graph 行业知识承载)驱动,协同 MultiAgent、FunctionCall、CodeInterpreter 等技术,通过画布式拖拽、轻文字编写,让大模型在人的经验指导下帮助你实现各类复杂 SOP 流程。兼容现有市面各类 Agent 框架,同时可实现复杂推理、在线协同、人工交互、知识即用四大核心差异技术功能。目前 muAgent 在蚂蚁集团内 DevOps 场景和创新场景均有产品落地。
模型域:CGE & Rodimus
CodeFuse-CGE模型:通用代码相关向量搜索模型,在 CSN 和 AdvTest业界 SOTA,效果超越当前其他基于 encoder 或 encoder-decoder 的代码搜索模型,向量维度下降到 384 也不会牺牲太多性能,支持 7 种代码语言。
CodeFuse-Rodimus 模型:全新设计超强性能、低内存占用 SSM 端侧小模型,推理阶段更低的常量内存占用、训练阶段仅次二次方的计算复杂度,1B 尺寸超越同等大小 Mamba2 和 LLaMA2 。
03精彩的社区活动
我们深知,开源不只是开放代码,还包括在社区的分享与交流。在开源内容上干货满满,社区活动定也不落下风,让我们看看都有哪些吧!!
23 年 8 月
在 AI+ 软件研发数字峰会上进行了专场分享《基于 AIGC 的测试生成》;
23 年 9 月
外滩大会上正式对外宣布 CodeFuse 开源;
23年 10 月
MLSummit 2023 上,对外分享 CodeFuse 的研发经验;
23 年 11 月初
云栖大会上进行 CodeFuse 专题演讲,正式对外开放;
23 年 11 月
与始智 AI 等联合举办了“代码大模型技术与应用发展”论坛;
23 年 12 月初
CCF 中国软件大会上,与参会者现场体验、互动交流;
23 年 12 月末
在全球软件开发者大会 QCon 上经验分享《基于 CodeFuse 的下一代研发探索》;
24 年 2 月
CodeFuse 成功支持了通义千问算法大赛,大会取得圆满成功;
24 年 3 月
在 2024 全球开发者大会技术讲坛,CodeFuse 面向公众介绍了蚂蚁代码大模型推理部署探索与实践;
24 年 4 月
QCon 2024 北京站分享了《MFTcoder:大模型多任务微调框架》;量子位第二届中国 AIGC 产业峰会分享了《代码生成革命:从 Copilot 到自动化研发智能体》;在 GOPS 2024 深圳站分享了《蚂蚁集团 OpsGPT 落地探索与技术开源》;
24 年 5 月
在 AiDD 2024 AI+ 研发数字峰会上海分会分享了《MFTcoder:大模型多任务微调框架》、《蚂蚁集团基于 CodeFuse 的智能研发探索》;QECon-深圳站分享了《蚂蚁集团基于 CodeFuse 的智能研发探索》;在 XCOPS 智能运维管理人年会广州站上分享了《蚂蚁集团 OpsGPT 落地探索与技术开源》;
5 月 7-11 日,CodeFuse 参加奥地利维也纳举办的顶会“ICLR”活动,面向公众详细介绍 CodeFuse 的 6 大产品及核心特色;
24 年 6 月
对外发布 CodeFuse 开源主页,https://codefuse-ai.github.io/;同时携 muAgent 和 ModelCache 参加 OSPP 开源之夏活动;
24 年 7 月
正式更换 CodeFuse 主页域名为 https://codefuse.ai;
24 年 9 月
CodeFuse 携全新项目参加 9月外滩大会。
04获得业界认可
今年,CodeFuse 还获得了多个奖项,感谢业界对我们的认可:
- 联想 AI PC 接入蚂蚁 CodeFuse 代码大模型,为企业客户提供智能研发服务;
- 深度参与国际清算银行(BIS)发布的“AI对宏观经济的影响”主题年度经济报告;
- AIIAAI4SE 工作组:《智能化软件工程技术和应用要求》 核心编写单位;
- AIIAAI4SE 工作组:代码大模型数据集共建单位;
- 参与 2024年 ITU 相关标准制定,该标准对代码大模型提出了全栈技术和管理要求。
05新的期待
2023 年以来,大模型在代码领域落地不断深入。经过一年多的开源实践,我们对相关的技术也有了更深层次的理解与认知。也看到了很多有趣的方向与落地实践。在未来,我们还将继续深耕开源:
- 更多创新产品,如 CodeFuse AI IDE、全新体验支持 DynaSOP 的 Agent 框架 muAgent 2.0 - EKG、新版模型 Rodimus 和 CGE;
- 更多的线下活动,会组织 CodeFuse 线下meetup,欢迎感兴趣的同行多多参与;
也会积极参与国内和国际行业会议/论坛,分享 CodeFuse 的实践经验; - 更多的社区参与和互动,进行社区调研,让用户能够参与到项目中来;
包括不限于发起社区一起捉虫、一起贡献新特性,推动相关体系的标准化,甚至组织相关比赛活动等。
非常欢迎大家能够跟我们一起交流探索,一起来定义下一代基于大模型的全生命周期研发解决方案。欢迎大家参与到我们社区中,一起探讨、交流。
道阻且长,行则将至!一起向未来!
06联系我们
CodeFuse 相关模型、数据集陆续开源中,如果您喜欢我们的工作,欢迎试用、指正错误和贡献代码,也可以给我们的项目增加 Star 🌟,支持我们💪
开源官网:https://codefuse.ai
GitHub 项目主页:https://github.com/codefuse-ai
HuggingFace 项目主页:https://huggingface.co/codefuse-ai
魔搭社区主页:https://modelscope.cn/organization/codefuse-ai
如果您想更快地获取到最新信息,欢迎加入我们的企业微信群