CodeFuse 开源一周年,焕新出发!

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: CodeFuse 是蚂蚁集团推出的开源项目,旨在通过大型代码语言模型(Code LLMs)支持软件开发生命周期各阶段,包括设计、编码、测试、部署等。自2023年9月开源以来,CodeFuse 不断迭代,推出了一系列创新产品和技术,如 CodeFuse IDE、muAgent 2.0 框架及 CGE 和 Rodimus 模型。项目已在蚂蚁集团内部广泛应用,并在多个行业会议上展示分享。未来,CodeFuse 将继续深耕开源,推出更多创新产品,并加强社区互动与合作。欢迎访问 CodeFuse 官网和 GitHub 项目主页了解更多详情。

欢迎各位来到 CodeFuse!

CodeFuse 开源之初,就明确了使命:“开发用于支持整个软件开发生命周期的大型代码语言模型(Code LLMs)”,涵盖设计、需求、编码、测试、部署、运维等关键阶段。我们致力于打造创新的解决方案,让软件开发者们在研发的过程中如丝般顺滑。

2023 年可以称得上是大模型元年,在过去的这一年里,大模型领域飞速发展,新的大模型纷纷涌现,基于大模型的新产品也吸引着众人的眼球,未来,这个领域又会给大家带来多少惊喜?

蚂蚁也推出了自己的百灵代码大模型 CodeFuse,经历近半年内部打磨后,在 2023 年 9 月正式对外开源。下面就让我们来看一下,在过去的一年里,CodeFuse 在开源方面取得了哪些进展?

01让研发变得更简单


自大型模型技术问世以来,大模型已经落地到多个场景的过程中,代码自动生成,成为技术实现的必要环节。在这一趋势下,蚂蚁集团基于百灵大模型,推出了蚂蚁百灵研发助手,帮助开发者自动生成代码、注释代码、生成测试用例等,提高研发效率。

CodeFuse 在行业内获得广泛的认可。下面请跟随我们的脚步回顾下 CodeFuse 的开源历程。

幻灯片5.PNG

CodeFuse 源于蚂蚁自身的开发场景及代码库沉淀,基于海量高质量代码数据和代码领域特色词表,以及多任务微调技术 MFT,在一万多蚂蚁内部研发人员的日常编码、测试、运维等场景中经过反复验证与迭代。当前,CodeFuse 已从单环节智能化(如开发、测试和运维)演进到了企业级端到端的研发智能体的探索。

1、外滩首发

23 年 9 月,CodeFuse 面向技术社区首次开源开放必要的工具链 MFTCoder 训练框架和 MFTCoder 模型系列,帮助社区开发人员在此之上作研究、评价和二次开发和训练。

2、全程发力

10 月,发布了上下游多个模型和框架组件,包括LLM推理缓存框架 ModelCache、DevOps 和 Test 两个系列的模型。

3、刷新榜单

12 月到 24 年 1 月及紧随其后的月份里,多次刷新 HumanEval 榜单并完成 BigCode 对抗评测的登顶。

4、持续打磨

24 年 4 月发布了全新的 muAgent 多智能体框架、以及对 MFTCoder、ModelCache 进行多次版本迭代。

5、主页上线

为更好推广大模型技术的发展,6 月,构建并对外开放了 CodeFuse 开源主页 https://codefuse.ai,涵盖语义检索、上下文理解、大模型训练和微调、大模型推理加速等多项关键技术文档,同期开展 CodeFuse 公众号技术文章的更新,让用户能更好地了解 CodeFuse 背后的技术发展。

截至目前,CodeFuse 在蚂蚁各部门落地支持 40 多种编程语言,10 多个主流 IDE 平台。整体覆盖了 1 万多蚂蚁研发人员,通过 AI 生成代码占比达到 20%。CodeFuse  在蚂蚁数字科技的 SOFAStack 云原生应用智能商业产品线全面融合,涵盖设计、研发、测试、运维等领域,形成从领域建模到智能运维端到端 Copilot 产品解决方案,提升了企业级应用的交付效率和质量,加速行业数字化降本增效。

02丰富的开源内容


CodeFuse 的使命是开发并设计用于支持整个软件开发生命周期的大型代码语言模型(Code LLMs),当前内容涵盖模型域、框架域、数据域三大方向。截止目前,CodeFuse 已累计开源了 17 个代码仓库、4 个数据集、16 个大模型参数文件,总计关注/点赞数超过 6k、下载量超过 1.9M,外部 PR 累积 21 人参与。研发过程中的技术累积发表了 6 篇顶会顶刊论文(2 篇ACL,1 篇 KDD,1 篇 ICDE,1 篇 ICSE,1 篇 ICWS)。

image.png

23 年我们在研发生命周期各个环节多点开花,关于这一部分的内容我们在今年 2 月做过一次总结。

原文推荐CodeFuse 开源这半年

在开源一周年之际,我们焕新了开源思路,以研发智能体产品为中心,集成生命周期各个环节的智能体,持续发力,打磨和创新智能体框架、基座模型、以及数据和评测这 3 个基本点。

这里我们重点介绍焕新发布的内容。

产品域:CodeFuse IDE

一款基于蚂蚁自研大模型 CodeFuse 和自研 IDE 框架 OpenSumi 开发的 AI IDE,支持主流的编程语言,在开发过程中提供单行代码或整个函数的编写建议,此外还支持代码解释、单测生成、问题修复、智能终端等功能,提升开发质量和效率。CodeFuse IDE 也有开放的扩展能力,支持 VS Code 插件生态,除接入 CodeFuse 模型以外,也支持接入任意模型服务。

幻灯片10.PNG


框架域:muAgent 2.0

全新体验的 Agent 框架,基于 LLM+ EKG(Eventic Knowledge Graph 行业知识承载)驱动,协同 MultiAgent、FunctionCall、CodeInterpreter 等技术,通过画布式拖拽、轻文字编写,让大模型在人的经验指导下帮助你实现各类复杂 SOP 流程。兼容现有市面各类 Agent 框架,同时可实现复杂推理、在线协同、人工交互、知识即用四大核心差异技术功能。目前 muAgent 在蚂蚁集团内 DevOps 场景和创新场景均有产品落地。

幻灯片11.PNG


模型域:CGE & Rodimus

CodeFuse-CGE模型:通用代码相关向量搜索模型,在 CSN 和 AdvTest业界 SOTA,效果超越当前其他基于 encoder 或 encoder-decoder 的代码搜索模型,向量维度下降到 384 也不会牺牲太多性能,支持 7 种代码语言。

CodeFuse-Rodimus 模型:全新设计超强性能、低内存占用 SSM 端侧小模型,推理阶段更低的常量内存占用、训练阶段仅次二次方的计算复杂度,1B 尺寸超越同等大小 Mamba2 和 LLaMA2 。

幻灯片12.PNG


03精彩的社区活动

我们深知,开源不只是开放代码,还包括在社区的分享与交流。在开源内容上干货满满,社区活动定也不落下风,让我们看看都有哪些吧!!

23 年 8 月

在 AI+ 软件研发数字峰会上进行了专场分享《基于 AIGC 的测试生成》;

23 年 9 月

外滩大会上正式对外宣布 CodeFuse 开源;

image.png

23年 10 月

MLSummit 2023 上,对外分享 CodeFuse 的研发经验;

23 年 11 月初

云栖大会上进行 CodeFuse 专题演讲,正式对外开放;

23  年 11 月

与始智 AI 等联合举办了“代码大模型技术与应用发展”论坛;

23 年 12 月初

CCF 中国软件大会上,与参会者现场体验、互动交流;

image.png

23 年 12 月末

在全球软件开发者大会 QCon 上经验分享《基于 CodeFuse 的下一代研发探索》;

24 年 2 月

CodeFuse 成功支持了通义千问算法大赛,大会取得圆满成功;

24 年 3 月

在 2024 全球开发者大会技术讲坛,CodeFuse 面向公众介绍了蚂蚁代码大模型推理部署探索与实践;

24 年 4 月

QCon 2024 北京站分享了《MFTcoder:大模型多任务微调框架》;量子位第二届中国 AIGC 产业峰会分享了《代码生成革命:从 Copilot 到自动化研发智能体》;在 GOPS 2024 深圳站分享了《蚂蚁集团 OpsGPT 落地探索与技术开源》;

24 年 5 月

在 AiDD 2024 AI+ 研发数字峰会上海分会分享了《MFTcoder:大模型多任务微调框架》、《蚂蚁集团基于 CodeFuse 的智能研发探索》;QECon-深圳站分享了《蚂蚁集团基于 CodeFuse 的智能研发探索》;在 XCOPS 智能运维管理人年会广州站上分享了《蚂蚁集团 OpsGPT 落地探索与技术开源》;

5 月 7-11 日,CodeFuse 参加奥地利维也纳举办的顶会“ICLR”活动,面向公众详细介绍 CodeFuse 的 6 大产品及核心特色;

24 年 6 月

对外发布 CodeFuse 开源主页,https://codefuse-ai.github.io/;同时携  muAgent 和 ModelCache 参加 OSPP 开源之夏活动;

24 年 7 月

正式更换 CodeFuse 主页域名为 https://codefuse.ai

24 年 9 月

CodeFuse 携全新项目参加 9月外滩大会。

幻灯片9.PNG

04获得业界认可


今年,CodeFuse 还获得了多个奖项,感谢业界对我们的认可:

  1. 联想 AI PC 接入蚂蚁 CodeFuse 代码大模型,为企业客户提供智能研发服务;

  1. 深度参与国际清算银行(BIS)发布的“AI对宏观经济的影响”主题年度经济报告;

  1. AIIAAI4SE 工作组:《智能化软件工程技术和应用要求》 核心编写单位;

  1. AIIAAI4SE 工作组:代码大模型数据集共建单位;

  1. 参与 2024年 ITU 相关标准制定,该标准对代码大模型提出了全栈技术和管理要求。

未命名的设计 (2).png

05新的期待

2023 年以来,大模型在代码领域落地不断深入。经过一年多的开源实践,我们对相关的技术也有了更深层次的理解与认知。也看到了很多有趣的方向与落地实践。在未来,我们还将继续深耕开源:

  • 更多创新产品,如 CodeFuse AI IDE、全新体验支持 DynaSOP 的 Agent 框架 muAgent 2.0 - EKG、新版模型 Rodimus 和 CGE;
  • 更多的线下活动,会组织 CodeFuse 线下meetup,欢迎感兴趣的同行多多参与;
    也会积极参与国内和国际行业会议/论坛,分享 CodeFuse 的实践经验;
  • 更多的社区参与和互动,进行社区调研,让用户能够参与到项目中来;
    包括不限于发起社区一起捉虫、一起贡献新特性,推动相关体系的标准化,甚至组织相关比赛活动等。

幻灯片15.PNG


非常欢迎大家能够跟我们一起交流探索,一起来定义下一代基于大模型的全生命周期研发解决方案。欢迎大家参与到我们社区中,一起探讨、交流。

道阻且长,行则将至!一起向未来!

06联系我们

CodeFuse 相关模型、数据集陆续开源中,如果您喜欢我们的工作,欢迎试用、指正错误和贡献代码,也可以给我们的项目增加 Star 🌟,支持我们💪

开源官网:https://codefuse.ai

GitHub 项目主页:https://github.com/codefuse-ai

HuggingFace 项目主页:https://huggingface.co/codefuse-ai

魔搭社区主页:https://modelscope.cn/organization/codefuse-ai

如果您想更快地获取到最新信息,欢迎加入我们的企业微信群


目录
相关文章
|
11月前
|
运维 前端开发 算法
开源中国【专访】 | CodeFuse:让研发变得更简单
CodeFuse 是蚂蚁集团自研的代码生成大模型,旨在简化研发流程,提供智能建议和实时支持。它能自动生成代码、添加注释、生成测试用例并优化代码。通过创新的 Rodimus 架构,CodeFuse 实现了“小体量,大能量”,显著提升了资源利用效率。其特色功能“图生代码”可将设计图一键转换为代码,准确率超过90%,大幅提高前端开发效率。此外,CodeFuse 还引入了“Code Graph”概念,帮助 LLM 更好地理解仓库级代码结构,缩短任务处理时间。未来,CodeFuse 将致力于全生命周期的研发支持,涵盖需求分析、代码生成到运维监测,推动行业技术迭代与创新。
516 3
|
人工智能 运维 开发者
CodeFuse 开源官网上线啦~
CodeFuse是一个致力于开发大型代码语言模型以支持软件全生命周期的项目,涵盖设计、编码、测试等阶段,旨在提供创新的解决方案,优化开发者体验。其开源官网提供项目背景、相关AI开发项目展示、详细文档及贡献指南。团队已推出多个代码模型和开源工具,并在相关领域有学术成果和行业奖项。感兴趣者可通过GitHub、HuggingFace和魔搭社区主页联系或关注。
981 0
CodeFuse 开源官网上线啦~
|
10月前
|
安全 数据挖掘 大数据
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论” |【瓴羊数据荟】数据MeetUp第三期
Dataphin的技术架构与实践路径,涵盖多引擎兼容、混合云架构、统一资产消费等方面,Dataphin通过持续升级,帮助企业实现全生命周期的数据资产管理,助力企业在大模型时代更好地“建好数据”、“用好数据”。
557 87
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论” |【瓴羊数据荟】数据MeetUp第三期
|
人工智能 Oracle Java
蚂蚁 CodeFuse 代码大模型技术解析:基于全仓库上下文的代码补全
CodeFuse 代码补全插件是 CodeFuse 系列产品中用户数量最多、留存率最大,调用AI能力最多的产品~欢迎大家体验试用https://github.com/codefuse-ai/RepoFuse
2156 7
蚂蚁 CodeFuse 代码大模型技术解析:基于全仓库上下文的代码补全
|
人工智能 自然语言处理 IDE
CodeFuse IDE 0.6 版本发布,支持编辑器诊断问题 AI 修复
CodeFuse IDE 是基于蚂蚁自研大模型和 OpenSumi 框架的 AI 编程助手,支持多语言,提供代码建议、解释、测试生成等,增强开发效率。最新版增加 AI 修复和智能补全功能,开源并支持 VS Code 插件生态。[了解更多](https://github.com/codefuse-ai/codefuse-ide)
603 0
|
10月前
|
JSON Devops 决策智能
muAgent v2.2版本发布,支持ekg-sdk使用
CodeFuse-muAgent 是一款创新的 Agent 框架,将知识图谱(KG)直接升级为 Agent 编排引擎。它基于大语言模型(LLM)和事理图谱(EKG),结合多智能体、工具学习等技术,通过拖拽式画布和轻量级文本编辑,实现复杂 SOP 流程的自动化。支持复杂推理、在线协同、人工交互和即时知识应用。该框架已在蚂蚁集团多个 DevOps 场景中成功落地。
322 1
muAgent v2.2版本发布,支持ekg-sdk使用
|
10月前
|
存储 人工智能 算法
解锁分布式文件分享的 Java 一致性哈希算法密码
在数字化时代,文件分享成为信息传播与协同办公的关键环节。本文深入探讨基于Java的一致性哈希算法,该算法通过引入虚拟节点和环形哈希空间,解决了传统哈希算法在分布式存储中的“哈希雪崩”问题,确保文件分配稳定高效。文章还展示了Java实现代码,并展望了其在未来文件分享技术中的应用前景,如结合AI优化节点布局和区块链增强数据安全。
|
存储 API
vue3中如何动态自定义创建组件并挂载
vue3中如何动态自定义创建组件并挂载
1092 90
|
人工智能 运维 自然语言处理
对话蚂蚁开源蒋炜:让 Agent 把运维人员从 24 小时的待命中解放出来
当整个行业的智慧都集中在一件事情上时,比起闭门造车,开源一定能带来更好的技术迭代和发展。CodeFuse 「编码挑战季」活动火热进行中,诚邀广大开发者们参与编码挑战
572 3
对话蚂蚁开源蒋炜:让 Agent 把运维人员从 24 小时的待命中解放出来
|
11月前
|
缓存 人工智能 程序员
CodeFuse「编码挑战季」:冲刺最后1个月!MelGeek磁轴键盘、Beats耳机等你来拿~
从1024程序员节起至12月底,CodeFuse「编码挑战季」火热进行中!参与muAgent、MFTCoder、ModelCache、CodeFuse-IDE四个项目的编码挑战,不仅能够深化对CodeFuse项目及开源社区的理解,还能赢取定制周边及高端奖品,如MelGeekMADE68 PRO磁轴键盘、Beats Studio Pro无线蓝牙耳机等。活动期间,开发者可根据任务难度获取积分,兑换丰富奖品。立即加入,让我们一起探索技术的无限可能!
195 11

热门文章

最新文章

下一篇
oss云网关配置