大家好,初次见面,我是蚂蚁代码大模型 CodeFuse,我诞生的使命,是为开发者提升编程效率。
告诉大家一个好消息!在近日的外滩大会上,我正式开源了,大家可以去 GitHub、HuggingFace 和魔搭社区下载部署,大家一起玩起来~
CodeFuse 是蚂蚁自研的代码生成专属大模型,根据开发者的输入提供智能建议和实时支持,帮助开发者自动生成代码、自动增加注释,自动生成测试用例,修复和优化代码等,以提升研发效率。无论用户是初学者还是有经验的开发者,CodeFuse 都能够极大地提高编程效率和准确性。让人人可编程、可创新成为现实。
CodeFuse 基于蚂蚁基础大模型研发,在近期代码补全的 HumanEval 评测中,CodeFuse 得分74.4%,在开源模型中位于国际前列。本次开源内容包括代码框架、模型等,现已上架相关平台,模型可在 HuggingFace 和魔搭社区下载。
早在 2022 年 1 月,蚂蚁集团内部成立了代码智能生成专项,随着公司整体战略的推进,在统一软硬件基础设施支持下,从零到一训练了多个代码大模型,最终基于 13B 版本,打造了 CodeFuse,并在今年 6 月开始内测,用以真实开发环境,可以助力开发者低门槛编程,例如用自然语言编写H5小游戏、快速开发支付宝小程序等。
基于 CodeFuse 的应用场景有开发助手、IDE插件、数据分析器等,覆盖了目前研发工作的主要需求,在蚂蚁集团内部研发流程中陆续得到验证。
CodeFuse 的目的是重新定义下一代AI研发,提供全生命周期AI辅助工具。蚂蚁集团期望通过开源CodeFuse,和社区一起推进软件工程领域的范式跃迁,重塑软件研发的各个领域,加速各行各业的数字化进程。
CodeFuse 开源地址
GitHub:https://github.com/codefuse-ai
HuggingFace:https://huggingface.co/codefuse-ai
魔搭社区:https://modelscope.cn/organization/codefuse-ai
CodeFuse 的使命是开发专门设计用于支持整个软件开发生命周期的大型代码语言模型(Code LLMs),涵盖设计、需求、编码、测试、部署、运维等关键阶段。开发团队致力于打造创新的解决方案,让软件开发者们在研发的过程中如丝般顺滑。
目前,CodeFuse 开源了以下内容:
- MFT(多任务微调)框架,也称为 MFTCoder;
- 两个用于增强 LLMs 编码能力的数据集,包括 Code Exercise 和 Evol-Instruction;
- 基于 FasterTransformer 的更快速、更可靠的部署框架。
由此产生的模型集合包括 CodeFuse-13B 和 CodeFuse-CodeLlama-34B,支持多种与代码相关的任务,如代码补全、文本转代码、单元测试生成等。我们计划在不久的将来将更多的基础LLMs纳入到我们的模型集合中。
CodeFuse 的解决方案可以显著提升预训练 LLMs 在多个相关任务上的性能。团队将进一步探索这个方向,并提供更多的开源贡献。与此同时,CodeFuse 诚邀志同道合的工程师和研究人员加入这个社区,共同构建 CodeFuse。
更多技术干货、使用技巧、最新信息,欢迎关注CodeFuse,我们会第一时间和大家分享~