近日,全球知名人工智能公司Stability AI重磅发布了其新一代代码语言模型系列中的首款产品——Stable Code,并同步推出了针对指令交互优化的版本Stable Code Instruct 3B。这款新颖而高效的代码模型凭借其卓越的表现,在多项编程基准测试中展现出了不俗的实力,特别是在参数量较少的情况下,它与更大规模的70亿至150亿参数模型相媲美,甚至在流行的多编程语言(Multi-PL)基准测试中达到了当前最先进水平。
Stable Code系列作为通用型基础代码语言模型,旨在服务于多种软件工程相关的任务,包括但不限于代码补全、逻辑推理、数学运算以及其他基于编程的任务。同时,Stable Code Instruct版本则专为通过自然对话界面执行问答与指令驱动任务而设计,让用户能够以更加直观的方式与模型交流互动,极大地提升了用户体验与工作效率。
Stable Code项目背后的团队细致入微地介绍了用于训练这两个模型的数据集及其构建过程。值得一提的是,为了确保研究成果可复现及广泛使用,他们通过Hugging Face平台公开了这两个模型的权重,供全球研究者与开发者自由下载和应用。技术报告中详尽展示了对这两种模型的全面评估,涉及多语言编程基准测试以及特别关注多轮对话能力的MT基准测试。
报告显示,尽管Stable Code模型在参数量上仅为30亿级别,远小于诸如Code Llama等高达70亿参数或StarCoder 15B这样拥有150亿参数的大型模型,但在各主流编程语言上的表现却能与之比肩,尤其是在代码补全任务上展现出了极强的能力。而StarCoder v2这一基于更多数据训练的新款模型虽然总体性能略胜于Stable Code 3B,但这无疑凸显了Stable Code在相对较小参数规模下的高效率和优异性能。
对于Stable Code Instruct而言,其在经过指令调优后的表现同样出色。在多编程语言(Multi-PL)基准测试中,相比于其他同等级别参数量的指令调优模型,Stable Code Instruct 3B的成绩遥遥领先,显示出强大的代码理解和生成能力。此外,在更复杂的Fill in the Middle(FIM)代码补全任务以及聚焦多轮对话挑战的MT-Bench编码问题评测中,Stable Code Instruct也展现出顶尖水准。
考虑到实际应用环境中的速度和内存需求,Stability AI团队不仅提供了量化版本的Stable Code模型,还保证了它们与广泛应用的推理库如llama.cpp及Apple MLX的高度兼容性。通过对模型进行量化处理,用户可以在各种边缘设备上实现更高的吞吐率,同时减小存储空间占用和计算资源需求,这对于需要实时响应和低延迟操作的代码编辑工具尤为关键。