近几年来,AI 代码生成器十分流行,从 OpenAI 的 Codex 再到 DeepMind 的AlphaCode。然而,这两个 AI 模型全都没有开源:AlphaCode 只给出了一些测试样例,而 Codex 只开放了 API。
卡内基梅隆大学的研究人员表示:“尽管大型语言代码模型取得了巨大成功,但最强的模型都尚未公开。这阻止了这些模型在资源充足的公司之外的应用,并限制了资源匮乏的组织在这一领域的研究。”
因此,几个来自卡内基梅隆大学的研究人员推出了一个开源的自动代码生成器模型 PolyCoder,具有 27B 参数,基于 GPT-2 架构,在 12 种编程语言的 249GB 代码数据库中进行训练。
这 12 种编程语言分别是:C、C#、C++、Go、Java、JavaScript、PHP、Python、Ruby、Rust、Scala 和 TypeScript。
训练结果表明,PolyCoder 在编写 C 语言方面的表现优于包括 Codex 在内的所有已知模型。和其他开源模型比较,PolyCoder 在 C、JavaScript、Rust、Scala 和 TypeScript 方面的表现都比类似模型 GPT-Neo 2.7B 要好。但 Codex 在其他语言方面仍然要胜过 PolyCoder。