清华CodeGeeX项目原作解读:大规模多语言代码生成模型

简介: 清华CodeGeeX项目原作解读:大规模多语言代码生成模型

近年来,大规模预训练模型在各个领域取得飞速进步,不仅是文本、图像领域,用于代码领域也可以取得惊人的效果。OpenAI 的 Codex 模型首次展示了代码预训练模型的强大能力,并以此为基础开发了 Copilot 插件。然而,闭源、收费等特性使 Copilot 饱受研究者和程序员们的争议。

为了让更多研究者能参与到这一领域的探索、让广大程序员能够免费体验到自动代码生成带来的便利,清华大学知识工程实验室团队主导研发了 CodeGeeX,一个具有 130 亿参数的多编程语言代码生成预训练模型,采用华为 MindSpore 框架实现,在鹏城实验室 “鹏城云脑 II“平台上使用 1536 个昇腾 910 AI 处理器,在 20 多种语言的语料库上历时两个月训练得到。CodeGeeX 支持十多种主流编程语言的生成及翻译,在新的多语言基准 HumanEval-X 取得超过所有开源模型的效果。此外,团队和智谱 AI 合作,基于 CodeGeeX 开发了免费的 VS Code 插件,同时正在开发其他平台插件,帮助广大程序员提高开发效率。CodeGeeX 开源开放,所有代码和模型权重均已开源,并同时支持昇腾和英伟达平台。

机器之心最新一期线上分享邀请到了清华大学知识工程实验室研究助理郑勤锴,介绍 CodeGeeX 的技术原理、实现过程、评估指标,以及插件的使用教程等。


分享主题:CodeGeeX:大规模多语言代码生成模型

分享嘉宾:郑勤锴,清华大学知识工程实验室研究助理,本科及硕士毕业于上海交通大学,并取得巴黎高等电信学校工程师学位,研究领域是基于预训练模型的代码生成。

分享摘要:CodeGeeX 是一个具有 130 亿参数的多语言代码生成预训练模型,由清华大学知识工程实验室团队研发,支持十多种主流编程语言的生成及翻译,并开发了免费的 VS Code 插件,帮助广大程序员提高开发效率。本次报告将介绍 CodeGeeX 的技术原理、实现过程、评估指标,以及插件的使用教程等。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/codegeex

2)GitHub 链接:

https://github.com/THUDM/CodeGeeX

3)技术博客:

https://models.aminer.cn/codegeex/blog/index_zh.html

4)主页(含在线DEMO):

https://models.aminer.cn/codegeex/zh-CN/

5)免费的 VS Code 插件:

https://marketplace.visualstudio.com/items?itemName=aminer.codegeex

相关文章
|
设计模式 开发框架 前端开发
项目开发中,真的有必要定义VO,BO,PO,DO,DTO这些吗?
存在即是合理的,业务复杂,人员协同性要求高的场景下,这些规范性的东西不按着来虽然不会出错,程序照样跑,但是遵守规范会让程序更具扩展性和可读性,都是前辈血淋淋的宝贵经验,为什么不用?
|
安全 网络协议 API
Docker搭建Let's Encrypt并连接阿里云自动签发https证书
Docker搭建Let's Encrypt并连接阿里云自动签发https证书
Docker搭建Let's Encrypt并连接阿里云自动签发https证书
|
3月前
|
人工智能 运维 自然语言处理
最近一年Agent产品演进趋势及用户洞察
深度盘点 2025-2026 年 AI Agent 产品变革,揭示从“对话”向“行动”的范式转移。通过分析 Manus、Claude Cowork 及阿里千问等案例,阐述行业如何基于用户的“工具饥渴”与执行痛点,打造具备自主规划与桌面操作能力的智能体,重塑人机协作新形态。
455 7
|
5月前
|
存储 缓存 JSON
ESLint 全指南:从原理到实践,构建高质量的 JavaScript/TypeScript 代码
本文系统讲解ESLint的核心原理、配置详解与工程化实践,涵盖AST工作机制、TypeScript集成、Prettier协作、性能优化及CI/CD全流程集成,助你构建统一、健壮的前端代码质量体系。(238字)
326 1
|
5月前
|
人工智能 运维 自然语言处理
有哪些电信行业 Agent 案例?全场景标杆实践与数据解析
凌晨两点流量超支?5G基站突发故障?背后均有电信智能Agent在高效响应。从客服、运维到营销、政企服务,AI智能体正重构电信全业务链,实现降本30%、提效10倍、投诉下降72%。本文全景解析六大核心场景落地案例与技术路径,揭秘如何用实在Agent等产品推动电信智能化跃迁。
833 3
|
机器学习/深度学习 数据采集 算法
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
这篇博客文章介绍了如何使用包含多个网络和多种训练策略的框架来完成多目标分类任务,涵盖了从数据准备到训练、测试和部署的完整流程,并提供了相关代码和配置文件。
658 0
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
|
机器学习/深度学习 人工智能 搜索推荐
技术革新下的培训新趋势:案例解析
从最初的“试试看”,到如今的“非做不可”,企业培训已经成为央国企和上市公司不可或缺的战略环节。无论是AI与大模型的赋能,DeepSeek,还是具身智能、智算技术和数据科学的实战应用,这些课程都在为企业打开新的可能性。
|
缓存 文件存储 Windows
何恢复被卸载软件的数据记录
何恢复被卸载软件的数据记录
1505 5
|
数据采集 传感器
定时中断基本结构
【10月更文挑战第21天】定时中断是在微控制器或计算机系统中,按预设时间间隔自动触发中断请求的机制。它由定时器硬件模块(含计数器、时钟源、控制寄存器)、中断控制器(处理中断请求、设置优先级、中断屏蔽)和中断服务程序(保存现场、执行任务、恢复现场)组成,实现定时任务的精确执行。
510 0

热门文章

最新文章