国内首个全国产化千亿参数细粒度 MoE:开源!

简介: TeleChat3-105B-A4.7-Thinking,国内首个全国产化千亿参数细粒度MoE大模型,开源!代码、数学、Agent等多能力比肩头部,支持高效任务拆解与代码生成。

TeleChat3-105B-A4.7-Thinking,国内首个全国产化训练的千亿参数细粒度MoE语义大模型,开源!

代码:https://github.com/Tele-AI/TeleChat3

模型:https://www.modelscope.cn/models/TeleAI/TeleChat3-105B-A4.7B-Thinking

问答、写作、数学、代码、Agent......多维度比肩业内头部!

代码能力提升,复杂任务拿捏住了!

面对综合任务场景,TeleChat3-105B-A4.7-Thinking高效拆解任务需求,整合多项代码能力,一次性交付出完整可运行的代码。

省去大量人工调试时间投入,运行流畅,审美在线!

📎0b2e3yakiaaanyah4ss4lfuvbxwdutpabjaa.f10002.mp4

由 TeleChat3-105B-A4.7-Thinking 独立完成的射击类小游戏

📎0b2ezual6aaafaaglgk4xfuvbtodx7gqbpya.f10002.mp4

由TeleChat3-105B-A4.7-Thinking 设计的视频网站页面

细粒度MoE,术业有专攻,协同更高效!

此前,中国电信人工智能研究院(TeleAI)与中电信人工智能科技有限公司已陆续开源原创打造的 TeleChat、TeleChat2 及TeleChat2.5系列模型,以传统稠密参数架构为主,模型尺寸覆盖十亿到千亿,构建了全尺寸大模型开源布局。

上半年,星辰语义大模型的首个MoE架构模型TeleChat2-39B-A12B也正式开源,采用粗粒度MoE架构,初步实现知识模块化存储,按需唤醒相关专家模块。

为了进一步提升MoE 大模型的效率与性能,让参数利用更充分,在中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授的带领下,TeleAI科研团队以智传网(AI Flow)为理论基础,完成了TeleChat3-105B-A4.7-Thinking的全国产化训练。

该模型采用细粒度MoE架构,基础模型训练数据超15T,共包括1个共享专家和192个路由专家(每次激活4个专家),模型整体共105B参数量,实际激活参数为 4.7B,专家稀疏比处于业界前列。

面对不同的任务类型,更加细分的专家子模块实现了术业有专攻,模块之间也实现了更精准、更任务导向的协同。

打个比方,假如大模型是个理综考生,稠密参数大模型就是从一本“十年高考真题大全”合订本里找思路,知识庞杂,效率低下。粗粒度模型,则实现了初步的学科分类和调用,减少了无效的知识调用。细粒度MoE,则是更进一步,特定的题目只调用特定的细分知识点组合,见招拆招,精准调配。

此外,TeleAI还同步开源了稠密参数模型TeleChat3-36B-Thinking模型,在知识、逻辑推理、智能体等维度实现了能力提升,并实现了文本创作、语义理解、角色扮演等任务的针对性优化。


训练黑科技拉满,收敛稳、效率优

训练方式创新

TeleAI 科研团队采用细粒度的模型初始化方式和学习率控制,对不同权重采用不同的初始化方式和学习率,加快模型在训练初期的收敛速度,增强模型在训练中的稳定性。

基础模型训练通过两个阶段预训练和一个阶段中训练完成,总计训练 15T tokens。

预训练第一阶段以通识数据(网页、书籍、多语言数据等)为主,主要提升模型知识能力;第二阶段增大 STEM 和代码相关数据占比,提升模型推理相关能力。

中训练阶段以合成数据为主,包含仓库级代码任务、高质量数理逻辑数据以及智能体任务数据,持续提升模型逻辑推理和智能体相关能力。

后训练也包含两个阶段:

第一阶段模型冷启动微调,为取得更好的冷启动效果,针对微调数据难度和多样性做了大量筛选工作,大幅提升模型多任务理解及指令遵从能力。


第二阶段强化学习,采用基于规则校验奖励和 RM 打分模型融合的方式。针对数理、代码、指令遵循等采用规则校验;针对文本创作、语义理解、角色扮演等任务采用专项训练 RM 模型进行打分。


国产算力优化

基于中国电信上海临港国产万卡算力池,科研团队在MoE 模块中将 Tensor 并行域转换成专家并行域,从而将 MoE 的 “All to All” 通讯约束在节点内,提高通讯效率。

为了解决长序列训练时预训练文本拼接长度不一致带来的性能劣化,团队引入了micro 级别的动态拼接,缓解计算负载的不均衡,减少了计算波动。

对于复杂的并行策略调优,则采用了自动并行工具来加速搜索、优化并行方式,节约搜索和调优成本。

目前,TeleChat3-105B-A4.7-Thinking已经登陆 GitHub、ModelScope,欢迎开发者们前往体验!

https://github.com/Tele-AI/TeleChat3


开源地址:

https://github.com/Tele-AI/TeleChat3

模型链接:

https://www.modelscope.cn/models/TeleAI/TeleChat3-105B-A4.7B-Thinking


点击即可跳转模型链接~

https://modelscope.cn/models/TeleAI/TeleChat3-105B-A4.7B-Thinking

目录
相关文章
|
2月前
|
编解码 物联网 测试技术
FLUX.2-Klein 4B/9B开源:亚秒级统一图像生成与编辑
Black Forest Labs开源FLUX.2 [klein]模型家族,兼具文生图、图像编辑与多参考生成能力,端到端推理低至0.5秒,4B版本仅需13GB显存,支持消费级GPU高效运行,量化后速度提升最高2.7倍,Apache 2.0许可商用友好。
1464 1
|
2月前
|
机器学习/深度学习 安全 测试技术
美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!
美团LongCat团队发布并开源LongCat-Flash-Thinking-2601,升级支持“重思考模式”,在智能体搜索、工具调用等任务中达开源SOTA。具备强泛化与抗噪能力,支持在线免费体验,助力开发者高效落地复杂应用场景。
302 1
美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!
|
2月前
|
API 语音技术
阶跃星辰原生语音推理模型登顶全球权威语音模型榜!开源!
阶跃星辰开源语音推理模型Step-Audio-R1.1登顶全球权威榜单,以96.4%准确率超越Grok、Gemini等,支持“边说边思考”,实现高智能实时交互,现已开放体验。
227 1
 阶跃星辰原生语音推理模型登顶全球权威语音模型榜!开源!
|
2月前
|
机器学习/深度学习 文字识别 测试技术
10B击败200B!阶跃星辰10B视觉语言SOTA模型开源
阶跃星辰发布开源多模态小模型Step3-VL-10B,仅10B参数却媲美百亿级大模型,在视觉感知、逻辑推理、数学竞赛等任务中达同规模SOTA,支持端侧部署,推动智能终端交互革新。
263 6
|
2月前
|
测试技术 API
小而强,GLM-4.7-Flash开源
GLM-4.7-Flash正式开源,30B总参、3B激活参数,兼顾性能与效率,支持免费调用。在编程、中文写作、翻译等多场景表现优异,已上线智谱平台,替代GLM-4.5-Flash,提供全新轻量化部署选择。
1181 1
|
2月前
|
自然语言处理 物联网 计算机视觉
从 Image-to-LoRA 到 In-Context Edit
阿里发布Qwen-Image-Edit-2511-ICEdit-LoRA模型,通过上下文内编辑技术,利用“编辑前后图像对”实现图像编辑能力迁移。该模型仅需少量样本即可训练,支持风格、光照、表情等复杂编辑,并可拓展至图像分割等视觉任务,未来将持续优化与应用探索。
436 6
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AgentCPM-Explore开源,4B 参数突破端侧智能体模型性能壁垒
清华、人大、面壁智能与OpenBMB联合推出4B参数智能体模型AgentCPM-Explore,在8大长程任务上实现同尺寸SOTA,性能比肩30B+大模型。支持百轮稳定交互、全流程开源,重塑端侧AI潜能。
355 7
AgentCPM-Explore开源,4B 参数突破端侧智能体模型性能壁垒
|
2月前
|
人工智能 机器人 程序员
去年我用一张Excel表"规划"学习,结果把自己逼进了ICU——直到我学会让AI帮我排兵布阵
本文以作者因"完美计划表"累倒入院的亲身经历切入,分享了一套让AI担任私人学习规划师的完整指令模板。通过"目标拆解""遗忘曲线复习""弹性时间"三大机制,解决目标模糊、复习逃避、计划崩溃等常见学习痛点,并提供上班族、学生、转行者三种典型场景的实战案例。
366 18
|
2月前
|
JSON 人工智能 API
从对话到Agent:大模型工具调用能力的量化评测
大模型向Agent进化,工具调用是关键。本文介绍EvalScope评测框架,通过双重验证机制,量化评估模型“会不会用、能不能用好”工具,助力开发者打造可靠AI应用。
304 4
|
2月前
|
机器学习/深度学习 自然语言处理 算法
大模型对齐实战:PPO算法的原理与应用实践
本文深入浅出讲解PPO算法在大模型偏好对齐中的应用,涵盖核心原理、三大环节(SFT、RM、PPO)、实操步骤与效果评估。结合LLaMA-Factory工具,手把手带新手完成智能客服模型微调,助力打造贴合人类偏好的AI应用,是入门强化学习对齐的实用指南。

热门文章

最新文章