带你读《阿里云产品五月刊》——二、通义灵码企业版正式发布

简介: 通义灵码企业版正式发布

简介: 阿里云人工智能平台PAI正式发布自研的 DeepRec Extension(即 DeepRec 扩展),旨在以更低成本,更高效率进行稀疏模型的分布式训练。

 

近日,阿里云人工智能平台PAI正式发布自研的 DeepRec Extension(即 DeepRec 扩展),旨在以更低成本,更高效率进行稀疏模型的分布式训练。DeepRec Extension 在 DeepRec 训练推理框架之上,围绕大规模稀疏模型分布式训练,创新性地从训练任务的视角提出了自动弹性训练和分布式容错功能,进一步提升稀疏模型训练的整体效率,助力 DeepRec 引擎在稀疏场景中发挥更大的优势。

 

DeepRec Extension开源地址:https://github.com/DeepRec-AI/extension

 

DeepRec Extension 有效地解决了企业级场景大规模稀疏模型训练中的难点。随着业务发展,模型尺寸增长到百 GB / TB 量级,分布式训练往往会遇到分布式建模接口复杂、资源预估困难且无法弹性、分布式容错机制过于简单和分布式环境复杂等问题,阻碍大尺寸模型高效、稳定地完成训练。DeepRec Extension 提供易用、高效、高性价比的框架,使得模型能够便捷地在分布式环境中运行,切实解决上述问题。

 

DeepRec Extension 推出分布式训练资源预估、自动弹性训练、资源/计算图监控、自动备份容错等功能,有效降低了大规模稀疏模型训练的技术门槛和成本,同时提升了分布式训练的效率和稳定性。

image.png

DeepRec Extension 设计思路及整体架构

 

DeepRec Extension 简化分布式训练的工作流程,保障用户聚焦于模型的构建阶段,更加专注于模型本身的创新与优化,无需关注繁琐的底层架构配置。在性能提升方面,资源预估以及自动弹性训练为用户节约 20% ~ 60% 资源,在稳定性方面,PS 发生异常后,模型 E2E 训练吞吐提升 10%。

 

一直以来,大规模稀疏模型分布式训练是备受关注的话题,阿里云人工智能平台PAI正式将 DeepRec Extension 开源,与AI开发者共同打造更快更好的分布式训练框架,全面助力AI大模型发展!


目录
相关文章
首批!阿里云飞天企业版率先通过中国信通院一云多算能力评估
首批!阿里云飞天企业版率先通过中国信通院一云多算能力评估
产品测评 | AI编程界的集大成者——通义灵码AI程序员
通义灵码AI程序员是阿里云推出的一款基于先进自然语言处理和深度学习技术的编程助手,集成于VS Code和JetBrains IDEs中。它覆盖从前端到后端的开发流程,支持多文件级别的代码修改、单元测试生成、多版本快照管理等高级功能,显著提升开发效率和项目管理能力。开发者可通过对话式交互完成需求理解到产品发布的全过程,实现高效敏捷开发。最新2.0版本在代码生成、跨语言编程、单元测试自动生成及图生代码等方面有显著提升,进一步优化了用户体验。
云市场伙伴动态 | 观测云赋能「阿里云飞天企业版」,打造全方位监控观测解决方案
云市场伙伴动态 | 观测云赋能「阿里云飞天企业版」,打造全方位监控观测解决方案
又稳又快!阿里云飞天企业版支撑多家政企云上部署DeepSeek和通义千问
又稳又快!阿里云飞天企业版支撑多家政企云上部署DeepSeek和通义千问
从 AI Coding 演进路径看通义灵码 AI 程序员的发布,让更多 idea 变成产品
从 AI Coding 演进路径看通义灵码 AI 程序员的发布,让更多 idea 变成产品
阿里云通义实验室自然语言处理方向负责人黄非:通义灵码2.0,迈入 Agentic AI
阿里云通义实验室自然语言处理方向负责人黄非:通义灵码2.0,迈入 Agentic AI
山石网科×阿里云通义灵码,开启研发“AI智造”新时代
山石网科×阿里云通义灵码,开启研发“AI智造”新时代
又稳又快!阿里云飞天企业版支撑多家政企云上部署DeepSeek和通义千问
从“技术尝鲜”到“生产力工具”,这类业务场景并非孤例,在过去的一个月间,超20家政企单位基于阿里云飞天企业版,实现了主流大模型的“又快又稳”部署,涉及政务、金融、能源、文化传媒等多个行业领域,加速应用创新。

热门文章

最新文章