GTC 22 精彩看点 | 锁定阿里云机器学习 PAI 分享

简介: 3月21日,2022英伟达 GTC 大会即将拉开帷幕。此次 GTC 22 大会上,阿里云将带来有关推理优化/部署、深度学习编译器、大模型部署、训练优化、云手游等主题的内容,分享云端机器学习平台最新的创新实践。

3月21日,2022英伟达 GTC 大会即将拉开帷幕。此次 GTC 22 大会上,阿里云将带来有关推理优化/部署、深度学习编译器、大模型部署、训练优化、云手游等主题的内容,分享云端机器学习平台最新的创新实践。


GTC 22 阿里云精彩演讲提前看

[S41068] PaiSparse:面向深度学习的稀疏加速库

· 李与超,阿里云,高级算法工程师

· 朱斐文,NVIDIA, 高级算法专家

· 3 月 23 日 星期三 | 3:00 PM - 3:25 PM 北京时间

 

随着超大语言模型的流行, 如何部署超大模型正在成为迫切需要解决的问题。非结构化剪枝可以将模型规模缩小99%,让超大语言模型在单卡上部署成为可能。然而超大模型稀疏后会呈现不同的非零分布,而这些分布会直接影响硬件的计算量并影响最终的执行时间。同时与传统的 HPC 任务不同的是,基于训练后的稀疏矩阵分布的 tuning 在深度学习推理中是可以进行的。因此我们提出一个面向深度学习的稀疏加速库:PaiSparse,可以自动生成更高效的稀疏算子。实验表明,与 cuSparse 相比,PaiSparse 可以提速1.5~5倍。

 

话题链接:https://www.nvidia.com/gtc/session-catalog/#/session/1634303703593001XjhX

 

[S41501] PTXC:使用 XLA 编译器通过云 GPU 扩展 PyTorch 训练

· 刘小勇,高级主任工程师

· 3 月 23 日 星期三 | 9:00 PM - 9:25 PM 北京时间

 

在工业界实践中,模型训练和部署的效率、规模和适配性关系到最终的应用效果。为满足PyTorch eager-first 的 GPU 编译流程,Lazy Tensor 架构被提出来。通过采用实践验证过的产品化 XLA 编译器和分布式引擎,PTXC 能在阿里云 GPU 集群中以基于编译优化的方式一键快速搭建易用、弹性且高效的 PyTorch 模型训练系统。

 

话题链接:https://www.nvidia.com/gtc/session-catalog/#/session/1637553159784001rkUB

 

[S41395] 通过 PAI-Blade 更易用、更可靠地使用 TensorRT

· 邱侠斐,阿里云,主任工程师

· 郭天佑,阿里云,高级工程师

· 李澜博,阿里云,高级工程师

· 3 月 24 日 星期四 | 9:00 AM - 9:25 AM 北京时间

 

TensorRT 是英伟达推出的业界领先的推理加速器,在深度学习推理场景应用广泛,但是通过 TensorRT 来优化深度学习模型仍有一定门槛。首先,通过 TensorRT 解析模型时会遇到转换失败或表现不理想的情况。其次,从零开始搭建网络比较耗时且难以扩展。此外,在生产环境里增加新的推理框架需要严谨的评估。本次演讲将介绍如何通过一站式 AI 加速器 PAI-Blade 解决上述问题。PAI-Blade 能够实现 TensorRT 后端上的自动圈图和自动化运行。同时还可以与 TensorRT Plugin 协同工作,以实现更好的性能。目前 PAI-Blade 提供对 TensorFlow 和 PyTorch 的产品化支持。

 

话题链接:https://www.nvidia.com/gtc/session-catalog/#/session/1635516028378001Pxlx

 

[S41604] 未来游戏趋势:通过阿里云弹性云手机解决方案打造云游戏

· 杨铭,阿里云,高级工程师

· 3 月 24 日 星期四|11:00 AM - 11:25 AM 北京时间

 

基于英伟达 T4 及原生的 ARM 平台,阿里云设计研发了高性能的云手游解决方案——弹性云手机,可实现虚拟化渲染及显存隔离,在确保隔离的情况下充分发挥 T4 性能。此外,弹性云手机无缝对接阿里巴巴云游戏流媒体平台,该平台兼容多种流媒体协议,并具备完整的“渲染-编码-串流”云手游架构。

 

话题链接:https://www.nvidia.com/gtc/session-catalog/#/session/1638429961776001IhJm

 

[S41383] 云端 Triton 生产实践

· 李文鹏,阿里云,主任工程师

· 邱侠斐,阿里云,主任工程师

· 李澜博,阿里云,高级工程师

· 3 月 24 日 星期四 | 1:00 PM - 1:25 PM 北京时间

 

Triton 推理服务器是一款功能全面、可扩展且功能强大的推理解决方案,在边缘设备和云上皆可部署。在云上将 Triton 部署到生产环境中时,应考虑效率、可扩展性以及与 Triton 自身外的云上基础设施的集成。我们将介绍在阿里云中通过 PAI- EAS 提供 Triton 作为云服务的关键见解:1) 一键部署 Triton 集群;2) 根据请求吞吐量扩展 Triton 集群;3) 与 OSS(对象存储服务)原生集成;以及 4) Triton 和 GPU 共享调度。

 

话题链接:https://www.nvidia.com/gtc/session-catalog/#/session/1635349148436001gNSE

 

 

[S41073] 阿里云基于 AI 编译器的通用透明性能解决方案

· 朱凯,阿里云,主任工程师

· 3 月 24 日 星期四 | 2:00 PM - 2:50 PM 北京时间

 

本次演讲将从云服务厂商的视角,分享在云端和机器学习平台上大规模部署 AI 编译器的实战经验。我们将详细介绍近期刚刚开源的动态 shape 深度学习编译器 BladeDISC,包括它的背景和主要特性,具体设计架构和实现细节,动态 shape 语义下的性能优化经验,未来计划以及在 NVIDIA 设备上的应用等。

 

话题链接:https://www.nvidia.com/gtc/session-catalog/#/session/1634431966251001JhrZ

 

GTC 22 阿里云精彩演讲锁定攻略!

 

1. 点击访问 GTC 22 官网  https://www.nvidia.cn/gtc-global/?ncid=GTC-NVMAGGIEJ

2. 注册 GTC 22

3. 登录后可将会议添加至会议日程如下图

4. 开始后登录即可观看会议,若错过直播时间,可登录查看会议点播,随时观看会议

 

 image1.png

 

扫描下方海报二维码,即刻注册 GTC 22,了解阿里云关于推理优化/部署、深度学习编译器、大模型部署、训练优化、云游戏等主题的精彩分享


image2.png

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
10月前
|
PyTorch 调度 算法框架/工具
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
DLC任务Pytorch launch_agent Socket Timeout问题源码分析与解决方案
506 18
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
10月前
|
缓存 并行计算 测试技术
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
2359 12
|
存储 人工智能 云栖大会
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
|
机器学习/深度学习 数据采集 人工智能
MATLAB在机器学习模型训练与性能优化中的应用探讨
本文介绍了如何使用MATLAB进行机器学习模型的训练与优化。MATLAB作为强大的科学计算工具,提供了丰富的函数库和工具箱,简化了数据预处理、模型选择、训练及评估的过程。文章详细讲解了从数据准备到模型优化的各个步骤,并通过代码实例展示了SVM等模型的应用。此外,还探讨了超参数调优、特征选择、模型集成等优化方法,以及深度学习与传统机器学习的结合。最后,介绍了模型部署和并行计算技巧,帮助用户高效构建和优化机器学习模型。
MATLAB在机器学习模型训练与性能优化中的应用探讨
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践
3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。
|
11月前
|
人工智能 自然语言处理 运维
Qwen3 全尺寸模型支持通过阿里云PAI-ModelGallery 一键部署
Qwen3 是 Qwen 系列最新一代的大语言模型,提供了一系列密集(Dense)和混合专家(MOE)模型。目前,PAI 已经支持 Qwen3 全系列模型一键部署,用户可以通过 PAI-Model Gallery 快速开箱!
|
机器学习/深度学习 人工智能 开发者
DeepSeek服务器繁忙?拒绝稍后再试!基于阿里云PAI实现0代码一键部署DeepSeek-V3和DeepSeek-R1大模型
阿里云PAI平台支持零代码一键部署DeepSeek-V3和DeepSeek-R1大模型,用户可轻松实现从训练到部署再到推理的全流程。通过PAI Model Gallery,开发者只需简单几步即可完成模型部署,享受高效便捷的AI开发体验。具体步骤包括开通PAI服务、进入控制台选择模型、一键部署并获取调用信息。整个过程无需编写代码,极大简化了模型应用的门槛。
582 7
|
人工智能 自然语言处理 网络安全
基于阿里云 Milvus + DeepSeek + PAI LangStudio 的低成本高精度 RAG 实战
阿里云向量检索服务Milvus版是一款全托管向量检索引擎,并确保与开源Milvus的完全兼容性,支持无缝迁移。它在开源版本的基础上增强了可扩展性,能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警,Milvus云服务成为多样化AI应用场景的理想选择,包括多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等。您还可以利用开源的Attu工具进行可视化操作,进一步促进应用的快速开发和部署。
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
311 0

热门文章

最新文章

相关产品

  • 人工智能平台 PAI