昇腾RecSDK Torch整体方案介绍

简介: RecSDK是基于昇腾平台的搜索推荐广告框架,支持Atlas系列硬件,兼容TensorFlow/PyTorch,提供高效模型训练。具备动态特征管理、多级缓存、算子优化、流水线并行等核心能力,实现计算与存储协同加速,助力大规模推荐系统高效开发与部署。(238字)

RecSDK 方案概述

Rec SDK作为基于昇腾平台的搜索推荐广告框架,为支撑大规模搜索推荐广告场景,提供多种功能特性,助力完成搜索推荐广告模型的高效训练。如下表这张图展示了推荐SDK在昇腾软硬生态中的位置:

aaa_01.jpg

  1. 硬件方面,SDK可在已发布的训练服务器Atlas 800T A2和Atlas 800I A2推理服务器进行训练和推理作业。
  2. 神经网络计算架构CANN为包括推荐SDK在内的所有上层应用提供了丰富、强大的算子能力、图引擎能力还有通信能力。
  3. 框架适配,推荐SDK的API也针对tensorflow和pytorch框架进行了更亲和的适配,提供高度兼容的API接口,实现模型的无缝迁移与快速迭代。
  4. 模型开发:提供了极简易用的API,符合开发tensorflow和pytorch原生模型的流程和使用方式,降低用户的学习成本;提供的样例模型,使用户能够快速复现基准模型;提供了模型迁移手册和精度调优手册,让用户能够更快地掌握业务模型的迁移和调优。
  5. 模型训练:RecSDK的核心能力主要集中在计算和稀疏表存储上。计算又分为CPU侧和NPU侧,CPU侧对样本做了并行加速处理,提供了特征准入、淘汰和映射等功能;NPU侧,对关键算子(如HSTU、Fbgemm)进行深度优化与融合,充分发挥昇腾硬件算力。

关键性能特性

通过上述功能,Rec SDK构建了一套完整、高效的大规模推荐系统训练解决方案,显著提升模型开发与部署效率。

相关文章
|
5月前
|
存储 机器学习/深度学习 搜索推荐
08_昇腾推荐系统加速算子:FBGEMM算子库
FBGEMM算子库适配昇腾平台,支持Torchrec模型在DCNV2和GR等推荐模型中的高效运行。已完成JaggedToPaddedDense、DenseToJagged、HstuDenseForward/Backward等核心算子的移植与优化,并引入自定义算子提升生成式推荐性能,助力推荐系统训练加速。
|
5月前
|
存储 缓存 搜索推荐
02_昇腾推荐系统架构解析:嵌入表存储到多级缓存的全链路设计
昇腾推荐系统采用多级缓存架构,基于达芬奇架构NPU实现HBM与DDR协同的Embedding存储。通过FastHashMap与动态Swap机制,结合LRU/LFU准入淘汰策略,支持大规模稀疏特征高效训练。软件层面深度适配TorchRec,提供统一接口,实现计算与通信重叠,提升端到端性能,适用于电商、短视频等大模型推荐场景。
02_昇腾推荐系统架构解析:嵌入表存储到多级缓存的全链路设计
|
5月前
|
存储 机器学习/深度学习 缓存
05_推荐系统准入与淘汰策略技术详解
本文详解推荐系统多级缓存中的准入淘汰策略,涵盖基于访问频次、概率、ShowClick等准入机制,以及基于时间、L2范数、频次等淘汰机制,结合CPU-PS控制流程与NPU执行优化,实现缓存资源高效利用,提升模型训练效率与推荐精度。
|
5月前
|
缓存 调度 开发工具
06_昇腾流水线优化技术详解
本文详解昇腾流水线优化技术,涵盖NPU与GPU侧多级流水实现。通过Stage划分、异步调度与计算通信重叠,提升训练吞吐与硬件利用率。NPU基于Rec SDK实现五阶段流水,支持动态换入换出;GPU则利用CUDA Stream构建StagedTrainPipeline,实现高效prefetch与梯度更新协同。
|
5月前
|
存储 缓存 搜索推荐
03_嵌入表分片与哈希管理:支撑万亿参数的关键技术
本文介绍支撑万亿参数推荐系统的核心技术:嵌入表分片与哈希管理。通过单/双层Hash模式实现稀疏ID高效映射,结合分桶策略均匀分配数据;采用Row-Wise、Table-Wise等分片机制,优化存储与计算负载,提升大规模模型训练效率。
03_嵌入表分片与哈希管理:支撑万亿参数的关键技术
|
Rust 算法 Go
【密码学】一文读懂FNV Hash
FNV哈希全名为Fowler-Noll-Vo算法,是以三位发明人Glenn Fowler,Landon Curt Noll,Phong Vo的名字来命名的,最早在1991年提出。它可以快速hash大量的数据并保持较小的冲突概率,适合hash一些相近的字符串比如IP地址、URL、文件名等等。目前FNV算法有三个版本,分别是: FNV-0(已废弃)、FNV-1以及FNV-1a。这三个算法的结构非常相似,因此呢,在这里就一块说了。
4907 0
【密码学】一文读懂FNV Hash
|
5月前
|
存储 缓存 搜索推荐
01_万亿级推荐系统嵌入表的技术挑战与现状
推荐系统中,Embedding表规模随用户与物品增长呈指数膨胀,成为存储与计算瓶颈。传统静态存储导致冗余,而生成式模型更需高维向量与海量参数,加剧资源压力。业界通过Embedding卸载、多级缓存、预取流水线与分片优化等技术,在有限显存下实现超大规模模型训练。美团MTGR框架基于TorchRec构建,支持TB级Embedding与混合并行,显著提升训练效率与推荐效果,推动推荐系统向生成式演进。
343 19
|
5月前
|
存储 缓存 NoSQL
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
针对智能体式推理对KVCache的挑战,阿里云Tair KVCache团队联合SGLang社区推出HiCache技术,通过多级存储卸载与全局共享机制,实现缓存命中率翻倍、TTFT降低56%、QPS提升2倍,构建面向长上下文、高并发、多智能体协作的下一代推理缓存基础设施。
883 27
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
|
5月前
|
存储 搜索推荐 索引
04_昇腾推荐系统:单双层架构解析
单双层架构互补共存:单层追求极致性能,适用于小规模特征;双层突破内存瓶颈,支持大规模扩展。结合动态扩容、准入淘汰与高效查表,实现推荐系统大规模稀疏参数的高效训练与管理。
04_昇腾推荐系统:单双层架构解析
|
5月前
|
运维 监控 Cloud Native
不是监控不行,是你观测得不够:聊聊新一代可观测性(Observability)的真相
不是监控不行,是你观测得不够:聊聊新一代可观测性(Observability)的真相
400 7