PyTorch

首页 标签 PyTorch
# PyTorch #
关注
4968内容
|
5月前
|
08_昇腾推荐系统加速算子:FBGEMM算子库
FBGEMM算子库适配昇腾平台,支持Torchrec模型在DCNV2和GR等推荐模型中的高效运行。已完成JaggedToPaddedDense、DenseToJagged、HstuDenseForward/Backward等核心算子的移植与优化,并引入自定义算子提升生成式推荐性能,助力推荐系统训练加速。
|
5月前
|
07_昇腾嵌入表性能提升
本文介绍嵌入表性能优化的六大策略:多流并行掩盖通信延迟,Pin Memory加速数据传输,两级去重减少计算冗余,通信模式优化降低开销,梯度累积节省内存,并结合实验验证效果,全面提升训练效率与资源利用率。
|
5月前
|
【Pytorch】基于LSTM-KAN、BiLSTM-KAN、GRU-KAN、TCN-KAN、Transformer-KAN(各种KAN修改一行代码搞定)的共享单车租赁预测研究(数据可换)Python
【Pytorch】基于LSTM-KAN、BiLSTM-KAN、GRU-KAN、TCN-KAN、Transformer-KAN(各种KAN修改一行代码搞定)的共享单车租赁预测研究(数据可换)Python
|
5月前
|
Scikit-Learn 1.8引入 Array API,支持 PyTorch 与 CuPy 张量的原生 GPU 加速
Scikit-Learn 1.8.0 首次引入实验性 Array API 支持,可直接使用 CuPy 数组或 PyTorch 张量,计算全程保留在 GPU。交叉验证等操作不再强制转回 CPU,大幅提升效率。需配置环境变量与 `set_config` 开启,目前支持部分组件如 Ridge、GaussianMixture 等,标志其迈向 GPU 加速的重要一步。
|
5月前
|
深度解析 Google JAX 全栈:带你上手开发,从零构建神经网络
Google凭借JAX AI栈实现AI全栈垂直整合,覆盖模型、应用、云与硬件。JAX结合XLA编译器,Flax构建网络,Optax优化训练,Orbax管理 checkpoint,已在Google及Anthropic、Apple等广泛应用,助力高效大规模AI训练。
|
5月前
|
PyTorch推理扩展实战:用Ray Data轻松实现多机多卡并行
单机PyTorch推理难以应对海量数据,内存、GPU利用率、I/O成瓶颈。Ray Data提供轻量方案,仅需微调代码,即可将原有推理逻辑无缝扩展至分布式,支持自动批处理、多机并行、容错与云存储集成,大幅提升吞吐效率,轻松应对百万级图像处理。
|
5月前
|
JAX核心设计解析:函数式编程让代码更可控
JAX采用函数式编程,参数与模型分离,随机数需显式传递key,确保无隐藏状态。这使函数行为可预测,便于自动微分、编译优化与分布式训练,虽初学略显繁琐,但在科研、高精度仿真等场景下更具可控性与可复现优势。
机器学习:模型训练术语大扫盲——别再混淆Step、Epoch和Iter等
本文用通俗类比讲清机器学习核心术语:Epoch是完整训练一轮,Batch Size是每次训练的数据量,Step/Iter是每批数据处理及参数更新的最小单位。结合学习率、损失值、过拟合等概念,帮你快速掌握训练过程关键要点,打通术语任督二脉。(238字)
|
5月前
|
openEuler操作系统环境:研发人脸识别软件与系统性能评估
openEuler 24.03 LTS是首个AI原生操作系统,集成PyTorch、TensorFlow等框架,支持主流AI模型高效部署。依托容器化技术与内核级优化,实现人脸识别等场景高性能运行,结合边缘计算与软硬协同设计,显著提升AI应用开发与部署效率,助力构建开放、高效的AI生态。
免费试用