异构计算

首页 标签 异构计算
# 异构计算 #
关注
18687内容
|
4天前
|
【AI系统】计算图的调度与执行
深度学习训练过程涉及前向计算、计算损失及更新权重参数。AI框架通过计算图统一表示训练过程,算子作为计算图的节点,由后端硬件高效执行。计算图调度包括算子间的调度、并发调度和异构调度,确保计算资源的有效利用。图执行模式分为单算子执行、整图下沉执行和图切分多设备执行,适应不同场景需求。以PyTorch为例,其算子执行通过两次调度选择合适的Kernel进行张量操作,并支持自动求导。
|
4天前
| |
来自: 弹性计算
阿里云服务器按月租用价格是多少,月付收费标准与活动价格参考
阿里云服务器月付租用价格是多少?阿里云服务器既可以月租也可以按年租用,按月可选的时长有1个月到10个月,通常选择较多的是1个月、3个月、6个月时长,目前按月租用价格有经济型e实例4核16G配置10M带宽100G ESSD Entry云盘,月租优惠价70元1个月、210元3个月,如果选择8核32G配置的月付优惠价是160元1个月、480元3个月。本文将详细介绍阿里云服务器的月付收费标准及当前活动价格,帮助您更好地了解在阿里云服务器月付租用价格情况。
PAI-Rec相关的各种功能
PAI-Rec相关、EasyRec的Processor优化 和使用
|
4天前
|
《C++与 ASIC 芯片:人工智能领域的强力搭档》
在AI发展中,C++与ASIC芯片的协同应用成为关键探索方向。C++以其高性能和对底层硬件的精细控制,与ASIC芯片的高度优化计算能力相结合,共同推动AI系统在性能、能效上的突破,特别是在智能安防、自动驾驶等领域展现巨大潜力。
|
4天前
|
【AI系统】推理内存布局
本文介绍了CPU和GPU的基础内存知识,NCHWX内存排布格式,以及MNN推理引擎如何通过数据内存重新排布进行内核优化,特别是针对WinoGrad卷积计算的优化方法,通过NC4HW4数据格式重排,有效利用了SIMD指令集特性,减少了cache miss,提高了计算效率。
|
5天前
|
【AI系统】Kernel 层架构
推理引擎的Kernel层负责执行底层数学运算,如矩阵乘法、卷积等,直接影响推理速度与效率。它与Runtime层紧密配合,通过算法优化、内存布局调整、汇编优化及调度优化等手段,实现高性能计算。Kernel层针对不同硬件(如CPU、GPU)进行特定优化,支持NEON、AVX、CUDA等技术,确保在多种平台上高效运行。
|
5天前
|
【AI系统】计算图的优化策略
本文深入探讨了计算图的优化策略,包括算子替换、数据类型转换、存储优化等,旨在提升模型性能和资源利用效率。特别介绍了Flash Attention算法,通过分块计算和重算策略优化Transformer模型的注意力机制,显著减少了内存访问次数,提升了计算效率。此外,文章还讨论了内存优化技术,如Inplace operation和Memory sharing,进一步减少内存消耗,提高计算性能。
|
5天前
|
【AI系统】离线图优化技术
本文回顾了计算图优化的各个方面,包括基础优化、扩展优化和布局与内存优化,旨在提高计算效率。基础优化涵盖常量折叠、冗余节点消除、算子融合、算子替换和算子前移等技术。这些技术通过减少不必要的计算和内存访问,提高模型的执行效率。文章还探讨了AI框架和推理引擎在图优化中的应用差异,为深度学习模型的优化提供了全面的指导。
|
6天前
| |
ORCA:基于持续批处理的LLM推理性能优化技术详解
大语言模型(LLMs)的批处理优化面临诸多挑战,尤其是由于推理过程的迭代性导致的资源利用不均问题。ORCA系统通过引入迭代级调度和选择性批处理技术,有效解决了这些问题,大幅提高了GPU资源利用率和系统吞吐量,相比FasterTransformer实现了最高37倍的性能提升。
|
6天前
|
【AI系统】ShuffleNet 系列
本文介绍了ShuffleNet系列模型,特别是其轻量化设计。ShuffleNet V1通过引入Pointwise Group Convolution和Channel Shuffle技术,在减少计算量的同时保持模型准确性。V2版本则进一步优化,考虑了设备运算速度,提出了四个轻量级网络设计原则,并通过Channel Split技术减少了内存访问成本,提升了模型效率。
免费试用