秒杀GPU方案,实时视频分析领域新突破

简介:

视频分析和图像识别是AI领域非常重要的应用,随着科技的发展对解决方案的系统性能提出了更高的要求,例如进行实时视频分析并识别1000个对象这就要求系统具有相当高的计算能力。

    近日TeraDeep公司推出了行业突破性的图像识别和视频分析解决方案,除了该公司开发的一系列高级深度学习算法,其硬件平台采用的是合作伙伴Micron和Xilinx共同设计的AC-510加速器核心板卡和PCIe接口底板,集成了Xilinx Kintex UltraScale KU060 FPGA和Micron HMC(Hybrid Memory Cube,混合存储立方体)。

实时视频分析需要快速的进行物体识别并进行跟踪,因此需要非常低的延迟和超高的计算性能,传统的解决方法一般是采用GPU(graphical processing units,图像处理单元),但是在FPGA面前就不再显得那么有优势了,TeraDeep推出的基于FPGA架构设计提供了更快的分析速度,与最先进的GPU方案相比,延迟降为四分之一,同时功耗也降低为一半。

关于软件方面则采用的是TeraDeep公司开发的TD Accel 深度学习加速技术,该公司开发了一系列深度学习高级算法。这当然少不了合作伙伴Xilinx和Micron的共同合作,起初Xilinx提供了各种不同的FPGA板卡进行系统原型验证和测试,后来系统计算性能需要更高的数据带宽,Micron科技提供了HMC技术,明显提升了实时视频分析处理的速度,尤其是执行卷积神经网络算法的时候,因此带宽的突破是革新下一代高性能计算方案的关键。

本文转自d1net(转载)

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
4月前
|
人工智能 缓存 调度
技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)
随着人工智能(AI)的迅速发展,越来越多的应用需要巨大的GPU计算资源。GPUDirect RDMA 是 Kepler 级 GPU 和 CUDA 5.0 中引入的一项技术,可以让使用pcie标准的gpu和第三方设备进行直接的数据交换,而不涉及CPU。
134590 6
|
4月前
|
并行计算 TensorFlow 调度
推荐场景GPU优化的探索与实践:CUDA Graph与多流并行的比较与分析
RTP 系统(即 Rank Service),是一个面向搜索和推荐的 ranking 需求,支持多种模型的在线 inference 服务,是阿里智能引擎团队沉淀多年的技术产品。今年,团队在推荐场景的GPU性能优化上又做了新尝试——在RTP上集成了Multi Stream,改变了TensorFlow的单流机制,让多流的执行并行,作为增加GPU并行度的另一种选择。本文详细介绍与比较了CUDA Graph与多流并行这两个方案,以及团队的实践成果与心得。
|
8月前
|
并行计算 固态存储 Ubuntu
基因组大数据计算: CPU和GPU加速方案深度评测
基因组大数据计算: CPU和GPU加速方案深度评测
150 0
基因组大数据计算: CPU和GPU加速方案深度评测
|
4月前
|
并行计算 Linux 计算机视觉
DeepFace【部署 04】轻量级人脸识别和面部属性分析框架deepface使用Docker部署CPU+GPU两个版本及cuDNN安装
DeepFace【部署 04】轻量级人脸识别和面部属性分析框架deepface使用Docker部署CPU+GPU两个版本及cuDNN安装
188 0
|
4月前
|
人工智能 弹性计算 并行计算
技术改变AI发展:CUDA Graph优化的底层原理分析(GPU底层技术系列一)
随着人工智能(AI)的迅速发展,越来越多的应用需要巨大的GPU计算资源。CUDA是一种并行计算平台和编程模型,由Nvidia推出,可利用GPU的强大处理能力进行加速计算。
102435 1
|
4月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云林立翔:基于阿里云GPU的AIGC小规模训练优化方案
阿里云弹性计算林立翔在【AIGC】话题下带来了题为《基于阿里云GPU的AIGC小规模训练优化方案》的主题演讲,围绕生成式AI技术栈、生成式AI微调训练和性能分析、ECS GPU实例为生成式AI提供算力保障、应用场景案例等相关话题展开。
|
8月前
|
视频直播 芯片 异构计算
山东布谷科技直播系统源码热点分析:不同芯片实现高质量编码与渲染视频的GPU加速功能
总而言之,对于直播系统源码来说,GPU加速功能是提升实时图像质量和观看体验的重要手段,是不可或缺的重要功能技术之一。
山东布谷科技直播系统源码热点分析:不同芯片实现高质量编码与渲染视频的GPU加速功能
|
9月前
|
机器学习/深度学习 存储 算法
PyTorch 中的多 GPU 训练和梯度累积作为替代方案
PyTorch 中的多 GPU 训练和梯度累积作为替代方案
114 0
|
9月前
|
存储 机器学习/深度学习 缓存
探索大模型世界的多元算力:CPU、GPU与算存互连的复杂比较与重要性分析
据科技部新一代人工智能发展研究中心发布的报告显示,我国已发布79个参数规模超过10亿的大模型,几乎形成了百模大战的局面。在大模型研发方面,中国14个省区市都在积极开展工作,其中北京拥有38个项目,广东拥有20个项目。
|
10月前
|
机器学习/深度学习 并行计算 算法
机器学习算法对GPU的要求分析
简单介绍做机器学习算法的厂家对GPU的要求
407 1