【Movidius发布最新一代VPU】集成DNN加速器,每秒超过1万亿次运算

简介: 英特尔周一宣布推出其新一代Movidius视觉处理单元(VPU),可为边缘设备(如无人机,VR耳机,智能相机,可穿戴设备和机器人)提供更好的处理能力。 Movidius是芯片巨头英特尔的子公司,专注开发视觉芯片,为机器和PC增强视觉功能。


image


英特尔周一宣布推出其新一代Movidius视觉处理单元(VPU),可为边缘设备(如无人机,VR耳机,智能相机,可穿戴设备和机器人)提供更好的处理能力。

Movidius是芯片巨头英特尔的子公司,专注开发视觉芯片,为机器和PC增强视觉功能。Movidius最新的这款VPU是Myriad X系统级芯片,配备了专门的神经计算引擎,能够支持边缘设备的深度学习推理(inferences)。

Myriad X专为高速和低功耗运行深度神经网络而设计。英特尔方面表示,这款深度神经网络加速器可以让DNN推理实现每秒超过1万亿次运算。

英特尔VP Remi El-Ouazzane说:“我们正处于计算机视觉和深度学习的风口浪尖,数十亿台日常设备都把计算机视觉和深度学习能力作为标配。启用具有人性化视觉智能的设备,代表着计算的下一个跨越式发展。”

因其微小的外形尺寸和板上处理能力,英特尔正致力于将Myriad X打造为自主设备平台的理想VPU。除了神经计算引擎外,Myriad X还配备128位VLIW矢量处理器,增加可配置的MIPI通道,增强视觉加速器,以及2.5 MB同质片上存储器。

英特尔表示,Myriad X VPU附带了一个SDK,其中包含一个神经网络编译器和“具有开发应用程序管道的插件方法的专用FLIC框架”。


image


在今年的CVPR上,Movidius发布了一款售价79美元的USB设备,Movidius Neural Computer Stick,即插即用,将深度学习和AI能力带给现有硬件。

Movidius的目标一直是将这种基于图像的深度学习能力从云端转移到边缘。Movidius的Myriad 2 VPU广泛用于安全摄像头、无人机、AR耳机等各种产品。现在Myriad X则是Movidius VPU的又一次升级。

在技术快速发展的背景下,AI硬件市场尤其是芯片开始走向创新。如今的AI芯片组市场由GPU和CPU引领,但在未来的几年内,其他芯片组类型将会扩大其应用范围,包括ASIC(专用集成电路),FPGA(现场可编程门阵列)和其他新兴的芯片组。

到目前为止,尤其是深度学习,还主要是软件方面的活动。但学术界意识到到硬件加速的需要,AI应用需要更高的性能和更低的功耗。世界顶级的半导体公司以及一些初创公司已经开始争相满足这些需求。市场调研公司Tractica预测,深度学习芯片组市场收入将从2016年的5.13亿美元增长到2025年的122亿美元,复合年增长率(CAGR)为42.2%。

来源:新智元
原文链接

相关文章
|
机器学习/深度学习 人工智能 算法
阿里公开自研AI集群细节:64个GPU,百万分类训练速度提升4倍
从节点架构到网络架构,再到通信算法,阿里巴巴把自研的高性能AI集群技术细节写成了论文,并对外公布。
阿里公开自研AI集群细节:64个GPU,百万分类训练速度提升4倍
|
1月前
|
人工智能 自然语言处理 搜索推荐
Cohere推出350亿参数可扩展生成模型
【2月更文挑战第22天】Cohere推出350亿参数可扩展生成模型
19 2
Cohere推出350亿参数可扩展生成模型
|
6月前
|
机器学习/深度学习 人工智能 芯片
一文详解多模态大模型发展及高频因子计算加速GPU算力 | 英伟达显卡被限,华为如何力挽狂澜?
近年来,全球范围内的芯片禁令不断升级,给许多企业和科研机构带来了很大的困扰,需要在技术层面进行创新和突破。一方面,可以探索使用国产芯片和其他不受限制的芯片来替代被禁用的芯片;另一方面,可以通过优化算法和架构等方法来降低对特定芯片的依赖程度。
|
10月前
|
存储 算法 数据可视化
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
158 0
|
11月前
|
存储 机器学习/深度学习 自然语言处理
最高加速9倍!字节跳动开源8比特混合精度Transformer引擎(1)
最高加速9倍!字节跳动开源8比特混合精度Transformer引擎
103 0
|
11月前
|
自然语言处理 算法
最高加速9倍!字节跳动开源8比特混合精度Transformer引擎(2)
最高加速9倍!字节跳动开源8比特混合精度Transformer引擎
112 0
|
11月前
|
存储 算法 数据可视化
将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可
将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可
180 0
|
11月前
|
机器学习/深度学习 人工智能 PyTorch
PyTorch宣布支持苹果M1芯片GPU加速:训练快6倍,推理提升21倍
PyTorch宣布支持苹果M1芯片GPU加速:训练快6倍,推理提升21倍
843 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
AI再卷数学界,DSP新方法将机器证明成功率提高一倍
AI再卷数学界,DSP新方法将机器证明成功率提高一倍
131 0
|
11月前
|
机器学习/深度学习 人工智能 缓存
英伟达用AI设计GPU算术电路,面积比最先进EDA减少25%,速度更快、更加高效
英伟达用AI设计GPU算术电路,面积比最先进EDA减少25%,速度更快、更加高效
206 0