英特尔将推Nervana神经网络处理器,要让DL训练提速100倍

简介:
本文来自AI新媒体量子位(QbitAI)

90942eef808e1292cedfc4a9af85b724c38a4733

在人工智能热潮刚刚兴起时,英特尔好像并不积极。不过现在,英特尔正试图通过一系列新芯片来加强在这个领域的地位。

最新的进展是:英特尔准备发布Nervana神经网络处理器,简称为“NNP”。

NNP系列处理器的设计是为了满足机器学习的需求,目标市场是数据中心,而不是PC。英特尔的CPU仍被广泛应用于服务器(据估计,英特尔CPU在数据中心市场的份额为96%)。

不过,英伟达和ARM等公司提供的GPU芯片更适合当前的人工智能计算任务。因此,市场对这些公司芯片的需求快速增长。(英伟达营收的同比增幅高达56%。)谷歌也参与到这个趋势中,设计了被称作“张量处理单元(TPU)”的自主芯片,并部署至云计算服务。此外,许多新兴公司,例如英国的Graphcore,也在关注这个市场。

90ceda711d376e4c5485e239c381fb9ec23a9891

英特尔的应对方式是收购人工智能硬件方面的人才,包括今年3月收购计算机视觉公司Mobileye,去年9月收购芯片公司Movidius(该公司的芯片被用于大疆无人机),去年8月收购深度学习创业公司Nervana Systems。自那时以来,英特尔就在开发神经网络处理器,这款产品此前的代号为“Lake Crest”。

NNP芯片是收购Nervana后取得的直接成果。利用来自Nervana的专业性,并结合英特尔自身的优势,这款芯片实现了“深度学习模型更快的训练时间”。(英特尔表示,在芯片设计过程中该公司还获得了来自Facebook的建议,但没有透露太多细节。)

不过,英特尔并没有透露,这款芯片将速度提升了多少。在此前发布TPU芯片时,谷歌给出了这款产品相对于竞争对手的评测结果,但英特尔仅仅表示,该公司的目标是到2020年让深度学习训练的速度提升100倍。

关于NNP芯片将于何时发布给客户,英特尔同样语焉不详。不过,我们可能很快得到更多信息。预计英特尔将在今年年底之前限量提供这款芯片。

以及,此前英特尔还曝光一款AI芯片,代号“Loihi”

0d2ecf44c7c3bfbf956aed1e5f23cfcbc005e50e

本文作者:维金
原文发布时间:2017-10-18
相关文章
|
机器学习/深度学习 PyTorch 算法框架/工具
目标检测实战(一):CIFAR10结合神经网络加载、训练、测试完整步骤
这篇文章介绍了如何使用PyTorch框架,结合CIFAR-10数据集,通过定义神经网络、损失函数和优化器,进行模型的训练和测试。
524 2
目标检测实战(一):CIFAR10结合神经网络加载、训练、测试完整步骤
|
3月前
|
机器学习/深度学习 人工智能 算法
AI 基础知识从 0.6 到 0.7—— 彻底拆解深度神经网络训练的五大核心步骤
本文以一个经典的PyTorch手写数字识别代码示例为引子,深入剖析了简洁代码背后隐藏的深度神经网络(DNN)训练全过程。
673 56
|
1月前
|
机器学习/深度学习 数据可视化 网络架构
PINN训练新思路:把初始条件和边界约束嵌入网络架构,解决多目标优化难题
PINNs训练难因多目标优化易失衡。通过设计硬约束网络架构,将初始与边界条件内嵌于模型输出,可自动满足约束,仅需优化方程残差,简化训练过程,提升稳定性与精度,适用于气候、生物医学等高要求仿真场景。
160 4
PINN训练新思路:把初始条件和边界约束嵌入网络架构,解决多目标优化难题
|
7月前
|
机器学习/深度学习 存储 算法
NoProp:无需反向传播,基于去噪原理的非全局梯度传播神经网络训练,可大幅降低内存消耗
反向传播算法虽是深度学习基石,但面临内存消耗大和并行扩展受限的问题。近期,牛津大学等机构提出NoProp方法,通过扩散模型概念,将训练重塑为分层去噪任务,无需全局前向或反向传播。NoProp包含三种变体(DT、CT、FM),具备低内存占用与高效训练优势,在CIFAR-10等数据集上达到与传统方法相当的性能。其层间解耦特性支持分布式并行训练,为无梯度深度学习提供了新方向。
241 1
NoProp:无需反向传播,基于去噪原理的非全局梯度传播神经网络训练,可大幅降低内存消耗
|
2月前
|
机器学习/深度学习 缓存 算法
2025年华为杯A题|通用神经网络处理器下的核内调度问题研究生数学建模|思路、代码、论文|持续更新中....
2025年华为杯A题|通用神经网络处理器下的核内调度问题研究生数学建模|思路、代码、论文|持续更新中....
315 1
|
3月前
|
存储 弹性计算 网络协议
阿里云服务器ECS实例规格族是什么?不同规格CPU型号、处理器主频及网络性能参数均不同
阿里云ECS实例规格族是指具有不同性能特点和适用场景的实例类型集合。不同规格族如计算型c9i、通用算力型u1、经济型e等,在CPU型号、主频、网络性能、云盘IOPS等方面存在差异。即使CPU和内存配置相同,性能参数和价格也各不相同,适用于不同业务需求。
|
机器学习/深度学习 数据可视化 计算机视觉
目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
这篇文章详细介绍了如何通过可视化深度学习中每层特征层来理解网络的内部运作,并使用ResNet系列网络作为例子,展示了如何在训练过程中加入代码来绘制和保存特征图。
331 1
目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
|
9月前
|
机器学习/深度学习 文件存储 异构计算
YOLOv11改进策略【模型轻量化】| 替换骨干网络为EfficientNet v2,加速训练,快速收敛
YOLOv11改进策略【模型轻量化】| 替换骨干网络为EfficientNet v2,加速训练,快速收敛
899 18
YOLOv11改进策略【模型轻量化】| 替换骨干网络为EfficientNet v2,加速训练,快速收敛
|
9月前
|
机器学习/深度学习 数据可视化 API
DeepSeek生成对抗网络(GAN)的训练与应用
生成对抗网络(GANs)是深度学习的重要技术,能生成逼真的图像、音频和文本数据。通过生成器和判别器的对抗训练,GANs实现高质量数据生成。DeepSeek提供强大工具和API,简化GAN的训练与应用。本文介绍如何使用DeepSeek构建、训练GAN,并通过代码示例帮助掌握相关技巧,涵盖模型定义、训练过程及图像生成等环节。
|
9月前
|
机器学习/深度学习 文件存储 异构计算
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v2,加速训练,快速收敛
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v2,加速训练,快速收敛
179 1

热门文章

最新文章