英特尔AI CTO:人工智能训练需要新型芯片架构

简介:

英特尔人工智能产品集团新上任的首席技术官Amir Khosrowshahi表示,当你使用GPU水平较低的时候,业界需要新架构用于神经网络的理由就愈加明显了。

Khosrowshahi此前是Nervana System公司的共同创始人兼首席技术官,该公司在去年8月被英特尔收购,金额未对外公布。Nervana的技术迅速成为英特尔人工智能计划的核心。

Khosrowshahi详细介绍了Nervana公司是如何使用GPU的,因为“这是最先进的技术”,Nervana用它自己的汇编器取代了标准的Nvidia汇编器,因为这被Nervana视为可以生成“次优”指令。

“我们在公司发展初期是这么做的,部分是为了我们自己的发展,但后来我们意识到它比Nvidia的库要快2-3倍,所以我们将其作为开源发布了。”

Nervana的努力并没有止步于软件方面,它还创造了自己的硅芯片瞄准神经网络训练。

“神经网络是一系列预定的操作,它不像是用户与系统的交互,它是一组可以被描述为数据流图表的指令。”

据Khosrowshahi称,一些功能有助于图形处理单元执行图形渲染工作——如大量缓存,处理节点,渲染——都是多余的。

“GPU中有很多电路,这对于机器学习来说并不是必需的,随着时间推移有很多东西堆积起来。”

“你并不需要电路,这些电路在芯片中占很大比例,而且能源利用成本也很高。”

“神经网络非常简单,它是很少的矩阵乘法和非线性,你可以直接搭建硅芯片来实现。你可以搭建硅芯片专用于神经网络架构,GPU却不是这样的。”

Khosrowshahi给出的答案是正在开发的Lake Crest,英特尔将在今年向选定客户推出这个独立的加速器,随着时间的推移,它还将更紧密地与至强处理器捆绑在一起。

“这是一个张量处理器,处理矩阵操作的指令。”Khosrowshahi解释说。“所以指令集是矩阵1乘以矩阵2,通过一个查找表,而且这些大指令都是高级别的。”

“在GPU中,它是一个个的寄存器,移入另一个寄存器,做逐个元素的乘法,这是相当低级别的。”

不过Khosrowshahi表示,Nvidia近年来努力让他们的GPU更适合于神经网络,他们的人工智能芯片仍然具有大量图形功能。

“作为一家芯片厂商,我可以看出为什么这对Nvidia来说很困难,”Khosrowshahi说。

另一方面,英特尔通过收购一步步接近人工智能。

“推出一个全新的价格,这在芯片行业是一大挑战;英特尔的方式就是收购。他们收购了FPGA,所以又收购了Altera,Altera是一个非常酷的架构,专注于神经网络,所以FPGA架构对于神经网络来说是非常有趣的……当然,Nervana芯片很大程度上也是一个专注于引擎的神经网络,但是稍微脱离出神经网络一些。”

当谈到神经网络时,Khosrowshahi认为考虑在硅芯片中做蚀刻神经网络是错误的,因为其中很多功能仍然是在软件方面的。

“很多功能都是在软件的,所以即使开发了Lake Crest,针对Lake Crest的指令也不是‘神经网络,这么做’,而是这个矩阵乘以这个矩阵。”

“除了芯片之外,还有一些软件知道这是神经网络,这是训练,用户寻找不同的东西并搜索参数——当你有了神经网络系统的时候这些都是你要做的事情。”

在神经科学的大背景下,Khosrowshahi认为人工智能的重点不是重建人脑,而是超越人脑。

“人脑就是人工智能的一个例子,但这是相当有限的人工智能,我的视觉系统看到了物理世界,它知道去了解世界的统计数据。”

“如果你环顾四周,你能看到很多边缘、很多表面、阴影区等等,如果你看看大脑……主要是视觉皮层,有对这些特征敏感的神经元,所以你的人工智能了解这个世界的统计数据,并且能够对此进行推论——就像是这个杯子快要打碎,我接住了这个杯子。”

但是企业内的数据与人类互动的数据大不相同,Khosrowshahi说。

“这个统计数据是非常不直观的,所以让人工智能处理这些数据是另外一种智能了。”

“这试图向人们解释这一点,因为他们认为我们正在创造一个大脑,我们想做的超越了这一点,我们希望创造一种新的人工智能,可以理解企业、医疗等所有领域的数据统计,这些数据本质上与现实世界中的截然不同。

英特尔人工智能架构的竞争对手之一是Google定制的Tensor Processing Unit,本周Google称这种架构笔当前的GPU和CPU快15-30倍,功效高30-80倍。

本周,IBM和Nvidia也宣布IBM将从5月开始在IBM Cloud中提供Tesla的P100。


原文发布时间为:2017年4月7日

本文作者:杨昀煦 

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
人工智能 自动驾驶 编译器
英伟达发布 Hopper H100 新架构芯片:面向 AI、自动驾驶汽车及 Metaverse 领域
英伟达发布 Hopper H100 新架构芯片:面向 AI、自动驾驶汽车及 Metaverse 领域
761 0
英伟达发布 Hopper H100 新架构芯片:面向 AI、自动驾驶汽车及 Metaverse 领域
|
算法 网络协议 编译器
2022年中国研究生数学建模竞赛D题参考代码及思路-PISA架构芯片资源排布问题
2022年中国研究生数学建模竞赛D题参考代码及思路-PISA架构芯片资源排布问题
2022年中国研究生数学建模竞赛D题参考代码及思路-PISA架构芯片资源排布问题
|
3月前
|
存储 监控 安全
芯片DFX:Coresight架构
芯片DFX:Coresight架构
62 0
|
3月前
|
安全 物联网 数据安全/隐私保护
智能终端信息安全概念(八):硬件安全技术—芯片自主化与安全硬件架构
智能终端信息安全概念(八):硬件安全技术—芯片自主化与安全硬件架构
35 0
|
5月前
|
机器学习/深度学习 人工智能 搜索推荐
软件测试/人工智能|一文告诉你ChatGPT原理与架构
软件测试/人工智能|一文告诉你ChatGPT原理与架构
80 1
|
9月前
|
供应链 芯片
平头哥芯片采用的RISC-V架构
平头哥芯片采用的RISC-V架构
267 1
|
11月前
|
机器学习/深度学习 人工智能 运维
《云原生架构容器&微服务优秀案例集》——01 互联网——任意门 基于云原生 AI 套件打造人工智能的社交网络平台
《云原生架构容器&微服务优秀案例集》——01 互联网——任意门 基于云原生 AI 套件打造人工智能的社交网络平台
301 0
|
11月前
|
存储 机器学习/深度学习 人工智能
ISSCC 2022 | 兼顾能效、精度和灵活性,可重构数字存算一体架构打开高算力AI芯片新范式
ISSCC 2022 | 兼顾能效、精度和灵活性,可重构数字存算一体架构打开高算力AI芯片新范式
408 0
|
12月前
|
弹性计算 Cloud Native Android开发
阿里云服务器ARM架构c8y、g8y和r8y采用倚天710芯片
阿里云服务器ARM架构c8y、g8y和r8y采用倚天710芯片,阿里云自研CPU处理器倚天Yitian 710,2.75 GHz主频,搭载倚天710处理器的云服务器ECS有计算型c8y、通用型g8y和内存型r8y,云服务器吧分享阿里云自研CPU处理器倚天Yitian 710性能测评:
385 0
|
12月前
|
弹性计算 Cloud Native Android开发
阿里云服务器ARM架构CPU处理器倚天Yitian 710芯片
阿里云服务器ARM架构CPU处理器倚天Yitian 710芯片,阿里云自研CPU处理器倚天Yitian 710,2.75 GHz主频,搭载倚天710处理器的云服务器ECS有计算型c8y、通用型g8y和内存型r8y,云服务器吧分享阿里云自研CPU处理器倚天Yitian 710性能测评:
296 0

热门文章

最新文章