英特尔AI CTO:人工智能训练需要新型芯片架构

简介:

英特尔人工智能产品集团新上任的首席技术官Amir Khosrowshahi表示,当你使用GPU水平较低的时候,业界需要新架构用于神经网络的理由就愈加明显了。

Khosrowshahi此前是Nervana System公司的共同创始人兼首席技术官,该公司在去年8月被英特尔收购,金额未对外公布。Nervana的技术迅速成为英特尔人工智能计划的核心。

Khosrowshahi详细介绍了Nervana公司是如何使用GPU的,因为“这是最先进的技术”,Nervana用它自己的汇编器取代了标准的Nvidia汇编器,因为这被Nervana视为可以生成“次优”指令。

“我们在公司发展初期是这么做的,部分是为了我们自己的发展,但后来我们意识到它比Nvidia的库要快2-3倍,所以我们将其作为开源发布了。”

Nervana的努力并没有止步于软件方面,它还创造了自己的硅芯片瞄准神经网络训练。

“神经网络是一系列预定的操作,它不像是用户与系统的交互,它是一组可以被描述为数据流图表的指令。”

据Khosrowshahi称,一些功能有助于图形处理单元执行图形渲染工作——如大量缓存,处理节点,渲染——都是多余的。

“GPU中有很多电路,这对于机器学习来说并不是必需的,随着时间推移有很多东西堆积起来。”

“你并不需要电路,这些电路在芯片中占很大比例,而且能源利用成本也很高。”

“神经网络非常简单,它是很少的矩阵乘法和非线性,你可以直接搭建硅芯片来实现。你可以搭建硅芯片专用于神经网络架构,GPU却不是这样的。”

Khosrowshahi给出的答案是正在开发的Lake Crest,英特尔将在今年向选定客户推出这个独立的加速器,随着时间的推移,它还将更紧密地与至强处理器捆绑在一起。

“这是一个张量处理器,处理矩阵操作的指令。”Khosrowshahi解释说。“所以指令集是矩阵1乘以矩阵2,通过一个查找表,而且这些大指令都是高级别的。”

“在GPU中,它是一个个的寄存器,移入另一个寄存器,做逐个元素的乘法,这是相当低级别的。”

不过Khosrowshahi表示,Nvidia近年来努力让他们的GPU更适合于神经网络,他们的人工智能芯片仍然具有大量图形功能。

“作为一家芯片厂商,我可以看出为什么这对Nvidia来说很困难,”Khosrowshahi说。

另一方面,英特尔通过收购一步步接近人工智能。

“推出一个全新的价格,这在芯片行业是一大挑战;英特尔的方式就是收购。他们收购了FPGA,所以又收购了Altera,Altera是一个非常酷的架构,专注于神经网络,所以FPGA架构对于神经网络来说是非常有趣的……当然,Nervana芯片很大程度上也是一个专注于引擎的神经网络,但是稍微脱离出神经网络一些。”

当谈到神经网络时,Khosrowshahi认为考虑在硅芯片中做蚀刻神经网络是错误的,因为其中很多功能仍然是在软件方面的。

“很多功能都是在软件的,所以即使开发了Lake Crest,针对Lake Crest的指令也不是‘神经网络,这么做’,而是这个矩阵乘以这个矩阵。”

“除了芯片之外,还有一些软件知道这是神经网络,这是训练,用户寻找不同的东西并搜索参数——当你有了神经网络系统的时候这些都是你要做的事情。”

在神经科学的大背景下,Khosrowshahi认为人工智能的重点不是重建人脑,而是超越人脑。

“人脑就是人工智能的一个例子,但这是相当有限的人工智能,我的视觉系统看到了物理世界,它知道去了解世界的统计数据。”

“如果你环顾四周,你能看到很多边缘、很多表面、阴影区等等,如果你看看大脑……主要是视觉皮层,有对这些特征敏感的神经元,所以你的人工智能了解这个世界的统计数据,并且能够对此进行推论——就像是这个杯子快要打碎,我接住了这个杯子。”

但是企业内的数据与人类互动的数据大不相同,Khosrowshahi说。

“这个统计数据是非常不直观的,所以让人工智能处理这些数据是另外一种智能了。”

“这试图向人们解释这一点,因为他们认为我们正在创造一个大脑,我们想做的超越了这一点,我们希望创造一种新的人工智能,可以理解企业、医疗等所有领域的数据统计,这些数据本质上与现实世界中的截然不同。

英特尔人工智能架构的竞争对手之一是Google定制的Tensor Processing Unit,本周Google称这种架构笔当前的GPU和CPU快15-30倍,功效高30-80倍。

本周,IBM和Nvidia也宣布IBM将从5月开始在IBM Cloud中提供Tesla的P100。


原文发布时间为: 2017年4月7日

本文作者:杨昀煦 

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
14天前
|
机器学习/深度学习 人工智能
一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入一键生成时代
智源研究院推出OmniGen,一种全新的扩散模型,旨在克服现有图像生成模型的局限性。OmniGen能处理文本到图像、图像编辑等多任务,具备高效、简洁的架构,仅含VAE和预训练Transformer。通过大规模统一数据集X2I训练,OmniGen展现了强大的多任务处理能力和知识转移能力,适用于虚拟试穿、图像修复等多个领域。尽管如此,OmniGen在特定任务上的性能、训练资源需求及可解释性等方面仍面临挑战。
41468 20
|
23天前
|
人工智能 并行计算 程序员
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
63 12
|
19天前
|
机器学习/深度学习 人工智能 API
【AI系统】昇腾异构计算架构 CANN
本文介绍了昇腾 AI 异构计算架构 CANN,涵盖硬件层面的达·芬奇架构和软件层面的全栈支持,旨在提供高性能神经网络计算所需的硬件基础和软件环境。通过多层级架构,CANN 实现了高效的 AI 应用开发与性能优化,支持多种主流 AI 框架,并提供丰富的开发工具和接口,助力开发者快速构建和优化神经网络模型。
37 1
|
25天前
|
人工智能 atlas 开发工具
【AI系统】昇腾 AI 架构介绍
昇腾计算产业基于华为昇腾系列处理器,涵盖硬件、基础软件、应用使能等,构建全栈AI计算基础设施。华为通过开放硬件、开源软件,支持多框架,推动AI技术在端、边、云的广泛应用,促进AI产业生态繁荣。
53 1
|
2月前
|
存储 消息中间件 人工智能
ApsaraMQ Serverless 能力再升级,事件驱动架构赋能 AI 应用
本文整理自2024年云栖大会阿里云智能集团高级技术专家金吉祥的演讲《ApsaraMQ Serverless 能力再升级,事件驱动架构赋能 AI 应用》。
148 10
|
3月前
|
人工智能 网络协议 Shell
内网穿透实现公网访问自己搭建的Ollma架构的AI服务器
内网穿透实现公网访问自己搭建的Ollma架构的AI服务器
92 1
|
3月前
|
人工智能 网络协议 Shell
内网穿透实现公网访问自己搭建的Ollma架构的AI服务器
内网穿透实现公网访问自己搭建的Ollma架构的AI服务器
83 0
内网穿透实现公网访问自己搭建的Ollma架构的AI服务器
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI人工智能大模型的架构演进
随着深度学习的发展,AI大模型(Large Language Models, LLMs)在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进,包括从Transformer的提出到GPT、BERT、T5等模型的历史演变,并探讨这些模型的技术细节及其在现代人工智能中的核心作用。
201 9
|
2月前
|
机器学习/深度学习 人工智能
【AI大模型】深入Transformer架构:编码器部分的实现与解析(下)
【AI大模型】深入Transformer架构:编码器部分的实现与解析(下)
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)