AI 战略剑指GPU,英特尔Nervana 平台将推首款深度学习芯片

简介:

2016年11月17日,英特尔公司宣布推出一系列涵盖从前端到数据中心的全新产品、技术及相关投资计划,旨在拓展人工智能(AI)的发展空间并加速其发展速度。


英特尔首席执行官科再奇近期分享了英特尔对人工智能的前景及复杂性的洞察,他指出,人工智能需要众多的领先技术的支撑,以及一个可超出初期采用者范围的更大规模的生态系统。随着目前的算法日益复杂以及所需数据集的不断增加,科再奇表示,英特尔深刻知道如何满足需求且完全有能力提供所需的技术来驱动这一计算转型。




战略要点:英特尔® Nervana™ 平台


英特尔宣布将推出业内最全面的人工智能产品组合——英特尔® Nervana™ 平台。该产品组合旨在提高人工智能应用的速度和易用性,是构建高度优化的人工智能解决方案的绝佳基础,可帮助更多的数据专家在基于行业标准的技术上解决世界上最大的挑战。


目前,从已有的资料可知,在深度学习上,英特尔与Nervana首先会推出一个名为Nervana Graph(ngraph)的深度学习开放框架开发库。目前在Github上可获取的预览版包含三个部分:


  1. 一个用于创建计算 ngraphs 的API。

  1. 两个更高水平的前端API(TensorFlow 和 Neon),可在常用的深度学习工作流(workflows)上利用ngraph API。

  1. 一个用于转换的API,用于编译这些图形,并在GPU和CPU上执行。


Nervana官方网站介绍说,Theano 和 TensorFlow 计算图要求使用者在创建图形的同时要推论潜在的向量形状。这相当枯燥,并且容易出错。另外,这种方法还会削弱一个编译器重新排列坐标轴和与特定的硬件平台相匹配的能力。


ngraph的一个原理,就是能在一个足够高的抽象层中运行,其中转化器能在不需要一个“足够高效的智能编译器”的情况下执行命令,同时也能允许用户和前端更加容易地把这些块(block)组合在一起。


2017年上半年测试首款深度学习芯片(代号Lake Crest)


据介绍,当前,英特尔支持着世界上97%的运行着人工智能工作负载的数据中心服务器,同时提供最为灵活、性能最优化的解决方案产品组合,其中包括英特尔®至强®处理器、英特尔®至强融核™ 处理器、为工作负载优化的加速器如FPGA以及从Nervana收购的技术创新。

 

昨天,英特尔还公布了如何将Nervana的突破性技术集成至现有产品路线图的更多细节。英特尔将于2017年上半年测试第一款芯片(代号为Lake Crest),并在下半年向主要客户发售。此外,英特尔还在路线图中增加了一款新产品(代号为Knights Crest),它将紧密集成最高配置的英特尔至强处理器与Nervana创新技术。此外,Lake Crest处理器专门针对神经网络进行了优化,可为深度学习提供极高性能,并可通过高速互连网络提供前所未有的计算密度。

 

“我们期待英特尔Nervana 平台能够带来突破瓶颈的性能优势,从而大幅缩短训练复杂神经网络所需的时间”,英特尔执行副总裁兼数据中心事业部总经理柏安娜女士表示:“英特尔有望在未来十年内将性能提高100倍,从而大大加快新兴深度学习领域的创新步伐。”


下一代深度学习至强融合处理器:深度学习性能提高4倍


柏安娜女士还宣布,相较于前一代处理器,下一代英特尔至强融核处理器(代号为KnightsMill)的深度学习性能可提高4倍,计划于2017年上市。此外,英特尔宣布现已向特定云服务提供商合作伙伴提供下一代英特尔至强处理器(代号为Skylake)的初级版本,该处理器采用了英特尔高级矢量指令集AVX-512集成加速技术,将极大增强机器学习工作负载的推理性能。该平台系列预计于2017年中旬发布,届时还会增加其他增强功能和配置,以全面满足不同客户群体的需求。


除了芯片级的创新之外,英特尔还披露了其他人工智能布局,包括专为客户提供业务洞察而打造的解决方案方案——英特尔Saffron Technology™。Saffron平台采用了基于内存的推理技术和异构数据透明化分析方法,该技术非常适用于小型设备,可在物联网环境中实现本地智能分析并帮助推动先进的人工智能协作发展。

 

为简化人工智能的部署,英特尔还推出了通用智能API,可支持从边缘到云平台的英特尔分布式处理器产品组合,以及英特尔®实感™ 摄像头和 Movidius 视觉处理单元(VPU)。 


英特尔Nervana人工智能委员会,Bengio成为创始会员


此外,英特尔和谷歌正式宣布双方建立战略联盟,旨在帮助企业IT部门根据业务需求构建开放、灵活、安全的多云基础设施。双方合作包括专注于Kubernetes*(容器)、机器学习、安全和物联网的技术集成。

 

为进一步推动人工智能研究和战略实施,英特尔还宣布成立英特尔Nervana 人工智能委员会,主要由业界和学术界的领先思想领袖组成。英特尔公布了四名创始会员分别为来自加拿大蒙特利尔大学的约舒阿·本希奥(Yoshua Bengio)、来自加州大学伯克利分校的鲁诺·奥尔斯豪森(Bruno Olshausen)和拉贝艾(Jan Rabaey)以及来自斯坦福大学 Ron Dror。

 

英特尔还将不遗余力推动人工智能的真正普及。为此,英特尔向广大开发者推出了英特尔Nervana人工智能学院,以方便其接受相关培训和使用工具。英特尔还推出了英特尔Nervana图形编译器来加速英特尔芯片中的深度学习框架的发展。

 

除了人工智能学院,英特尔还宣布与Coursera合作,为学术社区提供一系列人工智能在线课程。英特尔还将与Mobile ODT联合主办Kaggle 竞赛活动(预计于2017年1月份开展)。


跨平台深度学习开放框架 Nervana graph 的详细介绍


2016年8月9日,英特尔宣布收购深度学习初创公司 Nervana Systems,交易金额约为 4.08 亿美元。Nervana 由原高通神经网络研发负责人于 2014 年创建,拥有目前最快的深度学习框架 neon。3个月周后,英特尔与Nervana终于开始在深度学习上发力,推出跨平台高性能深度学习开放框架开发库ngraph。本文是Nervana官网上对ngraph所包含的API内容、原理和性能介绍。


下文作者为Nervana 算法团队成员Jason knight,由新智元编译。


基于我们多年以来维护最快速的深度学习库上的经验,以及一年以来在以图形为基础的设计上的迭代,我们现在希望分享预览版的 Nervana Graph(ngraph),本次发布包含三个部分:


  1. 一个用于创建计算 ngraphs 的API。

  1. 两个更高水平的前端API(TensorFlow 和 Neon),可在常用的深度学习工作流(workflows)上利用ngraph API。

  1. 一个用于转换的API,用于编译这些图形,并在GPU和CPU上执行。



与Theano和TensorFlow的对比


Theano 和 TensorFlow 计算图要求使用者在创建图形的同时要推论潜在的向量形状。这相当枯燥,并且容易出错。另外,这种方法还会削弱一个编译器重新排列坐标轴,与特定的硬件平台相匹配的能力。


相反,ngraph API 能让用户定义一系列的命名轴,在图形的绘制过程中,把这些轴添加到张量上,并在有需要的时候,通过此前的命名(而不是位置)对它们进行分类。这些轴能够根据特定的问题领域进行命名,来帮助用户解决具体任务。


这种灵活性进而将允许转化器在执行命令之前,对必要的重塑或重组进行推断。另外,这些推断的张量轴排序随后在整个计算图上会被进行优化,用于对潜在的运行时间和硬件平台的推断进行排序,来在本地对Cache 和运行时间或执行时间进行优化。


这些能力突出了ngraph的一个原理,就是能在一个足够高的抽象层中运行,其中转化器能在不需要一个“足够高效的智能编译器”的情况下执行命令,同时也能允许用户和前端更加容易地把这些块(block)组合在一起。


前端


绝大多数应用和用户并不需要ngraph API 所提供的全部的灵活性,所以我们还推出了一个更高水平的neon API,它会给用户提供一个可组合的接口,另外还有多个常用的构建模块,用于搭建深度学习模型。其中包括东西的有:常用的优化器、权值以及层类型,比如线性、批处理规范、卷积和RNN。


我们还用在MNIST数字、CIFAR-10图像和 Penn Treebank 文本语料库上训练神经网络的例子,呈现具体的使用。


下一代neon深度学习API,加上ngraph后端机械,最终将取代我们当前的neon库,同时仍然提供与此前一样领先世界的性能,以及广泛的开放模型目录。当性能,稳定性,可用模型和工具匹配当前可用的模型时,我们将进行此转换。预计这将在未来几个月内实现。


我们还意识到,用户现在已经知道并使用现有框架,并且可能希望继续使用/组合在其他框架中编写的模型。为此,我们演示了将现有TensorFlow模型转换为ngraph的能力,并使用ngraph转换器执行它们。这个输入者(importer)支持今天的各种常见操作类型,并将在未来版本中得到扩展。我们还计划在不久的将来实现与其他框架的兼容,敬请关注。


此外,我们希望强调,因为ngraph提供了深度学习计算和多个高性能后端的核心构建块,所以添加前端是一个简单的事情,对后端(或新后端)的改进自动利用所有现有和未来的前端。因此,用户可以继续使用他们喜欢的语法,同时受益于共享编译机制。


转换器

考虑到现有技术模型都要使用数百万甚至数十亿的参数和数周的训练时间,所以确保模型以最小的内存消耗快速执行是至关重要的。鉴于我们建立和维护最快的深度学习库的经验,我们对现代深度学习的复杂性感到庆幸:


  • 内核融合/复合 

  • 高效缓冲区分配 

  • 训练与推理优化

  • 异构后端 

  • 分布式培训

  • 多个数据布局

  • 新硬件提升(例如:Nervana Silicon Technology)


考虑到这些现实情况,我们设计了ngraph转换器,通过干净的API,把从前端获得的细节进行自动化和抽象,在允许强大的用户空间同时调整所有事物的情况下,但又不限制模型创建过程中抽象的灵活性。 


在ngraph中,我们相信实现这些目标的关键在于站在巨人的肩膀上,吸取现代编译器设计的经验。在选择编译器优化的设置和顺序时,用于转换器时,可以提高灵活性。


这些操作原则增加了我们工具的灵活性,同时降低了复杂性。这使得贡献者更容易添加后端代码以支持外来模型,而不需要理解或修改系统中其他地方做出的假设。


每个ngraph转换器(或LLVM术语中的后端)都针对特定的硬件后端,并且被当成是一个接口,来将一个ngraph编译到一个计算机中。用户会把其看成是一个函数句柄评估,来进行衡量。


今天,ngraph带有用于GPU和CPU执行的转换器,未来,我们计划采用异构设备转换器,支持分布式训练。


一个简单的例子



现状与下一步的工作


由于这是一个预览版本,我们有很多工作要做。


目前我们包括以下示例:


  • 使用MNIST和CIFAR-10的MLP网络。

  • 使用MNIST和CIFAR-10的CNN。

  • 使用Penn Treebank的基于字符的RNN。


在Nervana被英特尔收购之后,我们拥有一个快速增长的世界级专家团队,涵盖编译器,分布式系统,系统软件和深入学习等项目。我们正在积极努力:


1.几个性能方面的努力:


  • 关于融合/复用和存储器共享的进一步工作

  • 并发操作执行

  • 流水线数据加载 


    2. 图形序列化/反序列化。

    3. 进一步改进图形组合性的可用性/优化。

    4. 为更受欢迎的前端添加额外的支持。

    5. 分布式,异构后端目标支持。

    6. 具备互操作性的C API,用其他语言也能够创建/执行图形。

    7. 现代的,云原生模型部署策略

    8. 支持增强学习的网络架构前端


    文章转自新智元公众号,原文链接

    相关实践学习
    部署Stable Diffusion玩转AI绘画(GPU云服务器)
    本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
    相关文章
    |
    2天前
    |
    人工智能 数据可视化 JavaScript
    NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台
    NodeTool 是一个开源的 AI 工作流可视化构建器,通过拖放节点的方式设计复杂的工作流,无需编码即可快速原型设计和测试。它支持本地 GPU 运行 AI 模型,并与 Hugging Face、OpenAI 等平台集成,提供模型访问能力。
    35 14
    NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台
    |
    16天前
    |
    人工智能 自然语言处理 前端开发
    Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
    Lobe Vidol是一款开源的AI数字人交互平台,允许用户创建和互动自己的虚拟偶像。该平台提供流畅的对话体验、丰富的动作姿势库、优雅的用户界面设计以及多种技术支持,如文本到语音和语音到文本技术。Lobe Vidol适用于娱乐互动、在线教育、客户服务、品牌营销和社交媒体等多个应用场景。
    76 7
    Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
    |
    19天前
    |
    人工智能 并行计算 程序员
    【AI系统】SIMD & SIMT 与芯片架构
    本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
    61 12
    |
    16天前
    |
    人工智能 数据安全/隐私保护 数据中心
    “芯片围城”下国产AI要放缓?答案或截然相反
    12月2日,美国对华实施新一轮出口限制,将140余家中国企业列入贸易限制清单。对此,中国多个行业协会呼吁国内企业谨慎选择美国芯片。尽管受限企业表示影响有限,但此事件引发了关于AI领域芯片供应的担忧。华为云推出的昇腾AI云服务,提供全栈自主的算力解决方案,包括大规模算力集群、AI框架等,旨在应对AI算力需求,确保算力供给的稳定性和安全性,助力中国AI产业持续发展。
    |
    20天前
    |
    机器学习/深度学习 人工智能 自然语言处理
    揭秘AI:深度学习的奥秘与实践
    本文将深入浅出地探讨人工智能中的一个重要分支——深度学习。我们将从基础概念出发,逐步揭示深度学习的原理和工作机制。通过生动的比喻和实际代码示例,本文旨在帮助初学者理解并应用深度学习技术,开启AI之旅。
    |
    23天前
    |
    机器学习/深度学习 人工智能 缓存
    【AI系统】GPU 基础
    GPU,即图形处理器,是计算机系统中处理图形和图像的核心组件,从早期的简单图形加速到如今的高性能计算和深度学习加速,GPU 经历了显著的技术革新。本文将介绍 GPU 的发展历程、与 CPU 的区别、在 AI 领域的关键作用及其在游戏、消费电子、自动驾驶等多个领域的广泛应用。
    37 4
    |
    23天前
    |
    人工智能 并行计算 流计算
    【AI系统】GPU 架构与 CUDA 关系
    本文介绍了英伟达GPU硬件基础概念,重点解析了A100 GPU架构中的GPC、TPC、SM等组件及其功能。接着深入讲解了CUDA并行计算平台和编程模型,特别是CUDA线程层次结构。最后,文章探讨了如何根据CUDA核心数量、核心频率等因素计算GPU的算力峰值,这对于评估大模型训练的算力需求至关重要。
    46 2
    |
    23天前
    |
    机器学习/深度学习 存储 人工智能
    【AI系统】为什么 GPU 适用于 AI
    本文探讨了GPU在AI计算中的应用,从卷积计算的基本原理入手,解析了GPU线程分级与AI计算模式的关系,以及矩阵乘法如何通过GPU编程提升算力利用率。文章还介绍了计算强度的概念,分析了不同数据结构对计算强度的影响,以及GPU中Tensor Core的作用,强调了在不同存储位置下,找到计算强度与矩阵大小的最佳平衡点对AI计算系统优化的重要性。
    60 2
    |
    23天前
    |
    机器学习/深度学习 人工智能 并行计算
    【AI系统】GPU 架构回顾(从2010年-2017年)
    自1999年英伟达发明GPU以来,其技术不断革新。本文概述了从2010年至2024年间,英伟达GPU的九代架构演变,包括费米、开普勒、麦克斯韦、帕斯卡、伏特、图灵、安培、赫柏和布莱克韦尔。这些架构不仅在游戏性能上取得显著提升,还在AI、HPC、自动驾驶等领域发挥了重要作用。CUDA平台的持续发展,以及Tensor Core、NVLink等技术的迭代,巩固了英伟达在计算领域的领导地位。
    37 1
    |
    23天前
    |
    机器学习/深度学习 人工智能 缓存
    【AI系统】GPU 架构回顾(从2018年-2024年)
    2018年发布的Turing图灵架构,采用12nm工艺,包含18.6亿个晶体管,大幅提升了PC游戏、专业图形应用及深度学习推理的效率与性能。Turing引入了RT Core和Tensor Core,分别用于实时光线追踪和加速深度学习计算,支持GDDR6内存,显著提升了数据传输速率和效率。此外,Turing架构还支持NVLink 2.0,增强了多GPU协同工作的能力,适用于复杂的图形渲染和深度学习任务。
    46 0
    【AI系统】GPU 架构回顾(从2018年-2024年)
    下一篇
    DataWorks