立足日本实施大动作,英特尔凭借“Chainer”AI代码项目向GPU开火

简介:

立足日本实施大动作,英特尔凭借“Chainer”AI代码项目向GPU开火

AI日活动于东京举行,现场还进行了一场真人版马里奥赛车竞赛。

不知道大家是否曾听说过“Chainer”这一用于创建神经网络的开源框架方案?

我个人直到昨天才有所耳闻,英特尔方面对此给予有力支持,使得此项目从母公司Preferred Networks的内部秘密成果真正转化为举世皆知的方案。

Chainer也确实由此才正式进入公众视野:这一诞生于2015年的项目于去年转向开源,尽管其GitHub代码库非常活跃,但却并没能引起业界的应有重视。

不过这种情况即使发生改变。英特尔公司决定将Chainer作为一种理想的AI工作负载开发途径,并以此为基础促进自家芯片的市场需求量。在双方的努力之下,Chainer将能够更为顺畅地同至强处理器进行协作,而不再像过去那样仅可对接英伟达GPU。英特尔与Preferred之间的合作关系意味着Chainer如今已经被正式纳入英特尔的技术架构,并转而由英特尔为该项目打造的GitHub代码库进行公布。

我们为什么有必要关于英特尔方面对Chainer的支持态度?

在纯技术层面看,双方应该能够建立起良好合作。Chainer CEO Toru Nishikawa昨天现身英特尔公司于东京举办的AI日活动,并通过一系列幻灯片演示表明谷歌的TensorFlow的图片净分类训练速度与其相比就像是儿童玩具。Nishikawa先生同时指出,Chainer最近已经被引入至Amazon.com的一项测试当中,用以训练机器人进行货品分捡。

立足日本实施大动作,英特尔凭借“Chainer”AI代码项目向GPU开火

对于有意进军神经网络的朋友而言,对此视而不见显然相当不明智。

除此之外,Chainer的加盟亦显示出英特尔公司建立市场并证明自身在人工智能市场扮演领导者角色的勃勃雄心。毫无疑问,目前技术业界普遍认为这一领域正处于繁荣的黄金时期。

另外,必须承认这一市场目前正由GPU所主导。因此,英特尔公司希望能够建立起一整套产品组合,用以确保至强能够在AI领域作为支柱存在——而非被GPU抢了风头。

然而,英特尔对AI作出的定义仍然相当务实。Nervana公司前任CTO、现任英特尔AI部门负责人Amir Khosrowshahi更倾向于将AI描述为一种对于事件 进行密切观察以实现深度统计分析的方案,旨在帮助用户以令人满意的精度推断可能出现的各类结果。

现代硬件能够完成相关分析任务,并将收集到的庞大数据进行关联从而使分析结果具备现实意义,但在此背后需要强大的资源作为支持。专用硬件将加快整个执行流程,而这正是英特尔公司目前的主要思路,即通过构建及/或购买硬件并构建软件生态系统与之相匹配。

事实上,这样的状况早在虚拟化领域就曾经出现。当时英特尔公司曾在为其芯片提供扩展方案,从而确保其能够拥有出色的多虚拟机托管能力。芯片巨头亦曾引入Lustre与HDFS文件系统,旨在帮助运行有Lustre的高性能计算集群得以运行依赖于HDFS的Hadoop。英特尔公司在这一领域最终取得了成功:其投资于Hadoop供应商Cloudera,并帮助众多高性能计算客户利用英特尔芯片顺利完成了相关处理工作。另外,英特尔公司还针对消费者常用的视频转码工作负载进行CPU优化,意味着高清家庭录影内容将不必消耗一整晚才能渲染完成——这亦成为消费者们采购新电脑的重要理由之一。

英特尔目前正在AI领域采取同样的举措。收购现场可编程门阵列(简称FPGA)厂商Altera公司意味着英特尔能够利用其技术构建混合型至强处理器,从而提供集成化可编程能力,最终确保定制化版本能够在特定分析层面提供远超普通至强版本的速度优势。Altera公司目前正在致力于为FPGA开发代码,这意味着相关工作将由这批专家的嵌入式系统工程师负责进行——而非被强加给普通Java开发人员。

英特尔公司FPGA设计软件与知识产权营销与规划负责人Bernhard Friebe表示,英特尔方面正在为通用型AI任务开发代码库,并通过向公开发布并提供构建工具的方式帮助开发人员轻松编写出适用于FPGA的代码内容。

收购Nervana公司意味着英特尔将拥有专门面向AI领域的芯片方案,而这恰好能够满足大多数软件开发者的切实需求。

两家公司亦为英特尔带来了众多可潜在引入至强处理器的技术成果,这将最终使得至强这一服务器领域的主宰级品牌拥有更强大的AI类数据处理能力。

此类产品将于2017年晚些时候正式推出,届时“Lake Crest”一代至强处理器将加入面向AI工作负载的AI加速机制。而代号为Knights Crest的FPGA联协式Skylake至强处理器亦将于同年晚些时候出现。英特尔公司目前并未公布相关细节信息,但二者皆将采用专有的芯片间链接并立足于一套名为“Flexpoint”的新架构以提高其并行能力。作为早期产品,二者皆承诺提供10倍于当前的并发能力。到2020年,英特尔公司承诺将把AI模型的训练时长缩短到目前的百分之一。

不过其中的关键是向至强处理器当中添加AI功能,这意味着英特尔必须通过主流用户们所熟知的工具包保证开发平台的无缝化转移,即最终摆脱对GPU的高度依赖。而面向Chainer以及其它多个软件项目的大力投资亦证明,目前开发者们实际并不会将CPU作为AI开发的首选平台。

英特尔公司“加速器工作小组”总经理Barry Davis在接受采访时表示,英特尔方面将于2018年下半年推出“Knight’s Mill”,即面向AI进行优化的下一代至强Phi协处理器。关于该产品的细节信息尚不明确,但英特尔方面证实称其将能够对接高达400 GB内存容量,远超当前的CPU产品。

在至强家族全面进行AI优化之后,可观的市场占有率将令用户很难对其视而不见。以至强Phi与基于FPGA之至强版本为代表的各类特殊产品亦将运行在云端,意味着用户能够在无需承担前期资本支出的情况下对其进行试用。

随着AI相关芯片方案的快速发展成熟,Chainer亦将拥有约三年的英特尔硬件运行经验,这很可能进一步促成英特尔方面掌握更理想的技术支持能力。

虽然这并不代表我们在考虑进军AI领域时优先考虑英特尔生态系统,但将Chainer引入英特尔储备体系的举措还仅仅是芯片巨头的实际措施之一。除此之外,英特尔还将投入巨资进行技术收购、以开源方式为相关项目带来巨大推动力,同时为服务器制造商提供更多引导性政策。

结合这一切,英特尔将最终建立起一整套“供应商在考虑涉足AI”时所很难忽视的重要生态系统。

当然,市场绝不会静止不动而坐视英特尔逐步完成积累。但很明显,芯片巨头有信心在面对任何竞争对手时继续保持自身统治地位。

不过在这方面,英特尔公司也曾经折戟沉沙。英特尔曾经在移动领域亦占据领先地位,并一味坚持自身思路最终导致其几乎被ARM彻底挤出这一市场。

Barry Davis认为英特尔公司已经找到失败的原因:根据各历史版本来看,ARM方面一直希望从网络边缘起步,并最终渗透至数据中心之内。而在移动领域,英特尔公司则试图重复PC领域的成功途径。在英特尔公司的各位高管人士看来,ARM虽然在AI领域同样会带来一定威胁,但其在数据中心领域还未能成为一股重要力量,意味着其很难解决满足企业及开发人员之生态系统需求所带来的严峻挑战。

当然,出于英特尔公司的立场,这样的结论完全不会令人意外。要找到问题的真正答案,也许我们还需要立足于这套负责密切观察事件并进行深度统计分析的系统,了解其是否能够真正带来精度令人满意的推理结果。


原文发布时间为:2017年4月10日

本文作者:杨昀煦 

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
6天前
|
机器学习/深度学习 人工智能 算法
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。
32 4
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
|
4天前
|
人工智能 小程序 API
【一步步开发AI运动小程序】十七、如何识别用户上传视频中的人体、运动、动作、姿态?
【云智AI运动识别小程序插件】提供人体、运动、姿态检测的AI能力,支持本地原生识别,无需后台服务,具有速度快、体验好、易集成等优点。本文介绍如何使用该插件实现用户上传视频的运动识别,包括视频解码抽帧和人体识别的实现方法。
|
17天前
|
数据采集 人工智能 小程序
【一步步开发AI运动小程序】十、姿态动作相似度比较
本文介绍如何利用“云智AI运动识别小程序插件”开发AI运动小程序,重点讲解姿态动作相似度比较功能的运用,包括样本动作帧的采集和姿态相似度的计算方法,以及在组合运动中的应用实例。
|
23天前
|
机器学习/深度学习 人工智能 缓存
【AI系统】GPU 基础
GPU,即图形处理器,是计算机系统中处理图形和图像的核心组件,从早期的简单图形加速到如今的高性能计算和深度学习加速,GPU 经历了显著的技术革新。本文将介绍 GPU 的发展历程、与 CPU 的区别、在 AI 领域的关键作用及其在游戏、消费电子、自动驾驶等多个领域的广泛应用。
37 4
|
23天前
|
人工智能 并行计算 流计算
【AI系统】GPU 架构与 CUDA 关系
本文介绍了英伟达GPU硬件基础概念,重点解析了A100 GPU架构中的GPC、TPC、SM等组件及其功能。接着深入讲解了CUDA并行计算平台和编程模型,特别是CUDA线程层次结构。最后,文章探讨了如何根据CUDA核心数量、核心频率等因素计算GPU的算力峰值,这对于评估大模型训练的算力需求至关重要。
46 2
|
23天前
|
机器学习/深度学习 存储 人工智能
【AI系统】为什么 GPU 适用于 AI
本文探讨了GPU在AI计算中的应用,从卷积计算的基本原理入手,解析了GPU线程分级与AI计算模式的关系,以及矩阵乘法如何通过GPU编程提升算力利用率。文章还介绍了计算强度的概念,分析了不同数据结构对计算强度的影响,以及GPU中Tensor Core的作用,强调了在不同存储位置下,找到计算强度与矩阵大小的最佳平衡点对AI计算系统优化的重要性。
60 2
|
23天前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】GPU 架构回顾(从2010年-2017年)
自1999年英伟达发明GPU以来,其技术不断革新。本文概述了从2010年至2024年间,英伟达GPU的九代架构演变,包括费米、开普勒、麦克斯韦、帕斯卡、伏特、图灵、安培、赫柏和布莱克韦尔。这些架构不仅在游戏性能上取得显著提升,还在AI、HPC、自动驾驶等领域发挥了重要作用。CUDA平台的持续发展,以及Tensor Core、NVLink等技术的迭代,巩固了英伟达在计算领域的领导地位。
37 1
|
25天前
|
机器学习/深度学习 人工智能 自动驾驶
现在是投资实施Agentic AI的最佳时机吗?
现在是投资实施Agentic AI的最佳时机吗?
|
23天前
|
机器学习/深度学习 人工智能 缓存
【AI系统】GPU 架构回顾(从2018年-2024年)
2018年发布的Turing图灵架构,采用12nm工艺,包含18.6亿个晶体管,大幅提升了PC游戏、专业图形应用及深度学习推理的效率与性能。Turing引入了RT Core和Tensor Core,分别用于实时光线追踪和加速深度学习计算,支持GDDR6内存,显著提升了数据传输速率和效率。此外,Turing架构还支持NVLink 2.0,增强了多GPU协同工作的能力,适用于复杂的图形渲染和深度学习任务。
46 0
【AI系统】GPU 架构回顾(从2018年-2024年)
|
23天前
|
存储 缓存 人工智能
【AI系统】GPU 工作原理
本文详细解析了AI计算体系中的GPU工作原理,重点介绍了GPU与CPU在架构上的差异,强调了GPU在并行计算方面的优势。文章通过$AX+Y$的例子,展示了GPU如何通过并行和并发提高计算效率,并深入探讨了GPU的缓存机制及线程原理,解释了GPU如何通过大量线程和Warp来掩盖延迟问题,实现高效计算。
70 0
下一篇
DataWorks