发力AI,英特尔欲借Nervana芯片挑战英伟达GPU

简介:

英特尔正在发力人工智能技术,试图在这一领域挑战领先者英伟达。近期收购的Nervana Systems将是英特尔开拓人工智能市场的先锋。

英特尔已公布了关于人工智能的计划,但至少有一块关键拼图尚未完成。

英特尔此前收购了Nervana Systems,并宣布将继续销售该公司的所有产品。这些产品面向高端应用,尤其是神经网络的训练。这一领域目前的领先者是英伟达。与此同时,英特尔收购Movidius的交易尚未完成,因此在计算机视觉和边缘网络方面还有很大的缺失需要填补。此外,英特尔还公布了多个人工智能软件产品、服务和合作项目。

在近期举行的英特尔人工智能活动上,Movidius CEO曾短暂露面。他没有透露,这笔交易将于何时完成以及障碍是什么。他表示:“我们期待加入英特尔大家庭。”他介绍了应用至汽车、无人机、安防摄像头和其他产品的低功耗芯片的计划。

即使这笔交易完成,英特尔也无法提供完整的人工智能产品。不过,毫无疑问这是英特尔的目标所在。

英特尔CEO科再奇(Brian Krzanich)在此次活动的主题演讲上表示:“人工智能将变革我们目前所知的大部分行业,因此我们希望成为人工智能领域可信赖的领导者和开发者。”

发力AI,英特尔欲借Nervana芯片挑战英伟达GPU

Nervana CEO及联合创始人奈文·拉奥(Naveen Rao)是此次活动上的明星。英特尔已经为Nervana的全系列产品大开绿灯,其中涉及处理器、板卡、系统、软件和人工智能云计算服务。

Nervana的加速处理器Lake Crest将于明年推出。据称在同样的能耗水平上,相对于目前的顶级图形处理器,这款产品在运行神经网络任务时将会有更好的性能。这款芯片将使用台积电的28纳米工艺制造。

拉奥首次展示了这款芯片从头开始设计的架构。这款芯片可以加速各类神经网络,例如谷歌TensorFlow框架。芯片由所谓的“处理集群”阵列构成,处理被称作“活动点”的简化数学运算。相对于浮点运算,这种方法所需的数据量更少,因此带来了10倍的性能提升。

Lake Crest利用私有的数据连接创造了规模更大、速度更快的集群,其拓扑结构为圆环形或其他形式。这帮助用户创造更大、更多元化的神经网络模型。这一数据连接中包含12个100Gbps的双向连接,其物理层基于28G的串并转换。

这一2.5D芯片搭载了32GB的HBM2内存,内存带宽为8Tbps。芯片中没有缓存,完全通过软件去管理片上存储。

英特尔并未透露这款产品的未来路线图,仅仅表示计划发布一个名为Knights Crest的版本。该版本将集成未来的至强处理器和Nervana加速处理器。预计这将会支持Nervana的集群。不过英特尔没有透露,这两大类型的芯片将如何以及何时实现整合。

拉奥表示,整合的版本将会有更强的性能,同时更易于编程。目前基于图形处理芯片(GPU)的加速处理器使编程变得更复杂,因为开发者要维护单独的GPU和CPU内存。

拉奥还表示,到2020年,英特尔将推出芯片,使神经网络训练的性能提高100倍。一名分析师表示,这一目标“极为激进”。毫无疑问,英特尔将迅速把这一架构转向更先进的制造工艺,与已经采用14纳米或16纳米FinFET工艺的GPU展开竞争。

最初的加速处理器需要通过PCI-E总线去连接主机。近期,英特尔决定更进一步,不仅提供应用,也提供云计算服务。

这款产品是英特尔大胆的一步。英特尔希望凭借这款产品取得相对于英伟达的技术优势。目前,后者的GPU芯片被广泛用于神经网络的训练。这是一项非常依赖于处理器的任务。百度等公司的研究人员表示,为了限制数据集的规模,他们往往要花几个月时间。

拉奥表示:“目前,艺术级的神经网络模型需要花几周到几个月时间去训练。”他指出,百度研究院使用的一个模型需要消耗百万万亿次运算。

科再奇则表示:“Nervana定位高端,给我们带来了深度学习最顶尖的性能。”

然而,这仍是一个规模较小的新兴市场。

英特尔数据中心集团总经理戴安·布莱恩特(Diane Bryant)指出,去年只有0.15%的服务器被专门用于神经网络训练。布莱恩特指出,英特尔收购人工智能云计算服务Saffron Technologies已吸引了终端用户。

4名研究员已同意加入Nervana的人工智能顾问委员会,帮助该公司芯片架构未来的发展。Nervana将研究多种方式去优化算法,简化神经网络模型,探索降精度运算的新方向,以及如何扩大芯片规模。

分析师则对英特尔拥抱非x86架构表示看好。

Moor Insights &Strategy总裁帕特里克·莫尔海德(Patrick Moorhead)表示:“如果去看看,他们如何迅速将Altera、Nervana、Phi、至强和其他所需的软件整合在一起,那么对英特尔这么大规模的公司而言,这令人印象深刻。目前的情况将取决于英特尔如何无错地执行。”

尽管没有针对人工智能进行优化,但英特尔仍然非常专注于至强Phi。这类多核x86芯片正被越来越多地用于超级计算机的加速处理器。

明年将推出的Knights Mill版本将可以支持最多400GB的主内存,远远超过当前GPU的16GB主内存。Knights Mill使用其中一个x86核心作为集成的主控制器,并支持多种精度的运算。

英特尔已开发了系统,使用最多128个当前Knights Landing版本的Phi芯片。英特尔并行计算实验室主任普拉迪普·杜贝(Pradeep Dubey)表示:“我们计划将芯片个数扩大至数百个,甚至数千个。”

在软件方面,英特尔明年初将发布并开源面向Nervana的图形编译器。英特尔也在优化运行在x86处理器之上的主流人工智能框架,包括在今年底之前推出TensorFlow的一个版本。用于深度学习的SDK将于1月份推出。

英特尔正在从多个方面去培育人工智能开发者社区。

英特尔与谷歌达成了广泛合作,优化基于x86处理器的云计算代码。英特尔宣布了为期5年、总额2500万美元的投资,与Broad Institute合作开发用于基因处理的工具和参考架构。英特尔还专门为Nervana架构创建了新的开发者社区,并启动了新的人工智能学生开发者项目。

本文转自d1net(转载)

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
1月前
|
人工智能 Cloud Native Java
书本大纲:从芯片、分布式到云计算AI时代
本文深入探讨并发编程、JVM原理、RPC框架、高并发系统、分布式架构及云原生技术,涵盖内存模型、同步机制、垃圾回收、网络协议、存储优化、弹性伸缩等核心议题,揭示多线程运行逻辑与高并发实现路径,助你掌握现代软件底层原理与工程实践。
87 6
|
5月前
|
人工智能 并行计算 Linux
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
斯坦福大学推出的FramePack技术通过压缩输入帧上下文长度,解决视频生成中的"遗忘"和"漂移"问题,仅需6GB显存即可在普通笔记本上实时生成高清视频。
1006 19
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
|
24天前
|
存储 人工智能 编解码
阿里云GPU云服务器深度评测:算力怪兽如何重塑AI与图形处理的未来?
在AI与高性能计算需求激增的今天,传统CPU已难满足“暴力计算”需求。阿里云GPU云服务器依托NVIDIA顶级显卡算力,结合专为GPU优化的神行工具包(DeepGPU),为深度学习、科学计算、图形渲染等领域提供高效、弹性的算力支持。本文全面解析其产品优势、工具链及六大真实应用场景,助你掌握AI时代的算力利器。
阿里云GPU云服务器深度评测:算力怪兽如何重塑AI与图形处理的未来?
|
2月前
|
人工智能 运维 Serverless
GPU 降成本免运维,睿观 AI 助手选择函数计算
从跨境电商 ERP 到“睿观 AI 助手”,阿里云函数计算的支持下,深圳三态股份利用 AI 技术快速完成专利、商标、版权等多维度的侵权风险全面扫描。结合函数计算实现弹性算力支持,降低成本并提升效率,实现业务的快速发展。
|
4月前
|
人工智能 并行计算 监控
在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南
本文详细介绍了在AMD硬件上构建大型语言模型(LLM)推理环境的全流程。以RX 7900XT为例,通过配置ROCm平台、部署Ollama及Open WebUI,实现高效本地化AI推理。尽管面临技术挑战,但凭借高性价比(如700欧元的RX 7900XT性能接近2200欧元的RTX 5090),AMD方案成为经济实用的选择。测试显示,不同规模模型的推理速度从9到74 tokens/秒不等,满足交互需求。随着ROCm不断完善,AMD生态将推动AI硬件多元化发展,为个人与小型组织提供低成本、低依赖的AI实践路径。
1477 1
在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南
|
6月前
|
人工智能 vr&ar 图形学
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
牛津大学与谷歌联合推出的Bolt3D技术,能在单个GPU上仅用6.25秒从单张或多张图像生成高质量3D场景,基于高斯溅射和几何多视角扩散模型,为游戏、VR/AR等领域带来革命性突破。
226 2
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
|
5月前
|
人工智能 自然语言处理 API
8.6K star!完全免费+本地运行+无需GPU,这款AI搜索聚合神器绝了!
FreeAskInternet是一款革命性的开源项目,它完美结合了多引擎搜索和智能语言模型,让你在不联网、不花钱、不暴露隐私的情况下,获得媲美ChatGPT的智能问答体验。这个项目最近在GitHub上狂揽8600+星,被开发者称为"本地版Perplexity"。
197 2
|
6月前
|
机器学习/深度学习 人工智能 物联网
MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定
MiniMind 是一个开源的超小型语言模型项目,帮助开发者以极低成本从零开始训练自己的语言模型,最小版本仅需25.8M参数,适合在普通个人GPU上快速训练。
1146 10
MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定
|
6月前
|
存储 人工智能 固态存储
轻量级AI革命:无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配部署指南
随着AI技术发展,大语言模型成为产业智能化的关键工具。DeepSeek系列模型以其创新架构和高效性能备受关注,其中R1-1.5B作为参数量最小的版本,适合资源受限场景。其部署仅需4核CPU、8GB RAM及15GB SSD,适用于移动对话、智能助手等任务。相比参数更大的R1-35B与R1-67B+,R1-1.5B成本低、效率高,支持数学计算、代码生成等多领域应用,是个人开发者和初创企业的理想选择。未来,DeepSeek有望推出更多小型化模型,拓展低资源设备的AI生态。
1141 8
|
6月前
|
机器学习/深度学习 人工智能 并行计算
弹性算力革命:企业级GPU云服务如何重构AI与图形处理的效能边界
企业级GPU云服务基于云计算技术,为企业提供强大的GPU资源,无需自购硬件。它广泛应用于人工智能、大数据、3D建模、动画制作、GIS及医疗影像等领域,加速深度学习训练、图形处理和科学计算,提升效率并降低成本。企业可按需获取计算资源,灵活应对业务高峰,优化成本结构,推动业务发展。
105 1

热门文章

最新文章