全球首款7纳米GPU芯片问世,AMD抢发没给英伟达机会

简介: AMD今天公开展示了全球首款7纳米制程的GPU芯片原型,含有32GB的高带宽内存,专为人工智能和深度学习设计,用于工作站和服务器。

今天,AMD在Computex大会上揭幕了全球首款7纳米GPU。

这款名为Radeon Vega的GPU芯片原型,将为处理深度学习和人工智能任务添加新的优化,专为服务器和工作站设计。

Vega也将成为AMD专门加速机器学习的产品线AMD Instinct系列的一份子。不过,AMD首席执行官Lisa Su向游戏玩家保证,这一技术后续也将进入Radeon游戏显卡中。

dda1663bd5f423ead3b48eeefadcc9990b9a78a5

AMD首席执行官Lisa Su展示最新的7nm GPU

AMD并没有透露7nm Vega原型的具体规格,目前知道的是它由4个高带宽内存(HBM2)组成,总共达到32GB。Vega性能相比上一代节点(14纳米)性能提高35%,能效提高两倍,密度也翻了一番。

96e8e735cd9d52472583981faffa72601d73ab32

2017年7月,AMD CTO Mark Papermaster在接受媒体V3采访时表示,AMD转换到7纳米制程是近几代芯片设计最困难的路程,涉及使用新CAD工具及多项设计改变。7纳米的晶体管连接方法比较特殊,AMD必须与半导体厂更加密切的合作。

据悉,AMD目前正在挑选一些客户提供样片,并将于今年下半年正式发布Radeon Instinct Vega GPU。

AMD公司在Computex大会上做了一个展示,使用这款新的芯片进行Cinema 4D渲染任务。这将使其能够进入Nvidia CUDA目前占据的光线追踪市场。

d28af5d4236b1359248af32cf4eb7f328f5fe8be

AMD Radeon Vega GPU进行Cinema 4D渲染

GPU之争正从游戏走向人工智能

Radeon Instinct GPU专注于高端工作站和服务器,意味着AMD与Nvidia之间的GPU战斗,正在从游戏PC迁移到人工智能、机器学习和其他数学密集型应用程序

考虑到Nvidia目前还没有7纳米处理器(Volta为12纳米),这无疑代表AMD的一个胜利。就功率和性能效率而言,这是一个重大飞跃,对服务器和数据中心市场非常重要。

如果AMD确实在台式机、移动和服务器产品线上实现7纳米处理器的批量生产,那么这对英伟达以及英特尔来说都会构成极大威胁。

但是,考虑到7nm在晶圆厂的生产制作,从成本和产量上说,这片7nm GPU芯片的价格绝对不会便宜

虽然7nm原型的发布,表明Radeon Instinct系列取得了良好的进步,但AMD的粉丝,尤其是游戏玩家会感到失望。去年,AMD发布的Vega微架构(Vega 56和Vega 64),不仅没有达到虚高的预期,而且基于GPU的显卡也远远落在Nvidia顶级产品线的后面。

不过,AMD的RX570,RX580,Vega 56和Vega 64s,一直是加密货币矿工所选择的GPU,价格较为便宜,将AMD显卡推向了电脑零售商的货架。去年,比特币、Monero和其他加密货币价值飙升,让挖矿GPU的价格疯长,直到最近才有恢复正常的趋势。

AMD vs. 英特尔:高端CPU市场AMD暂时领先

另一方面,同样在Computex上,AMD还展示了Threadripper 2 CPU,有两种形式:一种提供28核和48线程,另一种顶配提供32核和64线程(尽后者基本时钟速度较低,为3GHz,同时需要能够提供高达250瓦功率的主板)。

有趣的是,英特尔昨天在Computex上发布了28核的Core i9工作站CPU,以及Core i7-8086K CPU。看AMD的数值,几乎是比着英特尔在干。

AMD预计在今年第三季度推出最新的Threadripper CPU。而英特尔未命名的28核处理器预计今年第四季度,所以AMD更早一步见到消费者。英特尔仍然拥有5 GHz处理器的优势,但目前还没有任何基准可以比较。

总之,在Computex大会上,AMD是满载而归,在与竞争对手的旷日长跑中,暂时拔得头筹。

ae546a2138967695289850ba472bd623f337be3e

原文发布时间为:2018-06-7本文作者:文强本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。原文链接: 全球首款7纳米GPU芯片问世,AMD抢发没给英伟达机会
相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
6月前
|
机器学习/深度学习 并行计算 PyTorch
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
本文记录了在RTX 5070 Ti上运行PyTorch时遇到的CUDA兼容性问题,分析其根源为预编译二进制文件不支持sm_120架构,并提出解决方案:使用PyTorch Nightly版本、更新CUDA工具包至12.8。通过清理环境并安装支持新架构的组件,成功解决兼容性问题。文章总结了深度学习环境中硬件与框架兼容性的关键策略,强调Nightly构建版本和环境一致性的重要性,为开发者提供参考。
2828 64
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
|
5月前
|
人工智能 并行计算 监控
在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南
本文详细介绍了在AMD硬件上构建大型语言模型(LLM)推理环境的全流程。以RX 7900XT为例,通过配置ROCm平台、部署Ollama及Open WebUI,实现高效本地化AI推理。尽管面临技术挑战,但凭借高性价比(如700欧元的RX 7900XT性能接近2200欧元的RTX 5090),AMD方案成为经济实用的选择。测试显示,不同规模模型的推理速度从9到74 tokens/秒不等,满足交互需求。随着ROCm不断完善,AMD生态将推动AI硬件多元化发展,为个人与小型组织提供低成本、低依赖的AI实践路径。
1690 1
在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南
|
7月前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
492 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
8月前
|
存储 人工智能 算法
Magic 1-For-1:北大联合英伟达推出的高质量视频生成量化模型,支持在消费级GPU上快速生成
北京大学、Hedra Inc. 和 Nvidia 联合推出的 Magic 1-For-1 模型,优化内存消耗和推理延迟,快速生成高质量视频片段。
381 3
Magic 1-For-1:北大联合英伟达推出的高质量视频生成量化模型,支持在消费级GPU上快速生成
|
9月前
|
人工智能 文字识别 异构计算
NVIDIA-Ingest:英伟达开源智能文档提取及结构化工具,支持 GPU 加速和并行处理
NVIDIA-Ingest 是英伟达开源的智能文档提取工具,支持 PDF、Word、PPT 等多种格式,提供并行处理和 GPU 加速,适用于企业内容管理和生成式应用。
321 18
NVIDIA-Ingest:英伟达开源智能文档提取及结构化工具,支持 GPU 加速和并行处理
|
存储 人工智能 芯片
多GPU训练大型模型:资源分配与优化技巧 | 英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe
在人工智能领域,大型模型因其强大的预测能力和泛化性能而备受瞩目。然而,随着模型规模的不断扩大,计算资源和训练时间成为制约其发展的重大挑战。特别是在英伟达禁令之后,中国AI计算行业面临前所未有的困境。为了解决这个问题,英伟达将针对中国市场推出新的AI芯片,以应对美国出口限制。本文将探讨如何在多个GPU上训练大型模型,并分析英伟达禁令对中国AI计算行业的影响。
2578 0
|
机器学习/深度学习 人工智能 芯片
一文详解多模态大模型发展及高频因子计算加速GPU算力 | 英伟达显卡被限,华为如何力挽狂澜?
近年来,全球范围内的芯片禁令不断升级,给许多企业和科研机构带来了很大的困扰,需要在技术层面进行创新和突破。一方面,可以探索使用国产芯片和其他不受限制的芯片来替代被禁用的芯片;另一方面,可以通过优化算法和架构等方法来降低对特定芯片的依赖程度。
1141 0
|
人工智能 缓存 机器人
【2024】英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍
英伟达在加州圣荷西的GTC大会上发布了全新的Blackwell GPU,这款拥有2080亿个晶体管的芯片将AI性能推向新高度,是公司对通用计算时代的超越。Blackwell采用多芯片封装设计,通过两颗GPU集成,解决了内存局部性和缓存问题,提供20 petaflops的FP4算力,是上一代产品的5倍。此外,新平台降低了构建和运行大规模AI模型的成本和能耗,使得大型语言模型推理速度提升30倍。黄仁勋表示,Blackwell标志着AI算力在近八年内增长了一千倍,引领了技术边界拓宽的新趋势。
|
视频直播 芯片 异构计算
山东布谷科技直播系统源码热点分析:不同芯片实现高质量编码与渲染视频的GPU加速功能
总而言之,对于直播系统源码来说,GPU加速功能是提升实时图像质量和观看体验的重要手段,是不可或缺的重要功能技术之一。
山东布谷科技直播系统源码热点分析:不同芯片实现高质量编码与渲染视频的GPU加速功能

热门文章

最新文章