M1 MAX暴击,倚天710补刀

简介: 落花有意随流水,流水无情恋落花。英特尔和苹果的良好关系,可以一直追溯到 2005 年,彼时这两家巨头在 Mac、一体机等桌面产品线合作较为融洽,但 2010 年以后,英特尔“挤牙膏”似的产品升级策略以及 2020 年苹果 M1 的全新登场,让他们逐渐形同陌路,甚至最终分道扬飙。

落花有意随流水,流水无情恋落花。英特尔和苹果的良好关系,可以一直追溯到 2005 年,彼时这两家巨头在 Mac、一体机等桌面产品线合作较为融洽,但 2010 年以后,英特尔“挤牙膏”似的产品升级策略以及 2020 年苹果 M1 的全新登场,让他们逐渐形同陌路,甚至最终分道扬飙。

不过前不久英特尔新任 CEO 帕特·基辛格公开表示想追回“前任”,放出豪言要造出一款比 M1 更能打的芯片,以争取和苹果再续前缘,结果话音未落就遭苹果光速打脸:10 月 19 号苹果炸场发布会上基于 ARM 架构的 M1 Max 闪耀全场,完爆各种 X86 架构的处理器,用实力告诉英特尔什么叫“慢挤牙膏一时爽,追回前任火葬厂”,更向世界证明比 M1 更强的处理器也还是出于苹果之手。

image.png

图片来自苹果官网

而令笔者更为欣喜的是,M1 Max 竟然还不是如今 ARM 架构处理器最为高光的时刻,隔壁平头哥半导体在云栖大会上拿出的倚天处理器,更是完美诠释了什么叫“大就完了”。倚天 710 中集成的晶体管比 M1 MAX 还多 30 亿,此外倚天还搭载了最新的 V9 系列 ARM 核心,在云计算领域强到“爆炸”。

image.png

在桌面与云方面接连遭受暴击,几乎让英特尔的 X86 进入了病危状态,后续再挤牙膏就没法翻盘了。好在基辛格接手之后,英特尔已逐渐开展了 IDM2.0 的全面转型,经历过这个灰色星期三之后,英特尔会有什么回应也值得我们期待。不过这都是后话了,我们还是先来看看 M1 Max 到底有多强。

 

M1 Max 到底有多强

 

M1 Max 搭建了一个 10 核心 CPU,其中包括 8 个大核,2 个小核,MAX 相较于 M1 初代性能直接提升 70%;GPU 性能提升了 3 倍;最令人惊艳的指标是统一内存管理技术,即内存与显存共用统一管理;M1 MAX 内存带宽最高可达 400GB/s,是 M1 芯片的 6 倍,已经达到了新一代游戏主机的水平。

image.png 

来自苹果官网

据笔者所知,目前唯一一个能在内存带宽上与 M1 Max 一叫长的是英伟达 Grace 处理器。通过 NVlink 技术,Grace 中 CPU 到 GPU 的内存带宽可达  900GB/s。不过老黄的 Grace 目前还在 PPT 上没下来,但是搭建 M1 Max 的 Mac Pro 已经开始接受预订并马上就要与用户见面了,因此可以说 M1 Max 在内存带宽方面几乎是现阶段地表最强。

而且最关键的是 M1 Max 的功耗控制还很好,几乎是在没有功耗、散热问题的性能下完成性能成倍的提升。目前的已而可谓是人是鬼都在秀,只有牙膏碱在挨揍。

 

 

M1 Max 为何这么强

 

由于目前只有发布会跑分图的资料,而且以苹果的调性也根本不会把芯片手册拿出来,想进一步了解 M1 Max 估计还是要等大神把 Linux 移动到 Mac Pro 上去才行。

CPU 和 GPU 的通信能力加强,提升概率 100%。我们内存与显卡进行统一管理,可以大大提高 CPU 与 GPU 的通信效率,从而增强图像处理、3D 建模等任务的处理效率。CPU 和 GPU 通信速度的重要性可以用 M1 初代的例子来加以说明,我们知道苹果 M1 显存与内存加在一起只有 16G,而 M1 前一代的 Mac Pro 内存是 128G,光是显存都与 M1 持平 16G,不过搭载 M1 的入门版 Mac 在进行图像处理等任务时,却要比上一代顶配的 Mac 还要强出近一倍。而本次发布的 M1 Max 更是直接将内存带宽提升到初代 M1 的 6 位,其性能加强的程度也就可想而知了。正如上文所说英伟达之前发布的 Grace 处理器也采用了和苹果比较类似的思路,相信未来会被英特尔、AMD 等 X86 厂商借鉴。

译码器增强,提升概率 90%。目前处理器的流水线一般分为取指、译码、取操作数等等环节,其中译码是一个非常重要的环节。译码器方面 ARM 架构的精简指令集的确有一定优势,由于指令都是定长的,完全可以做出高效的多路译码器以提升效率。没记错的话之前 M1 应该是四路译码,当时笔者就表示, M1在译码器这方面还有后手,未来还能更秀,这里笔者大胆预测 M1 Max 的 CPU 应该是能有 6 路指令解码器,8µop 发射宽度,6 路分配、10 路执行端口的指标。具体如何待最终揭晓。

大小核心的调度升级。提升概率 70%。由于 M1 Max 大小核的配比是 4:1,而由于大核比较费电,而小核又无法应对高性能计算,因此像 M1 Max 表现这么均衡的处理大概率会用软、硬结合的高度方案,比如英特尔在刚刚发布的 Alder Lake 处理器中搭建的 Thread Director 就是这样一种软、硬结合的核心调度方案,英特尔的做法是在处理器中集成了一个专用的 MCU,用来监控当前处理器内核的运行情况,能够监测到每个线程的特征,比如它运行什么样的指令集、它的性能需求如何等等。在收集完信息之后,MCU 会将收集到的信息反馈给操作系统,再次操作系统把这些信息与线程调度信息相结合,判断是否应该将线程转移到别的核心上。如果与操作系统结合的好话,那么一轮调度信息采集工作仅需要 30 微秒就能完成,而传统方案调度器可能需要 100 多毫秒才能判断出结论。由于 Mac OS 与 M1 Max 都是苹果自己的产品,因此这个调试方案 Thread Director 更极致,不过由于英特尔在本次发布会上没特别提到调度器方案的提升。

而对这么强的 M1 Max 笔者似乎只能在生态建设方面给苹果提出一些建议了。我们知道英伟达之所以能在 AI 及区块链方面有着如此出彩的表现,高性能计算框架 CUDA 绝对是居功至伟,正是在 CUDA 的帮助下英伟尔的 GPU 进可以 AI 训练、区块链挖矿;退可以玩大型游戏,爽得不亦乐乎。目前苹果的 M1 Max 最大的短板在于对于游戏的支持一般,尤其是 3A 级的大作更是很少登陆 M1 系列的平台。如果未来像《悟空传》之类的游戏也能首发在 Mac 系列,那么 X86 甚至基于 X86 的游戏主机可能都要凉凉。

 

 

M1 Max 影响几何

 

成也萧何,败也萧何,我们知道云平台最重要的工作是资源进行严谨的隔离,由于 M1 Max 统一内存管理技术太能打了,内存与显存之间的传输带宽太高,因此这也决定了这款处理器很难在虚拟化的云环境中使用,所以 M1 Max 短期内带来的最大冲击还应该是在于桌面市场。

但是从长期来看,英伟达收购 ARM 的计划大概率是要黄了,我要是库克是不可能放 ARM 出去的,就算放猛玛也不放 ARM,放了 ARM 以后新一代 ARM V9 系列的处理器可能要 gg,建议黄教主去和 VMware 接触,具体详见《若 ARM 收购不成,英伟达应该转向 VMware》。

笔者最大的期待是基于 M1 Max 版的 Linux 赶快迁移出来,与此同时,平头哥的倚天有了,屠龙系列还远吗?

 

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
2月前
|
弹性计算 固态存储 ice
阿里云服务器ECS内存型r8i、通用算力u1、r7、AMD内存r8a、高主频内存hfr8i价格和性能差异
2024年阿里云提供2核16G、4核32G及8核64G等多种服务器配置,用户可根据需求选择不同实例规格如内存型r8i、通用算力型u1等。以华北2(北京)为例,2核16G月费从286.2元起,4核32G从572.4元起,8核64G则从1144.8元起。公网带宽1Mbps预付费为23元/月,系统盘如ESSD PL1按量计费0.0021元/小时/GiB。具体价格与折扣请参考阿里云官网。
|
弹性计算 应用服务中间件 Apache
2核4g云服务器支持多少人同时在线?2核4G服务器并发数计算
阿里云服务器2核4g并发数是多少?支持多少人同时在线?
941 0
2核4g云服务器支持多少人同时在线?2核4G服务器并发数计算
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器架构X86计算和ARM计算有什么区别?
阿里云服务器架构X86计算和ARM计算有什么区别?阿里云服务器架构有什么区别?X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、超级计算集群有什么区别?阿里云服务器网分享云服务器ECS架构详细说明
439 1
|
弹性计算 Cloud Native Android开发
阿里云服务器架构ARM计算c8y、g8y和g8y实例采用倚天Yitian 710
阿里云服务器架构ARM计算c8y、g8y和g8y实例采用倚天Yitian 710,阿里云自研CPU处理器倚天Yitian 710,2.75 GHz主频,搭载倚天710处理器的云服务器ECS有计算型c8y、通用型g8y和内存型g8y,云服务器吧分享阿里云自研CPU处理器倚天Yitian 710性能测评:
236 0
|
弹性计算 缓存 网络协议
阿里云通用算力型u1云服务器CPU内存性能如何?
阿里云通用算力型u1云服务器CPU内存性能如何?阿里云服务器u1通用算力型Universal实例高性价比,CPU采用Intel(R) Xeon(R) Platinum,主频是2.5 GHz,云服务器U1实例的基准vCPU算力与5代企业级实例持平,最高vCPU算力与6代企业级实例持平,提供2c-32c规格和1:1/2/4/8丰富配比,阿里云服务器u1适用于Web应用及网站,企业办公类应用,数据分析和计算等大多数通用的对vCPU算力和性能要求不高的应用场景
165 0
|
弹性计算 编解码 负载均衡
看看吧:阿里云ECS服务器降价intel实例、倚天ARM和GPU服务器均参与
阿里云ECS服务器降价intel实例、倚天ARM和GPU服务器均参与,阿里云产品大规模调价,核心云产品价格全线下调,技术红利释放核心产品最高降幅50%,以下产品的价格调整将于2023年5月7日生效,最终以产品详情页实际情况为准,阿里云百科分享阿里云官网发布的降价产品及降价幅度说明:
184 0
|
存储 并行计算 PyTorch
Xdata在GPU上面,len(Xdata)也在GPU上面吗?
不是的,len(Xdata)并不在GPU上。len()函数是Python内置函数,它返回对象(例如列表、元组、字符串等)中元素的数量或长度,而不是将对象本身移到GPU上。所以,即使您的数据Xdata存储在GPU上,len(Xdata)仍然会在CPU上执行,并返回对象中元素的数量。 需要注意的是,如果您想在GPU上使用len()函数计算张量的长度,您可以使用PyTorch提供的size()方法来获取张量的大小,例如:
103 0
|
存储 机器学习/深度学习 弹性计算
阿里云ARM服务器计算型c8y实例CPU倚天Yitian 710性能评测
阿里云服务器ECS计算型c8y实例,CPU采用2.75 GHz主频的倚天710处理器,c8y云服务器自研倚天710 ARM架构CPU,依托第四代神龙架构,提供稳定可预期的超高性能
807 0
|
存储 机器学习/深度学习 弹性计算
阿里云倚天710 ARM CPU架构的实例规格族c8y、g8y、r8y实例介绍
阿里云服务器ECS实例包含了x86 CPU架构和倚天710 ARM CPU架构,与x86架构不同的是,倚天云服务器采用的ARM架构,基于倚天实例的云服务器(即倚天云服务器),通过芯片快速路径加速手段,完成计算、存储、网络性能的数量级提升,可应用于云原生、视频编解码、高性能计算、基于CPU的机器学习和游戏服务等场景。
阿里云倚天710 ARM CPU架构的实例规格族c8y、g8y、r8y实例介绍
|
弹性计算 缓存 算法
阿里云2核4G服务器通用算力型u1实例CPU处理器性能详解
阿里云2核4G服务器通用算力型u1实例CPU处理器性能详解,阿里云通用算力型u1云服务器ecs.u1-c1m2.large实例2核4G配置,CPU采用2.5 GHz主频的Intel Xeon Platinum 8163(Skylake)或者8269CY(Cascade Lake)处理器
523 0
阿里云2核4G服务器通用算力型u1实例CPU处理器性能详解