M1 MAX暴击,倚天710补刀

简介: 落花有意随流水,流水无情恋落花。英特尔和苹果的良好关系,可以一直追溯到 2005 年,彼时这两家巨头在 Mac、一体机等桌面产品线合作较为融洽,但 2010 年以后,英特尔“挤牙膏”似的产品升级策略以及 2020 年苹果 M1 的全新登场,让他们逐渐形同陌路,甚至最终分道扬飙。

落花有意随流水,流水无情恋落花。英特尔和苹果的良好关系,可以一直追溯到 2005 年,彼时这两家巨头在 Mac、一体机等桌面产品线合作较为融洽,但 2010 年以后,英特尔“挤牙膏”似的产品升级策略以及 2020 年苹果 M1 的全新登场,让他们逐渐形同陌路,甚至最终分道扬飙。

不过前不久英特尔新任 CEO 帕特·基辛格公开表示想追回“前任”,放出豪言要造出一款比 M1 更能打的芯片,以争取和苹果再续前缘,结果话音未落就遭苹果光速打脸:10 月 19 号苹果炸场发布会上基于 ARM 架构的 M1 Max 闪耀全场,完爆各种 X86 架构的处理器,用实力告诉英特尔什么叫“慢挤牙膏一时爽,追回前任火葬厂”,更向世界证明比 M1 更强的处理器也还是出于苹果之手。

image.png

图片来自苹果官网

而令笔者更为欣喜的是,M1 Max 竟然还不是如今 ARM 架构处理器最为高光的时刻,隔壁平头哥半导体在云栖大会上拿出的倚天处理器,更是完美诠释了什么叫“大就完了”。倚天 710 中集成的晶体管比 M1 MAX 还多 30 亿,此外倚天还搭载了最新的 V9 系列 ARM 核心,在云计算领域强到“爆炸”。

image.png

在桌面与云方面接连遭受暴击,几乎让英特尔的 X86 进入了病危状态,后续再挤牙膏就没法翻盘了。好在基辛格接手之后,英特尔已逐渐开展了 IDM2.0 的全面转型,经历过这个灰色星期三之后,英特尔会有什么回应也值得我们期待。不过这都是后话了,我们还是先来看看 M1 Max 到底有多强。

 

M1 Max 到底有多强

 

M1 Max 搭建了一个 10 核心 CPU,其中包括 8 个大核,2 个小核,MAX 相较于 M1 初代性能直接提升 70%;GPU 性能提升了 3 倍;最令人惊艳的指标是统一内存管理技术,即内存与显存共用统一管理;M1 MAX 内存带宽最高可达 400GB/s,是 M1 芯片的 6 倍,已经达到了新一代游戏主机的水平。

image.png 

来自苹果官网

据笔者所知,目前唯一一个能在内存带宽上与 M1 Max 一叫长的是英伟达 Grace 处理器。通过 NVlink 技术,Grace 中 CPU 到 GPU 的内存带宽可达  900GB/s。不过老黄的 Grace 目前还在 PPT 上没下来,但是搭建 M1 Max 的 Mac Pro 已经开始接受预订并马上就要与用户见面了,因此可以说 M1 Max 在内存带宽方面几乎是现阶段地表最强。

而且最关键的是 M1 Max 的功耗控制还很好,几乎是在没有功耗、散热问题的性能下完成性能成倍的提升。目前的已而可谓是人是鬼都在秀,只有牙膏碱在挨揍。

 

 

M1 Max 为何这么强

 

由于目前只有发布会跑分图的资料,而且以苹果的调性也根本不会把芯片手册拿出来,想进一步了解 M1 Max 估计还是要等大神把 Linux 移动到 Mac Pro 上去才行。

CPU 和 GPU 的通信能力加强,提升概率 100%。我们内存与显卡进行统一管理,可以大大提高 CPU 与 GPU 的通信效率,从而增强图像处理、3D 建模等任务的处理效率。CPU 和 GPU 通信速度的重要性可以用 M1 初代的例子来加以说明,我们知道苹果 M1 显存与内存加在一起只有 16G,而 M1 前一代的 Mac Pro 内存是 128G,光是显存都与 M1 持平 16G,不过搭载 M1 的入门版 Mac 在进行图像处理等任务时,却要比上一代顶配的 Mac 还要强出近一倍。而本次发布的 M1 Max 更是直接将内存带宽提升到初代 M1 的 6 位,其性能加强的程度也就可想而知了。正如上文所说英伟达之前发布的 Grace 处理器也采用了和苹果比较类似的思路,相信未来会被英特尔、AMD 等 X86 厂商借鉴。

译码器增强,提升概率 90%。目前处理器的流水线一般分为取指、译码、取操作数等等环节,其中译码是一个非常重要的环节。译码器方面 ARM 架构的精简指令集的确有一定优势,由于指令都是定长的,完全可以做出高效的多路译码器以提升效率。没记错的话之前 M1 应该是四路译码,当时笔者就表示, M1在译码器这方面还有后手,未来还能更秀,这里笔者大胆预测 M1 Max 的 CPU 应该是能有 6 路指令解码器,8µop 发射宽度,6 路分配、10 路执行端口的指标。具体如何待最终揭晓。

大小核心的调度升级。提升概率 70%。由于 M1 Max 大小核的配比是 4:1,而由于大核比较费电,而小核又无法应对高性能计算,因此像 M1 Max 表现这么均衡的处理大概率会用软、硬结合的高度方案,比如英特尔在刚刚发布的 Alder Lake 处理器中搭建的 Thread Director 就是这样一种软、硬结合的核心调度方案,英特尔的做法是在处理器中集成了一个专用的 MCU,用来监控当前处理器内核的运行情况,能够监测到每个线程的特征,比如它运行什么样的指令集、它的性能需求如何等等。在收集完信息之后,MCU 会将收集到的信息反馈给操作系统,再次操作系统把这些信息与线程调度信息相结合,判断是否应该将线程转移到别的核心上。如果与操作系统结合的好话,那么一轮调度信息采集工作仅需要 30 微秒就能完成,而传统方案调度器可能需要 100 多毫秒才能判断出结论。由于 Mac OS 与 M1 Max 都是苹果自己的产品,因此这个调试方案 Thread Director 更极致,不过由于英特尔在本次发布会上没特别提到调度器方案的提升。

而对这么强的 M1 Max 笔者似乎只能在生态建设方面给苹果提出一些建议了。我们知道英伟达之所以能在 AI 及区块链方面有着如此出彩的表现,高性能计算框架 CUDA 绝对是居功至伟,正是在 CUDA 的帮助下英伟尔的 GPU 进可以 AI 训练、区块链挖矿;退可以玩大型游戏,爽得不亦乐乎。目前苹果的 M1 Max 最大的短板在于对于游戏的支持一般,尤其是 3A 级的大作更是很少登陆 M1 系列的平台。如果未来像《悟空传》之类的游戏也能首发在 Mac 系列,那么 X86 甚至基于 X86 的游戏主机可能都要凉凉。

 

 

M1 Max 影响几何

 

成也萧何,败也萧何,我们知道云平台最重要的工作是资源进行严谨的隔离,由于 M1 Max 统一内存管理技术太能打了,内存与显存之间的传输带宽太高,因此这也决定了这款处理器很难在虚拟化的云环境中使用,所以 M1 Max 短期内带来的最大冲击还应该是在于桌面市场。

但是从长期来看,英伟达收购 ARM 的计划大概率是要黄了,我要是库克是不可能放 ARM 出去的,就算放猛玛也不放 ARM,放了 ARM 以后新一代 ARM V9 系列的处理器可能要 gg,建议黄教主去和 VMware 接触,具体详见《若 ARM 收购不成,英伟达应该转向 VMware》。

笔者最大的期待是基于 M1 Max 版的 Linux 赶快迁移出来,与此同时,平头哥的倚天有了,屠龙系列还远吗?

 

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
存储 弹性计算 安全
2023阿里云4核8G服务器ECS配置规格及CPU性能参数说明表
阿里云4核8G服务器ECS规格可选计算型c7、共享型s6、高主频计算型hfc7、计算型c6、AMD计算型c7a、计算型c8y、ARM计算型c6r及安全增强计算型c7t等规格,ECS实例规格不同CPU、网络带宽、网络收发包PPS、存储IOPS等性能参数也不同,阿里云百科分享阿里云4核8G服务器ECS实例规格及性能参数表:
1070 0
2023阿里云4核8G服务器ECS配置规格及CPU性能参数说明表
|
机器学习/深度学习 存储 人工智能
性价比提升15%,阿里云发布第八代企业级计算实例g8a和性能增强型实例g8ae
5 月 17 日,2023 阿里云峰会·常州站上,阿里云正式发布第八代企业级计算实例 g8a 以及性能增强性实例 g8ae。两款实例搭载第四代 AMD EPYC 处理器,标配阿里云 eRDMA 大规模加速能力,网络延时低至 8 微秒。其中,g8a 综合性价比平均提升 15% 以上,g8ae 算力最高提升 55%,在 AI 推理与训练、深度学习、高性能数据库等应用场景性能提升显著。
|
弹性计算 Cloud Native Android开发
阿里云服务器自研CPU处理器倚天Yitian 710,2.75 GHz主频
阿里云自研CPU处理器倚天Yitian 710,2.75 GHz主频,搭载倚天710处理器的云服务器ECS有计算型c8y、通用型g8y和内存型r8y,云服务器吧分享阿里云自研CPU处理器倚天Yitian 710性能测评:
200 0
|
弹性计算 Cloud Native Android开发
阿里云ARM服务器c8y、g8y和g8y采用倚天Yitian 710,2.75 GHz主频
阿里云服务器架构ARM计算c8y、g8y和g8y实例采用倚天Yitian 710,阿里云自研CPU处理器倚天Yitian 710,2.75 GHz主频,搭载倚天710处理器的云服务器ECS有计算型c8y、通用型g8y和内存型g8y,云服务器吧分享阿里云自研CPU处理器倚天Yitian 710性能测评:
337 0
|
弹性计算 Cloud Native Android开发
阿里云CPU倚天Yitian 710处理器,2.75 GHz主频
阿里云CPU倚天Yitian 710处理器,2.75 GHz主频,阿里云自研CPU处理器倚天Yitian 710,2.75 GHz主频,搭载倚天710处理器的云服务器ECS有计算型c8y、通用型g8y和内存型r8y,云服务器吧分享阿里云自研CPU处理器倚天Yitian 710性能测评:
177 0
|
弹性计算 Cloud Native Android开发
阿里云服务器架构ARM计算c8y、g8y和g8y实例采用倚天Yitian 710
阿里云服务器架构ARM计算c8y、g8y和g8y实例采用倚天Yitian 710,阿里云自研CPU处理器倚天Yitian 710,2.75 GHz主频,搭载倚天710处理器的云服务器ECS有计算型c8y、通用型g8y和内存型g8y,云服务器吧分享阿里云自研CPU处理器倚天Yitian 710性能测评:
240 0
|
弹性计算 编解码 前端开发
阿里云ecs.c6.large服务器ECS计算型c6实例Intel Xeon(Cascade Lake) Platinum 8269CY
阿里云服务器ECS计算型c6实例2核4G配置ecs.c6.large,CPU处理器采用Intel Xeon(Cascade Lake) Platinum 8269CY,2.5 GHz主频,睿频3.2 GHz
264 0
阿里云ecs.c6.large服务器ECS计算型c6实例Intel Xeon(Cascade Lake) Platinum 8269CY
|
弹性计算 固态存储 虚拟化
阿里云8核16G服务器ecs.c6.2xlarge计算型c6处理器CPU性能评测
阿里云服务器ECS计算型c6实例ecs.c6.2xlarge为4核8G配置,CPU处理器采用Intel Xeon(Cascade Lake) Platinum 8269CY,2.5 GHz主频,睿频3.2 GHz
806 0
阿里云8核16G服务器ecs.c6.2xlarge计算型c6处理器CPU性能评测
|
存储 机器学习/深度学习 弹性计算
阿里云ARM服务器计算型c8y实例CPU倚天Yitian 710性能评测
阿里云服务器ECS计算型c8y实例,CPU采用2.75 GHz主频的倚天710处理器,c8y云服务器自研倚天710 ARM架构CPU,依托第四代神龙架构,提供稳定可预期的超高性能
812 0
|
存储 机器学习/深度学习 弹性计算
阿里云倚天710 ARM CPU架构的实例规格族c8y、g8y、r8y实例介绍
阿里云服务器ECS实例包含了x86 CPU架构和倚天710 ARM CPU架构,与x86架构不同的是,倚天云服务器采用的ARM架构,基于倚天实例的云服务器(即倚天云服务器),通过芯片快速路径加速手段,完成计算、存储、网络性能的数量级提升,可应用于云原生、视频编解码、高性能计算、基于CPU的机器学习和游戏服务等场景。
阿里云倚天710 ARM CPU架构的实例规格族c8y、g8y、r8y实例介绍