高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

简介:

本周Centriq 2400设计蓝图将正式发布。

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

高通公司数据中心芯片部门负责人Anand Chandrasekher手持Centriq芯片

高通公司曾将来自其旗舰级骁龙芯片(被数以百万计智能手机与平板设备所使用)开发团队的工程师们调往其刚刚起步的数据中心处理器Centriq芯片部门。

这种关注重点的转化意味着高通公司开始将注意力集中在服务器领域,而就在今天(星期二)晚,相关成果终将亮相——Centriq内部设计方案将在本届于硅谷召开的Hot Chips大会上公开。

将众多原本隶属骁龙部门的工程师重新调往Centriq可能恰好解释了为何高通公司决定将内部设计的移动Kryo核心替换为现成ARM Cortex核心——或者是经过轻微调整的版本。事实上,高通公司已经停止了全面定制化Kryo芯片的开发工作。

当然,仍有一部分移动CPU设计师继续留在骁龙研发团队当中,而且工程师们亦可根据需求随时被调回。根据我们掌握的情况,目前移动开发组仍然拥有充足的人手,能够继续推动骁龙芯片家族的顺利发展。这部分消息已经得到了高通公司多位高管的证实。

去年年末,高通公司发布了骁龙835,这款高性能系统级芯片将从今年开始由顶级Android智能手机过渡到Windows 10笔记本当中。这款处理器并未采用内部开发的Kryo核心,而是选择了经过轻松调整的现成CPU计算核心——很可能是四Coretex-A53加四A72或者A73的组合,且由ARM公司提供授权。高通方面将其称为“半定制”与“构建在ARM Cortex技术之上”的方案。

今年5月,高通公司面向智能手机发布了更为高端的骁龙处理器:660与630。然而,其中660采用了来自骁经820系列的八个Kryo核心,而630则采用八个ARM Cortex-A53核心。

这并不是说ARM公司的现成核心就不好。只是这种转变意味着高通公司的其它设计方案——包括其GPU、DSP、机器学习功能以及调制解调器——必须得想办法让其移动系统芯片焕发出独特的光彩,从而在与其它同样采用现成Cortex核心的厂商当中脱颖而出。这对于高通公司无疑是重要的一步,特别是考虑到其核心业务正是移动处理器与无线调制解调器芯片组。

值得一提的是,高通公司管理层表示,他们的想法是在正确的时间在移动端采用正确的计算核心——这意味着现成Cortex CPU在表现上显然优于高通内部设计的骁龙CPU。

转向数据中心领域

本周二晚上,Centriq 2400设计蓝图将由高通公司高层人士在本届于加利福尼亚州库比蒂诺召开的Hot Chips大会上向芯片工程师与计算机科学家们展示。我们此前曾经介绍过这款采用10纳米制程的ARMv8处理器产品线。高通公司曾在本周强调称,尽管设计人员来自骁龙处理器团队,但Centriq从设计之初就专门面向云计算与服务器工作负载等场景。

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

Centriq原理图

在这方面,很多朋友可能会对高通公司食言而肥的作法有所抱怨。在我们于上周看到的Hot Chips演示文稿当中,该公司表示Centriq处理器采用“第五代定制化核心设计”,旨在“从根本上满足云服务供应商的实际需求”。

Centriq产品管理高级主管Chris Bergen解释称,这意味着现有工程师团队,包括来自骁龙处理器开发组的成员,正在努力进行其第五代定制化CPU设计,且将从零开始打造出一款服务器友好型系统芯片。

然而着眼于蓝图本身,可以肯定的是这绝不是一款加大版的智能手机CPU。

这款代号为Falkor的处理器拥有48个计算核心,且仅能运行64位ARMv8代码。其并不提供32位模式。这款系统芯片支持ARM的虚拟机管理程序权限等级(简称EL2),可提供一套TrustZone(EL3)环境,且以可选方式包含AES、SHA1以及SHA2-256等加密算法的硬件加速能力。各计算核心被部署在一条环状总线之上,类似于英特尔刚刚停止在其至强处理器上使用的设计思路。芯片巨头并不喜欢以环状结构提升其芯片内的计算核心数量,转而选择了网状栅极——但高通方面则明显更喜欢这种快速双向频段思路。

其共享三级缓存被附加在环状结构当中,且看起来均匀分布在各计算核心之间。根据我们得到的消息,该环状互连结构的总传输带宽至少可达每秒250 GB。另外,据称这一环状结构还进行了分段,我们认为这代表着其中可能包含复数个环。因此,总计48个计算核心当中可能有24个处于一套环内,而另外24个核心则处于另一套环中,并由各环状体系将其对接在一起。

说到高速缓存,高通公司今年之内应该会实现这款芯片的量产,但并不会对缓存大小进行提升。每个计算核心拥有一个24 KB的64字节行零级指令缓存,一个64 KB 64字节行一级I-缓存,外加32KB一级数据缓存。其余的二级与三级缓存大小目前仍不明确。这款芯片目前仅提供样品,因此大家只能立足主流服务器芯片制造商英特尔公司的现有设计方案进行研究。高通公司显然不希望过早披露关键信息导致英特尔方面有所防备。

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

一级与零级缓存

其中零级缓存尤其值得关注:其作为一级I-缓存的扩展充当指令获取缓冲区。换句话来说,其很像是那种典型的前端缓冲区,每个周期会消耗四条指令,但具体作用则与缓存完全相同:例如,CPU可对其进行无效化与刷新。二级缓存则负责容纳数据与指令,且可实现128字节行八路运行,一次命中的最低延迟为15个周期。

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

二级缓存

三级缓存拥有一项服务质量功能,允许各虚拟机管理程序与内核对虚拟机以及线程进行组织,以便确保拥有较高优先级的虚拟机能够占用较其它虚拟机更高的缓存容量。该芯片亦可实现实时内存压缩,延迟为2到4个周期,且面向软件开放。根据我们得到的消息,128字节行可被压缩为64字节行,并在可能的情况下进行纠错。

当高通公司提到48个计算核心时,最终产品一定就是48个计算核心——不存在任何超线程或者其它类似的缩水作法。Falkor芯片可对共享的二级缓存进行配对以实现双工传输。每个计算核心皆可开启与关闭,具体取决于工作负载需求——相当于由轻度睡眠(CPU时钟关闭)到全速运转。其提供32条PCIe通道,6条DDR4内存通道并配合有纠错功能。每通道拥有1到2个DIMM,外加SATA、USB、串行与通用IO接口。

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

功耗控制

更进一步挖掘,可以发现其拥有可变长度管道,意味着可在每周期内最多发出三条指令外加一条直接分支。另外,其还拥有8条调度通道。其可实现无序执行,并对资源进行重命名。每个预测分支拥有一个0或1惩罚评分,一套16入口分支目标指令缓存,外加一套三级分支目标地址缓存。

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

Centriq的管道结构

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

分支预测器

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

管道队列

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

管道的负载存储分段

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

可变长度整数处理部分

这款芯片搭载有不可变片上ROM,其中包含一款启动加载程序,可用于验证通常被保存在闪存内的外部固件,同时确保仅运行合法代码。处理器内的安全控制器可容纳来自主通、服务器制造商以及客户的软件验证用加密公钥。因此,设备将仅在未从ROM或者早期启动加载程序中发现漏洞的前提下启动可信代码并构建信息来源。

在本周召开的Hot Chips大会上,我们将持续为大家带来更多新鲜出炉的重要消息。另外,当相关价格、缓存大小与其它信息得到披露之后,我们还将发文将至强、Centriq与Epyc进行一番规格比较。


原文发布时间为: 2017年8月22日

本文作者:李超

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
65 2
|
2月前
|
编解码 弹性计算 应用服务中间件
阿里云服务器Arm计算架构解析:Arm计算架构云服务器租用收费标准价格参考
阿里云服务器架构分为X86计算、Arm计算、高性能计算等多种架构,其中Arm计算架构以其低功耗、高效率的特点受到广泛关注。本文将深入解析阿里云Arm计算架构云服务器的技术特点、适用场景以及包年包月与按量付费的收费标准与最新活动价格情况,以供选择参考。
|
2月前
|
人工智能 安全 大数据
ARM 服务器上安装 OpenEuler (欧拉)
openEuler 是华为于2019年开源的操作系统,支持多种处理器架构,包括X86和鲲鹏。截至2020年底,openEuler 拥有3万社区用户、2万多个拉取请求、2000多名贡献者和7032款软件。openEuler 提供高效、稳定、安全的系统,适用于数据库、大数据、云计算和人工智能等场景。本文介绍了在神州鲲泰 R522 服务器上安装 openEuler 的详细步骤,包括下载镜像、配置 RAID 和 BIOS 设置等。
235 0
ARM 服务器上安装 OpenEuler (欧拉)
|
2月前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器计算架构X86/ARM/GPU/FPGA/ASIC/裸金属/超级计算集群有啥区别?
阿里云服务器ECS提供了多种计算架构,包括X86、ARM、GPU/FPGA/ASIC、弹性裸金属服务器及超级计算集群。X86架构常见且通用,适合大多数应用场景;ARM架构具备低功耗优势,适用于长期运行环境;GPU/FPGA/ASIC则针对深度学习、科学计算、视频处理等高性能需求;弹性裸金属服务器与超级计算集群则分别提供物理机级别的性能和高速RDMA互联,满足高性能计算和大规模训练需求。
|
4月前
|
机器学习/深度学习 算法 数据库
阿里云服务器架构区别解析:从X86计算、Arm计算到高性能计算架构的区别参考
在我们选择阿里云服务器的架构时,选择合适的云服务器架构对于提升业务效率、保障业务稳定至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供参考和选择。
阿里云服务器架构区别解析:从X86计算、Arm计算到高性能计算架构的区别参考
|
6月前
|
IDE 物联网 网络性能优化
什么是MQTT?如何使用ESP12F芯片连接到MQTT服务器
通过上述步骤,你可以成功地使用ESP12F模块连接到MQTT服务器,发布和订阅消息。MQTT的轻量级和高效性使其非常适合各种物联网应用,而ESP12F模块的强大功能和低成本使其成为实现这些应用的理想选择。
212 0
|
7月前
|
安全 Unix Linux
【ARM】在NUC977上搭建基于boa的嵌入式web服务器
【ARM】在NUC977上搭建基于boa的嵌入式web服务器
184 0
|
11天前
|
人工智能 弹性计算 编解码
阿里云GPU云服务器性能、应用场景及收费标准和活动价格参考
GPU云服务器作为阿里云提供的一种高性能计算服务,通过结合GPU与CPU的计算能力,为用户在人工智能、高性能计算等领域提供了强大的支持。其具备覆盖范围广、超强计算能力、网络性能出色等优势,且计费方式灵活多样,能够满足不同用户的需求。目前用户购买阿里云gpu云服务器gn5 规格族(P100-16G)、gn6i 规格族(T4-16G)、gn6v 规格族(V100-16G)有优惠,本文为大家详细介绍阿里云gpu云服务器的相关性能及收费标准与最新活动价格情况,以供参考和选择。
|
16天前
|
机器学习/深度学习 人工智能 弹性计算
什么是阿里云GPU云服务器?GPU服务器优势、使用和租赁费用整理
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等多种场景。作为亚太领先的云服务提供商,阿里云的GPU云服务器具备灵活的资源配置、高安全性和易用性,支持多种计费模式,帮助企业高效应对计算密集型任务。
|
18天前
|
存储 分布式计算 固态存储
阿里云2核16G、4核32G、8核64G配置云服务器租用收费标准与活动价格参考
2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8,这种配比的云服务器一般适用于数据分析与挖掘,Hadoop、Spark集群和数据库,缓存等内存密集型场景,因此,多为企业级用户选择。目前2核16G配置按量收费最低收费标准为0.54元/小时,按月租用标准收费标准为260.44元/1个月。4核32G配置的阿里云服务器按量收费标准最低为1.08元/小时,按月租用标准收费标准为520.88元/1个月。8核64G配置的阿里云服务器按量收费标准最低为2.17元/小时,按月租用标准收费标准为1041.77元/1个月。本文介绍这些配置的最新租用收费标准与活动价格情况,以供参考。