高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

简介:

本周Centriq 2400设计蓝图将正式发布。

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

高通公司数据中心芯片部门负责人Anand Chandrasekher手持Centriq芯片

高通公司曾将来自其旗舰级骁龙芯片(被数以百万计智能手机与平板设备所使用)开发团队的工程师们调往其刚刚起步的数据中心处理器Centriq芯片部门。

这种关注重点的转化意味着高通公司开始将注意力集中在服务器领域,而就在今天(星期二)晚,相关成果终将亮相——Centriq内部设计方案将在本届于硅谷召开的Hot Chips大会上公开。

将众多原本隶属骁龙部门的工程师重新调往Centriq可能恰好解释了为何高通公司决定将内部设计的移动Kryo核心替换为现成ARM Cortex核心——或者是经过轻微调整的版本。事实上,高通公司已经停止了全面定制化Kryo芯片的开发工作。

当然,仍有一部分移动CPU设计师继续留在骁龙研发团队当中,而且工程师们亦可根据需求随时被调回。根据我们掌握的情况,目前移动开发组仍然拥有充足的人手,能够继续推动骁龙芯片家族的顺利发展。这部分消息已经得到了高通公司多位高管的证实。

去年年末,高通公司发布了骁龙835,这款高性能系统级芯片将从今年开始由顶级Android智能手机过渡到Windows 10笔记本当中。这款处理器并未采用内部开发的Kryo核心,而是选择了经过轻松调整的现成CPU计算核心——很可能是四Coretex-A53加四A72或者A73的组合,且由ARM公司提供授权。高通方面将其称为“半定制”与“构建在ARM Cortex技术之上”的方案。

今年5月,高通公司面向智能手机发布了更为高端的骁龙处理器:660与630。然而,其中660采用了来自骁经820系列的八个Kryo核心,而630则采用八个ARM Cortex-A53核心。

这并不是说ARM公司的现成核心就不好。只是这种转变意味着高通公司的其它设计方案——包括其GPU、DSP、机器学习功能以及调制解调器——必须得想办法让其移动系统芯片焕发出独特的光彩,从而在与其它同样采用现成Cortex核心的厂商当中脱颖而出。这对于高通公司无疑是重要的一步,特别是考虑到其核心业务正是移动处理器与无线调制解调器芯片组。

值得一提的是,高通公司管理层表示,他们的想法是在正确的时间在移动端采用正确的计算核心——这意味着现成Cortex CPU在表现上显然优于高通内部设计的骁龙CPU。

转向数据中心领域

本周二晚上,Centriq 2400设计蓝图将由高通公司高层人士在本届于加利福尼亚州库比蒂诺召开的Hot Chips大会上向芯片工程师与计算机科学家们展示。我们此前曾经介绍过这款采用10纳米制程的ARMv8处理器产品线。高通公司曾在本周强调称,尽管设计人员来自骁龙处理器团队,但Centriq从设计之初就专门面向云计算与服务器工作负载等场景。

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

Centriq原理图

在这方面,很多朋友可能会对高通公司食言而肥的作法有所抱怨。在我们于上周看到的Hot Chips演示文稿当中,该公司表示Centriq处理器采用“第五代定制化核心设计”,旨在“从根本上满足云服务供应商的实际需求”。

Centriq产品管理高级主管Chris Bergen解释称,这意味着现有工程师团队,包括来自骁龙处理器开发组的成员,正在努力进行其第五代定制化CPU设计,且将从零开始打造出一款服务器友好型系统芯片。

然而着眼于蓝图本身,可以肯定的是这绝不是一款加大版的智能手机CPU。

这款代号为Falkor的处理器拥有48个计算核心,且仅能运行64位ARMv8代码。其并不提供32位模式。这款系统芯片支持ARM的虚拟机管理程序权限等级(简称EL2),可提供一套TrustZone(EL3)环境,且以可选方式包含AES、SHA1以及SHA2-256等加密算法的硬件加速能力。各计算核心被部署在一条环状总线之上,类似于英特尔刚刚停止在其至强处理器上使用的设计思路。芯片巨头并不喜欢以环状结构提升其芯片内的计算核心数量,转而选择了网状栅极——但高通方面则明显更喜欢这种快速双向频段思路。

其共享三级缓存被附加在环状结构当中,且看起来均匀分布在各计算核心之间。根据我们得到的消息,该环状互连结构的总传输带宽至少可达每秒250 GB。另外,据称这一环状结构还进行了分段,我们认为这代表着其中可能包含复数个环。因此,总计48个计算核心当中可能有24个处于一套环内,而另外24个核心则处于另一套环中,并由各环状体系将其对接在一起。

说到高速缓存,高通公司今年之内应该会实现这款芯片的量产,但并不会对缓存大小进行提升。每个计算核心拥有一个24 KB的64字节行零级指令缓存,一个64 KB 64字节行一级I-缓存,外加32KB一级数据缓存。其余的二级与三级缓存大小目前仍不明确。这款芯片目前仅提供样品,因此大家只能立足主流服务器芯片制造商英特尔公司的现有设计方案进行研究。高通公司显然不希望过早披露关键信息导致英特尔方面有所防备。

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

一级与零级缓存

其中零级缓存尤其值得关注:其作为一级I-缓存的扩展充当指令获取缓冲区。换句话来说,其很像是那种典型的前端缓冲区,每个周期会消耗四条指令,但具体作用则与缓存完全相同:例如,CPU可对其进行无效化与刷新。二级缓存则负责容纳数据与指令,且可实现128字节行八路运行,一次命中的最低延迟为15个周期。

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

二级缓存

三级缓存拥有一项服务质量功能,允许各虚拟机管理程序与内核对虚拟机以及线程进行组织,以便确保拥有较高优先级的虚拟机能够占用较其它虚拟机更高的缓存容量。该芯片亦可实现实时内存压缩,延迟为2到4个周期,且面向软件开放。根据我们得到的消息,128字节行可被压缩为64字节行,并在可能的情况下进行纠错。

当高通公司提到48个计算核心时,最终产品一定就是48个计算核心——不存在任何超线程或者其它类似的缩水作法。Falkor芯片可对共享的二级缓存进行配对以实现双工传输。每个计算核心皆可开启与关闭,具体取决于工作负载需求——相当于由轻度睡眠(CPU时钟关闭)到全速运转。其提供32条PCIe通道,6条DDR4内存通道并配合有纠错功能。每通道拥有1到2个DIMM,外加SATA、USB、串行与通用IO接口。

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

功耗控制

更进一步挖掘,可以发现其拥有可变长度管道,意味着可在每周期内最多发出三条指令外加一条直接分支。另外,其还拥有8条调度通道。其可实现无序执行,并对资源进行重命名。每个预测分支拥有一个0或1惩罚评分,一套16入口分支目标指令缓存,外加一套三级分支目标地址缓存。

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

Centriq的管道结构

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

分支预测器

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

管道队列

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

管道的负载存储分段

高通公司将骁龙芯片设计人员调往ARM服务器芯片部门

可变长度整数处理部分

这款芯片搭载有不可变片上ROM,其中包含一款启动加载程序,可用于验证通常被保存在闪存内的外部固件,同时确保仅运行合法代码。处理器内的安全控制器可容纳来自主通、服务器制造商以及客户的软件验证用加密公钥。因此,设备将仅在未从ROM或者早期启动加载程序中发现漏洞的前提下启动可信代码并构建信息来源。

在本周召开的Hot Chips大会上,我们将持续为大家带来更多新鲜出炉的重要消息。另外,当相关价格、缓存大小与其它信息得到披露之后,我们还将发文将至强、Centriq与Epyc进行一番规格比较。


原文发布时间为: 2017年8月22日

本文作者:李超

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关文章
|
19天前
|
IDE 物联网 网络性能优化
什么是MQTT?如何使用ESP12F芯片连接到MQTT服务器
通过上述步骤,你可以成功地使用ESP12F模块连接到MQTT服务器,发布和订阅消息。MQTT的轻量级和高效性使其非常适合各种物联网应用,而ESP12F模块的强大功能和低成本使其成为实现这些应用的理想选择。
71 0
|
2月前
|
存储 机器学习/深度学习 并行计算
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下不同类型的云服务器有何不同,主要特点及适用场景有哪些。
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
|
2月前
|
安全 Unix Linux
【ARM】在NUC977上搭建基于boa的嵌入式web服务器
【ARM】在NUC977上搭建基于boa的嵌入式web服务器
|
2月前
|
存储 缓存 物联网
DP读书:鲲鹏处理器 架构与编程(二)服务器与处理器——高性能处理器的并行组织结构、ARM处理器
DP读书:鲲鹏处理器 架构与编程(二)服务器与处理器——高性能处理器的并行组织结构、ARM处理器
276 0
|
11月前
|
机器学习/深度学习 存储 编解码
阿里云ARM计算架构云服务器最新收费标准与活动价格表参考
ARM计算架构阿里云服务器有计算型c8y、通用型g8y、内存型r8y、ARM 通用型g6r、ARM 计算型c6r等实例规格可选,不同实例规格的租用收费价格是不一样的,本文为大家汇总了目前基于ARM计算架构下的各个实例规格的阿里云服务器收费标准,以供参考。
阿里云ARM计算架构云服务器最新收费标准与活动价格表参考
|
2天前
|
弹性计算 安全 Shell
阿里云ECS安全加固:从访问控制到数据保护的全方位策略
【6月更文挑战第29天】阿里云ECS安全聚焦访问控制、系统加固及数据保护。安全组限定IP和端口访问,密钥对增强SSH登录安全;定期更新补丁,使用防病毒工具;数据备份与加密确保数据安全。多维度策略保障业务安全。
25 15
|
2天前
|
弹性计算
阿里云ECS使用体验
在申请高校学生免费体验阿里云ECS云服务器后的一些使用体验和感受。
|
3天前
|
小程序 数据安全/隐私保护
阿里云新手入门:注册账号、实名认证、申请免费云服务器
阿里云新手指南:注册账号(手机号或支付宝快捷注册),完成实名认证(个人/企业)。通过免费服务器获取3个月试用。创建后,设置密码,远程连接,配置安全组规则,部署应用,如建站与环境安装。详询官方教程。
|
2天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU云服务器介绍_GPU租用费用_GPU优势和使用场景说明
阿里云GPU云服务器提供NVIDIA A10、V100、T4、P4、P100等GPU卡,结合高性能CPU,单实例计算性能高达5PFLOPS。支持多种实例规格,如A10卡GN7i、V100-16G卡GN6v等,应用于深度学习、科学计算等场景。GPU服务器租用费用因实例规格而异,如A10卡GN7i每月3213.99元起。阿里云还提供GPU加速软件如AIACC-Training、AIACC-Inference等。网络性能强大,VPC支持2400万PPS和160Gbps内网带宽。购买方式灵活,包括包年包月、按量付费等。客户案例包括深势科技、流利说和小牛翻译等。
|
2天前
|
存储 弹性计算 网络协议
阿里云hpc8ae服务器ECS高性能计算优化型实例性能详解
阿里云ECS的HPC优化型hpc8ae实例搭载3.75 GHz AMD第四代EPYC处理器,配备64 Gbps eRDMA网络,专为工业仿真、EDA、地质勘探等HPC工作负载设计。实例提供1:4的CPU内存配比,支持ESSD存储和IPv4/IPv6,操作系统限于特定版本的CentOS和Alibaba Cloud Linux。ecs.hpc8ae.32xlarge实例拥有64核和256 GiB内存,网络带宽和eRDMA带宽均为64 Gbit/s。适用于CFD、FEA、气象预报等场景。