倚天云服务器是阿里云目前非常热门的云服务器产品,也是阿里云在2023年主推的系列云服务器,目前倚天云服务器包括计算型c8y、通用型g8y、内存型r8y等实例规格,倚天云服务器采用阿里自研倚天710处理器,基于最新一代CIPU和Dragonfly ARM Hypervisor ,通过芯片快速路径加速手段实现计算、存储、网络性能的大幅提升。本文介绍阿里云倚天云服务器推出的市场背景、倚天云服务器的产品技术如何以及倚天云服务器的各项指标数据情况。
倚天云服务器产品详情参考:https://www.aliyun.com/product/ecs/yitian
一、倚天云服务器推出的市场背景
当前,企业云上业务需求趋势正在大幅增长,算力需求呈“爆炸式”递增。
直播/短视频行业每天有上亿用户产出UGC视频内容发布在不同平台,产生百万核级视频编码算力需求和高业务成本。基因/制药行业涉及到的分子动力学模拟、基因序列对比、蛋白结构分析,原来以实验为主,今天计算机模拟为主,从原子-分子单位的行为进行计算,消耗大量的算力。电商行业从流量为主转变为精益化运营过程中所需的AI推理、大数据画像,智能精准推荐对算力需求也越来越旺盛。以AI为代表的算力规模每三个半月就会翻一倍。
如今,每迭代一代CPU,服务器和数据中心的功耗和成本攀升,每千瓦芯片功耗在生命周期内带来上万美金的成本;硬件和芯片的成本也在逐代上涨。
在云这类面向多租户的场景下,超线程(HT)架构的问题逐渐暴露出来,面对一些高密计算任务时很难满足业务需求,共享内存与物理核的机制导致租户之间处理任务可能需要相互排队,导致性能大幅下降;或者互相干扰的情况导致性能波动。
如何能在实现高性能(减少干扰)的同时实现低功耗、低成本?我们认为,以此前的技术方案,无法解决业务需求和痛点,需要设计一款云原生芯片,结合现有的阿里云软硬件架构,才能更好地解决客户应用的需求。
我们先来看下结果:在编解码的场景下,ECS倚天实例和传统实例相比,实现了80%的性价比提升,数据库场景、AI推理场景、大数据场景也都分别有着30%、70%、50%的性价比有效提升。目前,ECS倚天实例已应用于阿里巴巴集团核心业务,并服务科学研究、智能手机行业和多家知名互联网公司。2021 年双 11 期间,天猫双 11 核心交易系统平滑迁移至倚天 710 云实例,算力性价比提升30%;汇量科技广告推理业务使用倚天 710 云实例,性能和网络带宽双双提升,性价比提升 40% 以上。
二、倚天实例是如何实现大幅的性价比提升的?
我们从不同ECS产品架构层面,包括:云原生处理器倚天710、云计算基础设施处理器CIPU、云原生应用优化方案ECS Booster 等不同层面,给大家分享。
1、倚天710:高性能、低功耗
我们先来看下倚天710处理器在设计上,是如何解决上述问题的。
从芯片层面看,主要影响应用性能的四大要素包括ALU(逻辑计算单元)、Cache、主频、加速指令。
首先,倚天710 单颗CPU即实现了128核的高密度设计,高规格实例可以实现线性的性能增长;同时处理器无超线程概念,避免了性能争抢的问题:独享物理核,性能更强劲;独享Cache,应用缓存更高效。
x86架构是两个vCPU/HT共享一个物理核,1份ALU(算术逻辑运算单元)。ECS倚天实例采用的是独享物理核心方式,这可以让算力密集的计算指令不必排队、不必争抢,计算速度更快。
在Cache维度,过去两个vCPU/HT共享一二级缓存,相互争抢,性能波动较为严重。采用倚天CPU独享Cache的设计,让vCPU之间相互不影响,为重负载计算带来更高性能。
影响算力性能的关键因素,除了核的资源,还有主频。
大家知道为什么多数Web、App、DB的生产业务CPU使用率的安全水位线是50%,日常水位低于30%吗?
以下图中的视频编码为例,并发超过4路后,性能下降40%;再加上前面说到的核争抢问题,如果客户的实际业务超过50-60%水位,关键生产应用将响应放慢,客户感知卡顿甚至超时问题。因此需要将CPU使用率安全水位压低,牺牲成本保证安全,浪费了另外50%资源。
背后的原因是x86功耗大,高算力负载很容易造成功耗过大,温度上升,因此采用降频规避,进而影响了性能。而倚天710的功耗是主流x86的1/6,没有任何降频问题。同时也推荐倚天的安全水位可以提高到70-80%,减少资源浪费。
在云上多租户共用平台,即使用户运行低负载应用,也存在相互影响的风险,倚天彻底解决了此问题。下图展示的案例就可以看到,在视频编解码四路以上时,代表倚天的橙色部分基本保持恒定,x86则会降低幅度40%。
值得一提的是,倚天710还针对特定算法场景进行了加速与优化。比如像NEON、SVE等矢量计算技术,可以让单条指令处理更长的数据,可以大幅提升机器学习、视频编码和高性能计算等场景性能;另外,倚天实例还支持BF16和INT8,在机器学习场景下,大幅提升计算效率,为客户提供更多选择。
2、以CIPU为中心的架构:高密、稳定、强劲
除了芯片本身能力,为了实现降本增效,倚天ECS实例基于云原生的硬件架构设计。
传统的服务器常常设计为2路或4路,通过多NUMA互连的方式提升整机CPU密度,让一个OS调度更多CPU算力,却也增加了复杂度。在这种架构下,随着核数增加,网络和存储IO也快速翻番,还要保持跨NUMA cache一致性,导致应用性能下降;同时也带来爆炸半径过大的问题,在云计算场景下,多路的设计会让局部硬件故障的影响范围更大。
阿里云采用云原生的思想重新设计。倚天710 CPU单颗CPU即实现了128核的高密度设计,同时以CIPU为中心的硬件架构,通过CIPU连接2颗或者更多倚天的芯片,去NUMA方案下实现整机核密度更高,避免了跨NUMA带来的性能下降,同时由整机的高密度带来了成本下降,使得倚天实例更有竞争力。同时,多单路的硬件机型设计,爆炸半径减半,产品更稳定。
此外CIPU硬件本身也是创新性的设计,通过将虚拟化与IO转发等数据面卸载到专用硬件上进行加速,消除了原来虚拟化损耗与性能争抢,并大幅加速了IO,也会使得整体性能更高;VPC环境下支持弹性RDMA加速能力,相比TCP时延降低70%以上。
3、ECS Booster
ECS Booster是阿里云在倚天实例上提供的软件性能优化方案,通过网络中断优化、操作系统优化、应用层优化等技术,针对web、APP、数据库等主流场景进行优化,运行在倚天实例上阿里云PaaS产品的性能获已经实现得显著性能收益,相信也能给客户业务场景带来明显受益。
三、倚天云服务器应用场景产品性能表现
前文说到的云原生处理器和创新的硬件架构,最终在应用上有哪些性能收益?我们从Web、App、Media、DB、大数据、科学计算、AI推理等七个最广泛场景来看产品性能表现。
1、Web场景:综合性能提升30%
Web场景是互联网中应用场景最多、消耗服务器资源最多的场景。为了解决移动场景流量和体验问题,服务端常常采用网页压缩方案节约带宽。但压缩算法非常消耗CPU算力和时间,导致队列中多客户请求时延变长。
倚天拥有独立CPU物理核,结合SVE指令加速,单vCPU数据压缩性能翻倍,前面提到的体验影响减半。Web场景包括Nginx、Apache、NodeJS、PHP等排名靠前的应用,倚天实例对比阿里云G7系列实例,综合性能提升30%左右。
阿里云防火墙CFW已经实现倚天ECS迁移。CFW为客户业务提供安全防护,需进行大量正则表达规则进行扫描,消耗大量算力,影响业务性能。采用独享物理核的ECS倚天实例,实现安全和体验收益兼得。在不同正则匹配性能优势分别为23%、40%、28%。
2、App编程语言性能:多数性能提升40%
不管是编译型语言C、Go等还是无需编译的语言Java、Python等,都很好的平滑兼容ARM架构,我们可以看到,使用开源的Benchmark进行测试,应用运行在ECS倚天实例上获得的性能提升多数有40%。
3、编解码场景:20-40%性能提升
短视频和直播是如今最火热的应用,UGC时代内容指数级增长,编解码算力消耗也随之增长。如今最流行的H.264算法速度快,节约算力,但是编码后的文件更大,消耗更多存储和带宽。H.265可以很好解决此问题,使用比重快速增长,但多消耗1倍算力成本。
无论是在哪种场景下,倚天的视频编解码性能均比x86实例更高,成本更低。
如下图所示,上述两类视频编码规范的编码器X.264、X.265运行在ECS倚天实例上,都收获了20-40%性能提升;这个过程中我们进行了大量矢量指令优化,使性能大幅提高,优化软件可以向客户输出。
4、数据库场景:10-30%性能提升
数据库场景下,运行在ECS倚天实例上,相较与G7实例,开源软件Redis、Memcached有30%性能优势,MySQL和PGSQL有10-20%性能优势。
阿里集团电商业务所使用的Tair数据库也已经迁移到倚天平台,协议上兼容Redis,性能是开源Redis数据库的3倍。Tair支撑了多年天猫双11大促,有强大的缓存能力,需要把数据缓存到内存,消耗Memory资源。我们采用倚天强大的算力优势进行数据压缩,让内存成本降低60%,叠加倚天实例自带的eRDMA加速能力,可以提升吞吐量80%,时延降低15%以上。目前基于ECS倚天实例的Tair产品已经上线,大家可以在云上使用。
5、大数据场景:20-60%性能提升
在需要消耗大量IO、大量计算以及高内存带宽的大数据场景中,ECS倚天实例由于拥有独立物理核、Cache更大、网络时延更低等特点,运行Spark应用性能收益20%以上,搜索Elastic Search和流计算Flink场景性能收益达到40%和60%。上述大数据开源软件,直接编译即可在倚天实例上运行,欢迎大家试用。支持试用配置:就算型c8y 2核4GB 3个月,申请地址:https://free.aliyun.com
6、科学计算:20%以上性能提升
在科学计算等场景下,相比于同规格x86云实例,运行在倚天实例上的基因、制药,汽车领域等方面的算法都有20%左右的收益,我们近期有两个伙伴测试分子动力学和EDA应用,甚至实现了性能翻倍。这主要是由于科学计算场景使用的主要是物理核资源,倚天实例与同规格的x86实例相比,核物理核数量是后者的两倍,计算性能更高。
阿里云弹性高性能计算平台E-HPC、弹性伸缩等云上工具已经支持ARM平台,主要科学算法也都可以平滑兼容。
7、AI推理:性能提升1倍
AI场景算力消耗增长飞快,成本占比急剧上升。推理场景下典型的搜推广客户都无法接受下调精度(影响模型准确度)降本。阿里云弹性计算团队和达摩院合作,推出了HIE-Engine动态量化方案,利用倚天实例的INT8加速能力,可将RestNet和Bert场景性能提升1倍,且精度没有损失。
使用这款产品会获得更好的性价比。在前面提到的七大主要应用场景,平均性价比(性能÷价格)收益可达50-80%。目前在阿里云产品中,RDS、容器、PAI、视频云等多款PaaS产品接入倚天ECS;阿里集团电商业务也使用了倚天ECS,有效支撑阿里618、99大促以及双11大促多个活动。外部有短视频、Web、游戏、广告等客户提前使用了新产品。
以上内容来源参考:阿里云架构师张先国:揭秘ECS倚天实例背后的技术
四、倚天云服务器处理器及存储、网络等性能简介
上面介绍了倚天云服务器的时长背景和技术实力,下面介绍一下倚天云服务器采用的处理器及存储性能、网络能力和产品优势。
处理器:采用2.75 GHz主频的倚天710处理器,计算性能稳定。
存储性能:I/O优化实例;仅支持ESSD云盘;实例存储I/O性能与计算规格对应(规格越高存储I/O性能越强);支持NVMe云盘,支持云盘多重挂载功能,满足企业级核心业务的要求。
网络:支持IPv6;超高网络收发包PPS能力;小规格实例网络带宽具备突发能力;实例网络性能与计算规格对应(规格越高网络性能越强);支持eRDMA特性,每个规格可选支持开启1个ERI(Elastic RDMA Interface)网卡。
适用场景:容器、微服务;网站和应用服务器;视频编解码;高性能计算;基于CPU的机器学习和游戏服务等场景。
倚天云服务器优势
超高性价比
采用ARM v9架构处理器,支持SVE2指令集。适合视频编解码、AI推理、Web服务、大数据等各种计算密集型、通用型场景。丰富的生态
倚天云服务器支持AliLinux3、Anolis、Ubuntu等主流操作系统。同时支持百余款开源软件以及多款阿里云主流PaaS产品,例如RDS、ACK等。安全增强
支持vTPM特性,依托TPM/TCM芯片,实现从服务器到实例的启动链可信度量。
五、倚天云服务器实例规格及指标数据
下面是计算型c8y、通用型g8y、内存型r8y实例的各项指标数据。
1、c8y包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | 网络带宽基础/突发(Gbit/s) | 网络收发包PPS | 连接数 | 多队列 | 弹性网卡 | 弹性eRDM网卡(ERI) | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 | 最大挂载数据盘数量 | 云盘IOPS | 云盘带宽(Gbit/s) |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ecs.c8y.small | 1 | 2 | 1/10 | 50万 | 最高25万 | 1 | 2 | 0 | 3 | 3 | 5 | 1万/最高11万 | 1/最高6 |
ecs.c8y.large | 2 | 4 | 2/10 | 90万 | 最高25万 | 2 | 3 | 1 | 6 | 6 | 8 | 2万/最高11万 | 1.5/最高6 |
ecs.c8y.xlarge | 4 | 8 | 3/10 | 100万 | 最高25万 | 4 | 4 | 1 | 15 | 15 | 8 | 4万/最高11万 | 2/最高6 |
ecs.c8y.2xlarge | 8 | 16 | 5/10 | 160万 | 最高25万 | 8 | 4 | 1 | 15 | 15 | 16 | 5万/最高11万 | 3/最高6 |
ecs.c8y.4xlarge | 16 | 32 | 10/16 | 300万 | 40万 | 16 | 8 | 1 | 30 | 30 | 16 | 8万/最高11万 | 5/最高6 |
ecs.c8y.8xlarge | 32 | 64 | 16/无 | 500万 | 75万 | 32 | 8 | 1 | 30 | 30 | 16 | 12.5万 | 8 |
ecs.c8y.16xlarge | 64 | 128 | 32/无 | 1000万 | 150万 | 32 | 8 | 1 | 30 | 30 | 32 | 25万 | 16 |
ecs.c8y.32xlarge | 128 | 256 | 64/无 | 2000万 | 300万 | 32 | 15 | 1 | 30 | 30 | 32 | 50万 | 32 |
2、g8y包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | 网络带宽基础/突发(Gbit/s) | 网络收发包PPS | 连接数 | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 | 最大挂载数据盘数量 | 云盘IOPS | 云盘带宽(Gbit/s) |
---|---|---|---|---|---|---|---|---|---|---|---|---|
8y.small | 1 | 4 | 1/10 | 50万 | 最高25万 | 1 | 2 | 3 | 3 | 5 | 1万/最高11万 | 1/最高6 |
ecs.g8y.large | 2 | 8 | 2/10 | 90万 | 最高25万 | 2 | 3 | 6 | 6 | 8 | 2万/最高11万 | 1.5/最高6 |
ecs.g8y.xlarge | 4 | 16 | 3/10 | 100万 | 最高25万 | 4 | 4 | 15 | 15 | 8 | 4万/最高11万 | 2/最高6 |
ecs.g8y.2xlarge | 8 | 32 | 5/10 | 160万 | 最高25万 | 8 | 4 | 15 | 15 | 16 | 5万/最高11万 | 3/最高6 |
ecs.g8y.4xlarge | 16 | 64 | 10/16 | 300万 | 40万 | 16 | 8 | 30 | 30 | 16 | 8万/最高11万 | 5/最高6 |
ecs.g8y.8xlarge | 32 | 128 | 16/无 | 500万 | 75万 | 32 | 8 | 30 | 30 | 16 | 12.5万 | 8 |
ecs.g8y.16xlarge | 64 | 256 | 32/无 | 1000万 | 150万 | 32 | 8 | 30 | 30 | 32 | 25万 | 16 |
ecs.g8y.32xlarge | 128 | 512 | 64/无 | 2000万 | 300万 | 32 | 15 | 30 | 30 | 32 | 50万 | 32 |
3、r8y包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | 网络带宽基础/突发(Gbit/s) | 网络收发包PPS | 连接数 | 多队列 | 弹性网卡 | 弹性eRDM网卡(ERI) | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 | 最大挂载数据盘数量 | 云盘IOPS | 云盘带宽(Gbit/s) |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
8y.small | 1 | 8 | 1/10 | 50万 | 最高25万 | 1 | 2 | 0 | 3 | 3 | 5 | 1万/最高11万 | 1/最高6 |
ecs.r8y.large | 2 | 16 | 2/10 | 90万 | 最高25万 | 2 | 3 | 1 | 6 | 6 | 8 | 2万/最高11万 | 1.5/最高6 |
ecs.r8y.xlarge | 4 | 32 | 3/10 | 100万 | 最高25万 | 4 | 4 | 1 | 15 | 15 | 8 | 4万/最高11万 | 2/最高6 |
ecs.r8y.2xlarge | 8 | 64 | 5/10 | 160万 | 最高25万 | 8 | 4 | 1 | 15 | 15 | 16 | 5万/最高11万 | 3/最高6 |
ecs.r8y.4xlarge | 16 | 128 | 10/16 | 300万 | 40万 | 16 | 8 | 1 | 30 | 30 | 16 | 8万/最高11万 | 5/最高6 |
ecs.r8y.8xlarge | 32 | 256 | 16/无 | 500万 | 75万 | 32 | 8 | 1 | 30 | 30 | 16 | 12.5万 | 8 |
ecs.r8y.16xlarge | 64 | 512 | 32/无 | 1000万 | 150万 | 32 | 8 | 1 | 30 | 30 | 32 | 25万 | 16 |
ecs.r8y.32xlarge | 128 | 1024 | 64/无 | 2000万 | 300万 | 32 | 15 | 1 | 30 | 30 | 32 | 50万 | 32 |
六、倚天云服务器最新价格参考
新老用户现在同享c8y、g8y、r8y云服务器7.2折,购买时长为1年-5年,c8y实例可选1核2G、2核4G、4核8G配置,g8y实例可选1核4G、2核8G、4核16G配置,r8y实例可选1核8G、2核16G、4核32G配置,详细价格查询:https://www.aliyun.com/page-source/developer/important_features/plan/enterprise
以下价格为带宽1M, 40G ESSD云盘时的默认价格,仅供参考,实际选购过程中,因为带宽与云盘容量的不同,价格会有所差异,1年至5年参考价格如下表所示:
云服务器实例 | 配置 | 带宽 | 系统盘容量 | 活动价格1年 | 活动价格2年 | 活动价格3年 | 活动价格4年 | 活动价格5年 |
---|---|---|---|---|---|---|---|---|
计算型c8y | 1核2G | 1M-100M | 40G-500G ESSD云盘 | 992.11元 | 1727.72元 | 2147.76元 | 2586.93元 | 3003.03元 |
计算型c8y | 2核4G | 1M-100M | 40G-500G ESSD云盘 | 1545.63元 | 2650.24元 | 3231.73元 | 3755.45元 | 4233.06元 |
计算型c8y | 4核8G | 1M-100M | 40G-500G ESSD云盘 | 2652.65元 | 4495.28元 | 5399.65元 | 6092.51元 | 6693.12元 |
通用型g8y | 1核4G | 1M-100M | 40G-500G ESSD云盘 | 1268.04元 | 2187.60元 | 2688.12元 | 3169.44元 | 3616.20元 |
通用型g8y | 2核8G | 1M-100M | 40G-500G ESSD云盘 | 2097.48元 | 3570.00元 | 4312.44元 | 4920.48元 | 5459.40元 |
通用型g8y | 4核16G | 1M-100M | 40G-500G ESSD云盘 | 3756.36元 | 6334.80元 | 7561.08元 | 8422.56元 | 9145.80元 |
内存型r8y | 1核8G | 1M-100M | 40G-500G ESSD云盘 | 1563.71元 | 2680.38元 | 3267.14元 | 3793.63元 | 4273.24元 |
内存型r8y | 2核16G | 1M-100M | 40G-500G ESSD云盘 | 2688.82元 | 4555.57元 | 5470.48元 | 6168.86元 | 6773.49元 |
内存型r8y | 4核32G | 1M-100M | 40G-500G ESSD云盘 | 4939.04元 | 8305.93元 | 9877.16元 | 10919.32元 | 11773.97元 |
另外,阿里云会不定期为用户赠送各种优惠券与代金券,无论我们是购买哪种实例规格的阿里云服务器,在购买之前推荐先了解一下领券中心是否有优惠券或代金券能领取,如果有的话,可先领券然后再购买,我们结算订单的时还能使用获得满减优惠。