1. 资源与账务解耦的云上付费方式及新应用范式
首先为大家带来分享的是阿里云弹性计算产品专家王曦,他演讲的主题是《资源与账务解耦的云上付费方式及新应用范式》。传统的上云付费方式组合已经无法解决目前客户的云上成本持续优化诉求,针对敏态和稳态业务,通过不同的付费方式选择,能够持续优化成本。王曦的分享可以帮助用户选择正确的用云“姿势”,达到灵活与成本的最佳平衡。
王曦 阿里云弹性计算产品专家
王曦在分享中着重强调,客户的核心诉求并不是真正的去选择某一类的付费方式,客户核心诉求是如何去在云上持续的优化上云成本,这才是他们的核心诉求。
基于这样一个本质诉求,今天付费方式的选择其实只是发生在使用云的这个时刻,把整个云上成本优化的一个矩阵和链路进行梳理,做一个简单的汇报和同步。
对于阿里云,整体的云上成本优化的产品矩阵,其实完全是以FinOps的一个核心理念出发,FinOps的整个技术框架最底层是数据层,数据抽象层、策略层、应用层,按照这样的逻辑。进行一个产品功能的设计,核心要解决的是什么问题?因为产品逻辑毕竟要解决客户的实际问题,要解决的核心问题其实是,今天客户如何能够在云上选择到最合适的实例规格资源,并且在有成本诉求的时候选择到合适的付费方式,有了这两点的加持之后,我们通过数据驱动的方式,不断的去优化我们云上的资源使用方式,达到最终的上云成本的优化。
在这个过程当中,按照客户的使用前、使用中、使用后这样的一个维度去进行能力上的拆解,在使用前,顾名思义,客户最关注的是这么多的资源,如果有性能的需求,该怎么去选择,如果有成本的需求,应该怎么选择,这会有一套产品的体系能力来帮助大家进行一个资源的选型,在后续的演讲当中,也会有这一部分产品能力的详细介绍。对于本人而言,今天核心可能会和大家沟通的是在使用时付费方式怎么选择。听起来没这么复杂、高深,但是其实这里边会映射到很多客户业务实际落地的场景,比如客户如果每天只使用两三个小时,包年包月是否合适,带着这样的问题可以继续往下沟通和探讨。
在上云以后,客户已经使用了合适的付费方式,他已经选择了他认为在当下最适合的资源内容,还有没有其他的优化空间?答案是一定的,它可以基于我们后续提供的一系列的平台数据能力来持续的去基于数据驱动的方式优化它的一个资源使用模式,这也是想和大家同步的,今天付费方式的选择,在整个云上成本优化当中的一个占位,它是在使用中的过程是非常重要的,同时这也决定的它是一个连接客户资源和资源优化当中的一个重要的桥梁。
回顾和总结:
阿里云的付费方式多种多样,这些付费方式下面永远会用三个维度或者三个象限进行一个总结和梳理,这三个维度分别是资源使用的灵活性、成本是否低廉,它的成本低廉性、资源使用的过程当中是否存在确定性的资源的刚性兑付,基于这三个维度,可以把刚才所有的内容填补到这样的一个表格当中,同时汇报一下自己个人的一些思考。
阿里云经过这么多年的运转,其实在整个付费方式体系的模式更迭上,其实经历了大概三个阶段,第一个阶段,是一个基础能力的建设,核心打造的是资源交付类,在资源交付类下面,可以看到包含三类体系,这三类体系分别是按量的体系,按量随用随弹的弹性体系,包年包月下面的体系以及竞价的体系,这种竞价体系抢占是实力,这是在最开始支出的一些基础的付费方式的能力,随着不断的识别客户的需求,以及不断的站在内部的经营模式,经营的风险和思考这个角度,往2.0的阶段去优化,在这个过程当中,核心去演进的是这种折扣权益类的能力,在折扣权益类的能力,它必须要搭配按量付费去进行使用,在按量付费下面既给客户的一种弹性的灵活资源使用,同时将整个的折扣权益进行一个有效的降低。
在这个过程当中,在按量下面可以获得一个相对比较低廉的成本,同时能够获得极大的资源使用灵活性,在第三个阶段,也是在按量体系下面持续的进行思考,会发现在折扣权益类下面,因为不强求刚性资源的刚性兑付,客户在具体使用资源的时候,期望资源是能够有这种刚性兑付的需求的时候,因此就过渡到了整个售卖体系的3.0阶段,在3.0阶段,核心打造的是资源的保障和资源的保障权益,在这个过程当中,引进了一些类似于弹性保障、容量预定的一些能力,核心的去解决客户在不同的付费方式下面资源的快速获取,以及资源使用的确定性,这个就是对于整个阿里云付费方式一个演进的思考和一个完整的大图。
汇报在整个业务侧发现的一些变化,也是希望后续如果在和头部客户在合作的过程当中,能够逐渐的从老旧的模式往这种全新的模式上做后续的迁移,可以看到其实刚才在表述当中,也不断反复的提到了传统的云上模型和现在的新兴的云上模型,传统的客户的业务模型,从左侧看就会发现,对于云上的稳态业务,包年包月给他包掉就好,对于一些弹性的业务,用按量付费去使用和承载,对于一些极致的毛刺,又有成本的诉求,可以搭配抢占式实例进行使用。
所以在传统的模式下面,要三种的付费方式并行,才能够解决完整的客户业务诉求,随着客户不断的变迁和跃迁,在新兴的业务模式下面,这种模型发生了一些变化,首先应对于云上稳态的业务,刚才所讲应对于云上稳态的业务,已经权限收拢到了节省计划加按量这种模式下面,也同步的官宣了一个信息,后面会有包年月一键转按量加减省计划的产品能力,帮助大家从左侧的模型更好的过渡到右侧的模型上,同样应对于云上的稳态业务,而针对于云上的敏态业务,后续会建议我们的客户全部往抢占式实力上面进行演进,可以通过左右侧的对比会发现,想要解决一个问题是需要通过三种不同的手段进行解决,但是随着产品能力的不断提升和产品的思路的不断梳理,应对于后续同样的业务模型,会建议客户使用两种付费方式,能够解决全量的一些问题。
2. 降本利器:玩转抢占式实例、专有宿主机、通用算力型与经济型实例
接下来带来分享的是阿里云弹性计算高级技术专家王渊平,他的分享主题是《降本利器:玩转抢占式实例、专有宿主机、通用算力型与经济型实例》。他将介绍如何利用阿里云的抢占式实例、专有宿主机、通用算力型与经济型实例来降低成本。抢占式实例允许用户以很低价格来使用云计算资源,专有宿主机允许用户设置较高vCPU超分比来降低使用云计算资源成本,此外通用算力型与经济型实例则提供了更加经济的资源配置选择,合理运用这些降本利器,可以显著降低云上成本。
王渊平 阿里云弹性计算高级技术专家
王渊平在分享中提到:如何更好的管理我们抢占式实例的算力容量,非常建议使用阿里云弹性计算的弹性供应组和弹性伸缩来创建管理的抢占式实例,弹性供应和弹性伸缩是一键开启跨售卖方式、跨可用区、跨实例规格的计算集群算力交付,它不仅可以大幅降低算力的成本,而且可以大规模高效的一键批量交付,提升交付的效率。
以弹性供应组举例,如果有1万名CPU的算力需要,当通过1/3的按量来保证资源的核心业务的确定性,剩余的都通过抢占式实例,利用抢占式实例成本大幅降低成本。如果对性能有要求,可以指定多个产品的规格,如果对性能没有要求,也支持指定CPU和memory的方式。
另外弹性供应组提供了多种策略,假如设置容量优化策略,弹性供应组会基于内部的规划引擎。会综合考虑抢占式实例的市场价格以及中断率,帮助在创建成功率最高以及成本相对较低的资源池来创建实例。比如case最终抢占式实例可能会创建分布在三个可用区,因为这样可以减少抢占式实例被中断的概率。可以更稳定的使用低价算力,如果对成本有更极致的要求,弹性伸缩也支持成本优化策略,会从成本最低的资源池里面来创建实例,帮助大幅的降低成本。如果业务架构是支持跨可用、跨地域的,也可以参考最下面的文档。它可以帮助更好的选择地域和产品的规格。
以一个具体的客户案例为例,介绍是如何通过抢占式实例大幅降低70%成本,这个客户是一个全球广告服务平台公司,需要大量的计算资源,对价格非常敏感,并且它的流量波峰波谷波动非常剧烈,白天的流量可能是晚上流量的几十倍,希望在低价的基础上寻求算力的稳定性。
这个客户使用了阿里云弹性伸缩来创建和管理抢占式实例,在生产的过程中指定多个可用区和多个产品规格,并且使用弹性伸缩的成本优化策略。来帮助确保以最优的成本高效的交付抢占式实例和按量付费资源,同时弹性伸缩支持抢占式实例的补偿机制。
在我们抢占式实例收到中断通知,弹性伸缩会自动的从价格最低的资源池来创建实例,补齐抢占式实例的算力,防止抢占式实例算力的断崖式的下降。这个客户通过弹性伸缩的成本优化策略,以及结合抢占式实例的补偿机制,不仅大幅提升了资源的稳定性,而且通过以30%的成本完成了业务的交付。
容器越来越流行,弹性计算有一款产品是弹性容器实例,弹性容器实例是20层免运维的容器实例,可以无需要创建和管理ecs,在云上可以直接开通容器实例,并且可以无缝对接K8S,在弹性容器实例的很多场景也是非常适合使用抢占式实例。在K8S里的job任务,在开发测试环境,在大数据的存算分离计算任务,这些都可以利用抢占式实例来大幅降低成本。
如果有一个K8S的CronJob,只需要在原来的Pod里面把抢战式实例的价格策略修改一下,可以使用抢占式的弹性容器实例,谁用谁释放,而且在抢占式的弹性容器实例提供了非常高的并发弹性能力。可以提供高达5000Pod每分钟的弹性能力。并且弹性容器实例资源池和云服务器ecs是并持的。它可以在短时间内满足大量的计算需求。
利用抢占式的弹性容器实例,更重要的一点是相对于按量最低价格可以达到10%,可以大幅降低云上的资源成本。
接下来深入了解专有宿主机自定义CPU超分比这个功能,首先,CPU超分比这个概念,CPU超分比其实是一种CPU的资源管理策略,以阿里云通用型专有宿主机一台物理机举例,一台物理机可能是52个物理核,超线程开启以后是104VCPU,意味着最多可以开通104VCPU的云服务器ecs。
但如果使用超分型专有宿主机,设置CPU超分比等于二,意味着整机的CPU变成了208,可以开通更多的云服务器ecs,通过提高CPU超分比,可以更加充分的利用专有宿主机的资源,大幅提高资源利用率。在阿里云六代Cascade Lake和七代Ice Lake上都提供了CPU自定义超分比的功能,而且最高CPU超分比可以到达五倍,大幅降低成本。业务如果有不同的诉求,可以针对不同的业务设置不同的CPU超分比,如果有一个业务部门A生产集群对性能要求很高,可以不设置CPU超分比,生产集群2和3。
如果业务性能要求一般,可以设置CPU超分比为2和3,但是在开发测试环境,可以设置CPU超分比为5,可以大幅节省成本,不仅不同的业务之间业务上是相互隔离的。
以阿里云客户为例,是如何通过通用算力型实例来享受到算力型实例的成本技术红利,是阿里云的一个电商客户,每年需要做一些促销活动,每当促销活动时,需要大量的计算资源,而且对性能和稳定性的要求非常高,往年往往单一的产品规格无法满足对资源的诉求。
这不仅会导致在成本测核算方面非常复杂,在业务上要适配不同的产品规格。客户当切换到通用算力型实例时,情况就发生了改变,依托阿里云的资源池化技术,把服务器平台统一形成了资源池。
通过智能调度算法,基于各调度的供应和需求情况充分挖掘全网各地域的各种机型的资源,不仅保证了客户的弹性分值提升了60%,更重要的帮客户整体的计算资源成本降低了40%。同时也大大提升了整体的交付的效率。
上图展示的是经济型e实例的一些典型的应用场景。
经济型e实例给一些初创的小微企业或以更加经济实惠的选择,因为这些企业通常需要控制成本,可以帮助他们快速的在云上搭建可靠的基础架构。经济型e实例特别适用于对性能要求不高的场景,如在日常办公,网站建设或者开发测试环境,经济型e实例都可以提供足够的算力,并且以更低的价格来满足业务上的要求。
有一个客户他的生产应用是通过企业级实例来部署的,但是充分利用了经济型e实例来做容灾部署,基于阿里云的负载预测的智能调度,经济型e实例在性能和稳定性方面也是有很不错的保证。这样不仅让容灾成本降低了40%以上,而且高可用性上面也得到了不错的保证。
3. ECS资源管家助力客户平滑应对流量高峰
最后带来分享的是阿里云弹性计算高级技术专家田政雄,他分享的主题是《ECS资源管家助力客户平滑应对流量高峰》。保障公有云客户能够持续弹出需要的资源,需要综合性的手段。田政雄介绍如何实现最佳的弹性保障手段来满足客户双十一、大促等运营活动时的流量峰值弹性,包括容量预留、候补、资源推荐、RI等弹性保障能力以及最佳实践。
田政雄 阿里云弹性计算高级技术专家
田政雄:ECS有80多个可用区,有400多个规格组,并且有多种售卖形态。每种售卖形态、每种购买方式的组合,它的弹性和适用场景都是不一样的,如何让用户选择合适的?
针对这个问题,推出了资源推荐这个功能,结合用户的画像,用户的特征给用户推荐合适的规格和购买方式,让用户的弹性和性价比最高。有的用户不仅关注当前能否购买,还关注持续能否购买,针对这个问题,推出了库存供应健康分来查询库存的健康情况,这不仅仅是当前的,还会考虑未来这段时间潜在的供应能力。
在资源诊断页面,用户可以通过购买失败的历史分析,以及当前规格的资源预警的信息,给出更合理的判断信息,通过获取足够的信息给用户获取到足够的购买决策。
针对弹性去确定性问题以及峰值弹性供应问题,在购买过程中是怎样做保障的?资源预定是指针对有预期的需求来提前预定资源,在需要时能100%保障。弹性供应是指可以提供多规格多可用区,让用户输入多规格多可用区来扩大弹性的边界,让底层的资源池供应池更大,前面做了这么多的弹性保障工作,但是由于一些物理的限制,比如一些海外机房机位的限制,比如CPU卡物理硬件的一些限制,CPU卡也是比较紧俏的,当有些少量的地域还是会出现供应不足,库存不足的情况,针对这个问题也提供了过后的购买解决方案,比如推荐换其他的一些规格可能区,以及受权后补,受权后补是类似于火车票购买的候补功能,它相当于当前不可买,但是因为是确定性需求,会尽力交付。
下图是资源管家的入口和示例,包括购前的资源规划推荐,以及购中的资源预定,购后的购买解决方案的推荐。
首先是购前的资源推荐。购前资源推荐,在控制台售卖页上是ecs购买的主入口,相当于大部分请求都是从这个流量进来,在控制台上,因为这么多规格和可用区,用户如何来选择,通过根据用户的特征画像和一些用户历史的购买行为情况给用户推出合适的top规格推荐,让用户既低成本又有弹性确定性。
左图里面针对用户场景,主要是推荐的U规格,因为U规格成本比较低的,而且它的底层弹性空间,弹性池会比较大,适合大多数场景。针对IDC上云总算力场景,推出了单独的场景化规格推荐的页面,可以根据不同的业务场景推出合适的ecs规格,包括从线下物理IDC搬站上来的,以及从友商过来的一些用户场景,以及新算力场景,都可以通过这个页面给出合适的算力和容量规划。
前面介绍了在购买前通过资源推荐和资源诊断让用户获取到足够的信息选择做合适的决策,在购买过程中怎么样做确定性保障的。根据不同的用户场景,提供了多样的资源预定的服务方式,主要是包括容量预定和弹性保障,容量预定是指针对前面的节假日,以及亚运会这种有可预期的流量峰值,提供了一个弹性保障服务,在提前锁定资源需要的时候,可以100%保障它的确定性。
根据是否是生效时间,以及是否支持包年包月按量,又区分了多种售卖形态,包括立即生效的容量预定,以及可以指定时间生效的包年包月的容量预定,以及指定时间生效和节省计划一起的购买的容量预定。
第二个是弹性保障,弹性保障是指在针对突发性以及周期性这种短时的弹性需求提前锁定资源,需要支付一定的保险保障费用,但是这个费用相对于包月它的费用是要低很多的,在需要的时候获得确定100%的确定性保障。几个产品的具体使用、具体介绍和使用场景。
iCR,即立即生效的容量预定,它是指为保障稳定以及可预期的按量资源提供100%保障的一个产品,用户在购买资源的时候选择某个可能区的某个规格以及需要的容量数量,可以锁定私有池,它有以下几个特点和优势,第一个特点是资源预定成功以后是100%保障的,不用担心在峰值的时候跟其他用户的一些挤兑风险。第二个特点是没有额外成本,它本身是不需要收费的,但是如果未使用的容量也是要开始计费的。
第三个是随时可用,当也可以随时修改它的容量以及随时取消。第四个是专项专用,可以拥有自己的一些观念,一些核心业务专门锁定,可以通过指定私有池ID来创建实例。
典型的客户场景主要包括以下几个,第一个是集群部署时,比如现在一些K8S集群或者大数据集群部署时,其实是不允许中间中断的,因此针对这种重要的场景,可以提前锁定资源,这样可以保证整个升级过程,整个部署过程都是能完全work的。
第二个是系统升级的过程,这个是前段时间碰到真实客户的一个场景,客户是在升级时需要先释放一部分的VM,然后创建VM,如何保证创建的VM是100%成功。要100%成功才能保障系统整体升级成功,因此需要在释放之前就锁定资源,能保证整个升级过程中连贯顺畅。
第三个场景是比较重要的,是资源的分时复用场景,现在很多企业一般有在线业务和离线业务,在白天的时候在线业务峰值很高,但是在晚上它低谷时,怎样来提升整体的资源利用率,通过CR共享的方式保障确定性,并且提升整体的资源利用率。
前面介绍了确定性的产品,总结购买方式的推荐,针对平稳型的当前主流可能是包年包月,在这种场景下,适合建议使用节省计划和容量预定,通过按量来带来更好的灵活性,对于共振型的多个VM会一起突发上来,这种分为稳定部分和弹性部分,针对稳定部分建议使用节省计划和容量预定来保障确定性,并且成本比较低,针对弹性部分,通过弹性保障这种方式来保障确定性。
针对突刺型,这种突发的业务类型,通过弹性保障来保障它的确定性,但是弹性保障毕竟还是有部分费用的,因此针对这种高频突刺的,可以适当搭配节省计划和容量预定整体来降低成本。
针对离线的混部业务,强烈建议使用节省计划和容量预定,因为一方面可以更好的管理成本是最优的,一方面也有确定性保障,并且可以在做分时复用方面也可以提升整体的资源利用率。
下面是即将要新发布的一个功能,也是为了提升整体的用户的使用利用率,这个场景叫跨UID共享的功能。
上面一个场景的例子,这个用户比如有100个容量,有多个业务部门,有的在线部门可能白天是比较忙的。晚上的时候是低谷,低谷能否给其他的部门,比如一些离线部门,在晚上是可以用的更多的,在这个场景下整体来提升资源利用率。相当于提供了下面一个示意图,比如下面整体的创建一个iCR,iCR里有五个容量,owner是可以共享给其他的用户,包括自己一个部门之间,不管是额度还是时间上的分配管理,可以多个aliUid共识,形成整体的资源协调,整体提升资源利用率。