冷启动优化:厂商对冷启动问题的优化

简介: 冷启动优化:厂商对冷启动问题的优化

通过对《Understanding AWS Lambda Performance—How Much Do Cold Starts Really Matter?》、《Serverless:Cold Start War》等文章分析不难看出,不仅仅不同厂商对于冷启动的优化程度是不同的,同一厂商对不同运行时的冷启动优化、也是不同的;这也充分说明,尽管各个厂商也在通过一些规则和策略努力降低冷启动率,但是由于冷启动的影响因素是复杂的,存在即多不可控因素,所以至今也没办法做到一致性,甚至同一厂商都没办法在不同运行时实现同样的优化成果。除此之外文章《Understanding Serverless Cold Start》,《Everything you need to know about cold starts in AWS Lambda》,《Keeping Functions Warm》,《I'm afraid you're thinking about AWS Lambda cold starts all wrong》等也均对冷启动现象等进行描述和深入的探讨,并且提出了一些业务侧应对函数冷启动的解决方案和策略。

如图1.31所示,通常情况下,冷启动的解决方案包括几个部分:实例的复用,实例的预热以及资源池化。

实例复用方案

从资源复用层面来说,对实例的复用相对来说是比较重要的,一个实例并不是在触发完成之后就结束其生命周期,而是会继续保留一段时间,当在这段时间内如果函数再次被触发,那么可以优先分配该实例来完成相应的触发请求,在这种情况下可以认为函数的所有资源是准备妥当的,只需要再执行对应的方法即可,所以实例复用是大多数厂商都会采取的一个降低冷启动率的措施;在实例资源复用的方案中,实例静默状态下要被保留多久,是一个成本话题,也是厂商不断探索的话题之一,因为如果保留时间过短会导致请求出现较为严重的冷启动问题,影响用户体验,如果实例长期不被释放则很难被合理地利用起来,会大幅度提高平台整体成本。

实例预热方案

在预热层面来讲,解决函数冷启动问题可以通过某些手段判断用户的函数在下一个时间段可能需要多少实例,并且进行实例资源的提前准备;函数预热的方案是大部分云厂商所重视并不断深入探索的方向,常见的预热方案有几种:

被动预热通常指的是非用户主动行为预热,是系统自动预热函数的行为。这一部分主要包括了规则预热、算法预热以及混合预热;所谓的规则预热是指设定一个实例数量范围(例如每个函数同一时间点最低0个实例,最多300个实例),然后通过一个或几个比例关系进行函数下一时间段的实例数量的扩缩,例如设定某个比例为1.3倍,当前实例数量为110,实际活跃实例数量为100,那么实际活跃数量*所设定的比例的结果为130个实例,与当前实际存在时110个实例相比是需要额外扩容20个实例,那么系统就会自动将实例数量从110个提升到130个;这种做法在实例数量较多的和较少的情况下会出现阔缩数量过大或过小的问题(所以有部分厂商引入不同实例范围内采用不同的比例来解决这个问题),在流量波动较频繁且波峰波谷相差较大的时候该方案会出现预热滞后的问题;算法预热实际上是根据函数之间的关系、函数的历史特征进行,通过深度学习等算法,进行下一时间段的实例的扩缩操作,但是在实际生产过程中,环境是非常复杂的,对流量进行一个较为精确的预测是非常困难的,所以算法预测的方案是很多人在探索,但却迟迟没有落地的一个重要原因;还有一种方案是混合预热,即将规则预热与算法预热进行一个权重划分,共同预测下一时间段的实例数量,并提前决定扩缩行为,以及扩缩数量等;

主动预热通常指的是用户主动进行预热的行为,由于被动预热在复杂环境下的不准确性,所以很多云厂商提供了用户手动预留的能力,目前来说主要分为简单配置和指标配置两种,所谓的简单配置就是设定预留的实例数量,或者某个时间范围内的预留实例数量,所预留的实例将会一直保持存活状态,不会被释放掉;还有另一种是指标配置,即在简单配置基础上,可以增加一些指标,例如当前预留的空闲容器数量小于某个值时进行某个规律的扩容,反之进行某个规律的缩容等;通常情况下用户主动预留模式比较适用于有计划的活动,例如某平台在双十一期间要进行促销活动,那么可以设定双十一期间的预留资源以保证高并发下系统良好的稳定性和优秀的响应速度;通常情况下主动预留可能会产生额外的费用;

混合预热,即将被动预热和主动预热按照一个权重关系进行结合;当用户配置了主动预热优先主动预热规则,辅助被动预热规则;如果用户没有配置主动预热规则,则使用默认的被动预热规则;

资源池化方案

最后一种解决冷启动问题的方法是资源池化,但是通常情况下这种所谓的资源池化带来的效果可能不是热启动,可能是温启动,所谓的温启动就是说实例所需要的相关资源是已经被提前准备了,但是并没有完全准备的情况。所谓的池化就是在实例从零到一的过程中的任何一步,进行一些预留准备:

例如,底层资源准备层面,可以提前准备一些底层资源作为池化;在进行运行时准备的层面,也可以准备一些运行时资源作为池化资源;如果可以精确到用户代码层面,也可以在一些实例中,在加载用户代码(业务逻辑)等资源层面作为池化;池化的好处是,可以将实例启动的链路,例如运行时层面的池化,可以避免底层资源准备时产生的时间消耗,让启动速度更快,同时池化也可以更加灵活的面对更多情况,例如在运行时层面的池化,可以将池化的实例分配给不同的函数,不同函数被触发的时候,可以优先使用池化资源,达到更快启动速度;当然池化也是一门学问,例如池化的资源规格,运行时的种类,以及池化的数量,资源的分配和调度等。

通常情况下,在冷启动的过程中,比较耗时的环节包括网络资源的打通(很多函数平台都是函数容器里绑定弹性网卡去访问开发者其他的资源,这个网络的部署需要秒的级别),实例的底层资源的准备过程,以及运行时等准备。

目录
相关文章
|
4月前
|
机器学习/深度学习 算法 物联网
面向能效和低延迟的语音控制智能家居:离线语音识别与物联网集成方案——论文阅读
本文提出一种面向能效与低延迟的离线语音控制智能家居方案,通过将关键词识别(KWS)集成至终端设备,结合去中心化Mesh网络与CoAP协议,实现本地化语音处理。相较云端方案,系统能耗降低98%,延迟减少75%以上,显著提升响应速度与能源效率,为绿色智能家居提供可行路径。(236字)
369 17
面向能效和低延迟的语音控制智能家居:离线语音识别与物联网集成方案——论文阅读
|
6月前
|
存储 机器学习/深度学习 算法
|
监控 Cloud Native 测试技术
云原生架构下的性能优化与实践####
【10月更文挑战第21天】 本文深入探讨了在云原生环境下,如何通过一系列技术手段和最佳实践来提升应用性能。文章首先概述了云原生架构的基本原则与优势,随后详细分析了影响性能的关键因素,包括容器编排、微服务设计、持续集成/持续部署(CI/CD)流程以及监控与日志管理。针对这些因素,文中不仅介绍了具体的优化策略,如资源请求与限制的合理配置、服务间通信的高效实现、自动化测试与部署的优化,还结合案例分析,展示了如何在实际项目中有效实施这些策略以显著提升系统响应速度和处理能力。此外,文章还强调了性能测试的重要性,并提供了几种常用的性能测试工具和方法。最后,总结了云原生性能优化的未来趋势,为开发者和架构师
284 2
|
11月前
|
数据采集 供应链 API
实战指南:通过1688开放平台API获取商品详情数据(附Python代码及避坑指南)
1688作为国内最大的B2B供应链平台,其API为企业提供合法合规的JSON数据源,直接获取批发价、SKU库存等核心数据。相比爬虫方案,官方API避免了反爬严格、数据缺失和法律风险等问题。企业接入1688商品API需完成资质认证、创建应用、签名机制解析及调用接口四步。应用场景包括智能采购系统、供应商评估模型和跨境选品分析。提供高频问题解决方案及安全合规实践,确保数据安全与合法使用。立即访问1688开放平台,解锁B2B数据宝藏!
|
存储 弹性计算 人工智能
阿里云服务器五代、六代、七代、八代实例区别及选择参考
目前阿里云服务器的实例规格经过多次升级之后,最新一代已经升级到第八代实例,当下主售的云服务器实例规格也以七代和八代云服务器为主,对于初次接触阿里云服务器实例规格的用户来说,可能并不是很清楚阿里云服务器五代、六代、七代、八代实例有哪些,他们之间有何区别,下面小编为大家介绍下阿里云五代、六代、七代、八代云服务器实例规格分别有哪些以及每一代云服务器在性能方面具体有哪些提升,以供大家参考和了解。
阿里云服务器五代、六代、七代、八代实例区别及选择参考
|
XML JSON 缓存
阿里巴巴商品详情数据接口(alibaba.item_get) 丨阿里巴巴 API 实时接口指南
阿里巴巴商品详情数据接口(alibaba.item_get)允许商家通过API获取商品的详细信息,包括标题、描述、价格、销量、评价等。主要参数为商品ID(num_iid),支持多种返回数据格式,如json、xml等,便于开发者根据需求选择。使用前需注册并获得App Key与App Secret,注意遵守使用规范。
|
机器学习/深度学习 算法
XGBoost中正则化的9个超参数
本文探讨了XGBoost中多种正则化方法及其重要性,旨在通过防止过拟合来提升模型性能。文章首先强调了XGBoost作为一种高效算法在机器学习任务中的应用价值,并指出正则化对于缓解过拟合问题的关键作用,具体包括降低模型复杂度、改善泛化能力和防止模型过度适应训练数据。随后,文章详细介绍了四种正则化方法:减少估计器数量(如使用`early_stopping_rounds`)、使用更简单的树(如调整`gamma`和`max_depth`)、采样(如设置`subsample`和`colsample`)以及收缩(如调节`learning_rate`, `lambda`和`alpha`)。
507 0
XGBoost中正则化的9个超参数
一种典型的三极管和MOS管结合的开关控制电路
本篇博文分享在实际工作中经常使用的一种典型的三极管和MOS管结合的开关控制电路,关于三极管和MOS管的基础使用方法可以参见下文说明。
|
存储 Java 流计算
Flink 分布式快照,神秘机制背后究竟隐藏着怎样的惊人奥秘?快来一探究竟!
【8月更文挑战第26天】Flink是一款开源框架,支持有状态流处理与批处理任务。其核心功能之一为分布式快照,通过“检查点(Checkpoint)”机制确保系统能在故障发生时从最近的一致性状态恢复,实现可靠容错。Flink通过JobManager触发检查点,各节点暂停接收新数据并保存当前状态至稳定存储(如HDFS)。采用“异步屏障快照(Asynchronous Barrier Snapshotting)”技术,插入特殊标记“屏障(Barrier)”随数据流传播,在不影响整体流程的同时高效完成状态保存。例如可在Flink中设置每1000毫秒进行一次检查点并指定存储位置。
402 0
|
开发者 Python
six,一个神奇的 Python 版本兼容工具库!
six,一个神奇的 Python 版本兼容工具库!
499 4