异步请求积压可视化|如何 1 分钟内快速定位函数计算积压问题

本文涉及的产品
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
函数计算FC,每月15万CU 3个月
简介: 本文分为三个部分:概述中引入了积压问题,并介绍了函数计算异步调用基本链路;并在指标介绍部分详细介绍了指标查看方式,分类解读了不同的指标含义;最后以一个常见的异步请求积压场景为例,介绍如何在 1 分钟内快速定位积压问题。

为异步调用保驾护航


使用函数计算异步调用的开发者最关心的问题是:调用请求能否在预期的时间内被处理完成。若没能处理完成,那么在客户眼中就是异步调用请求积压了,然而基于之前函数计算异步调用指标体系,无论是定位积压,还是查看积压,过程都是十分繁琐的。


针对以上问题,函数计算推出了一系列异步调用请求积压相关的指标,能够帮助用户快速定位请求积压,向用户展示积压量化值。本文将详细介绍如何通过这些监控指标快速定位到函数异步调用出现的积压问题,为各位开发者讲解升级后的异步调用指标体系。


在开始之前,先简单介绍下函数计算异步调用。


异步调用是函数计算调用函数的一种方式,通过异步调用你不仅可以确保函数会至少执行一次,还可以保存调用执行过程中的状态转换信息和执行结果,其调用链路如下所示:


用户/事件源发起异步调用请求后会立刻返回本次请求 ID,随后函数计算系统将本次调用的相关信息转换为消息的格式,放入 MNS 消息队队列中供系统内下游模块消费,下游模块会基于解析出来的调用消息进行函数调用。


调用完成后,如果函数配置了 Destination,则系统会基于调用结果以及 Destination 内容进行进一步处理,Destination 相关内容介绍请参考异步调用文档:

https://help.aliyun.com/document_detail/181866.html


指标升级


升级后的函数计算异步调用链路监控指标主要新增了如下几类:


指标类型

指标名称

单位

纬度

异步调用处理情况

异步请求入队

服务; 函数

异步请求处理完成

服务; 函数

异步请求积压数

函数

异步消息处理延时

平均处理时延

毫秒

服务; 函数


下面我们将对上述指标进行详细解读。

指标查看


目前可以通过函数计算控制台或者 Serverless Devs 工具这两种方式查看函数的监控指标大盘,下面我们将以控制台为例,指导大家如何查看异步调用链路相关的监控指标,基于 Serverless Devs 的查看方式可以参考:

https://github.com/devsapp/fc/blob/main/docs/zh/command/metrics.md


下面介绍的步骤前提是已开通了函数计算服务;且成功创建了服务以及函数,如果还未进行这些操作,请参考使用控制台创建函数:

https://help.aliyun.com/document_detail/51783.html


首先打开函数计算控制台,点击左侧 监控大盘 标签,滑倒底部,可以查看到该地域所有服务的异步调用处理情况以及异步消息处理平均延时概览表格:



此时我们点击任意一个服务名称,进入后,可以看到该服务下所有函数的异步调用处理情况;以及异步消息处理平均延时概览表格:


接下来我们点击任意一个函数名称,进入后可以看到所有函数纬度的监控指标,并以图的形式展示:



至此,我们已经学会了这些指标的查看途径。下面继续为各位开发者介绍解读上述异步链路相关指标。

指标解读


我们将根据不同的指标类型对监控指标进行分类解读。

异步调用处理情况


异步请求入队

异步调用中,到达函数计算的请求数,当入队请求数大于请求处理完成数时,表示有请求积压,函数处理异步请求的速度小于异步请求发起的速度。请调整函数弹性伸缩(含预留资源)限,参考:

https://help.aliyun.com/document_detail/185038.html#task-2538034


或可钉钉搜索加入阿里函数计算官网客户群(11721331)联系我们进行处理。


异步请求处理完成

异步调用中,函数计算处理完成的请求数,异步请求处理完成数量,应始终不大于异步请求入队的数量。


异步请求积压数

已经到达函数计算的异步请求中,等待处理以及正在处理中的请求统一视为积压请求, 这些请求的数量为异步消息积压数,当这个值不为 0 时,表示异步调用请求是有积压的。


该指标将异步调用请求积压量化,解决积压数不可见问题,极大提高了异步调用的可观测性,也是本次升级的重要内容之一。


异步请求处理延时


平均处理时延

函数异步调用请求从进入处理队列到开始处理的时延,按指定时间粒度统计求平均值。当该值高于预期时,表明函数异步调用请求可能存在积压。


“异步请求入队”、“异步请求处理完成” 以及 “平均处理延时” 这三个指标被放置在监控大盘的概览图表中,旨在帮助用户快速定位到出现积压的函数,解决积压定位难的问题。


1 分钟定位积压问题


在之前的异步调用指标体系下,如果想要定位积压问题,首先需要找到积压函数,此时需要逐个函数查看其函数监控指标详情,定位成功后,也无法直观看到具体的积压量化值。

升级后的异步调用指标体系能够很好地解决积压问题定位难以及积压量化的问题。下面将围绕积压问题的场景,描述如何使用上述指标快速定位积压问题。

业务场景


问题描述:

小张的业务涉及到三个函数,且都是异步调用,某天用户的业务出了问题,每个环节的异步处理时延都增大了。为了快速定位问题,用户想到了异步链路监控指标,进行了如下定位动作。

定位过程:

首先打开地域级别的监控大盘,选择目标时间段,查看该地域下各个服务的监控指标;



发现多个服务的异步调用平均处理延时高于预期,同时其异步请求入队数均大于请求处理完成数,表示这些服务都有一定程度异步调用消息积压,且 A-Service 的异步请求入队数量和异步调用请求完成数差别最大,积压最严重,点击 A-Service 查看监控指标:




可以看到该服务下的函数 A-Function 是积压源,点击 A-Function 查看函数纬度的监控指标:



从请求积压数图中可以看到积压是从 15:07 时间开始的,当前该账号下未完成的异步调用请求数最大时大约有 7000 左右 ,同时异步调用请求处理平均时延在逐步升高,目前是 30 万毫秒左右。每分钟处理的异步调用请求数在 800 -- 900 之间。


注:由于小张目前使用的是账号级别共享队列,因此异步请求积压数显示的整个账号下的异步调用请求积压数,如因业务需要,函数需要独享队列,可以联系函数计算团队进行开通。


进一步发现,地域按量实例数图中实例数已经打满,因此定位到原因是因为 A-Function 的请求激增,账号级别的按量实例数限制打满了,使得其他函数的异步调用也受到了影响,导致业务每个环节都受到了影响。


问题解决:

定位到问题后,小张立刻联系了函数计算团队,基于业务量进行了地域按量实例限制调整。


同时 A-Function 调用量最大,可能会对地域纬度的异步调用请求调度以及按量实例数产生一定的冲击,对其他函数的异步调用请求造成影响,因此函数计算团队建议为 A-Function 开启独享队列功能,同时设置弹性实例上限,这样将 A-Function 的异步调用请求进行隔离,避免对其他函数的影响。

总结


升级后的函数计算异步调用监控指标体系能够帮助用户解决积压问题定位难以及积压量化等问题结合云监控报警的设置,极大提高了函数计算异步调用应用的稳定性。


同时,为了尽量避免请求积压情况的发生,我们目前正在对函数计算异步处理系统层面进行优化,包括队列回收机制、独享队列能力以及积压消息重定向策略等,从而提高函数计算系统处理异步调用请求的能力。这样,通过强大的异步调用请求处理系统以及全面的监控指标体系,为函数计算异步调用保驾护航。



更多内容关注 Serverless 微信公众号(ID:serverlessdevs),汇集 Serverless 技术最全内容,定期举办 Serverless 活动、直播,用户最佳实践。

相关实践学习
【AI破次元壁合照】少年白马醉春风,函数计算一键部署AI绘画平台
本次实验基于阿里云函数计算产品能力开发AI绘画平台,可让您实现“破次元壁”与角色合照,为角色换背景效果,用AI绘图技术绘出属于自己的少年江湖。
从 0 入门函数计算
在函数计算的架构中,开发者只需要编写业务代码,并监控业务运行情况就可以了。这将开发者从繁重的运维工作中解放出来,将精力投入到更有意义的开发任务上。
相关文章
|
机器学习/深度学习 监控 大数据
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
|
监控 Serverless Go
Serverless 函数问题之定位如何解决
当函数日志和监控指标无法定位问题时,可利用coredump检查程序状态,tcpdump抓取网络包,jmap分析Java内存;若疑虑函数实例网络不稳定,可通过命令行登录实例,安装并使用tcpdump抓包,上传至对象存储再下载至本地,用Wireshark做进一步分析。
112 0
|
SQL 运维 Serverless
函数计算产品使用问题之实时数据消费太慢,造成积压,该怎么办
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
存储 运维 监控
一眼定位问题,函数计算发布日志关键词秒检索功能
随着业务量的攀升,用户在日志方面的诉求也是越来越多,函数计算控制台中的请求列表与关键字查询的组合可以轻松覆盖 100% 来自开发者的日志需求,让您更快速定位问题,直接进行业务日志的检索。
一眼定位问题,函数计算发布日志关键词秒检索功能
|
存储 运维 监控
一眼定位问题,函数计算发布日志关键词秒检索功能
当 FaaS 应用出现很多报错,且调用日志页面的请求过多时,如何才能简单、快速地查到出现 bug 的原因?
|
消息中间件 弹性计算 监控
异步请求积压可视化|如何 1 分钟内快速定位函数计算积压问题
本文分为三个部分:概述中引入了积压问题,并介绍了函数计算异步调用基本链路;并在指标介绍部分详细介绍了指标查看方式,分类解读了不同的指标含义;最后以一个常见的异步请求积压场景为例,介绍如何在 1 分钟内快速定位积压问题。
异步请求积压可视化|如何 1 分钟内快速定位函数计算积压问题
|
5天前
|
存储 人工智能 Serverless
函数计算进化之路:AI 应用运行时的状态剖析
AI应用正从“请求-响应”迈向“对话式智能体”,推动Serverless架构向“会话原生”演进。阿里云函数计算引领云上 AI 应用 Serverless 运行时技术创新,实现性能、隔离与成本平衡,开启Serverless AI新范式。
137 12
|
5月前
|
SQL 分布式计算 Serverless
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。
527 56
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
|
3月前
|
存储 编解码 Serverless
Serverless架构下的OSS应用:函数计算FC自动处理图片/视频转码(演示水印添加+缩略图生成流水线)
本文介绍基于阿里云函数计算(FC)和对象存储(OSS)构建Serverless媒体处理流水线,解决传统方案资源利用率低、运维复杂、成本高等问题。通过事件驱动机制实现图片水印添加、多规格缩略图生成及视频转码优化,支持毫秒级弹性伸缩与精确计费,提升处理效率并降低成本,适用于高并发媒体处理场景。
211 0
|
5月前
|
人工智能 开发框架 安全
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。
503 30

相关产品

  • 函数计算