Serverless 工程实践 | Serverless 应用优化与调试秘诀

本文涉及的产品
可观测可视化 Grafana 版,10个用户账号 1个月
可观测监控 Prometheus 版,每月50GB免费额度
应用实时监控服务-应用监控,每月50GB免费额度
简介: 本文将以阿里云函数计算为例,提供了在线调试、本地调试等多种应用优化与调试方案。

作者|刘宇

前言:本文将以阿里云函数计算为例,提供了在线调试、本地调试等多种应用优化与调试方案。

Serverless 应用调试秘诀

在应用开发过程中,或者应用开发完成,所执行结果不符合预期时,我们要进行一定的调试工作。但是在 Serverless 架构下,调试往往会受到极大的环境限制,出现所开发的应用在本地可以健康、符合预期的运行,但是在 FaaS 平台上发生一些不可预测的问题的情况。而且在一些特殊环境下,本地没有办法模拟线上环境,难以进行项目的开发和调试。

Serverless 应用的调试一直都是备受诟病的,但是各个云厂商并没有因此放弃在调试方向的深入探索。以阿里云函数计算为例,其提供了在线调试、本地调试等多种调试方案。

在线调试

1.简单调试

所谓的简单调试,就是在控制台进行调试。以阿里云函数计算为例,其可以在控制台通过“执行”按钮,进行基本的调试,如图所示。

1.png
函数在线简单调试页面

必要的时候,我们也可以通过设置 Event 来模拟一些事件,如图所示。

2.png
通过设置 Event 模拟事件

在线调试的好处是,可以使用线上的一些环境进行代码的测试。当线上环境拥有 VPC 等资源时,在本地环境是很难进行调试的,例如数据库需要通过 VPC 访问,或者有对象存储触发器的业务逻辑等。

2.断点调试

除了简单的调试之外,部分云厂商也支持断点调试,例如阿里云函数计算的远程调试、腾讯云云函数的远程调试等。以阿里云函数计算远程调试为例,其可以通过控制台进行函数的在线调试。当创建好函数之后,用户可以选择远程调试,并点击“开启调试”按钮,如图所示。

3.png
函数在线断点调试页面(一)

开启调试之后,稍等片刻,系统将会进入远程调试界面,如图所示。

4.png
函数在线断点调试页面(二)

此时可以进行一些断点调试,如图所示。

5.png
函数在线断点调试页面(三)

本地调试

1.命令行工具

就目前来看,大部分 FaaS 平台都会为用户提供相对完备的命令行工具,包括 AWS 的SAM CLI、阿里云的 Funcraft,同时也有一些开源项目例如 Serverless Framework、Serverless Devs 等对多云厂商的支持。通过命令行工具进行代码调试的方法很简单。以 Serverless Devs 为例,本地调试阿里云函数计算。

首先确保本地拥有一个函数计算的项目,如图所示。

6.png
本地函数计算项目

然后在项目下执行调试指令,例如在 Docker 中进行调试,如图所示。

7.png
命令行工具调试函数计算

2.编辑器插件

以 VScode 插件为例,当下载好阿里云函数计算的 VSCode 插件,并且配置好账号信息之后,可以在本地新建函数,并且在打点之后可以进行断点调试,如图所示。

8.png
VSCode 插件调试函数计算

当函数调试完成之后,执行部署等操作。

其他调试方案

1.Web 框架的本地调试

在阿里云 FaaS 平台开发传统 Web 框架,以 Python 语言编写的 Bottle 框架为例,可以增加以下代码:

app = bottle.default_app()
并且对run方法进行条件限制 (if __name__ == '__main__'):
if __name__ == '__main__':
    bottle.run(host='localhost', port=8080, debug=True)
例如:
# index.py
import bottle

@bottle.route('/hello/<name>')
def index(name):
    return "Hello world"

app = bottle.default_app()

if __name__ == '__main__':
    bottle.run(host='localhost', port=8080, debug=True)

当部署应用到线上时,只需要在入口方法处填写 ndex.app,即可实现平滑部署。

2.本地模拟事件调试

针对非 Web 框架,我们可以在本地构建一个方法,例如要调试对象存储触发器:

import json
def handler(event, context):
    print(event)
def test():
    event = {
        "events": [
            {
                "eventName": "ObjectCreated:PutObject",
                "eventSource": "acs:oss",
                "eventTime": "2017-04-21T12:46:37.000Z",
                "eventVersion": "1.0",
                "oss": {
                    "bucket": {
                        "arn": "acs:oss:cn-shanghai:123456789:bucketname",
                        "name": "testbucket",
                        "ownerIdentity": "123456789",
                        "virtualBucket": ""
                    },
                    "object": {
                        "deltaSize": 122539,
                        "eTag": "688A7BF4F233DC9C88A80BF985AB7329",
                        "key": "image/a.jpg",
                        "size": 122539
                    },
                    "ossSchemaVersion": "1.0",
                    "ruleId": "9adac8e253828f4f7c0466d941fa3db81161****"
                },
                "region": "cn-shanghai",
                "requestParameters": {
                    "sourceIPAddress": "140.205.***.***"
                },
                "responseElements": {
                    "requestId": "58F9FF2D3DF792092E12044C"
                },
                "userIdentity": {
                    "principalId": "123456789"
                }
            }
        ]
    }
    handler(json.dumps(event), None)
if __name__ == "__main__":
    print(test())

这样,通过构造一个 event 对象,即可实现模拟事件触发。

Serverless 应用优化

资源评估依旧重要

Serverless 架构虽然是按量付费的,但是并不代表它就一定比传统的服务器租用费用低。如果对自己的项目评估不准确,对一些指标设置不合理,Serverless 架构所产生的费用可能是巨大的。

一般情况下,FaaS 平台的收费和三个指标有直接关系,即所配置的函数规格(例如内存规格等)、程序所消耗的时间以及产生的流量费用。通常情况下,程序所消耗的时间可能与内存规格、程序本身所处理的业务逻辑有关。流量费用与程序本身和客户端交互的数据包大小有关。所以在这三个常见的指标中,可能因为配置不规范导致计费出现比较大偏差的就是内存规格。以阿里云函数计算为例,假设有一个 Hello World 程序,每天都会被执行 10000 次,不同规格的内存所产生的费用(不包括网络费用)如表所示。

9.png

通过表中可以看到,当程序在 128MB 规格的内存中可以正常执行,如果错误地将内存规格设置成 3072MB,可能每月产生的费用将会暴涨 25 倍!所以在上线 Serverless 应用之前,要对资源进行评估,以便以更合理的配置来进一步降低成本。

合理的代码包规格

各个云厂商的 FaaS 平台中都对代码包大小有着限制。抛掉云厂商对代码包的限制,单纯地说代码包的规格可能会产生的影响,通过函数的冷启动流程可以看到,如图所示。

10.png
函数冷启动流程简图

在函数冷启动过程中,当所上传的代码包过大,或者文件过多导致解压速度过慢,就会使加载代码过程变长,进一步导致冷启动时间变久。

设想一下,当有两个压缩包,一个是只有 100KB 的代码压缩包,另一个是 200MB 的代码压缩包,两者同时在千兆的内网带宽下理想化(即不考虑磁盘的存储速度等)下载,即使最大速度可以达到 125MB/s,那么前者的下载时间只有不到 0.01 秒,后者需要 1.6 秒。除了下载时间之外,加上文件的解压时间,那么两者的冷启动时间可能就相差 2 秒。一般情况下,对于传统的 Web 接口,如果要 2 秒以上的响应时间,实际上对很多业务来说是不能接受的,所以在打包代码时就要尽可能地降低压缩包大小。以 Node.js 项目为例,打包代码包时,我们可以采用 Webpack 等方法来压缩依赖包大小,进一步降低整体代码包的规格,提升函数的冷启动效率。

合理复用实例

为了更好地解决冷启动的问题、更合理地利用资源,各个云厂商的 FaaS 平台中是存在实例复用情况的。所谓的实例复用,就是当一个实例完成一个请求后并不会释放,而是进入静默的状态。在一定时间范围内,如果有新的请求被分配过来,则会直接调用对应的方法,而不需要再初始化各类资源等,这在很大程度上减少了函数冷启动的情况出现。为了验证,我们可以创建两个函数:

函数1:
# -*- coding: utf-8 -*-

def handler(event, context):
    print("Test")
    return 'hello world'
函数2:
# -*- coding: utf-8 -*-
print("Test")

def handler(event, context):
    return 'hello world'

在控制台点击“测试”按钮,对上述两个函数进行测试,判断其是否在日志中输出了 “Test”,统计结果如表所示。

11.png
函数复用记录

可以看到,其实实例复用的情况是存在的。进一步思考,如果 print("Test") 语句是一个初始化数据库连接,或者是函数 1 和函数 2 加载了一个深度学习模型,是不是函数 1 就是每次请求都会执行,而函数 2 可以复用已有对象?

所以在实际的项目中,有一些初始化操作是可以按照函数 2 实现的,例如:

  • 在机器学习场景下,在初始化的时候加载模型,避免每次函数被触发都会加载模型。
  • 在初始化的时候建立链接对象,避免每次请求都创建链接对象。
  • 其他一些需要首次加载时下载、加载的文件在初始化时实现,提高实例复用效率。

善于利用函数特性

各个云厂商的 FaaS 平台都有一些特性。所谓的平台特性,是指这些功能可能并不是 CNCF WG-Serverless Whitepaper v1.0 中规定的能力或者描述的能力,仅仅是作为云平台根据自身业务发展和诉求从用户角度出发挖掘出来并且实现的功能,可能只是某个云平台或者某几个云平台所拥有的功能。这类功能一般情况下如果利用得当会让业务性能有质的提升。

1.Pre-freeze & Pre-stop

以阿里云函数计算为例,在平台发展过程中,用户痛点(尤其是阻碍传统应用平滑迁移至 Serverless 架构)如下。

  • 异步背景指标数据延迟或丢失:如果在请求期间没有发送成功,则可能被延迟至下一次请求,或者数据点被丢弃。
  • 同步发送指标增加延时:如果在每个请求结束后都调用类似 Flush 接口,不仅增加了每个请求的延时,对于后端服务也产生了不必要的压力。
  • 函数优雅下线:实例关闭时应用有清理连接、关闭进程、上报状态等需求。在函数计算中实例下线时,开发者无法掌握,也缺少 Webhook 通知函数实例下线事件。

根据这些痛点,阿里云发布了运行时扩展 (Runtime Extensions) 功能。该功能在现有的 HTTP 服务编程模型上扩展,在已有的 HTTP 服务器模型中增加了 PreFreeze 和 PreStop Webhook。扩展开发者负责实现 HTTP handler,监听函数实例生命周期事件,如图所示。

12.png
扩展编程模型与现有编程模型处理的工作内容简图

  • PreFreeze:在每次函数计算服务决定冷冻当前函数实例前,函数计算服务会调用 HTTP GET/prefreeze 路径,扩展开发者负责实现相应逻辑以确保完成实例冷冻前的必要操作,例如等待指标发送成功等,如图所示。函数调用 InvokeFunction 的时间不包含 PreFreeze Hook 的执行时间。

13.png
PreFreeze时序图

  • PreStop:在每次函数计算决定停止当前函数实例前,函数计算服务会调用 HTTP GET/prestop 路径,扩展开发者负责实现相应逻辑以确保完成实例释放前的必要操作,如等待数据库链接关闭,以及上报、更新状态等,如图所示。

14.png
PreStope 时序图

2.单实例多并发

众所周知,各云厂商的函数计算通常是请求级别的隔离,即当客户端同时发起 3 个请求到函数计算,理论上会产生 3 个实例进行应对,这个时候可能会涉及冷启动以及请求之间状态关联等问题。因此,部分云厂商提供了单实例多并发的能力(例如阿里云函数计算)。该能力允许用户为函数设置一个实例并发度 (InstanceConcurrency) ,即单个函数实例可以同时处理多个请求,如图所示。

15.png
单实例多并发效果简图

如上图所示,假设同时有 3 个请求需要处理,当实例并发度设置为 1 时,函数计算需要创建 3 个实例来处理这 3 个请求,每个实例分别处理 1 个请求;当实例并发度设置为 10 时(即1个实例可以同时处理 10 个请求),函数计算只需要创建 1 个实例就能处理这 3 个请求。

单实例多并发的优势如下。

  • 减少执行时长,节省费用。例如,偏 I/O 函数可以在一个实例内并发处理请求,减少了实例数,从而减少总的执行时长。
  • 请求之间可以共享状态。多个请求可以在一个实例内共用数据库连接池,从而减少和数据库之间的连接数。
  • 降低冷启动概率。由于多个请求可以在一个实例内处理,创建新实例的次数会减少,冷启动概率降低。
  • 减少占用 VPC IP。在相同负载下,单实例多并发可以降低总的实例数,从而减少 VPC IP 的占用。

单实例多并发的应用场景比较广泛,例如函数中有较多时间在等待下游服务响应的场景就比较适合使用该功能。单实例多并发也有不适合应用的场景,例如函数中有共享状态且不能并发访问时,单个请求的执行要消耗大量 CPU 及内存资源,这时就不适合使用单实例多并发功能。

*关于作者:
刘宇(江昱)国防科技大学电子信息专业在读博士,阿里云 Serverless 产品经理,阿里云 Serverless 云布道师,CIO 学院特聘讲师。*

新书推荐

16.png

本书会通过多个开源项目、多个云厂商的多款云产品,以及多种途径向读者介绍什么是 Serverless 架构、如何上手 Serverless 架构、不同领域中 Serverless 架构的应用以及如何从零开发一个 Serverless 应用等。本书可以帮助读者将 Serverless 架构融入到自己所在的领域,把 Serverless 项目真实落地,获得 Serverless 架构带来的技术红利。

相关实践学习
【AI破次元壁合照】少年白马醉春风,函数计算一键部署AI绘画平台
本次实验基于阿里云函数计算产品能力开发AI绘画平台,可让您实现“破次元壁”与角色合照,为角色换背景效果,用AI绘图技术绘出属于自己的少年江湖。
从 0 入门函数计算
在函数计算的架构中,开发者只需要编写业务代码,并监控业务运行情况就可以了。这将开发者从繁重的运维工作中解放出来,将精力投入到更有意义的开发任务上。
相关文章
|
26天前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
367 29
|
2月前
|
存储 人工智能 Serverless
函数计算进化之路:AI 应用运行时的状态剖析
AI应用正从“请求-响应”迈向“对话式智能体”,推动Serverless架构向“会话原生”演进。阿里云函数计算引领云上 AI 应用 Serverless 运行时技术创新,实现性能、隔离与成本平衡,开启Serverless AI新范式。
384 12
|
3月前
|
运维 监控 Cloud Native
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
国诚投顾携手阿里云,依托Serverless架构实现技术全面升级,构建高弹性、智能化技术底座,提升业务稳定性与运行效率。通过云原生API网关、微服务治理与智能监控,实现流量精细化管理与系统可观测性增强,打造安全、敏捷的智能投顾平台,助力行业数字化变革。
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
|
7月前
|
SQL 分布式计算 Serverless
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。
724 56
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
|
3月前
|
运维 监控 Cloud Native
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
通过与阿里云深度合作,国诚投顾完成了从传统 ECS 架构向云原生 Serverless 架构的全面转型。新的技术架构不仅解决了原有系统在稳定性、弹性、运维效率等方面的痛点,还在成本控制、API 治理、可观测性、DevOps 自动化等方面实现了全方位升级。
|
5月前
|
存储 编解码 Serverless
Serverless架构下的OSS应用:函数计算FC自动处理图片/视频转码(演示水印添加+缩略图生成流水线)
本文介绍基于阿里云函数计算(FC)和对象存储(OSS)构建Serverless媒体处理流水线,解决传统方案资源利用率低、运维复杂、成本高等问题。通过事件驱动机制实现图片水印添加、多规格缩略图生成及视频转码优化,支持毫秒级弹性伸缩与精确计费,提升处理效率并降低成本,适用于高并发媒体处理场景。
300 0
|
7月前
|
人工智能 开发框架 安全
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。
639 31
|
2月前
|
人工智能 运维 安全
聚焦 AI 应用基础设施,云栖大会 Serverless AI 全回顾
2025 年 9 月 26 日,为期三天的云栖大会在杭州云栖小镇圆满闭幕。随着大模型技术的飞速发展,我们正从云原生时代迈向一个全新的 AI 原生应用时代。为了解决企业在 AI 应用落地中面临的高成本、高复杂度和高风险等核心挑战,阿里云基于函数计算 FC 发布一系列重磅服务。本文将对云栖大会期间 Serverless+AI 基础设施相关内容进行全面总结。
|
2月前
|
人工智能 Kubernetes 安全
重塑云上 AI 应用“运行时”,函数计算进化之路
回顾历史,电网的修建,深刻地改变了世界的经济地理和创新格局。今天,一个 AI 原生的云端运行时的进化,其意义也远不止于技术本身。这是一次设计哲学的升华:从“让应用适应平台”到“让平台主动理解和适应智能应用”的转变。当一个强大、易用、经济且安全的 AI 运行时成为像水电一样的基础设施时,它将极大地降低创新的门槛。一个独立的开发者、一个小型创业团队,将有能力去创造和部署世界级的 AI 应用。这才是技术平权的真谛,是激发全社会创新潜能的关键。

相关产品

  • 函数计算