是什么让一段20行代码的性能提升了10倍

简介: 性能优化显而易见的好处是能够节约机器资源。如果一个有2000台服务器的应用,整体性能提升了10%,理论上来说,就相当于节省了200台的机器。除了节省机器资源外,性能好的应用相对于性能差的应用,在应对流量突增时更不容易达到机器的性能瓶颈,在同样流量场景下进行机器扩容时,也只需要更少的机器,从而能够更快的完成扩容、应急操作。所以,性能好的应用相对于性能差的应用在稳定性方面也更胜一筹。

image.png

作者 | 金盛杰(司旭)
来源 | 阿里开发者公众号

一、背景

1.1 业务背景

支付宝卡包存放着用户的会员卡和优惠券。无论是卡券cell,还是卡券详情,都是通过静态模板配置加上动态可变数据,最终呈现给终端用户的。

下面【图1】展现了卡券数据在C端用户的展现形式,【图2】表示了C端数据组装过程。

image.png

【图1】卡券数据在C端展现形式



image.png

【图2】C端数据组装过程

以【图2】为例,模板中有availableAmount 和voucherName 两个变量,这两个变量在动态变量数据有对应的值。用动态的值替换掉模板里面对应的这两个变量,最后拼装成“100元红包名称”。当这个红包被使用了一次,消费了30元后,动态数据里面availableAmount 的值就会变成70。用户再次进入到红包详情页时,展现数据重新组装后就会变成“70元红包名称”。

1.2 问题发现

最近做项目过程中,把卡券组装渲染逻辑好好的梳理了一遍,其中仔细研读了【图3】这段模板变量替换逻辑。这是一段老代码,从卡包产品诞生之日起就存在,差不多有十年的时间了。其作用就是用动态数据替换掉模板里面的变量。这段代码逻辑咋一看,并没有什么问题,就是把模板里面两个$ 之间(包含)的变量,用动态数据进行替换。考虑到这是一段极为核心又高频的调用逻辑,于是看看有没有性能优化的空间。

image.png

【图3】模板变量替换代码实现

把替换逻辑厘清了之后,第一感觉就是这段代码有性能提升的空间。主要有两点:

1、每次while 循环进行了两次indexOf 操作

2、每次while 循环都进行了substring 操作

于是,就有了下面两个疑问:

1、能够减少indexOf 和substring 操作吗?

2、真的每次都要进行模板变量查找吗?

二、性能优化

带着上面两个问题,逐步进行性能优化并测试。

整个优化过程一共迭代了5版,并最终取得了性能提升超过10倍的效果。下面分别来介绍下不同版本的实现和性能对比。

2.1 性能优化V1

这一版去掉了indexOf 和substring 操作,转而使用另一种替换方式。

之前的替换逻辑是从头到尾循环模板内容字符串,遇到$ 之间的变量就进行替换,过程中需要不断的进行indexOf 和substring 操作。新的实现方式是在进行变量替换之前,通过循环模板内容字符串,利用双指针把模板里面所有变量都提取出来,再对变量集合进行循环,依次替换掉模板内容里面的变量。

image.png

【图4】性能优化V1代码实现

2.2 性能优化V2

静态模板配置一般情况下不会发生变更。也就意味着,同一个模板对应的变量都是固定不变的。可以将模板id和模板变量集合进行一对一的缓存,减少每次替换之前的变量提取。

在决定使用缓存之前,要想好怎么实现缓存。有两点需要注意:

1、用本地缓存代替TBase,减少大流量场景下对TBase的压力

2、怎么控制本地缓存的有效数量,并在有限的内存占用情况下最大化缓存效率

可以借助Google Guava库的缓存类来实现缓存逻辑,示例代码见【图5】

image.png

【图5】缓存实现示例代码

image.png

【图6】性能优化V2代码实现

2.3 性能对比 (1)

做完上面两步之后进行了性能测试,性能对比如【图7】所示。

image.png

【图7】V1、V2版性能对比

通过性能对比发现,V1版相对于原始版有性能提升,带缓存的V2版相对于不带缓存的V1版也有性能提升。但随着流量增大,性能优化效果逐步减弱。说明V1、V2版耗时优化的点,在整个模板变量替换耗时中占比并不高。也同时说明,整个模板变量替换逻辑当中,还存在其他更为耗时的点。

回过头来再仔细看一遍变量替换逻辑,突然间意识到遗漏了一个”大问题“。就是这个String.replace 方法,该方法有两个耗时点:

1、每次replace 都会进行模板编译

2、replace 都是创建一个新的对象进行返回

并且每次replace 之后还要进行变量的重新赋值。

image.png

【图8】String.replace 代码实现

2.4 性能优化V3

在V2版基础上,去掉replace 方法,用StringBuilder 来实现。

image.png

【图9】性能优化V3代码实现

StringBuilder 实现过程中有一点要注意。V2版本中,提取变量返回的是一个Set 集合。返回集合中出现变量的顺序和模板中变量顺序会不一致,模板中有多个相同变量的情况下,也只会替换第一个出现的变量。所以要将变量提取返回的结果换成有序可重复的List ,才能保证逻辑的正确性。

2.5 性能优化V4

V3版优化之后,性能提升明显,证明String.replace 方法才是整个模板变量替换逻辑中最为耗时的点。于是在原方法上只用StringBuilder 来替换String.replace ,得到V4版。

image.png

【图10】性能优化V4代码实现

2.6 性能对比(2)

image.png

【图11】V1、V2、V3、V4版性能对比

通过【图11】可以明显的发现,在进行StringBuilder 实现后,性能提升超过10倍,效果十分明显。

V4版耗时实际上比V3版带缓存的还要少,说明V3版先提取变量再进行StringBuilder 组装的过程,相对来说还是会更耗时一点。但V4版的代码可读性是不如V3版的,可以把V3版和V4版相结合,剔除掉缓存依赖,产生一个代码可读性和性能最佳的V5版。

2.7 性能优化V5

先提取变量,去掉缓存依赖,用StringBuilder 替换掉String.replace ,增加代码可读性。

image.png

【图12】V5版代码实现&100万次循环耗时对比

三、总结

通过上面5个版本的性能优化,性能得到了超过10倍的提升。

性能由高到低的顺序是V4 > V3 > V5 > V2 > V1 > 未被优化的原始版。其中V3、V4、V5版的性能显著优于V1和V2版,证明这段模板替换逻辑最为耗时的点为String.replace ,V3 > V5和V2 > V1表明,引入缓存对性能提升还是有一定帮助的。在代码可读性方面,V4是不如V3和V5的。

整个优化总结下来主要有两点:

1、String.replace 方法涉及到模板编译和新字符串生成,比较吃资源

2、StringBuilder 代替String.replace ,除了能够缩短调用耗时,在空间上也能够减少资源占用。因为StringBuilder.append 相对于String.replace 来说,能够减少中间大量String 对象的创建和销毁,能够减少GC的压力,从而降低CPU的负载。

性能优化显而易见的好处是能够节约机器资源。如果一个有2000台服务器的应用,整体性能提升了10%,理论上来说,就相当于节省了200台的机器。除了节省机器资源外,性能好的应用相对于性能差的应用,在应对流量突增时更不容易达到机器的性能瓶颈,在同样流量场景下进行机器扩容时,也只需要更少的机器,从而能够更快的完成扩容、应急操作。所以,性能好的应用相对于性能差的应用在稳定性方面也更胜一筹。

最后再回到本次文章的主题:是什么让一段20行代码的性能提升了10倍?

我的回答是:StringBuilder yyds!

推荐阅读

《低代码引擎技术白皮书》

低代码引擎是一款为低代码平台开发者提供的,具备强大定制扩展能力的低代码设计器研发框架。本书从应用、基础协议和原理三个方面对低代码引擎的技术进行了全面的介绍,并在低代码引擎原理篇重点介绍了低代码引擎所需的渲染、入料、编排、出码等核心技术原理,对低代码引擎的生态设计进行了介绍。本书适合于有低代码产品研发诉求的前端开发人员。

相关文章
|
人工智能 搜索推荐 物联网
VeRA: 性能相当,但参数却比LoRA少10倍
2022年的LoRA提高了微调效率,它在模型的顶部添加低秩(即小)张量进行微调。模型的参数被冻结。只有添加的张量的参数是可训练的。
74 0
|
3月前
|
数据采集 人工智能 算法
谷歌发布大模型数据筛选方法:效率提升13倍,算力降低10倍
【8月更文挑战第31天】近日,谷歌发布了一项名为多模态对比学习联合示例选择(JEST)的研究成果,旨在优化大模型预训练过程中的数据筛选。JEST通过联合选择数据批次而非独立选择示例,利用多模态对比目标揭示数据间的依赖关系,提高了学习效率。实验表明,JEST能显著加速训练并降低计算成本,最多减少13倍迭代次数和10倍计算量。这一成果有望推动大模型预训练更加高效和经济。论文详情见:https://arxiv.org/abs/2406.17711。
51 2
|
3月前
|
缓存 监控 Java
通过硬件计数器,将性能提升3倍之旅
通过硬件计数器,将性能提升3倍之旅
43 5
|
4月前
|
前端开发 JavaScript 应用服务中间件
网站性能提升
【7月更文挑战第31天】
27 4
|
6月前
|
数据采集 人工智能 测试技术
3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了
【5月更文挑战第21天】CLLM,一种新方法,通过并行解码提升大型语言模型推理速度3-4倍,降低内存成本,超越Medusa2。采用Jacobi解码和微调策略,保证生成质量。无需修改模型架构,训练成本低,可与现有技术集成。但依赖高质量数据集,更大数据集可提高泛化能力。[链接](https://arxiv.org/pdf/2403.00835)
65 2
|
测试技术
10000次写1K 比 一次写10M 耗时多30倍
10000次写1K 比 一次写10M 耗时多30倍
|
SQL 架构师 程序员
用好组合索引,性能提升10倍不止!
用好组合索引,性能提升10倍不止!
117 0
|
SQL 存储 缓存
原来count(*)就是我们系统的接口性能变差100倍的真凶…
原来count(*)就是我们系统的接口性能变差100倍的真凶…
EMQ
|
缓存 运维 Kubernetes
5.0 版本持续优化:ExProto 吞吐性能提升
九月,EMQX 5.0保持稳定更新,目前已发布5.0.8版本,企业版4.3&4.4发布最新维护版本。云服务方面,EMQX Cloud新增1000连接规格的专业版部署。
EMQ
260 0
5.0 版本持续优化:ExProto 吞吐性能提升
DHL
|
缓存 安全 算法
反射技巧让你的性能提升 N 倍
这个反射技巧可能让你的性能提升 N 倍,isAccessible 方法的作用,为什么将 Accessible 设置为 true 可以提升性能
DHL
219 0
反射技巧让你的性能提升 N 倍