怎样评测对比报表工具的性能?

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 怎样评测对比报表工具的性能?

报表性能是个很重要的问题,报表慢让用户体验极其恶劣,可能90%的报表因为计算简单和数据量小都不会有性能的困扰,但是剩下的10%的有性能隐患的报表一旦出问题,就可以毁掉之前所有的美好,不仅是用户体验恶劣,实施方更是会被拖累的苦不堪言,没完没了的安排精锐部队去救火,成本投入什么时候是个头?


所以,大家都希望能选一个高性能的报表工具,一劳永逸的解决这个头疼,但报表的性能问题并不是那么简单,怎么去考察性能也就不那么简单了


11da94263761b5b13018bc4f01807d7a.png


如图,在报表的生命周期中,性能问题大致会出现在两个阶段:


1:数据源准备和计算阶段


2:报表计算和呈现阶段


实际上,大多数报表性能问题会出现在第1阶段,就是数据源准备数据和计算慢,这个环节的工作通常不是报表工具做的,这个锅也不应该让报表工具来背。第二阶段,报表的计算和呈现,这才是报表本身的本领,也是评测对比报表工具性能的要点


所以,我们考察对比报表工具的性能差异,就是看报表计算的基本功够不够,而不是看把报表呈现出来的全周期性能


下面我们以润乾报表为例,给出用于测试报表工具计算和呈现环节性能的方法和用例,第一个用例侧重于格子的计算,第二个用例侧重于展示效果的渲染和呈现。这是报表报表工具耗时较多的两个环节,也就是可以考察对比出报表工具性能的环节。大家在实际考察的时候,可以根据自身报表的特点,来选择不同的侧重来考察,统计的时间,都是刨去数据源环节,从报表计算开始到呈现截止


先看侧重单元格计算的用例和测试过程,格间计算


格间计算


格间计算就是报表单元格里的计算,也是检验一个报表工具性能的最基本方面,可以设计一个有足够多格间计算的表格,再不断加大数据量,来对比不同产品之间的性能差异


测试用例设计原则和方法:


报表单个格子和格子之间的计算要多,计算越复杂,才越有可能测出工具的问题


不断加大数据量来测试,数据少基本看不出差异,只有数据量大,才会暴露出性能问题,才能考察出工具的能力


控制好可用内存,确保每次测试相同


时间记录要明确,要略掉数据源读取的时间,只统计报表计算和呈现的时间(如下图润乾报表后台信息中的计算+生成html+呈现完成的时间)


b1293acf27807a659de6bd0bd2dddcec.png


我们就根据上面的原则,设计一个报表,去测试对比报表工具的格间计算性能

用例:分组汇总统计表

数据库表:“销售订单汇总表”,此表结构如下



8ff8cca945835cc0cfaf25ea4c6589d1.png

其存放数据为按照“货主地区”、“货主城市”及“雇员ID”对“订单金额”及“订单数”做的分组求和汇总

de605cfb6cad61a4f0307644380567e3.png

基于此表数据制作如下报表

c2e0d9e076f18317e3e7e8387f6eb4bf.png


报表中,除了取数后根据货主地区、城市及雇员分组呈现订单金额和订单数据量外,还在报表内增加了计算各雇员总订单额在地区及城市内排名和占比,以及订单数量在地区及城市内的排名情况,这些都是考察报表的格间计算能力的


这个报表在渲染方面没有特殊要求,计算出来的数据直接呈现即可


在数据量较小的情况下是看不出来差别的,我们可以通过加大数据量进一步考察


结合我们用例的数据情况,在保持“货主地区”或“货主城市”两个分组数据完全固定不变的情况下,通过增加组内雇员人数的方法来增大数据量,让格间计算量变多来看性能变化情况


报表的数据集为:select * from 销售订单汇总表 where 雇员ID<=?,雇员ID区间值为1到158,通过更改条件值就可以调整数据量了


本用例在同样2G的JVM环境下,润乾报表和另一家常用的X报表工具测试结果如下


937d9b6fc74879de4979338ed8b4aa20.png


从上面的测试过程可以看出,在不断加大数据量的过程中,报表工具格间计算的性能优劣就慢慢体现出来了,而且性能衰减经常并不是线性的,数据量达到一定程度会呈现断崖式的下跌,有报表需求的同学,可以去找找有没有这样的计算比较多的,数据量又比较大的表格,来实际验证一下了


测试完格间计算,我们继续看另一个侧重呈现和渲染的用例该如何设计和测试


呈现渲染

页面渲染是指报表在计算完成后,生成 html 页面时加上各种格式外观属性的过程。如果在报表中添加了大量的呈现效果(隔行异色、背景图、条件警戒色等)时,页面渲染的速度就会受到影响变慢,但往往这些呈现效果又是必须的,所以这个时候就得看报表的性能了


同样我们也可以用一些例子来验证报表工具的这方面的性能


例子设计原则和方法


各类呈现效果尽量设置多一些,多才能更快的暴露工具的问题


数据量同样需要不断加大


统计时间段要明确,是从报表计算到报表呈现完成后结束


我们继续用一个例子来测试对比润乾报表和前述X报表


测试用例:简单行式表


“销售订单明细表”,字段 48 个(对应到报表为 48 列),总数据量 8600 条


6643f3ff29905f34ebbd67aba068d2d9.png

ca83c08c7cb3cefa391168dda6b17da4.png

报表数据集 SQL:

select * from 销售订单统计汇总 where 订单ID!=? order by 订单ID`


为保证测试公平,增加参数使得每次计算数据不同,报表不走缓存。


结果报表式样:


这个报表没有更多的计算格,但有较复杂的条件格式:


隔行异色

折扣,折扣大于0.15(即达到85折)标红(前景色)

运货费,分十个区间判断,小于等于10标为绿色、>10&&<=20某色、>20&&<=30、>30&&<=40、>40&&<=60、>60&&<=80、>80&&<=100、>100&&<=120、>120&&<=140、大于140标红

订单ID,根据“运货费”判断分十个区间,小于等于10标为绿色、>10&&<=20某色、>20&&<=30、 >30&&<=40、>40&&<=60、>60&&<=80、>80&&<=100、>100&&<=120、>120&&<=140、大于140标红。 ``且 >100&&<=120 字体加粗、>120&&<=140 字体加粗、大于140字体加粗`

测试结果


以下结果均同浏览器,同JVM2G内存, 5 次测试的平均数据


dbd9c1ebbb8944a09bc8f29da9cbefbb.png


和前面类似,要加大报表规模时才能看出差别。,掌握正确的测试验证方法以后,设计一个有代表性的表格,通过不断增大的数据量,就可以测试出各个工具的性能上限了


两个测试用例过后,我们也就基本掌握了报表工具最核心的计算和呈现过程的性能测试方法了,根据上面说到的测试用例原则和方法,自己就可以去实际验证考察了


(只设计一个测试用例也是可以的,报表中既有较多的计算,又有较多的呈现效果,还有不断加大的数据量,就可以同时测出两部分的性能了)


关于数据源加速

开头我们说了,数据源加速并不是报表工具能管的事情,所以如果因为数据源准备和计算慢,导致整个报表的呈现全周期性能差,更换一个更快的报表工具并不能解决问题


但是,毕竟用户对报表的体验是一个完整的过程(从加载数据到呈现报表),用户不关心性能问题出在哪里的,也没有这个能力去区分,所以作为项目实施方,只选择一个报表工具环节性能高的还不够,想要用户体验好,还要看数据准备。这时候,报表工具最好能协助数据准备,具有数据源加速的能力


遗憾的是,这是大多数报表工具无能为力的环节,主流报表工具中只有润乾报表集成了开源SPL,拥有脚本能力,可以实现数据准备和数据源加速的功能


SQL和存储过程写起来太复杂,动不动成百上千行的时候,SPL能更快速简洁的写出计算过程

复杂SQL或者存储过程计算慢的时候,SPL能实现更高效的计算和存储,数倍数十倍地提升报表整体性能

通过并行取数、并行计算方式,优化JDBC传输慢、单线程计算效率低的问题

实现千万级大数据量的明细报表

感兴趣的同学可以去详细的了解下面的一些案例和资料:


开源 SPL 提速保险公司团保明细单查询 2000+ 倍

开源 SPL 提速银行资金头寸报表 20+ 倍

开源 SPL 提速银行资金头寸报表 20+ 倍

开源 SPL 提速资产负债表 60 倍


秒级展现的百万级大清单报表怎么做


报表工具本身没有这个能力的,也可以去集成SPL实现高性能数据,不过没有润乾报表这么方便了,有部分功能(比如大报表)将无法实现


总结


性能指标,确实是报表工具考察项中一个非常重要的指标,也是一个非常难以去验证的指标,更是一个很容易在厂商大包大揽的承诺中信以为真的一个指标


所以我们一定要擦亮眼睛,用科学的考察方法,用实际的测试用例去实际测过才行,这才是考察报表性能的正确方法,才是为项目和用户负责的方法


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
安全 关系型数据库 MySQL
轻松入门MySQL:MySQL8权限管理详解,角色和用户操作实例(18)
轻松入门MySQL:MySQL8权限管理详解,角色和用户操作实例(18)
1669 0
|
Cloud Native 网络协议 数据中心
Overlay网络与Underlay网络:深入探索与全面对比
在当今云原生的世界中🌍☁️,网络是构建和维护任何分布式系统的基石💎。了解Overlay网络和Underlay网络及其之间的区别🔍,对于设计高效、可扩展的云原生应用至关重要🚀。本文旨在全面解析Overlay和Underlay网络,揭示它们的工作原理、优缺点,并说明何种情况下应该使用哪一种网络📚。
Overlay网络与Underlay网络:深入探索与全面对比
|
数据建模 计算机视觉
SiMBA:基于Mamba的跨图像和多元时间序列的预测模型
微软研究者提出了SiMBA,一种融合Mamba与EinFFT的新架构,用于高效处理图像和时间序列。SiMBA解决了Mamba在大型网络中的不稳定性,结合了卷积、Transformer、频谱方法和状态空间模型的优点。在ImageNet 1K上表现优越,达到84.0%的Top-1准确率,并在多变量长期预测中超越SOTA,降低了MSE和MAE。代码开源,适用于复杂任务的高性能建模。[[论文链接]](https//avoid.overfit.cn/post/c21aa5ca480b47198ee3daefdc7254bb)
2091 3
|
运维 Java 程序员
Spring5深入浅出篇:Spring动态代理详解
# Spring动态代理详解 本文探讨了Spring中的MethodBeforeAdvice和MethodInterceptor在动态代理中的应用和差异。MethodBeforeAdvice在方法执行前执行额外功能,而MethodInterceptor则可在方法执行前后或抛出异常时运行额外逻辑。MethodInterceptor还能影响原始方法的返回值。
|
人工智能 JavaScript Java
智慧联动,码上新篇:通义灵码助力超级个体崛起之旅
笔者入驻阿里云已有段时间,同时亦是通义灵码的忠实用户,自从AI Coding助手刚问世时便一直在默默关注着国产AI的变化与升级,而通义灵码是为数不多面向个人用户免费且高效的AI编码助手。其背后是庞大的阿里集团,其中蕴藏的庞大技术力可想而知。 对于我们个人程序员而言,无论是学生、打工人,亦或是教授、科研人员,有这样一个国产良心的AI助手是不可多得的事情。带领国产AI助手走向全面AI时代,成为开发者手中一把真正的利剑,攻坚克难,向今天所喊出的口号一样,助力开发者“超级个体”的崛起,引领科技走向新征程。 十年问剑两茫茫,君子砥砺前行路!
407 2
智慧联动,码上新篇:通义灵码助力超级个体崛起之旅
|
API 数据安全/隐私保护 UED
文档智能(Document Intelligence)与检索增强生成(Retrieval-Augmented Generation, RAG)
文档智能(Document Intelligence)与检索增强生成(Retrieval-Augmented Generation, RAG)
327 1
|
数据采集 机器学习/深度学习 数据挖掘
揭秘DataFrame缺失值处理的神秘面纱:从填充到删除,再到插值,你的数据能否起死回生?
【8月更文挑战第22天】在数据分析中,处理DataFrame内的缺失值至关重要。本文通过一个关于公司员工基本信息的例子,展示了三种常见方法:填充、删除和插值。首先构建了一个含有缺失值的DataFrame,然后使用均值填充年龄缺失值;接着演示了删除含缺失值的行;最后采用线性插值填补。此外,对于复杂情形,还可利用机器学习预测填充。合理处理缺失值能有效提升数据质量,为后续分析奠定坚实基础。
350 2
|
机器学习/深度学习 Dart 算法
机器学习实战 | LightGBM建模应用详解
本篇详细讲解LightGBM的工程应用方法。LightGBM是微软开发的boosting集成模型,和XGBoost一样是对GBDT的优化和高效实现,但它很多方面比XGBoost有着更为优秀的表现。
10205 105
机器学习实战 | LightGBM建模应用详解
|
JavaScript
【vue】 将Vue2中的console.log()调试信息移除
【vue】 将Vue2中的console.log()调试信息移除
453 0
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
1808 1