【数据蒋堂】报表的数据计算层

简介:
+关注继续查看
640?wx_fmt=png&wxfrom=5&wx_lazy=1


[导读]我们在上一期【数据蒋堂】报表应用的三层结构一文中解释了报表应用结构中数据计算层的必要性,以及可以使用报表工具自定义数据源接口来实现计算层。本期我们就来讨论一下使用报表工具的自定义数据源是否可以方便地实现数据计算层以及独立计算层的优势


在计算层中要完成一些复杂的计算逻辑,因此要有可编程的能力,而基于自定义接口可以采用报表工具的宿主语言(即用于开发报表工具的程序设计语言)进行开发,在功能方面没有问题,不过,实际应用中却仍有不少缺陷。更好的方式是实现一个显式的数据计算层,在其中提供可解释执行的脚本功能,把数据源计算独立出来。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


我们从四个方面来分析数据源独立计算的优势。


代码编写


报表工具的宿主语言一般是Java、C#等高级语言,这类语言针对结构化数据集的支持很有限,虽然都能做,但却非常繁琐,简单做个求和运算都需要写数行代码的循环来实现。而报表数据源处理则大量涉及批量数据运算,采用高级语言开发时会导致动辄数百行的冗长代码,编写和调试都很困难。


专门为数据计算设计的脚本则能够提供丰富的结构化数据集运算功能,可以很方便地实现批量数据计算。代码更短不仅是工作量更少、调试方便,而且还有利于整体了解和把握算法。如果语言设计得好,大多数报表的数据源准备算法都可以在一屏内实现,整个算法过程一目了然。


应用耦合


报表的呈现式样是由报表工具绘制的模板来控制,报表模板一般以文件形式存放在文件系统中。如果数据准备采用自定义数据源实现,这部分代码将作为应用程序的一部分被一起编译和打包。呈现模板和数据集算法作为同一个报表的两个关键要素必须合理配合才能正常工作,但物理上却会分存于两处,甚至可能是不同人员开发的,这给修改维护报表带来麻烦,需要刻意去保持两处的一致性。


独立计算层的计算脚本和报表模板一样,都是解释执行的,脚本也可以文件形式与和报表模板放在一起,报表维护时很容易保证这两部分一致,这方面不存在应用耦合问题。


热切换


报表的数据集算法如果使用自定义数据源实现,那就会成为应用程序的一部分,发生修改时就需要和整个应用程序一起重新编译打包,并且在大多数情况时需要将应用停机后再重启。而报表是个业务稳定性相对较差的功能,经常会增加和修改,这样就会导致应用程序频繁重启。虽然Java等开发机制也支持热加载,但使用复杂,大多数应用程序员难以掌握。而且一旦加载后的程序就不会被清除,即使不再有用也会一直占据内存,热加载技术并不很合适应用于报表数据源。


类似地,热切换对于使用独立计算层的脚本也不再是问题,有报表修改只要修改呈现模板和相应的计算脚本。因为脚本是解释执行的,应用程序本身并不需要改变,也就没有必要停机重启。被修改的报表在访问时临时计算即可。


开发人员


使用Java等高级语言实现报表数据集准备时,需要在代码中引用数据库连接、基础类库等各种环境信息,还要了解和遵循整个应用程序的代码规范以保持协调,这常常是项目组中的专业程序员才能掌握的技能。而开发报表数据集只要了解数据结构和运算逻辑,其实用户方有不少技术人员都拥有这个能力,但苦于难以理解开发环境而很难自由实现新的报表。


有独立计算层时,报表开发需要的各种环境信息可以事先在应用程序中配置好,使用脚本编程时也不必关心整个应用的代码规范,报表开发人员只要关心数据结构和运算逻辑,可以用于开发报表的人员更多,以适应报表频繁修改的业务特性。


专栏作者简介

蒋步星,润乾软件创始人、首席科学家

清华大学计算机硕士,著有《非线性报表模型原理》等,1989年,中国首个国际奥林匹克数学竞赛团体冠军成员,个人金牌;2000年,创立润乾公司;2004年,首次在润乾报表中提出非线性报表模型,完美解决了中国式复杂报表制表难题,目前该模型已经成为报表行业的标准;2014年,经过7年开发,润乾软件发布不依赖关系代数模型的计算引擎——集算器,有效地提高了复杂结构化大数据计算的开发和运算效率;2015年,润乾软件被福布斯中文网站评为“2015福布斯中国非上市潜力企业100强”;2016年,荣获中国电子信息产业发展研究院评选的“2016年中国软件和信息服务业十大领军人物”;2017年, 自主创新研发新一代的数据仓库、云数据库等产品即将面世。


数据蒋堂

《数据蒋堂》的作者蒋步星,从事信息系统建设和数据处理长达20多年的时间。他丰富的工程经验与深厚的理论功底相互融合、创新思想与传统观念的相互碰撞,虚拟与现实的相互交织,产生出了一篇篇的沥血之作。此连载的内容涉及从数据呈现、采集到加工计算再到存储以及挖掘等各个方面。大可观数据世界之远景、小可看技术疑难之细节。针对数据领域一些技术难点,站在研发人员的角度从浅入深,进行全方位、360度无死角深度剖析;对于一些业内观点,站在技术人员角度阐述自己的思考和理解。蒋步星还会对大数据的发展,站在业内专家角度给予预测和推断。静下心来认真研读你会发现,《数据蒋堂》的文章,有的会让用户避免重复前人走过的弯路,有的会让攻城狮面对扎心的难题茅塞顿开,有的会为初入行业的读者提供一把开启数据世界的钥匙,有的甚至会让业内专家大跌眼镜,产生思想交锋。


原文发布时间为:2017-06-09

本文作者:蒋步星

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1天前
|
canal 分布式计算 关系型数据库
大数据Spark Streaming实时处理Canal同步binlog数据
大数据Spark Streaming实时处理Canal同步binlog数据
20 0
|
2天前
|
存储 JSON 自然语言处理
【ODPS新品发布第2期】实时数仓Hologres:推出计算组实例/支持JSON数据/向量计算+大模型等新能力
本期将重点介绍Hologres推出计算组实例,Hologres支持JSON数据 ,Hologres向量计算+大模型能力,Hologres数据同步新能力,Hologres数据分层存储
|
5天前
|
SQL 分布式计算 大数据
MaxCompute元数据使用实践 -- 数据下载审计
通过MaxCompute租户级别Information Schema的“TUNNELS_HISTORY”视图可以统计查看通过Tunnel通道进行数据上传下载的相关详细信息,方便您进行数据流转的审计排查。
55 0
|
8天前
|
canal SQL 弹性计算
实时数据及离线数据上云方案
本实验通过使用CANAL、DataHub、DataWorks、MaxCompute服务,实现数据上云,解决了数据孤岛问题,同时把数据迁移到云计算平台,对后续数据的计算和应用提供了第一步开山之路。
21 0
|
10天前
|
SQL 分布式计算 算法
大数据Hive数据查询语言DQL
大数据Hive数据查询语言DQL
9 0
|
10天前
|
SQL 存储 大数据
大数据Hive数据定义语言DDL
大数据Hive数据定义语言DDL
12 0
|
16天前
|
存储 JSON 分布式计算
MaxCompute半结构化数据思考与创新
本文将介绍MaxCompute在半结构化数据方面的一些思考与创新,介绍会围绕下面四点展开: 1.半结构化数据简析 2.传统方案优劣对比 3.MaxCompute半结构化数据解决方案 4.收益分析
177 11
|
27天前
|
SQL 存储 分布式计算
【深入MaxCompute】人力家:用MaxCompute 事务表2.0主键模型去重数据持续降本增效
MaxCompute新增Transaction Table2.0(下文简称事务表2.0)表类型在2023年6月27日开始邀测,支持基于事务表2.0实现近实时的增全量一体的数据存储、计算解决方案。
231 0
|
2月前
|
数据采集 SQL 分布式计算
数据处理 、大数据、数据抽取 ETL 工具 DataX 、Kettle、Sqoop
数据处理 、大数据、数据抽取 ETL 工具 DataX 、Kettle、Sqoop
449 0
|
2月前
|
存储 大数据
大数据数据存储的分布式文件系统的HDFS的核心机制理解的数据读/写原理
在 Hdfs 中,数据的读写原理是基于块的分布式存储。
24 0
热门文章
最新文章
推荐文章
更多