数据中台为什么难搞?

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 数据中台为什么难搞?

数据中台是一套可持续“让企业的数据用起来”的机制,通过有形的产品和实施方法论,构建一套持续不断把数据变成资产并服务于业务的机制,数据来自于业务,并反哺业务,不断循环迭代,实现数据数据可见、可用、可运营,通过数据中台把数据变成一种服务能力,其目标是提供普惠的数据服务。

从2015年阿里提出“大中台”的数据中台战略,到2019年大厂及中台服务商“大兴”数据中台,再到2021年大厂又开始拆中台。数据中台从小甜甜变成牛夫人仅仅用了2年时间,为什么这么快数据中台就不香了?

(说明:数据中台的概念比较模糊,有些人说是业务概念,有些人说是技术概念,这里我们仅从技术的角度讨论,即认为数据中台是技术概念)

二、数据中台为什么难搞?

从技术上讲,中台的架构挺合理的。在前台和后台之间夹一个中台,屏蔽后台的数据存储,应对前面没完没了的变化需求。前台跟着界面走,天生就稳定不了,总是有五花八门的数据请求,这是必然的事情。后台应该主要负责数据存储,把不同形式和规模的数据以合适的方式整理好,大数据倒腾起来动静太大,要求有一定的稳定性。如果前台的请求都要求后台直接做,那后台管的事就太多了。应对灵活请求和规整数据存储在一定程度上是两个优化目标不同的需求,同一个团队在同一套硬件上同时对付这两件事,容易发生精神分裂。而且,后台是被许多前台共享的,如果直接向前台提供灵活数据服务,还可能导致各个前台之间的耦合程度太高,维护成本立即陡增。同样的,把这些数据处理放在前台也不合适,一方面不太安全,另一方面,前台团队也是忙着让界面如何更好看使用更流畅,没太多工夫琢磨数据的事情。有了中台就好很多了,后台专心管存储,前面专心管界面,前后台之间的差距由中台负责抹平。分工明确,各司其职,效率自然提高。

既然架构合理,那为啥搞不下去?

原因呢,说啥的都有,不过大都没说到点子上。因为说这些话的大都不写代码,写代码的又大都轮不到来说话。技术上的根本原因在于,业界就没有准备好能让数据中台落地的技术!

中台向前台提供数据服务。啥是数据服务呢?就是收到请求后返回一些合适的数据回去,那咋弄出返回的数据呢?计算!就是把以前在后台让数据库做的事搬到中台完成。

那么,你打算让我用什么技术来写这些计算代码呢?

Java?开玩笑呢?写个稍复杂些的分组汇总就可能好几百行,你让我怎么提高效率?还想迅速应对前台变化?这代码我连写带调得好几天,下礼拜再见吧。

中台要干的这些任务,也是之前数据库干的事,绝大多数都是结构化数据相关的计算。而 Java 这些高级语言基本上没什么好用的结构化数据计算类库,原先用 SQL 几句几十句话能搞定的事,现在用 Java 就得几百甚至上千行代码了。代码长了,不仅难写,还容易错。而且,Java 程序员的成本也挺高啊,效率没提高,钱倒花多了,那又何苦?

你可能会说,Java支持Stream以后这些问题就都能解决啊。Stream看着挺好,但实际用起来完全不是那么回事。Stream的中间计算结果和最终结果都要事先定义,而结构的定义和赋值都很麻烦,如果不定义,阅读和使用又不直观。而且Stream虽然支持lambda语法,但接口规则比较复杂,代码没短多少阅读障碍却显著增加。Stream的结构化对象如record\entiry\Map都不方便,根本原因还是在于Java缺乏专业的结构化数据对象,缺少来自底层的有力支持。

与Stream类似,Kotlin计算能力不足也是由于缺乏专业的结构化数据对象导致的。无法支持动态数据结构、难以真正简化Lambda语法、无法直接引用字段等等。同时Kotlin也缺乏一些重要的基本函数,比如关联计算,开发者仍然要硬编码完成计算,对于多个基本计算组合而成的业务算法,开发过程仍然困难。

但是,貌似有些大厂的中台架构实施得不错,这又咋解释?

可能是大厂人才多,Java 代码积累丰富吧,搞起这些计算就容易一点了。而且,事实是这些互联网大厂虽然大,业务复杂度却远远赶不上传统行业,大厂能搞得通的事,你可未必能搞得通。更何况大厂又开始拆中台了不是?

不用 Java,那咱还继续用 SQL 行不?

嗯,那得在中台也放个数据库,把一堆数据从后台搬出来再移到中台来。搬多少数据呢?貌似所有的数据都有可能用于计算,那得把整个后台的数据都搬过来。然则这玩意儿还能叫中台?不就是把后台挪了个位置而已,纯粹吃饱了撑的嘛。

在没有不依赖于数据库的、可被集成嵌入的、支持多样数据源、简单方便且丰富强大的结构化数据计算能力之时,数据中台就是空想,架构好看,但无法落地。强行上中台,除非你的业务足够简单,否则就是只会让开发成本上升而效率下降,灵活性一点没增加,麻烦事却一大堆。

数据中台受制于计算能力。必须要具有上述特征的计算引擎之后,才能让数据中台的合理架构真正发挥作用,也才能让数据中台实打实地落地、开花、结果。

三、开源SPL:数据中台计算引擎

开源计算引擎SPL具备数据中台需要的所有特性,不仅提供了不依赖数据库的完备计算能力,开放的计算体系还可以直接基于多样数据源进行计算,同时丰富的计算类库和敏捷语法可以很方便完成复杂结构化数据计算,SPL优秀的集成性确保了可以方便地被分布到数据中台的各个环节以处理数据,助力数据中台发挥应有的效力。

逻辑上SPL介于应用和数据源之间实施数据处理,对上提供计算服务,对下屏蔽多样性数据源差异,完美贴合数据中台的结构。

SPL提供了标准JDBC/ODBC/RESTful接口,可以像调用存储过程一样请求SPL计算结果。

JDBC调用SPL 代码示例:

Class.forName("com.esproc.jdbc.InternalDriver");
Connection conn =DriverManager.getConnection("jdbc:esproc:local://");
CallableStatement st = conn.prepareCall("{call splscript(?, ?)}");
st.setObject(1, 3000);
st.setObject(2, 5000);
ResultSet result=st.execute();

3.1 热切换能力

SPL采用解释执行机制,天然支持热切换。这样对于稳定性差、经常需要新增修改的中台数据处理需求非常友好。

SPL服务脚本与Java程序独立,外置在Java之外,修改和维护都可以独立进行,脚本修改上传后就能实时生效,保证中台可以不中断地提供服务。

使用SPL实现中台中的数据处理逻辑,可以有效地降低数据服务和框架之间的耦合性。整个中台架构也更为合理。

3.2 敏捷语法

作为专业的数据计算引擎,SPL为结构化数据处理设计了专门的敏捷计算语法,通过SPL语法可以快速实现数据处理任务,及时响应前台多变的数据请求。

在敏捷语法与过程计算的支持下,即使原来使用SQL难以完成的复杂计算(更不用说Java了),用SPL也可以轻松实现。比如要根据股票记录查询某只股票最长连续上涨天数,SQL(oracle)的写法如下:

select max(continuousDays)-1
from (select count(*) continuousDays
from (select sum(changeSign) over(order by tradeDate) unRiseDays
from (select tradeDate,
case when price>lag(price) over(order by tradeDate) then 0 else 1 end changeSign from AAPL) )
group by unRiseDays)

可以尝试一下读懂这句SQL,是不是很绕?这是由SQL的特性(缺乏离散性、集合化不彻底等)决定的。同样的思路,SPL写起来就简单多了,不用绕来绕去了:

A
1 =db.query(“select * from AAPL order by tradeDate”)
2 =A1.group@i(price<price[-1]).max(~.len())-1

数据从数据库中取出(数据源是什么都可以,下面会说到SPL的开放性),计算在计算引擎SPL中完成,符合数据中台的目标。

SPL还提供了简洁易用的IDE环境,在IDE中不仅可以很方便编码调试,过程计算的每步计算结果都可以实时查看,网格式编码代码天然整齐,通过格子名称引用中间计算结果无需定义变量,十分方便。

3.3 强计算

数据中台的计算引擎需要独立的计算能力。SPL作为独立的计算引擎,计算能力不依赖数据库,提供了十分丰富的结构化计算类库,拥有完备的计算能力。分组汇总、循环、过滤、集合运算、有序计算等应有尽有。

SPL还提供了很多高性能算法来保证计算效率,内外存计算、索引机制、遍历复用等很多在业界内首次使用的算法,同时支持并行计算进一步提升计算性能。

3.4 开放性

SPL还具备非常开放的计算能力,可以对接多种数据源,RDB、NoSQL、CSV、Excel、JSON/XML、Hadoop、RESTful、Webservice都可以直接对接并进行混合计算,不需要借助数据库,数据实时性和计算实时性都可以很好保障。

我们知道,不同数据源有各自的优势,RDB计算能力较强,但IO吞吐能力弱;NoSQL的IO效率高,但计算能力很弱;而文本等文件数据完全没有计算能力,但使用非常灵活。SPL不仅可以基于这些数据源混合计算,在实施计算时还可以充分保留原有数据源的优势。

除了原生计算语法,SPL也提供SQL支持(相当SQL92标准),可以使用SQL查询文本、Excel、NoSQL等非RDB数据源,这样就极大方便了熟悉SQL的应用开发人员。


总结一下,数据中台落地的关键在于计算引擎,而计算引擎需要具备独立且完备的计算能力、应对多样性数据源的开放性、开发的高效性以应对不停变化的前台需求,还能支持热切换以确保中台持续提供服务。从这些方面来看,SPL的确是数据中台计算引擎的不二之选。

四、SPL资料

欢迎对SPL有兴趣的加小助手(VX号:SPL-helper),进SPL技术交流群


相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
微服务
为啥都说自己是“数据中台”创业,而不是“业务中台”? by彭文华
为啥都说自己是“数据中台”创业,而不是“业务中台”? by彭文华
为啥都说自己是“数据中台”创业,而不是“业务中台”? by彭文华
|
存储 分布式计算 大数据
数据中台实战(00)-大数据的尽头是数据中台吗?
数据中台实战(00)-大数据的尽头是数据中台吗?
233 0
|
供应链 小程序 大数据
数据人摸鱼宝典:零售数据中台建设指南
数据人摸鱼宝典:零售数据中台建设指南
|
人工智能 数据挖掘 双11
|
数据采集 机器学习/深度学习 运维
《数据中台架构:企业数据化最佳实践》:感受数据中台建设五步法
《数据中台架构:企业数据化最佳实践》:感受数据中台建设五步法
1256 0
《数据中台架构:企业数据化最佳实践》:感受数据中台建设五步法
|
新零售 存储 人工智能
复盘|数字化转型,鲁商集团从数据中台“下手”
从2019年确定转型方向到今天,鲁商集团真切地感受到了数据中台搭建完成后,对企业管理多层面的提升。对鲁商集团而言,数据中台的搭建,好比夯实数字化转型的基础,下一步才是转型的目标:利用数据中台释放出来的数据能力,反哺到各业务条线。
716 0
复盘|数字化转型,鲁商集团从数据中台“下手”
|
存储 分布式计算 运维
钱大妈数据中台建设最佳实践
钱大妈数据中台建设最佳实践
8116 1
钱大妈数据中台建设最佳实践
|
存储 缓存 运维
民生银行场景化数据中台是如何炼成的?
数据中台的建设是一项系统性工程,从组织架构、支撑技术到流程规范,既要有宏观的顶层设计,又要有强有力的落地执行,数据中台的建设没有一劳永逸的办法,企业需要从战略层面进行更多思考,再配合选择合适的数据中台服务商,方能在数据中台建设之路上走得稳妥。
2557 9
民生银行场景化数据中台是如何炼成的?
|
存储 机器学习/深度学习 人工智能
解读数据架构的2021:大数据1.0体系基本建成,但头上仍有几朵乌云
本文是“2021 InfoQ 年度技术盘点与展望”系列文章之一,由 InfoQ 编辑部制作呈现,重点聚焦大数据领域在 2021 年的重要进展、动态,希望能帮助你准确把握 2021 年大数据领域的核心发展脉络,在行业内始终保持足够的技术敏锐度。 “InfoQ 年度技术盘点与展望”是 InfoQ 全年最重要的内容选题之一,将涵盖架构、AI、大数据、大前端、云计算、数据库、中间件、操作系统、开源、编程语言十大领域,后续将聚合延展成专题、迷你书、直播周、合集页面,在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。
243 0
解读数据架构的2021:大数据1.0体系基本建成,但头上仍有几朵乌云
|
数据采集 分布式计算 安全
阿里数据中台进化史
阿里数据中台进化史
阿里数据中台进化史