如何从零开始建设数据中台?

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 数据中台对于许多传统企业而言,依旧是很陌生的概念。如何从零开始建设数据中台?我们把它简化为一个方程式,数据中台:正确的人 + 正确的工具 + 正确的事 = 降本增效,其中,三个要素缺一不可。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

数据中台对于许多传统企业而言,依旧是很陌生的概念。
如何从零开始建设数据中台?
我们把它简化为一个方程式,数据中台:正确的人 + 正确的工具 + 正确的事 = 降本增效,其中,三个要素缺一不可。

7516834083d3e900ee43341ecbe31ab8

正确的人
数据中台在国内有完整实践的企业不多,相关的人才也相对较少。企业在选择数据中台时,需要有方法论、实践经验去指导,以避免从零摸索带来大量人力物力的浪费。这也是企业在选择服务商时需要留意的。
正确的工具
在这里主要指的是狭义上的数据中台产品。市面上的产品五花八门,数据中台产品各型各样,如何选择非常关键。
正确的事
数据中台不是摆设,并不是说搭建一个产品意义的数据中台,企业就完成数字化转型了。数据中台最终还是要为业务服务。我们要用数据中台做什么,解决什么业务痛点,需要考虑清楚。
这个方程式最终导向了我们建设数据中台的目的:为企业带来降本增效。“要么给老板省钱(降本),要么给老板挣钱(增效)”。

数据中台的选型与构建

首先需要强调的是,在这里我们分享的只是一般情况,不同企业、不同数据情况和不同需求,不可一概而论。不管黑猫白猫,能解决痛点的就是好猫。
数据中台的底层是大数据架构,大数据架构如何去选型?

0ca50d4bc1a39d892c78d4e66f306fd7

在架构选型时,成本、场景支持是我们考虑最关键的 2 个要素。
综合实施周期、实施成本、是否支持实时计算、数据冗余与数据一致性情况等因素,我们认为 Lambda 架构成本相对适中,又能满足实时计算和离线计算两个场景。
当然,选择 Lambda 架构也会不可避免地面临数据冗余的问题,而目前大部分传统企业用到实时计算的场景偏少一些,相对来说产生的数据冗余也较少,可以通过数据治理等方式解决。
底层之上是引擎,包括离线计算引擎和实时计算引擎,又应当如何去选型?
离线计算:三种离线计算引擎各有特点,可以综合企业的数据情况和需求,选择合适的计算引擎。

35f18a019411f599adc58cabf84d5a45

实时计算:在批处理 + 流处理上,Flink 备受青睐,稳定性较好、吞吐量较大。一般来说推荐使用 Flink。

17fa47054477e6885c789be40e25bf36

在架构上层,则涉及到了:数据模型应如何设计?
数据模型是为业务服务的。具体来说,就是把业务抽象化,提炼成数据模型,再通过数据解决业务问题。
建数据模型,会经历业务建模、概念建模、逻辑建模和物理建模四个阶段。

015c437a81f13774bab4dc81ebdd9efd

在模型选择上,我们仅列举两种模型,星型模型与雪花模型。通常情况下,为了能下游能更好地理解业务,快速提供数据服务,我们会采用空间换时间的方式,从而选择星型模型;而在维度信息变化非常频繁,或者数据存储成本非常高的情况下,我们可以采用雪花模型。归根到底,数据模型没有好坏之分,只有能否解决业务问题。
最后需要强调,对于技术和模型的选择,我们做了一些推荐和优劣势的介绍,但技术和模型本身没有对错之分,适合自己的才是最好的(能解决业务问题才是最好的)。
数据中台的架构设计
我们把数据中台的架构分为三层,数据资产层、数据服务层、数据应用层。

2139365541730bcf1ac5d6761c70202e

这张图从下往上看,首先通过数据治理、数据开发、借助数据仓库,把数据转化为可用的数据,即资产「数据资产化」;然后建立数据能力,把数据用起来,例如标签工厂、模型分析等,即「资产服务化」;再通过智能化的场景给业务赋能,也就是「服务智能化」。
AI 驱动的数据中台
奇点云创立三年来,数据中台的实践在零售、时尚、百购等行业相继落地,在实践经验中,探索并检验出了数据中台的“王道”:AI 驱动的数据中台。
所谓“AI 驱动”,我们可以看到在架构中融入了独创的“云(智能)+ 端(感知)”的解决方案,从数据采集层的 AIoT 到数据服务层的算法服务、分析引擎再到顶部的数据智能应用,实现了“云赋能端,端丰富云”,既解决企业数据生产的问题,又解决企业数据使用的问题。

4f2dda7a2d465fe4ec16b46dfe57be44

在“AI 驱动的数据中台”实践中,奇点云自研了一站式大数据智能服务平台—DataSimba,其旨在为企业提供全链路的产品 + 技术 + 方法论服务。
DataSimba 核心模块包括全域数据采集、数据开发、数据治理、数据资产管理、数据 API、数据科学、数据质量、标签工厂,可以帮助企业快速搭建安全、易用的数据中台,最大化释放价值,驱动业务增长与创新。

ef0b973a4e45f65d4c03b049c9c4c73a

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/zhibo

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-05-12
本文作者:奇点云
本文来自:“InfoQ”,了解相关信息可以关注“InfoQ

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
6月前
|
SQL 存储 数据采集
数据中台建设方法论
数据中台建设方法论
|
4月前
|
存储 SQL 分布式计算
从零到一建设数据中台 - 关键技术汇总
从零到一建设数据中台 - 关键技术汇总
99 0
|
4月前
|
数据采集 机器学习/深度学习 数据可视化
从零到一建设数据中台 - 数据服务开发
从零到一建设数据中台 - 数据服务开发
82 0
|
数据采集 供应链 数据可视化
数据中台实战(02)-什么企业适合建设数据中台?
数据中台实战(02)-什么企业适合建设数据中台?
113 0
|
SQL 分布式计算 算法
带你去看“字节跳动数据中台服务化的发展与实践”分享会
带你去看“字节跳动数据中台服务化的发展与实践”分享会
|
存储 数据采集 分布式计算
我在数据中台建设和落地的一些经验总结
数据治理是数字化建设中非常重要的一环。在进行数据治理时,我们需要根据不同的业务场景和需求,选择最适合的数据治理方案,包括选择不同的组件组装和数据存储方式等。对于轻量级数据管理平台和重量级数据管理平台,我们可以针对具体情况进行选择,权衡成本与效益,以满足客户实际需求。在整个数据治理过程中,我们还需要注重客户成本的管理,确保项目的落地和实际效果,并且不断优化数据治理流程,需要积极参与业务需求分析和技术选型,确保数据治理方案符合客户需求和行业标准。
|
数据采集 存储 运维
《如何建设企业数据中台的经验分享》| 学习笔记
快速学习《如何建设企业数据中台的经验分享》
299 0
《如何建设企业数据中台的经验分享》| 学习笔记
|
数据采集 机器学习/深度学习 运维
《数据中台架构:企业数据化最佳实践》:感受数据中台建设五步法
《数据中台架构:企业数据化最佳实践》:感受数据中台建设五步法
1226 0
《数据中台架构:企业数据化最佳实践》:感受数据中台建设五步法
|
SQL 存储 分布式计算
菜鸟数据中台技术演进之路
通过中台的各技术域能力的建设,技术人员在极少的投入下,就可以支撑数倍的分析人员进行数字化运营工作。3 年时间里,菜鸟走过了从人力支撑到中台支撑的历程。
数据中台初探与应用实践(3)
数据中台初探与应用实践(3)
133 0
数据中台初探与应用实践(3)
下一篇
无影云桌面