谈谈数据中台建设启示

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 阿里巴巴的数据中台侧重对“烟囱式”应用数据的标准化和聚合,构建公共数据模型,发掘对内赋能运营和商家的数据价值。

   前言

   阿里巴巴的数据中台侧重对“烟囱式”应用数据的标准化和聚合,构建公共数据模型,发掘对内赋能运营和商家的数据价值。华为的数据中台侧重生态合作,主打数据底座,再集成生态伙伴的数据治理、数据分析、数据资产管理等工具。国网数据中台包括数据模型、算法服务、数据产品、数据管理等,和企业的业务有较强的关联性,是企业独有的且能复用的。

   1 数据中台解决方案现状

   1.1阿里巴巴数据中台

   阿里巴巴的淘宝和天猫的业务最初由同一个技术团队开发维护,经常会出现资源协调不平衡的问题,阻碍业务发展。天猫和淘宝电商系统是完全独立的体系,但又同时包含了商品、交易、评价、支付、物流等相同功能,导致系统出现冗余情况、重复性开发等问题。因此,阿里巴巴启动“中台战略”,构建符合DT时代的“大中台、小前台”组织机制和业务机制:将两套电商的业务进行梳理,把公共的、通用的业务功能沉淀到共享事业部,避免功能的重复建设和维护,更合理地利用技术资源;把两套电商的业务中商品、交易、评价、支付、物流等同类型的可共享的数据沉淀到数据中台,用融合后的数据对前台统一提供数据服务。这样的机制对支持前台的一线业务会更敏捷、更快速适应瞬息万变的市场。阿里巴巴数据中台的业务架构如下图所示。

945994507233e458b7ebb005f8052fd2.png  

阿里巴巴数据中台包括计算与存储平台、数据资产管理、智能数据研发、统一数据服务中间件四大模块。数据服务中间件又分为萃取数据中心、公共数据中心和垂直数据中心三层,垂直数据中心负责从阿里巴巴旗下各个业务单元采集数据;公共数据中心类似数据仓库,将所有数据按不同主题域(电商、文娱、营销、物流、金融等)分类管理。这两层实现了对全域数据的整合和集中化管理。萃取数据中心负责按照业务需求,将各主题域数据加工处理,建立起消费者、企业、内容、商品、位置五大数据体系,深度萃取数据价值。数据服务中间件涉及到的数据研发按照规范化的数据架构(数据仓库规划、数据模型构建、指标定义规范等),实现数据口径、数据模型标准化。另外集成数据资产管理能力,从数据的运营、应用、管理、分析、可视化五方面统一管理数据资产。通过这样的架构设计,阿里巴巴实现了对下屏蔽各数据来源不同的现状,对上提供统一的数据服务接口和标准化数据。新的业务需求再出现时,开发人员不用再从头做起,直接基于数据中台提供的能力,就可以快速完成新应用开发。

   1.2华为数据中台

   华为提出的“大平台炮火支撑精兵作战”的企业战略,这正是中台的理念。华为的数据中台方案侧重于基于数据湖的数据底座建设,其数据中台设计理念如下图所示。

  • 20b3632b94e190d0bd9e42381354535a.png

   在数据底座层,FusionInsight(FI)HD是一个分布式数据处理系统,对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力。GaussDB200是企业级的大规模并行处理关系型数据库,采用大规模并行处理(MPP)架构,支持 PB级别数据量的处理能力。AI平台通过FusionMind增强自动化机器学习、半自动化数据标注,大幅提升AI开发效率。同时还集成了第三方平台,包括数据安全、数据容灾、时序数据库等。数据底座之上,通过数据治理、数据集成、数据开发三平台来打造全域数据模型。

   数据治理平台提供基于内置规则模板的数据质量分析、监控、稽核工具,又构造数据地图提供基本的业务元数据管理、数据目录搜索功能。数据集成平台集成Flink流计算,支持MySQL、Oracle、实时采集等多种数据源。数据开发平台支持对作业及资源进行权限控制,对接数据管理服务,提高开发效率。全域数据模型提供了从贴源层到集市层多层次的加工数据,适合数据分析师按需选用。数据中台对外提供的自助分析、高级分析、数据API。

   2 国网数据中台

   国家电网有限公司在基础设施、人员团队、营销运检等业务流程,沉淀了丰富的数据资源。基础设备接入智能电表终端5.4亿台,车联网接入充电桩超过28万个,企业员工超过186万人,供电人口超过11亿人,电商平台注册用户2.25亿人,建成地市供电服务指挥中心336家。然而,各部门依据自身业务建立信息系统,系统间数据未有效贯通、共享公用。数据在业务支撑、效率效益和工作质量等方面价值发挥不充分。

   国网需要把没有采集的信息采集起来,没有共享的数据即时共享出来,没有用好的数据价值挖掘出来,让数据价值达到最大化。国家电网也急需打破管道化状态,整合各部门的数据资产以及社会资源,对外开放共享合作,衍生新兴产业,发挥产业链价值。数据中台是调解前台和后台矛盾的中间层,通过后台数据的建模、数据服务的聚合提供一个可复用、标准化、敏捷式的数据平台,支撑前台应对市场快速变化的需求。数据中台包括数据模型、算法服务、数据产品、数据管理等,和企业的业务有较强的关联性,是企业独有的且能复用的。中台的建设目标是降低重复建设,减少烟囱式协作的成本,也是企业差异化竞争、数字化转型的优势所在。

   2.1“六维度”建设理念

   1)壁垒:对内打破部门间的壁垒,对外打破行业壁垒,通过数据交叉融合实现合作共赢。

   2)标准:制定数据标准,统一数据口径,便于数据质量治理、数据分析、价值挖掘。

   3)资产化:对数据进行收集、治理、建模等操作,让数据成为可用、易用、通用的数据资产。

   4)贴近业务:通过业务专题划分,让数据更贴近业务,为上层提供精准、全面的数据服务。

   5)智能:通过数据的自动挖掘和人工自定义挖掘、常用AI算法模块,提供智能化数据服务。

   6)敏捷:提供易操作的自助式分析工具、建模工具、服务发布工具,快速满足前台需求。

   2.2“五能力”重点建设

   1)数据接入:需具备数据抽取、转换、复制、迁移、同步等能力,把异构数据源接入到数据中台。

   2)数据治理:基于数据标准制定,提供元数据管理、主数据管理、数据质量管理等能力。

   3)存储计算:需提供针对不同数据源和不同数据应用分析需求的多种存储方式,同时具备实时计算、离线批处理计算能力。

   4)数据建模:需提供数据建模工具集,方便建立基础数据模型、聚合数据模型、通用分析模型,兼具BI建模、AI建模、模型评估、模型部署能力。

   5)数据服务:需具备数据服务开发与发布、服务目录管理、服务路由、访问日志与服务监控能力。

   2.3架构设计

   数据中台架构分为5个层次,如下图所示.

3a756be62262c77b927de0b1b1443cb1.png

   自底向上依次为:

   1)数据接入层:支撑将各类异构数据从数据源层抽取、转换、同步到上层。主要方式为:ETL、实时采集、数据复制、流数据接入、FTP、日志采集等;

   2)数据治理层:通过元数据管理、数据字典与主数据管理、数据质量管理等一系列方式实现企业数据管控,清晰地了解数据分布情况,最大限度地提高数据可靠性,为上层提供坚实的“数据底座”;

   3)数据模型层:首先将全域数据的基础表按主题归类,形成全业务基础模型,如人员类、财务类、客户类、电网类等。为便于快速分析应用,又按主题及主数据与多维度数据的关联关系,聚合成一系列宽表模型,如人员宽表、财务宽表、客户宽表、电网宽表等。上述模型构成了数据资产,利用数据资产目录管理工具进行管控;

   4)通用分析模型层:是贴近业务场景而抽象出来的具有通用性的高级模型,例如信用评级模型,可同时为优质客户的增值业务场景(对内)、金融机构贷款授信场景(对外)等提供数据服务。其他通用分析模型还有预测模型、故障诊断模型、欺诈预警模型等;

   5)数据服务层:提供数据服务化工具和高可用服务响应能力,并对服务性能进行监控,另外,数据访问日志记录了服务、数据的调用频度,借此衡量数据热度。上层应用通过数据服务层既能访问数据模型层的数据,又能访问通用分析模型层的高级模型,达到快速构建数据应用和探索挖掘的目的。

   3 方案特色

   在数据中台“五能力”中,数据接入、数据治理、存储计算基于Hadoop开源组件。数据建模、数据服务两大核心能力是方案的亮点。

   3.1数据建模平台

   可视化数据挖掘建模平台通过数据挖掘应用工具化的模式,将常用的数据挖掘算法、AI算法抽象封装为模块,使数据应用开发的速度更快、成本更低。设计遵循跨行业数据挖掘标准流程方法论,把数据挖掘看作一个业务过程,并将其具体的业务目标映射为数据挖掘目标,这个流程确定了一个数据挖掘建模项目的生命周期:①业务理解,了解进行数据挖掘的业务流程和数据挖掘目标;②数据理解,深入了解可用于挖掘的数据;③数据准备,对待挖掘数据进行合并、汇总、排序、样本选取等操作;④建立模型,根据前期准备的数据选取合适的模型;⑤模型评估,使用在业务理解阶段设立的业务成功标准对模型进行评估;⑥结果部署,使用挖掘后的结果提升业务的过程。

   3.2基于SpringCloud的数据服务平台

   基于SpringCloud框架,为数据中台的最终对外赋能提供了数据服务“窗口”,核心功能包括服务发布、服务目录管理、服务路由,另外增加了服务开发和服务监控组件使平台功能更加完整。平台架构如下图所示。

   1)数据服务开发。该组件帮助用户对建模平台部署的模型进行服务化封装,包括数据模型、业务模型、作业流程的服务化和dataAPI接口定义。

dc678da35a9190bf1268b35e6b1c536e.png

   2)数据服务发布。这是数据服务平台的核心部分,通过对Eureka的二次封装实现服务发布。Eureka提供了服务端和客户端,服务端是服务注册中心,客户端完成服务的注册和发现。平台提供4种类型的数据服务发布,有结果集、源数据、消息和文件服务。

   3)数据服务目录。该组件基于Eureka进行服务目录治理、服务自维护,服务提供方主动向服务治理中心注册,服务的消费者通过服务治理中心查询需要的服务并调用,或者订阅服务。服务的消费者必须经过数据访问权申请和审批才可访问服务。另外,对接口服务和批量服务需采用不同的管理目录和方式,批量服务的权限管理更复杂严格。

   4)数据服务路由。该层负责数据服务的负载均衡和过载保护,保证服务的高并发性和高可用性,综合利用Nginx反向代理机制、Eureka自身的负载均衡、Kafka队列、Redis缓存机制来支撑。

   5)访问日志与数据服务监控。作为辅助工具,完成使用频度、数据流向、批量任务指标、接口指标、服务器运维指标、服务的健康检查等工作。

   4 数据中台的应用

   国网数据中台的最终目的是对企业内部增强精益化管理、提高数据分析效率和预测能力,对企业外部提供创新型数据产品、拓宽企业盈利增长点。下面以“企业客户电力大数据征信”为例,讲述如何利用数据中台构建创新型数据产品,开放外部变现数据服务。

   场景说明:以电费、电量数据为核心,分析企业电费电量变化趋势,推测其全年产能和经营稳定性,构建包含欠费、缴费、用电行为等关键指标的客户信用模型,进行信用评分评级,生成电力信用报告,为银行业金融机构提供电力大数据征信产品,以数据服务接口形式对外有偿发布。实施步骤如下。

   1)指标体系的建立。围绕企业贷款的两大考察因素——还款能力和还款意愿,构建5个一级指标类:经营能力、行为法律信用(如违章用电、窃电、违约金拖欠)、经济法律信用(如欠费)、安全评价、合作信用,以及22个二级指标,构成信用评价指标体系。

   2)根据数据资产目录定位指标所需数据。即追溯要计算的每个指标所需的数据源端、贴源层、共享层,数据是否具备、如何预处理,建立各项指标的数据血缘。

8156ad21d1f1f185589699814c30cf1b.png

   3)利用数据建模平台辅助推荐合理的指标权重。采用层次分析法(AHP)对指标体系的22个二级指标进行重要性评估,最后进行权重归一化。

   4)制定每个指标的评分规则。利用建模平台,通过调用缺失值处理、异常值检测、分箱技术组件,把每个指标的全量数据按数据密度进行分箱。再根据分箱结果即数据密度分布情况,给出较为合理的指标评分规则,设定的指标评分规则见上表。

   5)开发信用评级模型算法。利用建模平台,完成所有指标和评分规则的开发和测试。

   6)电力数据征信服务的发布。利用数据服务平台将信用评级模型发布为数据服务,提供3种服务接口:①仅查询电力征信总得分;②简版征信报告:获得完整的评价报告(分指标得分);③详版征信报告:获得每项指标的实际数据,金融机构自行解读。用户基于电网企业数据中台,还可以进行很多有价值的场景分析挖掘,借助数据中台能够形成电网全业务分析、建模、应用的“众创”局面。

   5数据中台价值

   数据中台的价值体现在“准、快、省”三个方面:

   1)准:通过制定全业务数据标准模型,解决了数据互通的诉求,统一数据归集和出口;建立元数据、数据地图、血缘,做到数据可管理、可溯源、可核对;解决了决策支持时数据片面、不准确的问题。

   2)快:数据的统一归集最大程度地避免了重复数据抽取;数据建模分析技术组件的透明封装,大大提高了数据处理和分析效率;通过共性数据模型和数据服务的封装、预建各种主题、维度、明细汇总、指标等技术手段,大大缩短了海量数据的处理时间。

   3)省:节省开发时间就是节省成本,数据的统一归集和出口,最大限度地避免了各部门在数据存储计算资源上的滥用,降低了硬件成本。

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
存储 数据采集 分布式计算
我在数据中台建设和落地的一些经验总结
数据治理是数字化建设中非常重要的一环。在进行数据治理时,我们需要根据不同的业务场景和需求,选择最适合的数据治理方案,包括选择不同的组件组装和数据存储方式等。对于轻量级数据管理平台和重量级数据管理平台,我们可以针对具体情况进行选择,权衡成本与效益,以满足客户实际需求。在整个数据治理过程中,我们还需要注重客户成本的管理,确保项目的落地和实际效果,并且不断优化数据治理流程,需要积极参与业务需求分析和技术选型,确保数据治理方案符合客户需求和行业标准。
|
新零售 人工智能 供应链
数智实践 | 智汇安吉,探寻“两山”转型之道
数智实践 | 智汇安吉,探寻“两山”转型之道
186 0
|
存储 数据采集 监控
谈谈工业企业中台建设
中台是数字经济时代赋能企业数字化转型的思想体系,实现效能提升、数据化运营,从而更好支持企业面对复杂多变的市场需求进行敏捷响应及快速创新。
谈谈工业企业中台建设
|
数据采集 机器学习/深度学习 运维
《数据中台架构:企业数据化最佳实践》:感受数据中台建设五步法
《数据中台架构:企业数据化最佳实践》:感受数据中台建设五步法
1232 0
《数据中台架构:企业数据化最佳实践》:感受数据中台建设五步法
|
传感器 物联网
转型数据化企业 到底难不难?
转型数据化企业 到底难不难?
119 0
转型数据化企业 到底难不难?
|
机器学习/深度学习 人工智能 分布式计算
“后红海”时代,大数据体系到底是什么?-下篇
大数据体系未来演进的4大技术趋势和3个待探索疑问。
|
人工智能 Oracle 大数据
数据中台建设方法论实践之数据架构演变案例
最近十年,随着互联网、物联网、人工智能的新发展,大数据技术开始兴起,为了让政府机构和企业能够更加灵活高效地使用自己的数据,将数据分析和挖掘出来的结果应用在企业的决策、营销、管理等各个方面,让数据产生更多的价值,其实是需要一整套体系作支撑的,其中数据架构就是支撑的重要一环
1147 0
数据中台建设方法论实践之数据架构演变案例
|
存储 大数据 数据挖掘
读透《阿里巴巴数据中台实践》,其到底有什么高明之处?
最近阿里巴巴分享了《阿里巴巴数据中台实践》这个PPT(自行搜索原始文章),对于数据中台的始作俑者,还是要怀着巨大的敬意去学习的,因此仔细的研读了,希望能发现一些不一样的东西。 读这些专业的PPT,实际是非常耗时的,你需要把这些PPT外表的光鲜扒光,死抠上面的每一个字去理解底下隐藏的含义,然后跟你的已有知识体系去对比,看看是否有助于完善自己的认知,对于自己不理解的,还需要经常去检索相关的文档。
12993 0
|
大数据 存储 云计算
数据中台观点分享
以往IT建设主要专注于将各种业务场景电子化,也就是手工记帐转向电子记帐,俗称"自动化"的过程。过去20年IT建设围绕"自动化"以及业务优化做了大量工作,基本实现了各业务竖井的管理需求。如今,云计算、大数据和人工智能技术的发展促进了新一代的技术革命,IT时代开始快速过渡到DT时代(大数据时代)。
955 0
数据中台观点分享
|
大数据 数据中心
数据中台-阿里巴巴的数据整合、价值发掘、社会赋能之道
阿里巴巴大数据建设经历了不断理念革新和实战、不断量变和质变的过程,其中,2014.04-2015.11的阿里集团数据公共层建设和2016.09开启的阿里巴巴大数据能力赋能社会是阿里巴巴在大数据领域的两次关键质变,第一次质变确定了阿里巴巴数据中台业务模式,第二次质变确定了阿里巴巴数据赋能社会的战略。
26054 0