大数据发展历程
第一阶段
2000年-2010年
数仓提供方
企业级数据仓库(EDW) IOT(IBM、Oracle、Teradata) 提供数据仓库建设从硬件、软件到实施的整体方案 需要购买大(中、小)型机 配套商用的关系型数据库 (Oracle、DB2、SQL Server)以及一些ETL/OLAP套件
使用范围
实施成本高昂 集中在金融、电信、大型零售与制造等行业
作用
为企业提供报表、分析等数据 辅助企业的经营决策 电信行业的经营分析系统、银行的风控管理
第二阶段
2010年-2015年 大数据平台阶段
搭建方式
企业基于Hadoop分布式的计算框架 使用相对廉价的PC服务器就能搭建起大数据集群
目的
数据湖 降低传统数仓较为复杂的中间建模过程
使用过程
通过接入业务系统的原始数据 包括结构化、非结构数据 借助Hadoop生态强大计算引擎 将数据直接服务于应用
使用范围
国内主流互联网企业纷纷搭建大数据平台
使用场景
决策分析 基于APP/门户站点的搜索推荐 A/B Test对产品进行升级迭代 用户画像(企业的营销、运营)
第三阶段
2015年至今 数据中台 云上大数据阶段
数据统一化
数据流转的所有环节进行统一化 从采集到存储到加工等过程 建立统一的公共数据模型体系 统一的指标与标签体系 提高数据的标准性、易用性
工具组件化
- 场景
数据再采集、计算、存储、应用过程涉及多业务线条 多场景
- 工具
采集工具、管道工具、计算&调度工具、数据服务工具、数据管理工具、可视化工具
应用服务化
通过数据中台应用服务化建设 提供标准应用服务 以数据可视化产品 数据API工具等服务
组织清晰化
按照职责分为 平台(工具)研发、数据研发、数据产品、数据分析 数据中台团队专注于数据内容&数据平台开发,提供各种基于数据的能力模块 其他部门人员如业务产品、运营、分析等角色,只需要借助工具/产品有效地使用数据,发挥其价值,无需关注数据加工的过程
当前阶段
使用场景
- 决策分析
- 大数据与线上事务系统(OLTP)的联动场景
电商平台查询个人所有历史订单 刷单 反作弊的实时拦截 一些实时推荐
大概流程
将数据的运算交给数据中台部门处理 前台部门直接通过API进行结果调用
数据中台能力
数据中台的集中化建设也更好地支撑起创新业务 比如通过大数据+分析建立起商业化数据变现产品 进行数据售卖 把数据变成新的业务
共享复用
早期数据仓库(建立公共数据模型)、大数据平台(研发一些组件化工具)的建设中,也是满足共享复用
- 共享数据组
- 公共数据组
借助云计算
云计算的发展可以快速提供数据中台建设的能力 例如企业无需自己搭建机房 使用云计算的弹性计算存储能力以及丰富的工具 可以支撑数据中台的快速搭建
争议
1、 大型(集团型)公司有相互独立的子公司 数据之间不需要太多连接与共享 分别构建自己子数据中台也是合理的架构 集团层面可以利用数据子中台进行数据上报解决集团层面数据大盘、统计、分析、财务等诉求 2、 一些小型公司是否需要在一开始就按照数据中台的架构进行建设