数据湖
数据湖是在大数据环境下,针对传统数据仓库的不足,在2011年提出的一种集中式数据存储技术。传统数据仓库开发时间长,成本高,只支持结构化的数据。随着数据量的快速增加,数据仓库也需要存储半结构化和非结构化的数据,这就催生了数据湖的出现。
与数据仓库相比,数据湖有一些新的特点:数据湖只需较低成本,就可以存储了任意规模的原始数据,并以原来的格式存储,不需要预定义模型或者结构化处理就能进行各种数据分析,例如,从SQL查询、可视化、大数据处理、全文搜索、实时分析到机器学习。这些数据包括业务系统的结构化数据,也包括来自移动应用程序、IoT 设备、日志文件、点击流和社交媒体的半结构化的和非结构化的数据。数据湖可以把数据集中存储在单一环境中,其中的模型(schema)不像数据仓库设计时就要确定,而是在分析时才确定,供跨部门的业务分析使用,支持客户智能和各类业务运营分析。
数据湖由多个数据池组成,其属性包括数据更新频率、数据来源、数据量、数据选择标准、数据关系等,可以使用键、索引等元数据描述。基于数据湖架构的扩展性,用户可以在比较短的时间内从更多的数据源获得并利用多种类型的数据,辅助决策。数据湖还可以提供实时的智能分析。例如,可以将来自客户关系管理(CRM)系统的客户购买历史数据与社交媒体数据,使用户能够了解高价值的客户群、客户流失的原因以及如何促销将提升客户忠诚度。
数据仓库和数据湖并不相互排斥,它们可满足不同的分析需求和使用场景。数据湖面对的问题是由于其存储了原始数据,数据的可用性和安全需要进一步的考虑。云计算的发展为数据湖的实现提供了经济、高效的平台支撑。
数据中台
数据中台是一个企业级的逻辑概念,本质上是一种用于数据共享的企业级系统,处于企业前台与后台之间的中间层,一般分为数据中台和业务中台。前台开发主要完成应用开发,后台开发的主要工作是数据管理,而数据中台主要为企业内部提供数据服务。
数据中台的前身是数据仓库和大数据分析系统。为什么企业在数据仓库的基础上还要建数据中台?这是因为数据中台的一些功能是传统数据仓库所不具备的。数据中台要把共性的资源、能力整合在一起,把面向客户的价值独立出来。即把各种能力和资源在生产侧独立,在消费侧聚合,提供数据服务。因此,数据中台主要面向业务而非面向技术。
数据中台可以在业务方需要数据服务的时候优先提供数据服务,为业务产生价值。甚至可以在数据没有对应数据仓库存储的情况下优先构造可供调用的服务之后再逐步完善数据服务,把它自动化。
数据中台是企业的数据服务工厂,关注数据中蕴含的业务价值,提供数据分析功能,更加注重驱动前台业务更加智能化。数据中台可以把数据以及数据模型标准化、组件化,提高数据分析的效率,让数据服务应用变得容易。
数据中台由下列主要模块组成:
(1)数据治理。对一个企业而言,数据中台中的数据往往决定了其价值,数据治理与规划是在上层支持与维护数据资产目录。
(2)数据的采集和存储。这个模块为数据中台提供汇集内部和外部的结构化和非结构化数据采集能力,支持对周期批量采集,对产生频率高、实时性的数据以数据流形式采集。在数据采集模块中仍然可以使用传统的ETL工具来实现数据采集、转换、加载,对于周期性采集工作可以采用API调用以及网络爬虫。数据存储可以使用传统的数据仓库以及新型的分布式数据库进行混合存储。
(3)数据共享。数据中台中的数据对内部各个部门的业务线开放,保证所提供的数据服务对需要使用数据服务的用户可见和共享。
(4)数据的业务价值提供。这个模块使数据价值最大化,集成一些数据分析、数据挖掘、大规模数据计算的工具,需要集成批量离线计算、内存计算、在线流式计算、机器学习、深度学习、数据挖掘等相关技术。提供面向用户的数据价值探索功能。
(5)数据服务与管理。这个模块主要借助消息接口、文件接口、服务接口、SDK软件包等方式来提供组件能力或数据服务,不必关心底层数据情况,直接调用数据服务模块对外提供的服务接口,用于管理数据中台所提供的服务,减少发现服务和构建服务的成本,提高数据服务的使用效率。
赵卫东. 商务智能(第五版). 北京:清华大学出版社,2021