实施数据湖泊之前请先“试水”

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
日志服务 SLS,月写入数据量 50GB 1个月
简介:

现今,数据湖泊在IT行业掀起了波澜。数据湖泊是将数据存储与数据管理关联,提供关于数据的分析功能——这种功能通常是其他分析系统的独立功能,如数据仓库或数据集市,作为数据梳理流程的一部分。

例如,数据仓库的提取、转化与加载预处理器将消费日志,这些日志记录了某个系统到达或插入某“操作数据存储”的时间。

但现今产业中,数据湖泊似乎至少有两个定义。一是源于存储公司,认为数据湖泊是磁盘存储基础设施,用于源数据的存储。另一个,主要由市场驱动,混合许多通常未混合的数据。根据我的定义,没有产商在销售全扩展的数据湖泊——相反,人们利用Hadoop来混合数据并自主研发的工具来访问数据。

作为初始供应商向现实世界实验抛出的炒作课题,用户发现数据中心集市的最佳实践并不适用于数据湖泊。为避免早期用户的错误,需要专注于数据湖泊的温和实现,而不是超大规模。

以下是在数据湖泊工作中的最佳实践。

请记住数据湖泊适用于探索

数据湖泊实现应该是实现企业扩展某个已存在分析的探索方式。数据湖泊中增加的数据类型来大部分来自于实时数据——例如,用户事务日志——实时分析系统一般不会提供长周期的分析功能。大多数现有的分析工具不足以提供应用程序行为的真实画像。数据仓库,“纯”Hadoop和其他数据管理方案可能导致重要数据丢失。

大数据分析系统提供商Pentaho公司首席技术官James Dixon在自己的博客上举了个例子:数据仓库这样的系统无法获得用户在购买流程中的每一步操作,但事务日志里有。类似购买流程这样的设计对某些数据架构师来说看似简单,但每步骤都可能有数分钟甚至几小时的滞后。

通过发现流程中的滞后,用户可以开始部署数据湖泊来绘制用户画像、购买相关的事务。探索型的分析很重要,也会影响到企业整体的分析能力,因为目前还不清楚在更深入分析客户日志时间戳后,会不会有什么新发现。

数据集市、数据湖泊和数据仓库之间的区别?

数据集市是数据仓库的变体。数据仓库存储了跨越整个组织、周期较长的数据报告与分析。多个数据集市大致相当于数据仓库,通常服务于分公司的各自IT环境中。可以将多个数据集市并入一个数据仓库,也可以是松耦合的数据集市。

整合是数据湖泊实施的关键

完全整合数据湖泊与企业的其他数据架构十分重要,包括数据治理与主数据管理。了解哪些数据类型对数据仓库或数据集市重要,或者那些原始表单中的数据是正确与一致的。实施数据治理实践,避免分析有缺陷的数据。

数据湖泊要看长远

数据湖泊拥有潜力。但在找不到比这个更好的长期数据分析方案,无法获得更多有价值的信息之前,数据湖泊也可能只是个时髦用语。

Dixon关于时间序列与间距问题分析的数据仓库案例,只是在没有考虑“坏”数据的情况下,通过简单统计分析告诉我们一些信息。由于数据湖泊实施可能发现过去分析中隐藏的关键“指数”,任何企业都值得一试。从长远来看,还是需要实验与平衡数据湖泊与整体信息架构之间关系。





====================================分割线================================


本文转自d1net(转载)

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
10月前
|
人工智能 自然语言处理 搜索推荐
突破业务发展瓶颈 ,实施CRM系统的最佳时机是什么?
企业在不同发展阶段,CRM系统作用各异。初创期应专注产品与市场开发,成长期引入Zoho CRM能提升销售效率和客户管理。成熟期需精细化管理,借助CRM分析数据,应对竞争。创新阶段,CRM结合AI和大数据,实现个性化营销,推动行业发展。企业应根据发展阶段选择合适的CRM策略,以实现持续增长。
80 2
《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.1 云上大型赛事保障阵型——7.1.1 基于前中后台的服务分层
《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.1 云上大型赛事保障阵型——7.1.1 基于前中后台的服务分层
855 0
|
运维 数据挖掘
《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.2 云上大型赛事流程管理——7.2.1 基于业务影响的流程分级(下)
《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.2 云上大型赛事流程管理——7.2.1 基于业务影响的流程分级(下)
154 0
《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.2 云上大型赛事流程管理——7.2.1 基于业务影响的流程分级(上)
《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.2 云上大型赛事流程管理——7.2.1 基于业务影响的流程分级(上)
123 0
|
数据采集 人工智能 安全
中国系统:数据治理让政企跑赢数字时代,加快参与构建数据基础制度建设
中国系统:数据治理让政企跑赢数字时代,加快参与构建数据基础制度建设
|
数据采集 存储 安全
谈一谈企业如何制定数据战略
数据战略是顶层设计,而不是关于细节。它不是关于“我们如何详细地管理数据,这里是各个流程”,而是关于“我们要管理数据,这些是我们要管理的数据领域”。
谈一谈企业如何制定数据战略
|
监控
政法重点人员联防联控管理平台建设,智慧城市治安防控系统开发
政法重点人员联防联控管理平台实现了把基层人员纳入进来进行管理,整合全市现有的各领域、各部门、各条线的网格员队伍,使基层社会治理从粗放式﹑单一式向精细化、数据化转变,通过多网融合、一平台通管、“街乡吹哨,部门报到”、接诉即办、主动出击,从而推进社会治理创新、健全保障机制实现社会长效治理、提高管理和服务水平、打造更加和谐有序的小康社会。
227 1
|
人工智能 监控 大数据
重点关注人员联防联控平台建设,政法委治安防控系统开发
重点关注人员联防联控平台是平安城市的重要措施和力量,其重心是维护社会稳定、化解基层矛盾、防控违法犯罪,应对大规模公共危机和安保活动
225 0
|
监控 大数据 数据管理
政法大数据人员管控系统开发,重点关注人员联防联控平台建设
政法大数据人员管控系统,是以政法委为统筹核心,横向打通公安、检察、法院、司法、监狱 等部门,纵向贯通中央、省、市、县、乡五个层级,综合运用现代科技成果,统一管控操作平台、统一执行标准、 统一协调联动、统一管理监督,实现对九类重点人员及流动人口进行全流程、全覆盖、全天候数字化管理。
343 0