谈谈数据资产理念下构数据湖的喜与忧

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 最近,数据湖成为大家关注的数据资产存储新架构,那么数据在现实中都有哪些应用场景呢,下面举几个典型的应用案例。

一、数据湖应用场景

最近,数据湖成为大家关注的数据资产存储新架构,那么数据在现实中都有哪些应用场景呢,下面举几个典型的应用案例。

6abeb6919490be999d3aa20fa7cd9791.png

1、数据湖使探索、发现和自助服务成为可能

发现新的见解和机会。由于大数据通常来自于新的数据源,通常将其称为新数据或新大数据。新大数据的巨大前景和相关性在于,它可以通过新的方式来开发新的见解,从而帮助组织适应不断变化的业务环境。

自助数据探索、数据准备和分析。当一个数据湖(无论是在Hadoop还是RDBMS上)得到敏捷查询工具的补充,并得到业务元数据的增强时,它就可以让大范围的用户甚至是一些业务用户探索新的大数据、构建简单的数据集和创建基本分析,这是许多组织的优先考虑的策略。

2、数据湖使新的分析成为可能,并扩展了旧的分析

竞争分析。新的数据驱动的设计模式和数据平台集成了广泛的数据源,为客户群和市场创建独特的视图。

多渠道营销。来自网站、呼叫中心应用程序、智能手机应用程序、社交媒体、第三方数据提供商和内部接触点的新旧数据组合可以揭示客户在不同情况下的行为。其结果现在被称为营销数据湖。更加深入的客户探索和分析,提高交叉销售,向上销售,客户增长,收购和保留,这是现代多渠道营销的主要目标。

旧的和新的数据绘制出更完整的客户视图。当一个组织追求完整的客户视图(有时称为360度视图)时,它会积累大量的数据存储,这些数据存储的结构比较松散。视图通常涉及到每个客户的一条记录,其中每个字段量化一个客户属性,每个记录是一个简单表中的行。该数据的“刚刚好”的结构使其成为数据湖的理想选择,无论是在Hadoop还是RDBMS上可以分析所有的数据。有了正确的设计模式和数据平台,新的大数据可以提供更大、更广的数据集,从而避免抽样错误,扩展现有的风险、欺诈、客户基础细分和客户的完整视图分析。

3、可以扩展数据湖来实时处理数据

实时操作。这是一种非常主流的做法,以至于现在电视上出现了这样的广告:创新型公司如何捕捉和操作实时数据,以便在数小时内而不是数周内批准保单和住房抵押贷款。

传感器数据和物联网(IoT)。传感器的最大应用之一是在物流企业。例如,一家卡车运输公司使用传感器数据来证明他们的司机开车有多安全,这导致他们的保险公司给他们打了100万美元的折扣。另一家卡车运输公司将传感器数据与空间坐标相关联,以缩短送货路线和送货时间,从而提高了客户保留率。

8ba14e4d8764bb9706348a4709f04625.jpg

4、数据湖是多结构数据的最佳选择

流媒体数据。电信公司的代表解释了传感器的数据流如何为容量规划、网格性能和高可用性分析带来了前所未有的准确性和及时性。该类公司捕获流数据,以发现需要立即关注的性能趋势,并将流保存下来,以便以后进行深入分析。

非结构化文本的决策价值。人类语言和其他非结构化文本的“杀手级应用”是情感分析,作为一种对客户和市场的新洞察,它已经变得几乎司空见惯。更大的内部情绪分析解决方案通常会部署一个基于hadoop的数据湖或类似的东西。

欺诈和风险分析。例如,一家总部位于纽约的金融投资公司将PB级字节的电子邮件加载到Hadoop上的一个数据湖中。通过使用各种搜索和分析技术,他们立即发现了几起欺诈和内幕交易案件。该公司迅速采取行动解决这些问题,从而避免了重大损失和债务。

分析各种服务器日志。Hadoop最初的设计目的是管理和处理大量的Web服务器日志。构建在Hadoop之上的数据湖对于其他日志比如来自企业打包应用程序的日志的可伸缩分析非常理想。

活动数据归档。在企业级别上归档数据仍然相当原始,这取决于磁带、光盘和脱机进程等古老的技术。基于hadoop的数据湖可以实现现代化的归档,这样就可以在线访问、搜索和查询,且具有适当的安全性。这将存档从未使用的成本中心转换为有价值的业务工具。

沃尔格林靴子联盟用户零售商品分析的数据湖案例

“我们的全球业务有多个Hadoop集群,每个集群都有一个数据湖。全球健康福利企业沃尔格林靴子联盟(Walgreens Boots Alliance)的数据和分析架构师佐格·吉本斯(Zog Gibbens)说:“我在英国的一个集群工作,该集群支持为英国和我们的国际零售业务进行分析。”“作为架构师,我的大部分工作都与Hadoop有关,因为我们正在将其集成到我们的企业数据生态系统中。“数据湖的第一个生产用例是研究每个商店内部的宏观和微观空间,下至单独的货架和位置,以确定产品的销售业绩,并优化销售。”数据湖的这一应用提高了分析性能,并带来了业务提升,尤其是通过研究购买倾向,结果平均上升了几个百分点。

二、数据湖的好处和挑战

1.主要受益者是高级分析,新的数据驱动实践,来自大数据的价值和数据仓库现代化

先进的分析。当今IT和数据管理的大多数趋势背后的真正驱动力是越来越多的公司、政府机构和其他组织需要更广泛的分析来竞争、增长、保留客户,并实现组织目标。即使OLAP和更早的分析形式已经就位,组织仍然需要基于先进的挖掘、集群、图表技术的预测式和面向发现的分析,人工智能和机器学习。据调查,数据湖最值得期待的好处是高级分析(49%的受访者选择了高级分析)。

新的数据驱动的实践。在所有的好处中,排名第一的是相对较新的数据探索实践(49%),有时也被称为数据发现。数据湖可以提供一个可伸缩的沙箱,用于探索来自多个源的集成数据,以发现关于业务及其客户、合作伙伴和产品的新事实。因此,他们可以研究新旧数据,业务和技术用户都要求数据探索与其他从数据湖中获益的新兴实践,如自助数据访问(24%)和数据可视化(18%)。

大数据带来的商业价值。成功的企业不满足于以成本中心的身份获取和管理大数据和其他新的数据资产。相反,他们从新的数据中获得商业价值,主要是通过分析和报告。数据湖可以成为一个用于分析的大数据源(45%的人期望这个好处)。Hadoop已经成为大数据和数据湖的首选(但不是唯一的)平台,因为采用者期望低成本的硬件和软件(19%)和极端的可伸缩性(19%)。

数据仓库的现代化。现代化仍然是数据仓库中的一个强大趋势。作为现代化过程的一部分,无论是在Hadoop还是RDBMS上的数据湖被定期添加到多平台数据仓库环境(DWEs)中。调查对象同意数据湖可以作为数据仓库存储的扩展(39%),着陆和分段(36%),以及作为数据仓库卸载和降低成本的策略(34%)。同样,数据湖也可以是数据集成的扩展(14%),通常通过下推处理实现不同的数据结构。受访者认为基于hadoop的数据湖的另一个优势是能够捕获和处理广泛不同的数据结构和文件类型(20%),包括来自物联网、机器人、传感器、仪表等的机器数据(21%)。

2.主要的障碍是治理、集成、缺乏经验、隐私问题以及不成熟的技术和实践

数据治理。如前所述,未经治理的数据转储可能会导致所谓的数据沼泽。受访者充分意识到这一潜在问题,他们的回答将缺乏数据治理列为首要问题(41%)。

dde5986135d817cd931171a347ca6166.png

数据集成。如前所述,数据摄取及其治理是数据湖的关键成功因素。因此,受访者担心自己缺乏数据集成工具和Hadoop技能(32%)。

大数据的经验。大数据的到来促使大多数组织对数据湖和Hadoop产生了兴趣。在这些情况下,用户对大数据、湖和Hadoop都是新手,因此他们自然会担心自己的大数据技能不够(32%)、Hadoop技能不够(32%)、大数据分析系统设计技能不够(24%)、数据湖设计技能不够(23%)。组织可以通过培训现有的数据管理员工、聘请具有大数据经验的顾问,以及雇佣具有大数据技能的新员工来应对这些挑战并取得成功。

业务用例。数据湖是相当新的,业务和技术人员都还在学习它们。这可能导致难以建立令人信服的商业案例(31%)或商业赞助(28%)。显然,当组织不需要数据湖时,令人信服的业务案例是不太可能的(12%)。成功的商业案例建立在对高级分析、广泛数据探索和大数据价值的商业需求之上。

数据隐私和遵从性。一些调查对象担心数据湖缺乏数据隐私遵从性(17%)和暴露敏感数据(如个人)的风险身份信息(28%)。TDWI看到组织通过扩展他们的企业计划来克服这些潜在的问题,这些计划用于数据治理和/或管理,以包含数据湖、它的数据摄取策略以及湖中数据的使用。

不成熟的技术。一些组织意识到数据湖概念的不成熟(27%),因此他们采取“观望”的立场。 “我们仍在等待,看看什么样的工具会成为最好的。四分之一或更少的受访者特别关注Hadoop在数据安全(26%)、元数据管理(24%)和ANSI标准SQL方面的不成熟(14%)。

公民银行数据管理高级副总裁肖恩·兰金说:“我们制定了企业数据战略,得到了首席执行官和执行副总裁的全力支持。”“数据湖在这一战略中发挥着重要作用,我们目前的数据湖是由我们的首席数据官亲自发起的。

“三种驱动把我们带到一个基于hadoop的数据湖。首先,我们的高管和他们的数据策略更喜欢“一次采购,人人使用”的方法,而Hadoop的可伸缩性,加上适当的工具和治理,可以实现这一点。其次,我们的技术用户需要从许多来源收集不同的数据,以进行广泛的自助服务探索和分析,这就是基于hadoop的数据湖的优势所在。第三,Hadoop软件和商品硬件的低成本满足了我们项目的财务需求。“

三、数据湖建设要考虑的12大事项

1.考虑数据湖的业务利益。对于商业用户来说,数据湖就是关于分析的。即使企业拥有某些形式的分析(例如OLAP),他们也逐渐需要更高级的形式(例如预测性、挖掘、图表)来跟上不断变化的市场、客户基础、合作伙伴和竞争对手的步伐。类似地,越来越多熟悉数据的业务用户需要自助数据访问、探索和可视化。数据湖以早期摄取而闻名,这使企业能够更快地看到信息并对信息做出反应。拥有正确的终端用户工具的结构良好的数据湖可以满足这些业务需求。

2.考虑数据湖的技术优势。对于技术用户来说,数据湖就是自由形式的数据聚合。这是因为当今企业所渴望的以发现为导向的探索和分析需要少量的大量数据样本。重新构造并从多个来源聚合。这就是数据湖大规模设计的目的。

3.了解您的数据需求,并选择相应的数据平台。即使您认为您将使用Hadoop,也可以从编译关系需求开始,以防这些需求胜过Hadoop。此外,这将帮助您计划在Hadoop上使用SQL和在Hadoop外使用SQL的工具。当您的查询需求是多种多样的时,希望两者都能做到。

4.为您的湖考虑一个混合架构。永远不要忘记,数据湖作为现有复杂数据环境的扩展是最有价值的仓储,营销,供应链等,而不是一个独立的数据收集。这就是为什么几乎所有用例都显示了与这些更大的数据生态系统集成的数据湖。这个湖形成了一个已经混合的生态系统,但是数据湖的一个趋势是使这个湖成为一个逻辑结构,物理上分布在多个平台上(就像现代数据仓库一样)。从这个意义上说,湖泊本身变成了混合的,这就给了它更广泛的数据类型和分析。与数据仓库一样,混合数据湖将Hadoop和RDBMS(可能还有其他平台)结合在一起,以实现这种广度。

5.期望用其他工具来填补Hadoop的空白。一些必需的工具补充了Hadoop,例如用于数据集成的工具。其他工具修复了Hadoop的遗漏,即用于元数据、安全和SQL支持的工具。要简化所需的各种工具的组合,可以考虑在一个统一的环境中提供多种工具的供应商,同时支持完整的Hadoop生态系统。寻找可以用现有工具成功交付的用例。在价值被证明之后,这将为您带来更多的预算,扩展到其他工具。

6.选择交付业务价值的最终用户工具。大多数商务人士和一些技术人员将通过用于探索、数据准备、可视化和其他分析任务的工具的GUI来认识数据湖的价值。了解您的最终用户在该领域需要什么,并帮助他们找到能够交付所需价值的工具。确保终端用户工具与以数据为中心的安全性工具相辅相成,以便用户能够安全地探索和分析湖的资产。

7.小心数据转储。围绕数据湖的早期宣传说,您可以任意地将大量数据丢入湖中,然后让最终用户自行处理。许多公开的失败证明了这一假设是错误的。这种“数据转储”会导致冗余数据,这会影响分析结果,不可审计的数据和糟糕的查询性能。在最糟糕的情况下,仅仅访问数据湖就构成了合规或隐私侵犯。

不要被早期摄入的魔力和Hadoop的线性可伸缩性所迷惑。制定一个计划,根据优先级用户和应用程序所需的探索和分析,以及数据仓库和相关实践所需的数据着陆和准备,准确地确定哪些数据进入湖中。抵制计划中未指定的任何数据。请注意,您的计划应该包括以数据为中心的安全性的组件。

8.设计数据湖。一旦有了传入数据的计划,就要考虑如何在湖中组织卷、分区和区域。新兴的最佳实践指出,典型的区域是数据着陆、数据登台、数据域(例如,客户数据)、部门域(例如,营销人员使用的数据)、分析归档和分析沙箱。一旦您了解了区域,就可以设计用于在区域之间移动数据的数据流。

数据湖不是数据仓库,区域的结构也不像主题区域或维度那样复杂。除了一些区域之外,它们是用于组织的,而不是用于彻底的转换或重构。在每个区域内,数据仍然处于原始状态或略微标准化,这与数据湖关注用于勘探和重复再利用的详细源数据的做法一致。

9.关注原始数据,但是随着数据湖的成熟,应该有更多的结构。现在有一些用户拥有几年或更多年的数据湖使用经验,他们说这就像很多数据库一样。随着时间的推移,您将了解访问和重新构造最多的数据子集,以便为需要数据的用户和应用程序创建数据模型并持久存储转换后的数据。这样,访问性能和数据一致性都得到了改善。

同样,不要忘乎所以,否则可能会破坏湖泊对原始数据的依赖。在数据湖的设计方面,数据重组通常会产生相当简单的记录或表格结构,通常通过轻量级数据标准化来实现。预期将重新讨论数据在数据湖中的组织方式,类似于您对任何数据库的组织方式,但操作和结果要简单得多。还要考虑的是,重新构造数据可能意味着数据应该离开湖,进入更结构化的环境,例如数据仓库或集市。毕竟,这个湖的一个功能就是为其他数据库提供数据。

10. 管理每个数据湖。在理想情况下,您已经有了一个数据治理程序,该程序已经创建了一个策略库,用于遵从企业数据的使用,以及指导数据质量和结构的数据标准。与任何新的数据收集一样,数据治理委员会应该审查一个新的数据湖,以指定应用和确定哪些现有策略。

如果旧的策略需要修改以适应数据湖,或者如果新策略是合适的。请记住,Hadoop对于您的组织来说也可能是新的,因此它可能需要单独的审查。最后,治理最好是协作性的。供应商工具中的新的治理功能可以捕获和共享数据知识,以及众包公民用户来充当湖泊数据质量、遵从性和可用性的管理者。

11. 交叉培训数据管理专家。正如前面提到的,很少有数据管理专业人员可以雇佣拥有数据湖和Hadoop经验的人。由于这些原因,公司更愿意在这些技能方面对现有员工进行交叉培训,而不是尝试招聘新员工。这种策略之所以能够成功实施,是因为数据管理人员喜欢交叉培训和学习新技能,并在此过程中提高了他们的价值。

12.增加您的员工与顾问谁拥有数据湖的经验。虽然很难找到拥有Hadoop和Data Lake技能的新员工,但许多咨询实践已经升级以支持这些技能,他们通过多个客户获得了经验。当你尝试一些对你来说是新的大事情时,向顾问和系统求助有相关经验的集成商。这将减少项目风险,缩短交付时间,并提供从顾问到员工的有价值的知识转移。

相关文章
|
存储 数据挖掘 BI
数据平台发展史-从数据仓库数据湖到数据湖仓 1
数据平台发展史-从数据仓库数据湖到数据湖仓
|
6月前
|
存储 机器学习/深度学习 数据采集
【专栏】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具
【4月更文挑战第27天】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具。数据仓库是经过规范化处理的结构化数据集合,适合支持已知业务需求;而数据湖存储原始多类型数据,提供数据分析灵活性。数据仓库常用于企业决策、财务分析,而数据湖适用于大数据分析、机器学习和物联网数据处理。企业需根据自身需求选择合适的数据存储方式,以挖掘数据价值并提升竞争力。理解两者异同对企业的数字化转型至关重要。
135 2
|
3月前
|
存储 缓存 数据管理
阿里云EMR数据湖文件系统问题之JindoFS数据孤岛的问题如何解决
阿里云EMR数据湖文件系统问题之JindoFS数据孤岛的问题如何解决
|
存储 人工智能 Cloud Native
耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景
喜马拉雅和阿里云的合作,正走在整个互联网行业的最前沿,在新的数据底座之上,喜马拉雅的AI、大数据应用也将大放光彩。本文摘自《云栖战略参考》
46854 5
耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景
|
6月前
|
存储 对象存储 SQL
【获奖名单公示】Hologres实时湖仓分析挑战赛
5分钟快速使用Hologres实时湖仓能力,无需移动数据,直接加速读取存储于数据湖OSS上的Hudi、Delta、Paimon等格式类型的数据
【获奖名单公示】Hologres实时湖仓分析挑战赛
|
6月前
|
存储 人工智能 运维
【云原生企业级数据湖:打破数据孤岛,优化存储成本】
【云原生企业级数据湖:打破数据孤岛,优化存储成本】 随着大数据时代的到来,企业对于数据的处理和存储需求日益增长。如何有效地存储和管理大量数据,同时降低运维成本,成为了企业面临的一大挑战。盛通教育的云原生企业级数据湖方案,正是为了解决这一问题而设计的。
211 1
|
6月前
|
SQL 分布式计算 Apache
流数据湖平台Apache Paimon(六)集成Spark之DML插入数据
流数据湖平台Apache Paimon(六)集成Spark之DML插入数据
222 0
|
存储 数据采集 安全
什么是数据管理,数据治理,数据中心,数据中台,数据湖?
什么是数据管理,数据治理,数据中心,数据中台,数据湖?
272 0
|
SQL 存储 人工智能
数据平台发展史-从数据仓库数据湖到数据湖仓 2
数据平台发展史-从数据仓库数据湖到数据湖仓
|
分布式计算 DataWorks 对象存储
全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力
阿里云全链路数据湖开发治理解决方案能力持续升级,发布2.0版本。解决方案包含开源大数据平台E-MapReduce(EMR) , 一站式大数据数据开发治理平台DataWorks ,数据湖构建DLF,对象存储OSS等核心产品。支持EMR新版数据湖DataLake集群(on ECS)、自定义集群(on ECS)、Spark集群(on ACK)三种形态,对接阿里云一站式大数据开发治理平台DataWorks,沉淀阿里巴巴十多年大数据建设方法论,为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力,帮助客户提升数据的应用效率。
1513 1
下一篇
无影云桌面