360度解析企业智能数据湖平台

简介:

本文根据DBAplus社群第86期线上分享整理而成。

讲师介绍   20161227100700974.jpg

张扬

DaoCloud售前技术支持

 

 

  • 负责面向企业用户的DaoCloud应用云平台整体解决方案交付。

  • 曾任职IBM AICS云服务项目,熟悉Cloud Infra和DevOps相关工作。个人公众号:小张烤茄。

 

主题简介:

1、数据湖概念解析

2、数据湖和数据仓库的区别

3、现代化数据架构

4、DCE智能数据湖平台

 

一、数据湖概念

 

数据湖(Data Lake)的概念最早出现在 2011 年福布斯的一篇文章《Big Data Requires a big new Architecture》,该文章中主要提到数据仓库存放的数据都是预先组织和处理过,分析方式也基本定型。但在大数据时代,数据量的庞大、数据来源和类型的多元化、数据价值密度低、数据增长快速等特性使得传统的数据仓库无法承载,因此需要一个新的架构来作为大数据的支撑。

 

数据湖是一种大型数据存储库和处理引擎,它能够存储大量各种类型的数据,拥有强大的信息处理能力和弹性扩展能力。在 IT 的价值已逐渐从应用往数据转移的趋势下(IT to DT),数据湖技术将是企业各类信息系统的核心部分,是进行科学研究和企业决策管理的重要技术手段。

 

   1  数据湖的特点

 

  • 全部采集(Collect Everything)

 

数据湖采集并存放任意类型和来源的数据。数据类型包含结构化、半结构化和非结构化等数据,数据来源可以是来自企业内部所生成的数据,也可以是来自外部公共数据。

 

  • 随处研究(Dive In Anywhere)

 

数据湖也是一个大数据分析平台,提供多种计算和调度框架,用户可按照自己的需求和条件跨多种业务单元来对数据进行精炼、探索和分析。

 

  • 灵活访问(Flexible Access)

 

数据湖为多元化数据访问提供一个共享的基础架构,该架构包含数据存储和数据分析两个层面,为大数据多种场景的提供基础支撑。

 

   2  数据湖的逻辑架构

 

20161227100712696.jpg

 

  1. 所有从内部和外部获取的结构化、半结构化和非结构化数据被存放在数据湖的持久层(Persitent Layer);

  2. 数据科学家和分析师被授予持久层的访问权限并使用分析沙箱(Analytics Sandbox)进行数据研究和实验。数据分析师会将有商业价值的数据进行处理并创建新的数据源(Curated)以提供给业务分析师;

  3. 业务分析师继续精炼已处理过的数据,他们会和数据管理团队一起将这些数据转换为更为容易操作和使用的数据,并存放在可操作层(Operational layer)以便得到更广泛的使用。

 

二、数据湖和数据仓库的区别

 

   1  数据湖存放所有数据

 

在数据仓库的建设过程中,相当多的投入会花在分析数据源、理解业务流程和数据模型建立上,目的是为了给最终的表报设计了一个高度结构化的数据原型,这种方式通常被用来简化数据建模和节省数仓所需要的昂贵存储空间。

数据湖则储存所有的数据,不仅是现在需要用到的数据,也包含以后可能会用到或者压根就用不到的数据。所有时间的数据都会被保存起来,使得企业能够追溯到任意时间来数据分析。

 

存放全部数据的方式能够被实现的是因为数据湖所需要的硬件通常与数仓需要的有很大不同。在数据湖中,使用一些廉价或已退役的服务器外加一些便宜的磁盘即可相当经济的将数据湖扩展到 PB 级别,而数据仓库一般都会使用高性能的服务器和高端集中式存储。

 

   2  数据化支持所有的数据类型

 

数据仓库中的数据一般由业务系统导出,指标化后再导入数仓,数仓中的数据都经过高度结构化的处理,非传统的数据如日志、文本、图片和影像等数据被大量忽略。这些非结构化数据的价值正在被持续的挖掘和发现,但使用数据仓库来消费和存储它们会比较困难且代价较高。

 

数据湖的储存方式在包含传统数据的同时也会包含这些非传统的数据类型,它存放不论来源和结构的所有数据。数据在数据湖中保持他们原有的形态,直到准备被使用的时候才会进行转换。

 

   3  数据湖支持所有的用户

 

在绝大多数的企业中,80%或更多的用户是业务人员,他们关心的是业务报表及之中的关键性指标。数仓主要适合这些用户,因为数仓中的数据都被结构化得很好,容易使用和理解。

 

另外10%的用户会对数据做更多的分析。他们把数据仓库作为数据来源但常常也需要回到原有系统中去获取那些数仓没有录入的数据,更有些时候会去企业外去获取一些数据。他们不仅仅只关心业务报表,很多时候会基于自身需求去定义新的报表。数据仓库虽然为他们提供源数据,但是在数据源不够充足的情况下,这类人通常跨出数仓的界限去寻找数据。

 

剩下的10%用户,会对数据进行更加深入的分析,他们可能创建全新的数据源来进行研究,混合很多不同类型的数据来应答新的问题。他们也会用到数据仓库,但通常会因为他们所需要的数据远远超出数仓的范畴而忽略它。这些用户包含数据分析师、统计学家乃至数据科学家,这类用户可能会用到更加高级的分析工具和更佳全面的数据源。

 

数据湖支持以上所有用户的需求,满足数据科学家在数据湖中对他们所需要的大量多元化数据进行分析的同时,其他的用户也可以像平时一样利用更加结构化的数据来查看图表。

 

   4  数据湖更容易适应变化

 

构建一个完善的数据仓库在前期所需要的投入是可以想象的。原则上来说,一个好的数仓需要能够适应变化,但因复杂的数据录入流和为简化分析和报表所做的一些工作,一旦需要变更数仓的时候则必须投入一些人力和时间。

 

很多业务层的问题没办法等到数仓团队去完成数据仓库的适配后再给出答案,这些快速增长的需求得以自助的方式来迅速给出应对。

 

在数据湖中,因为所有的数据以原始的方式存放并且在需要使用的时被转换,用户可以跳出数据仓库的限制来使用全新的方式去浏览数据来寻求问题的解答。

 

如果数据浏览后发现数据是有价值且可以被重复利用的,那么给予这些数据一个更加合适的使用模式(如将数据结构化之后导入到关系型数据中),使得它们能够得到更加广泛的使用。如果认为数据是没用的,那就无需为这些数据去投入任何人力和时间成本。

 

   5  数据湖提供更快的洞悉能力

 

因为数据湖包含所有数据和数据类型,并且它能够让用户在数据经过清洗、转换和结构化之前就访问数据,这种方式使得用户能够比传统的数据仓库方式更快的得到结果。

 

在早期出于数据分析(计算)和存放(存储)的成本考虑,数仓开发团队不会对所有的数据来源来构建数据仓库并进行分析。这好像让用户在一个固定的范围内去浏览和使用他们能看到的数据。但业务人员却不希望这样,他们需要看到最全面的运营报表和指标来辅助他们决策。

 

关注业务报表的人将可以从数据湖中利用更多的结构化数据视图,就像跟之前在数据仓库里面一样。不同的是这些视图作为元数据存放在数据湖中,而非经过开发者处理后比较死板的报表。

 

从对比来看数据湖似乎要比数据仓库好很多,但就个人理解,数据湖并非用来替代数据仓库,而是在大数据时代下对数仓的一种补充。两者完全可以基于需求和场景来协同工作,而非二者必居其一。

 

三、现代化数据架构

 

大数据技术用来支撑和增强现代化的数据分析方式但并非要取代传统的分析系统。我们需要的是一个现代化的数据架构,在包含数据湖所有好处的同时结合传统关系型数据仓库以及OLAP 引擎实现快速查询和分析等功能,借此支持所有级别业务的数据消费,提供所有数据消费者所需要的能力。

 

20161227100726811.jpg

 

上图是 Hortonworks 公司基于 Hadoop 生态构建的数据湖提出的现代化数据架构(Morden Data Architecture),从南向北包含四个层面:

 

  • 数据采集层(Data Acquisition Layer)

 

数据采集层负责从数据源抽取和移动数据,并将数据存放到数据湖中。采集的数据源包括传统的关系型或事务型系统、用户获取的数据、非结构化或半结构化数据、外部数据或流数据等。

 

  • 数据监管层(Data Curation Layer)

 

数据监管层负责数据湖中的数据组织、定型并为其他层提供消费,包含数据标准化流程制定,数据创建、脱敏、清洗、转换、维护、管理和展现等工作。

 

  • 数据供应层(Data Provisioning Layer) 

 

数据供应层采用更适用于业务报表和分析的传统数据储存方式,使用OLAP、数据仓库和数据集市降低数据消费的复杂度并提供快速的交互式查询和分析。

 

  • 数据消费层(Data Consumption Layer)

 

数据消费层提供所有最终用户的接口,对于不同用户对数据的需求,大量和多元化的工具和技术会被用于该层。

 

四、DCE 智能数据湖平台

 

潮汐,是海水在天体引潮力作用下所产生的周期性运动,白天的涨落为潮,晚上的称为汐。企业应用系统的运行也存在类潮汐现象,白天主要响应业务请求,晚上主要进行数据处理。

 

在“业务潮汐”和“数据湖泊”的理念下,DaoCloud 基于容器化技术引出“计算潮汐”的理念,并将此融入到DCE 应用云平台中形成智能数据湖解决方案。

 

20161227100739155.jpg

 

作为整个智能数据湖平台的核心,该平台通过采用基于 PaaS + Data Lake 的双擎运转模式打通底层硬件资源和顶层应用系统间的壁垒。白天业务繁忙时,会将更多的计算资源向业务应用倾斜,晚上进行大量数据处理时,则将计算资源分配给数据应用,以此来提高应用系统的弹性,实现资源的错峰高效利用。

 

挖掘大数据的价值好比沙里淘金,想从沙子中获得更多的金子关系到两点:淘金技术和沙子总量。

 

通过结合云计算和大数据相关技术构建而成的智能数据湖,兼顾大规模、高弹性和可扩展的计算能力和存储能力,计算能力提高“淘金技术”,存储能力增加“沙子总量”,缩短数据生产到数据价值的路径,快速体现数据资产价值,推动业务持续创新。

 

Q&A  

 

Q1:数据湖和流处理是什么关系?能在数据湖里做流式计算吗?

A1:数据湖包含分布式存储和分布式处理引擎,流处理属于其中的一种,数据湖中可以基于storm和Spark streaming实现流式计算。所以数据湖和流处理的关系是前者包含后者。

 

Q2:请问查询MySQL 的时候用set value设置变量,然后查询会有什么负面影响或者边际效应?

A2:变量绑定主要是为了共享SQL,提高代码的通用性和可读性的同时减少SQL的硬解析。需要看一下MySQL有没有类似Oracle Shared Pool的概念,如果有的话对性能方面应该是正面影响。

原文发布时间为:2016-12-27

本文来自云栖社区合作伙伴DBAplus

相关文章
|
1月前
|
存储 数据管理 物联网
深入解析数据仓库与数据湖:建构智能决策的桥梁
在当今信息时代,数据成为企业决策与创新的关键资源。本文将深入探讨数据仓库与数据湖的概念与应用,介绍其在数据管理和分析中的作用,以及如何构建智能决策的桥梁。
|
22天前
|
边缘计算 Cloud Native 数据管理
【阿里云云原生专栏】云原生背景下的AIoT布局:阿里云Link平台解析
【5月更文挑战第29天】阿里云Link平台,作为阿里云在AIoT领域的核心战略,借助云原生技术,为开发者打造一站式物联网服务平台。平台支持多协议设备接入与标准化管理,提供高效数据存储、分析及可视化,集成边缘计算实现低延时智能分析。通过实例代码展示,平台简化设备接入,助力智能家居等领域的创新应用,赋能开发者构建智能生态系统。
116 3
|
6天前
|
消息中间件 存储 Java
Kafka 详解:全面解析分布式流处理平台
Kafka 详解:全面解析分布式流处理平台
13 0
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
智能时代的引擎:深度学习技术解析
【6月更文挑战第8天】本文深入探讨了深度学习技术,一种基于人工神经网络的机器学习方法。我们将从其基本原理出发,分析其在数据处理、特征提取和模式识别方面的强大能力。文章将通过具体案例,展示深度学习在图像识别、自然语言处理等领域的应用,并讨论其面临的挑战与未来发展方向。
|
14天前
|
机器学习/深度学习 自然语言处理 算法
智能时代的引擎:深度学习技术解析
【6月更文挑战第5天】本文将深入探讨深度学习技术的基本原理、关键算法以及在多个领域的应用实例。我们将从神经网络的灵感来源谈起,逐步剖析反向传播、卷积神经网络等核心概念,并通过案例分析展示深度学习如何推动人工智能技术的边界不断扩展。
20 0
|
24天前
|
域名解析 监控 负载均衡
【域名解析DNS专栏】智能DNS解析:自动选择最快服务器的奥秘
【5月更文挑战第27天】智能DNS解析是动态根据用户网络环境和服务器负载,选择最佳服务器的技术,提升用户体验。它通过实时监控服务器负载、网络延迟,运用负载均衡算法、地理位置识别和实时测试,自动选择最快服务器。伪代码展示了其基本工作流程,包括获取用户位置、计算服务器权重并选择最佳服务器进行域名解析。智能DNS解析优化了网络服务的稳定性和效率。
|
26天前
|
API vr&ar 开发工具
构建未来:安卓平台上的AR应用开发全解析
【5月更文挑战第25天】随着增强现实(AR)技术的不断成熟,安卓平台上的AR应用开发正吸引着越来越多的关注。本文深入剖析了在安卓系统上开发AR应用的核心技术和流程,探讨了ARCore SDK的使用、3D渲染技术、用户交互设计以及性能优化等关键要素。通过实例演示和代码分析,揭示了创建高效、沉浸式AR体验的策略和最佳实践,为开发者提供指引,同时对未来AR应用的发展趋势做出展望。
|
1月前
|
人工智能 自然语言处理 机器人
销售利器大集结:13种智能销售工具全面解析
该文探讨了人工智能在销售领域的应用,测试了13款领先工具,如Zoho CRM、Email Subject Line Generator和ChatGPT Plus等,这些工具通过数据分析、自动化任务和智能交互提升销售效率。然而,使用AI也带来人机交互和数据安全的挑战。文章强调,结合人工智能和人类销售人员的优势是关键,同时应谨慎处理相关问题。
80 4
|
1月前
|
数据采集 数据可视化 算法
深入解析ERP系统的业务智能与报表分析模块
深入解析ERP系统的业务智能与报表分析模块
31 3
|
1月前
|
测试技术 API 智能硬件
语言模型在提升智能助手引用解析能力中的创新应用
【4月更文挑战第4天】苹果研究团队推出了ReALM,一种利用大型语言模型解决引用解析的新方法,提升智能助手理解用户意图和上下文的能力。ReALM将引用解析转化为语言建模问题,尤其擅长处理屏幕上的实体,比现有系统提升超5%,性能接近GPT-4但参数更少。其模块化设计易于集成,可在不同场景下扩展。然而,复杂查询处理和依赖上游数据检测器可能影响其准确性和稳定性。
76 6
语言模型在提升智能助手引用解析能力中的创新应用

推荐镜像

更多