谈谈大数据环境下的数据集成新模式

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 信息技术发展迅速。但这并不总是导致现有技术灭绝。想想信息传播的渠道,比如广播、电视和互联网。

一、数据集成(Data Integration DI)概述

信息技术发展迅速。但这并不总是导致现有技术灭绝。想想信息传播的渠道,比如广播、电视和互联网。例如,许多人认为电视将取代收音机,因特网将使电视和收音机都变得无用或多余?那还没有发生。无线电仍然使用和传播,但方式与1970年不同。电视一开始可能只有三个网络,但现在它的覆盖面更广了。互联网为分享信息提供了许多新的选择,但仍有许多人通过广播或电视收听或收看。想想流媒体电影、卫星广播和机顶盒。旧技术不但没有消亡,反而常常能够共存。

数据集成就是这样。数据集成现在需要隐式地包含在日常业务操作中,而不是主要在批处理的基础上使用内部数据。它需要同时处理本地和外部源,同时在不同的延迟下工作,从实时到流。接下来让我们看看数据集成是如何发展到现在的,它是如何继续发展的,以及组织必须做些什么来保持他们的DI方法的相关性。

二、数据集成要适应环境变化

当组织意识到他们需要多个系统或数据源来管理业务时,数据集成就开始了。通过数据集成,组织可以将多个数据源组合在一起。数据仓库经常使用数据集成技术来整合操作系统数据并支持报告或分析需求。

但事情越来越复杂。当大量的应用程序、系统和数据仓库形成了一个难以维护的数据大杂烩时,企业架构师开始创建更智能的框架来集成数据。他们创建了规范模型、面向批处理的ETL/ELT(extract trans-form load,extract load-transform)、面向服务的体系结构、企业服务总线、消息队列、实时web服务、使用本体的语义集成、主数据管理等等。

经过这么长时间,有了这些成熟的技术,为什么我们还需要新的数据集成模式?

数据集的变化可以归结为以下三种趋势:

•越来越多的组织为获得竞争优势除了使用本地数据还使用外部数据,数据源包括社交媒体、非结构化文本和来自智能终端和其他设备的传感器数据。

•数据量以前未有的速度增长。

•Hadoop使用的增加。

这些趋势给现有的基础设施带来了巨大的压力,迫使它们去做一些原本不打算做的事情。在面对大数据时,由于技术不灵活,许多组织发现几乎不可能充分利用所有的数据。除此之外,他们还需要关注逻辑数据仓库的出现、集成模式的必要共存以及支持这些需求所需的新功能,如Hadoop、NoSQL、内存计算和数据虚拟化。

a28051b83e42b26599ca175793d25c23.png

三、大数据增加了数据集成的复杂性

在所有影响数据整合的趋势中,最大的改变游戏规则的是大数据。大数据正在迅速升级数据集成挑战。为什么?

•随着大数据的出现,各种数据结构之间的差异变得更加显著。

•整合外部数据源意味着组织对数据源的数据标准几乎没有控制权。

•体积和速度呈指数增长,将系统和过程推向极限。

我们必须重新思考组织如何管理数据。我们必须重新设计我们的信息管理战略,使之与之相匹配。让我们看看今天的情况。

1、物联网

根据Gartner的数据,到2020年,通过物联网连接的设备将超过200亿台。这些设备已经产生了大量连续流动的数据。想想远程患者监控、预测性资产维护、智能能源网、基于位置的促销和智能城市(建筑和交通管理)。这些只是物联网将如何改变我们生活的世界的一些场景。

现在最紧迫的挑战是找到经济上可行的方法来存储所有这些流数据。云和Hadoop平台是一些更有希望的答案。另一个挑战是通过分析实时处理这些数据的能力,从数据中获取近乎即时的洞察力。在这里,像事件流处理这样的技术可以在数据到达数据存储之前分析数据,在创建数据时识别关注数据的模式。

2、新一代客户智能

客户关怀一直是企业关注的焦点,原因显而易见。通过客户关系管理(CRM)应用程序,企业可以跨渠道改善客户体验,并提出客户可能购买的产品和服务。CRM通过主数据管理构建客户数据的单一视图。这种单一的视图可以提高营销活动的效率,推动更好的保留率,创造新的交叉销售和追加销售机会,并对客户终身价值等方面有更多的了解。

大数据带来的变化是,企业现在有机会通过整合全新的数据源来构建更完整、更准确的客户视图。包括 社交媒体或网络论坛,或者组织已经拥有但不能很好处理的现有数据,比如电子邮件和电话录音。

有了新的数据源,组织可以:

•根据客户反馈,对客户保留或产品开发进行情绪分析。

•进行实时营销,使他们能够快速确定最重要的客户。

•在交互点提供次优报价,或根据用户位置向移动设备发送定制建议。

由于涉及的数据量、存储所有这些额外数据所需的成本以及数据的非结构化性质,传统的企业数据仓库不适合处理这种新的复杂性。为了使用这些新的数据源实现高级客户智能,我们显然需要新的数据集成技术。

3、防止欺诈和报告风险的新监管要求

金融机构正面临前所未有的压力,要求它们加强防范欺诈和风险管理框架。

监管机构要求银行采取的措施带来了许多数据集成挑战:

•风险报告现在通常以银行没有真正准备好的方式进行。风险数据汇总必须在企业级进行,整合所有部门、业务线和国家/地区的风险数据。

•银行必须能够在几分钟内而不是几周内重新计算整个风险投资组合。监管报告以及第三方风险评估必须基于实时数据实时生成。这需要超出当前数据基础架构范围的灵活性。

•最后,银行需要根据基础数据的质量来衡量报告的可信度。这意味着它们可以建立聚合过程的谱系,并根据预定义的标准度量数据质量。

在欺诈检测和预防方面,金融机构必须能够基于交易数据实时识别欺诈行为模式。他们需要能够发现欺诈网络。当然,他们需要立即停止欺诈交易。

实时处理这些高度不稳定的数据以便他们能够立即采取行动需要新的数据集成技术。

4280a76b0ac5e06749a74bcc47591b74.png

4、数据货币化

在物联网的推动下,数据货币化现在是一种利用有价值的数据资产创造新收入渠道的具体方式。电信和媒体公司、零售商、金融机构、通信服务提供商和其他行业也是如此。这些公司面临的主要问题是,如何在利用这些数据赚钱的同时遵守隐私问题和法规。

通常的挑战仍然存在——在不同的组织之间共享数据以及整合内部和外部数据。但应用于数据货币化计划的数据集成带来了一系列全新的问题:

•如何在控制数据的同时共享数据。

•如何确保安全和隐私要求得到明确定义和遵守。

•如何管理适当的访问权限粒度级别。

•如何确保治理框架和工具能够有效地定义哪些是可接受的,哪些是不可接受的,如何控制数据的共享方式,以及如何监控数据的使用。

•如何加快数据集成以实现近实时决策。

这些挑战要求我们重新思考现有的数据集成模式和工具集。

5、成本优化和流程效率压力

IT和业务部门都面临着降低运营成本的压力。大数据给这一领域带来了新的潜力。下面举几个例子。

•价格和库存优化。数据在通过价格和销售效率实现增长方面起着关键作用。整合大数据将带来更深入的洞察。

•交付优化。对于物流或航运业的大公司来说,路线优化并不是什么新鲜事,但GPS数据以及传感器数据提供了优化各种事物的新方法。考虑车辆保养、里程成本、自我完善的路线优化、客户服务等。车队远程通信和高级分析可能会将路线优化提升到一个新的水平。但是,能够有效地集成和准备生成的大量数据是成功的基本条件。

•预测性资产维护。这一能力为石油和天然气、制造业、物流和电信等行业削减成本带来了巨大机遇。但这给数据集成带来了严重障碍。这是因为它需要主动收集和分析来自传感器的大量数据,将这些数据与历史数据聚合在一起,并能够识别模式,从而发出预警并采取预防措施。

•IT基础设施。在降低IT成本方面,现在能够以低成本存储数据,并通过授权非技术用户来减少技术资源的工作量。与传统的数据仓库设备服务器相比,Hadoop等大数据生态系统提供了一种经济高效的数据存储方式。当数据量越大时优势越明显。Hadoop还可以部署在廉价的硬件上进行数据处理和存储,并且该软件比传统的数据库软件便宜。Hadoop还为企业用户或数据科学家打开了一扇大门,让他们能够在不受IT干预的情况下使用大数据并从中获取见解。

许多组织正在采用自助数据准备,因此技术资源不必处理临时报告和准备请求。

TDWI发现,无论组织在数据驱动的道路上走了多远,他们仍然列举了以下五个障碍,以改进数据和分析的使用,从而推动决策、管理日常运营和制定战略:

•缺乏执行支持公司战略。

•难以访问和整合所有相关数据。

•缺乏构建BI/分析以支持决策或行动的技能。

•数据质量不足。

•数据治理和安全问题。

02554d4626ca88e2d774b2b9fbbe3a70.png

四、数据管理战略面临的新挑战

从数据集成的角度来看,大数据的破坏性影响是显而易见的。在这一点上,IT部门试图弄清楚如何实现大数据的承诺,以及它对他们的数据管理战略意味着什么。三个领域对数据战略尤其重要:数据访问和存储、元数据管理和大数据治理。

1、数据存取和存储以及实时存取和传送

大数据将涉及大量数据,这意味着企业必须找到更省钱的数据存储方式,以便补充现有的数据仓库基础设施。传统的关系数据库管理系统(RDBMS)不一定是经济上可行的选择。

企业在处理各种各样的数据源和格式时,必须设法避免与传统数据集成技术相关的成本和复杂性。例如,它们必须适应诸如操作应用程序、网络和社交媒体、传感器和智能仪表等源,以及包括基于文件、语音记录、关系数据库和事件流数据在内的格式。

Hadoop处理读模式而不是写模式的能力提供了所需的敏捷性,可以快速地将新的数据源引入系统,而不必将不适当的格式塞进预定义的数据模型中。Hadoop可以用作:

•新一代数据仓库,以扩充或补充传统的RDBMS。

•为新数据类型尤其是RDBMS无法处理的非结构化数据和新数据源如web、社交网络和传感器数据提供新的数据存储。

•数据湖,将组织的所有可用数据暂存在最低处理状态。

传统上,数据访问取决于预定义的数据模型、预定义的数据集和预定义的分析模型。任何变更都需要IT部门的参与,这通常意味着在设计、实现和测试方面需要更长的周期。但为了跟上竞争对手的步伐,企业需要实时访问数据。只有这样,他们才能在需要时灵活地从数据中提取有价值的见解。

像自助数据准备这样的技术使这成为可能。组织需要能够在数据产生或可用后立即使用数据,以便员工能够实时做出决策,并在事件发生时立即采取行动。

要做到这一点,他们必须能够动态地分析数据流,甚至在数据到达数据存储之前。事件流处理通过每秒流式传输数百万条记录并提供尽可能最新的信息来满足这一需求。

2、元数据管理

传统的元数据管理通过开发逻辑数据模型来描述数据库之间的关系。这解决了与数据竖井相关的固有不一致性,并支持出于报告或分析目的的数据共享。

但是随着数据源数量的增加,包括不在消费组织控制下的数据源,主动管理元数据变得越来越困难。此外,在Hadoop中使用基于读取原理的模式时,加载的数据的格式在入口可能是未知的。最后,必须定义元数据,以便共享和理解数据。

有了大数据,通过映射试图弄清楚每一点数据是不现实的。

相反,组织需要关注:

•数据源映射、意义和相关性,而不是数据模型。

•应用于选定数量的业务关键型数据元素的语义元数据。

•定义业务术语和所有者,并将其与技术元数据相关联。

反过来,使用这些数据的人将负责提供有用的业务定义,说明这些数据是什么和做什么。

3、大数据治理

在大数据环境下,数据集成的主要挑战之一是建立和维持正确的治理水平。也不全是技术问题。数据质量、数据隐私和安全、相关性和意义等关键问题必须在企业级加以考虑。

让我们再深入一点。链接到新的数据源,特别是外部数据源和非结构化数据,将使数据无法用于典型的数据治理计划。换言之,标准和数据质量将不再受到源头控制。

尽管如此,试图强制实施大数据的传统质量级别可能会抹杀与快速数据集成和实时处理数据流相关的大数据计划的预期好处。在数据质量要求和大数据速度的好处之间,显然可以找到一个平衡点。

将大量数据带入数据湖将引发围绕隐私条例和安全的问题。我们有权存储这些数据吗?要多久?例如,《一般数据保护条例》规定了欧盟居民数据的隐私和保护规则。组织不仅需要考虑如何处理这些数据,还需要考虑处理这些数据的方法。谁应该访问数据?我们怎样才能使用它呢?数据治理机构必须通过定义规则并监控其在整个组织中的应用来解决这些问题。元数据管理和数据血缘是帮助组织遵守隐私和安全要求的重要技术。

业务词汇表是另一种方法,可以用来存储诸如“利润”或“客户”之类的业务术语,并将它们与字段或报表之类的技术元数据相关联。通过这种方式,用户可以看到更改表中的字段将如何影响下游的其他数据源、目标、分析模型或报表。

即使不需要从存储的角度停用数据,我们仍然需要管理数据生命周期,以保持对相关数据的关注。这将避免外来噪音,并防止数据湖成为数据沼泽。

案例:

能源领导者将数据转化为客户智能

Enerjisa为900万客户提供服务,它将客户数据保存在不同的系统上,并以不同的格式进行数据清理和分析。为了使各个业务领域能够更有效地运作,Enerjisa需要创建一个单一的客户数据源,所有部门都可以方便地访问该数据源,以便进行高级分析。

使用SAS数据管理和SAS数据质量,Enerjisa:

•提高了成功联系客户的比率。

•总记录减少25%。

•将记录的完整性提高了30%。

•为客户智能和分析建立了基础。

05ae7787cc75cc9b4fed162ea835f572.png

五、数据集成模式的新范例

在选择将数据与消费应用程序和进程分离的方法时,没有什么灵丹妙药。每个组织都必须采用最适合它的集成规范和技术。下面是几种选择:

•数据虚拟化和逻辑数据仓库可以提高灵活性和快速部署,是对传统集成体系结构的增强,等等。

•数据可以通过不同的功能如Hadoop、NoSQL、内存计算等交付。

•可实时处理大容量数据流。

•数据服务可以通过云交付—例如,集成平台即服务。

1、Hadoop以及Hadoop加强

尽管Hadoop是支持大数据的现代基础设施的关键组件之一,但在数据管理方面,Hadoop本身显然存在不足。

Hadoop在廉价的数据存储和分布式数据处理方面带来了很多价值。它还具有容错性和可扩展性。但是,如果没有专门的技能,也不需要在MapReduce、Pig或HiveQL中进行大量的定制开发,那么它还不够成熟,无法有效地操作数据。

企业最好能够拥有一个能够抽象复杂性的现代数据管理平台。这种平台还可以跨Hadoop和传统数据仓库系统重用现有的技能和数据集成资产,如数据质量验证和数据转换流。

为了确保Hadoop不会成为与更广泛的企业数据管理基础设施隔离的另一个数据竖井,建立元数据血缘关系非常重要。组织还需要确保整个企业数据环境包括Hadoop中数据安全规则的一致性。数据管理平台应在Hadoop和传统RDBMS之间无缝工作,并应提供:

•访问Hadoop分布式文件系统,以便从Hadoop加载/加载到Hadoop。

•嵌入式数据治理,包括业务术语表、元数据管理和细粒度安全管理。

•嵌入式数据质量,包括分析、监控和数据质量转换,如解析、标准化、匹配等。

•分析数据准备,包括聚合、透视、转置等。

2、基于数据虚拟化与逻辑数据仓库的模式

我们已经知道传统数据仓库的局限性很多年了。首先,它需要花费大量的时间和资金来建造和维护。在大数据时代,复制数据和构建每个数据集市来回答预定义的查询已不再实用。将数据仓库视为报告和分析的唯一、单一的“真相版本”的概念已被证明不足以处理当今种类繁多、数量庞大的数据。而业务用户对传统的数据仓库不满意的原因是它通常提供错误的数据粒度和及时性级别,并且它们不够灵活,无法适应不断变化的业务需求。

随着大数据的出现,新技术开始发挥作用,比如Hadoop集群和NoSQL数据库。现在很明显,这些新的数据存储方式不会取代传统的RDBMS。相反,它们将扩展或补充RDBMS,以实现廉价的数据存储和并行处理。

为了回应Hadoop可能成为另一个数据仓库的想法,几年前Gartner提出了逻辑数据仓库(LDW)的概念,这是实现数据虚拟化的一种方法。其想法是提供一个企业数据层,该层提供跨组织竖井的多结构和非结构数据资产的统一视图。

这种转变从中央存储库和数据模型的概念转向了数据服务、数据处理和访问引擎的概念。LDW提供了来自传统和新兴数据源的虚拟数据层。

新的数据集成模式可以通过创建虚拟数据层而无需物理移动数据,从而简化数据访问、管理、安全性和性能。这将业务用户从复杂的Hadoop环境中解放出来。他们可以在Hadoop中查看数据,并将其与SapHana、Ibmdb2、Oracle或Teradata等其他数据库系统进行虚拟混合。通过改进的安全性和治理特性确保正确的用户可以访问正确的数据。

3、基于流分析和实时数据分析的模式

许多大数据场景是基于能够实时分析来自交易系统、传感器、网络导航日志和其他来源的大量流数据。在这些情况下,传统的收集、存储和分析数据的方法不再有效。现在,我们需要能够实时监控高容量数据流的汇合,当它们发生时,识别事件的模式和序列,并生成洞察力,以便我们能够立即采取行动。

新的数据集成模式中事件流处理不再对存储的数据运行查询,而是存储查询并通过查询流传输大量数据,实时过滤、聚合和检测模式。这个过程发生在数据被存储之前,减少了被分析信息的延迟。

事件流处理还可以区分与业务相关的信息和无关紧要的信息—存储重要信息,同时丢弃其余信息。反过来,组织可以大大降低存储和处理成本,减轻传统数据集成框架的负担。最后,数据质量进程如标准化可以在流中应用,而数据处于运动状态。

70c293c2c74625ab89e099285a0ea6f2.png

4、基于内存计算和数据库计算模式

内存和数据库计算加快了分析的价值实现。但它们也代表了一种减少数据移动和简化数据集成需求的方法。

通过将逻辑移到数据库,或者将数据加载到内存中以便在内存中进行实时分析,在分析数据之前,不需要将各种数据源塞进规范的数据模型中。这种模式在解决方案中需要包括可视化分析和可视化统计、用于Hadoop的内存统计、高性能分析、评分加速器和数据库技术以及用于Hadoop的数据加载器。

越来越多的数据集成模式,再加上大量的各种各样的外部数据源,使得组织必须拥有帮助他们从数据中获取价值的工具。Hadoop不再被视为“ETL杀手”。如今,新的集成模式如事件流处理、数据虚拟化、内存和数据库处理为数据集成领域注入了新的活力。就像互联网并没有真正扼杀电视,电视也没有让广播变得毫无用处一样,数据整合在今天依然存在。在传媒业中,多种媒介并存,成为获取信息、新闻和娱乐的平行渠道,数据集成模式一样,也将百花齐放,百家争鸣!

相关文章
|
17天前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
52 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
1月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
148 6
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
64 2
|
1月前
|
消息中间件 监控 数据可视化
大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle
大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle
52 2
|
1月前
|
SQL 机器学习/深度学习 分布式计算
大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器
大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器
61 1
|
1月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
52 0
|
1月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
69 0
|
9天前
|
存储 大数据 数据处理
大数据环境下的性能优化策略
大数据环境下的性能优化策略
17 2
|
17天前
|
SQL 存储 算法
基于对象 - 事件模式的数据计算问题
基于对象-事件模式的数据计算是商业中最常见的数据分析任务之一。对象如用户、账号、商品等,通过唯一ID记录其相关事件,如操作日志、交易记录等。这种模式下的统计任务包括无序计算(如交易次数、通话时长)和有序计算(如漏斗分析、连续交易检测)。尽管SQL在处理无序计算时表现尚可,但在有序计算中却显得力不从心,主要原因是其对跨行记录运算的支持较弱,且大表JOIN和大结果集GROUP BY的性能较差。相比之下,SPL语言通过强化离散性和有序集合的支持,能够高效地处理这类计算任务,避免了大表JOIN和复杂的GROUP BY操作,从而显著提升了计算效率。
|
1月前
|
存储 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
39 1
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)