Data Fabric——以数据为中心的企业的“必备”
在过去几年中,“Data Fabric”一词已成为企业数据集成和管理的代名词。分析公司 Gartner 将“数据编织”列为“2021 年十大数据和分析技术趋势”之一,并预测到 2024 年,25% 的数据管理供应商将为数据编织提供完整的框架——高于目前的 5%。
本文通过引用数据编织的定义、目的、架构、挑战、最佳实践、优势、供应商以及数据编织功能清单来解决数据编织的内容、原因、方式和对象。
Data Fabric 概述
Data Fabric 使整个企业的数据访问大规模民主化。它是一个单一的、统一的架构——具有一组集成的技术和服务,旨在在正确的时间、以正确的方法向正确的数据消费者提供集成和丰富的数据——以支持运营和分析工作负载 .
Data Fabric 结合了关键数据管理技术,例如数据目录、数据治理、数据集成、数据管道和数据编排。
Gartner: A data fabric stitches together integrated data from many different sources and delivers it to various data consumers.
第 02 章为什么 Data FabricData Fabric
服务于广泛的业务、技术和组织协调驱动因素。
业务驱动因素
- 通过可靠、快速地将数据输送到数据湖和仓库中来缩短洞察时间并做出更明智的决策。
- 获得实时、360度-任何业务实体(例如客户、索赔、订单、设备或零售店)的视图,以实现微细分、减少客户流失、提醒运营风险或提供个性化的客户服务。
- 将总拥有成本降低到通过以增量和快速的方式对遗留系统进行现代化操作、扩展、维护和更改。
数据管理因素
- 程序数据准备自动化使数据科学家、数据工程师和其他 IT 资源免于执行繁琐的重复数据转换、清理和丰富任务。
- 获得访问任何数据交付方法中的企业数据——包括批量数据移动 (ETL)、数据虚拟化、数据流、更改 d数据捕获和 API。
- 数据编织平台集成并增强了公司当前使用的数据管理工具,并允许其他人退休,以提高成本效益。
组织驱动
- 数据工程师和数据消费者之间共享的通用语言改善了数据和数据之间的协作业务团队。
- 自助服务数据访问功能让数据消费者可以随时随地获取所需数据,从而提高业务敏捷性和速度。
第03章Data Fabric架构
Gartner:理想的、完整的 Data Fabric 设计,包含许多组件。
- 设计良好的 Data Fabric 架构是模块化的,支持大规模、分布式多云、内部部署和混合部署。
- 如上图所示,当数据从源头提供给消费者时,它被编目、丰富以提供洞察和建议、准备、交付、编排和设计。
- 数据源的范围从孤立的遗留系统到最现代的云环境。
- 数据编织的数据消费者包括数据科学家和数据分析师(与数据湖合作)、营销分析师(参与客户细分)、销售、营销和数据隐私专家(关注客户细分)、云架构师等.
第 04 章数据网格架构的数据编织
数据网格架构解决了数据管理中的四个关键问题:
- 数据分散在数十个甚至数百个遗留系统和云系统中,因此难以获得单一的事实来源
- 以数据为中心的企业必须处理的数据速度和数量
- 当访问通常需要数据工程时,数据难以获取
- 业务分析师、运营数据消费者、数据工程师和数据科学家之间缺乏沟通。
数据编织非常适合数据网格设计,因为它构建了一个集成的跨广泛数据源的连接数据层,可即时、全面地了解业务,包括分析和运营工作负载。
Data Fabric 建立了不同数据产品的语义定义、数据摄取模式以及保护数据的必要治理策略。
此外,各种业务领域协调额外数据编织节点的部署,使它们能够控制数据管道和服务。
数据网格架构很容易使用数据编织实现。
可以实时管理、准备和交付数据的数据编织创建了理想的数据网格核心。当然,数据网格架构有其实施挑战,但数据编织很容易处理这些挑战:
数据网格实施挑战 |
Data Fabric 如何处理它们 |
对数据集成专业知识的要求:跨许多不同企业源系统的数据集成通常需要特定领域的数据管道专业知识。 |
数据即产品:当数据产品是在虚拟数据层中管理的业务实体时,域无需处理底层源系统。 |
联合与独立:在对中央数据团队的依赖和域独立之间实现适当的平衡并不简单。 |
企业范围内的协作:特定领域的团队与集中式数据团队协作,为其数据消费者构建 API 和管道,控制和管理访问权限,并监控使用情况。 |
批量数据以及实时和批量数据交付:数据产品必须在单一平台上安全高效地提供给离线和在线数据消费者。 |
分析和运营工作负载:Data Fabric 收集和处理来自底层系统的数据,为离线和在线用例按需提供数据产品。 |
第05章Data Fabric核心能力
- 可视化数据沿袭是一项关键技术,因为在使用传统数据建模和集成工具时会丢失关系洞察力。
Data Fabric 支持将以下关键功能集成到单个平台中:
- 数据目录
- 对数据资产进行分类和盘点,可视化呈现信息供应链
- 数据工程
- 为运营和分析用例构建可靠且强大的数据管道
- 数据治理
- 确保质量、遵守隐私法规并使数据可用——安全且大规模
- 数据准备和编排
- 定义从源到目标的数据流,包括数据清理、转换、屏蔽、扩充和验证的步骤序列
- 数据集成和交付
- 从任何来源检索数据并将其交付给任何目标,采用任何方法:ETL(批量)、消息传递、CDC、虚拟化和 APIs
- 数据持久层
- 为了在广泛的关系和非关系模型中动态持久化
数据数据编织还应该解决以下关键的非功能性能力:
数据规模、数量和性能
无论数据量有多大,都可以无缝地动态向上和向下扩展。支持企业级的运营和分析工作负载。
可访问性
支持所有数据访问模式、数据源和数据类型,并集成静态或动态的主数据和事务数据。从内部部署和云系统中以任何格式(结构化或非结构化)摄取和统一数据。数据结构逻辑访问层需要允许数据消费,无论数据存储或分布在何处、如何存储,因此无需深入了解底层数据源。
分发
Data Fabric 应可部署在多云、本地或混合环境中。为了保持事务完整性和数据治理能力,Data Fabric 需要支持智能数据虚拟化策略。
安全
在持久化数据的地方,必须对其进行加密和屏蔽以满足数据隐私法规。数据结构应该能够将用户凭据传递到源系统,以便正确检查和授权访问权限。
第 06 章 用于操作工作负载的Data Fabric vs Data Lakes vs Databases
为了解释 Data Fabric 如何补充和改进运营工作负载的大数据存储,Data Fabric、Data Lakes 和 Databases 之间的比较很有用。
下图总结了每种数据存储的优缺点,因为它涉及大规模、大容量、可操作的用例。
优点 |
缺点 | ||
数据仓库, DWH |
|
|
|
关系型数据库 |
|
|
|
NoSQL Database |
|
|
|
Data 编制 |
完整的 SQL 支持
|
因此,虽然 Data Fabric 是针对大规模运营工作负载的卓越解决方案,但它也是用于离线分析工作负载的数据湖和数据库的互惠技术。对于此类工作负载,Data Fabric 可以:将新的、受信任的数据输送到其中,用于离线分析。从它们那里获得业务洞察力,以嵌入到实时运营用例中。
第07章数据编织用例
在企业运营中,有许多用例需要能够支持数千个并发事务的大规模、高速数据架构。示例包括:
提供 360 度客户视图
向自助 IVR、客户服务代理 (CRM)、客户自助服务门户(Web 或移动)、聊天服务机器人和现场服务技术人员提供客户的单一视图
遵守数据隐私法
借助灵活的工作流程和数据自动化解决方案,协调人员、系统和数据的合规性——旨在解决当前和未来的法规
将企业数据输送到数据湖和仓库
使数据工程师能够快速、大规模地准备和交付新的、可信的数据——从所有来源到所有目标——
按需提供测试数据
创建测试数据仓库,并在几分钟内自动向测试人员和 CI/CD 管道交付匿名测试数据,并具有完整的数据完整性
现代化遗留系统
安全地将数据从遗留系统迁移到数据编织中,然后将结构用作新开发应用程序的记录数据库
保护信用卡交易
通过加密和标记原始数据来保护敏感的持卡人信息,以避免数据泄露
预测客户流失、检测客户欺诈、信用评分等
许多操作用例要求 Data Fabric 在瞬间响应复杂的查询。
因此,Data Fabric 必须包括用于处理的内置机制:
实时数据摄取
从操作系统持续更新(每天有数百万到数十亿次更新)
连接到不同的系统
TB 级的数据分布在数十个海量数据库/表中,通常采用不同的技术
动态数据转换、数据清理和数据丰富
实时提供有意义的见解并影响业务成果
实体的特定实例
例如,检索特定客户、位置、设备等的完整数据。
高并发
每秒处理数千个请求
CHAPTER 08 Data Fabric 优势
Data Fabric 与其他数据管理方法(例如主数据管理、数据中心和数据湖)相比具有许多优势,包括:
增强的数据管理
允许自动检索、验证和丰富数据——无需任何转换脚本或第三方工具
扩展数据服务
使用创新引擎来管理和同步数据,完全支持 SQL 和嵌入式 Web 服务层
高一致性、持久性和可用性
符合企业标准,具有值得信赖的数据库层和处理引擎
卓越的性能
依靠能够在少量数据上运行每个查询的架构,以及内存中的处理
严格的安全性
由于采用了复杂的多密钥加密引擎,消除了大规模数据泄露的可能性
CHAPTER 09Data Fabric 好处
Data Fabric 为企业提供的运营优势包括:
简化数据编排
集成外部数据库、业务逻辑、屏蔽、解析和流式处理的算子
自动化测试数据管理
从生产系统生成数据,然后向测试团队提供高质量的测试数据
快速的数据隐私合规性
配置、管理和审计与 GDPR、CCPA、LGPD 等数据隐私法规相关的数据主体访问请求。
全面的数据管理
使用管理管理工具、直观的可视化工作室和 Web 管理工具配置、监控和管理数据
优化拥有成本
依靠商用硬件上的内存性能、完整的线性可扩展性和无风险集成
第 10 章 Data Fabric 供应商
有多家供应商提供一组集成的功能来支持 Data Fabric 架构。排名前 5 位的 Data Fabric 供应商如下所示:
Strengths | Concerns | ||
K2View |
|
|
|
Denodo |
|
|
|
Talend |
|
|
|
Informatica |
|
|
|
IBM Cloud Pak for Data |
|
|
第 11 章用于分析和运营的数据编
织通常认为,数据编织的构建是为了支持大数据分析——特别是趋势分析、预测分析、机器学习和商业智能——由数据科学家在离线模式下执行,以产生业务洞察力。
但数据编织对于依赖准确、完整和新鲜数据的运营用例(例如客户流失预测、信用评分、数据隐私合规、欺诈检测、实时数据治理和 360 度客户视图)同样重要。
数据团队不希望有一种数据编织解决方案用于数据分析,另一种用于运营智能。他们希望两者都有一个单一的数据编织。
理想的数据编织优化了每个业务实体(客户、产品、订单等)的视野和理解深度。它为企业提供干净、新鲜的离线数据分析数据,并为在线运营分析提供实时、可操作的数据。
Data Fabric 同时支持离线数据分析和在线运营智能。
具体方法如下:
- Data Fabric 基于业务实体的 360 度视图持续提供高质量数据,例如特定客户群、公司产品线或特定地理位置的所有零售店 - 到数据湖或 DWH。
- 使用这些数据,数据科学家创建和改进机器学习 (ML) 模型,而数据分析师使用商业智能 (BI) 来分析趋势、细分客户并执行根本原因分析 (RCA)。
- 改进的 ML 模型被部署到数据编织,为单个实体(客户、产品、位置等)实时执行——从而“操作”机器学习算法。数据编织实时按需执行 ML 模型,为其提供单个实体的完整和当前数据。
- ML 输出会立即返回到请求的应用程序,并作为实体的一部分保存在数据编织中,以供将来分析。Data Fabric 还可以调用实时推荐引擎来提供下一个最佳操作。
第 12 章为什么 K2View
K2View 是唯一能够实时、大规模响应以实体为中心的数据查询并支持运营和分析工作负载的数据编织。
以下是 K2View 成为世界上一些最大企业的首选数据编织的 5 个原因:
适用于每个业务实体的微型数据库
K2View 的专利 Micro-Database™ 提供无与伦比的性能、易于访问、数据完整性和通用语言在业务和 IT 之间。K2View Data Fabric 将来自所有底层源系统的每个业务实体的数据统一到一个单一的微数据库中,一个业务实体的每个实例。
例如,客户微数据库统一了公司对特定客户的了解——包括所有交互(电子邮件、电话、网站门户访问、聊天……)、交易(订单、发票、付款……)和主数据——无论底层源系统、技术和数据格式如何。在这种情况下,为每个客户管理一个微型数据库。
微型数据库可以通过捕获或动态计算的新字段来丰富——例如 KPI、同意信息、流失倾向等。它可以很容易地定义,使用自动发现,从底层系统中提取建议的数据模式。
微型数据库代表企业对特定业务实体的了解。
为了最大限度地提高性能:
- 数据同步规则定义了微型数据库中每个数据元素从源系统更新的频率和事件。
- 数据虚拟化规则定义了哪些数据会被持久化在micro-DB中,并且只会缓存在内存中。
- 每个micro-DB被压缩了大约90%,从而降低了数据传输成本。
每个micro-DB都用自己的唯一密钥加密,这样每个实体都是唯一安全的。这为静态数据保持最高级别的安全性。
K2View Data Fabric 可以扩展以同时管理数亿个安全微型数据库,并部署在分布式内部、云端或混合架构中。
数据从任何来源、任何目标、在任何风格
K2View 开发了一种可操作的数据编织,可以从任何来源以任何数据交付方式摄取数据,然后在几毫秒内将其转换为交付到任何目标。
微服务向消费应用程序提供任何业务实体的单一视图
K2View Data Fabric 提供用于创建和调试微服务的低代码/无代码框架。使用可视化的拖放式构建器,可以快速定制和编排微服务以支持任何操作用例。这种方法有助于将数据视为产品并支持网格架构。
需要访问微服务的用户或令牌被分配一个角色,该角色定义了他们拥有的数据访问级别。部署微服务后,K2View Data Fabric 会控制身份验证和授权,从而适当限制用户访问。
一个平台,许多用例
K2View 平台是一个中央数据中心,可提供任何业务实体的实时、可信和整体视图到任何消费应用程序、数据湖或数据仓库。因此,数据编织的用例很多,并且跨越企业的许多部门。
综上所述,该平台提供:
模块化、开放、可扩展的架构
数据集成、转换、丰富、准备和交付——集成在一个可扩展的平台
中秒速、端到端、响应时间
企业数据编织,专为支持实时运营而构建,可在源和目标之间进行双向数据移动
运营和分析工作负载的数据管理
集成的可信数据,实时交付到消费应用程序中,或管道传输到数据湖和数据仓库中以进行分析