《数据虚拟化:商务智能系统的数据架构与管理》一 1.7 数据虚拟化的技术优势

简介: 本节书摘来自华章出版社《数据虚拟化:商务智能系统的数据架构与管理》一 书中的第1章,第1.7节,作者:[荷]里克 F. 范德兰斯(Rick F. van der Lans),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.7 数据虚拟化的技术优势

在大多数情况下,直接获取一个数据存储区对于数据使用者来说是很容易的。例如,如果访问SQL数据库中的一个表,数据使用者提供用户ID和密码,数据库的名称,以及一些其他的技术详细信息,它就可以立即通过SQL语句访问数据。这同样适用于数据使用者需要访问XML文档或电子表格的情形。
如果访问数据存储如此容易,那么为什么还需要数据虚拟化呢?用数据虚拟化层提供大量的技术优势,这些优势分成了三个组。如果使用者仅仅访问一个数据存储,那么可以应用第一组的优势:
数据库语言和API转换:也许数据存储库提供的数据库语言和API对数据使用者来说是不理想的,或许不是他们支持的语言。也许数据库服务器通过JDBC API来支持SQL,但数据使用者更喜欢使用MDX、XQuery、CQL语言或一组Java类。数据虚拟化层可以将数据存储支持的语言和API转换为对消费者便利的语言和API。
数据存储独立性:很多SQL数据库服务器支持SQL标准,意味着它们都实现了类似的SQL语言。但是,差异仍然存在。如果需要,数据虚拟化可以隐藏这些差异,可以用另一个服务器来代替当前的数据库服务器。如果正在使用的数据库服务器太贵、太慢,或者不够安全,那么这就是必要的。也可能是非基于SQL(non-SQL-based)的数据存储需要替换为基于SQL(SQL-based)的数据存储。再者,如果数据虚拟化得当,这将不是困难。数据虚拟化使数据使用者独立于特定的数据存储技术,使数据使用者更加方便。在恰当的时间使用恰当的数据存储技术将会让工作变得更加容易。
最小数据存储干扰:数据使用者可能对它访问的数据存储产生干扰(或工作承载竞争)。它的查询可能是资源密集型,以至于其他数据使用者的体验性能退化。大多数数据虚拟化产品提供缓存机制。如果开启此机制,数据虚拟化层将保存数据存储中数据的一个副本并管理它。这样,数据使用者将访问缓存中的数据而不是数据存储中的数据,因此最小化了对源数据存储的干扰。
总结来说,数据虚拟化简化了应用程序开发,因为它减少了以正确方法和格式访问必要数据所需的代码量(如图1-4所示)。

8ae3c60d543154002a39aa64f8fcb146eba09b20

第二组优势与元数据规范有关,例如表格结构、转换和清洗操作、聚合,等等。当使用数据虚拟化时,元数据规范只需要实现一次,且没有必要把它们复制给多个数据使用者。换句话说,数据使用者共享和重复使用这些规范。
简化表格结构:数据存储中实现的表格结构可能是复杂的,这使得数据使用者访问数据变得困难。复杂的表格结构导致检索数据的查询变得复杂,也使应用程序的开发变得复杂。使用数据虚拟化可以定义一个从复杂表结构到更简单适用的表结构的转换。这是通过元数据规范完成的,元数据规范仅定义一次,且可以被多个数据使用者使用。这个更简单的结构简化了应用程序的开发和维护。
集中式数据转换:数据存储中的特殊数据值可能有一些不适合使用者的格式。假设所有使用者都喜欢以纯数字处理电话号码,而不是区号和用户号以破折号分隔开的形式。数据虚拟化层可以实现这一转换,并且所有的数据使用者都可以使用。这些转换规范被视作元数据规范。
集中式数据清洗:数据存储中的一些数据值可能是不正确的。假设一个表格中的Gender一列包含三种不同的值来指代Female,这种情况下,所有的访问这些数据值的使用者都不得不加上转换这些错误值为正确值的代码。如果这个转换在数据虚拟化层进行,并且只向数据使用者显示正确的值,这将会更好。这个解决方案比将数据清洗规则复制给所有数据使用者的方案好。
如果很多数据使用者使用相同的数据虚拟化层,它们共享相同的元数据规则(如图1-5所示)。这简化了应用程序开发,并且带来更一致的应用行为和更一致的结果。

screenshot

第三组优势涉及集成来自多个数据存储的数据。
统一的数据访问:不同的数据存储可能使用不同的存储格式。例如,有些数据可能存储在非处理SQL的数据库中;有些在Excel电子表格中;有些在索引顺序文件中;有些在NoSQL数据库中,如Hadoop和MongoDB;有些在比SQL支持更多其他数据库语言的数据库中;有些在XML文件中;有些甚至隐藏在基于HTML的网页中。数据虚拟化层可以提供一个统一的API和数据库语言去访问所有这些不同的存储格式,因此简化了数据使用者的数据访问。它们仅需要支持一种语言和一种API。
集中式数据集成:如果多个数据使用者访问多个数据存储,每一个数据使用者都得包含负责集成这些数据存储的代码。这样的结果就是很多数据集成方案在数据使用者上重复叠加(如图1-6所示)。数据虚拟化层集中了这些集成代码,并且所有的数据使用者共享集成代码。
一致的报告结果:如果每个数据使用者都用它自己的集成方案,就很难保证数据以相同的方式和规则集成。如果这个难以保证,就会导致数据使用者收到不同的和不一致的结果。如果所有的集成方案由数据虚拟化层实现,那么就增加了结果一致的可能性。

screenshot

高效分布式数据访问:当集成来自多个数据存储的数据时,一个总是被提起的性能问题是这个集成是在哪里及怎样进行的:是所有的数据首先都被运到数据使用者处然后再进行集成,还是数据从一个数据存储转移到另一个数据存储?其他数据存储进行集成,还是使用一些其他的处理策略?开发者不需要考虑诸如此类的问题。因此这个任务由数据虚拟化层来完成。
所有这些优势阻止了数据集成的元数据规范在多个数据使用者上重复叠加(见图1-6)。如图1-7所示,应用数据虚拟化集中了这些规范。

screenshot

相关文章
|
29天前
|
机器学习/深度学习 安全 算法
十大主流联邦学习框架:技术特性、架构分析与对比研究
联邦学习(FL)是保障数据隐私的分布式模型训练关键技术。业界开发了多种开源和商业框架,如TensorFlow Federated、PySyft、NVFlare、FATE、Flower等,支持模型训练、数据安全、通信协议等功能。这些框架在灵活性、易用性、安全性和扩展性方面各有特色,适用于不同应用场景。选择合适的框架需综合考虑开源与商业、数据分区支持、安全性、易用性和技术生态集成等因素。联邦学习已在医疗、金融等领域广泛应用,选择适配具体需求的框架对实现最优模型性能至关重要。
373 79
十大主流联邦学习框架:技术特性、架构分析与对比研究
|
2月前
|
Kubernetes Cloud Native 微服务
探索云原生技术:容器化与微服务架构的融合之旅
本文将带领读者深入了解云原生技术的核心概念,特别是容器化和微服务架构如何相辅相成,共同构建现代软件系统。我们将通过实际代码示例,探讨如何在云平台上部署和管理微服务,以及如何使用容器编排工具来自动化这一过程。文章旨在为开发者和技术决策者提供实用的指导,帮助他们在云原生时代中更好地设计、部署和维护应用。
|
25天前
|
机器学习/深度学习 缓存 自然语言处理
DeepSeek背后的技术基石:DeepSeekMoE基于专家混合系统的大规模语言模型架构
DeepSeekMoE是一种创新的大规模语言模型架构,融合了专家混合系统(MoE)、多头潜在注意力机制(MLA)和RMSNorm归一化。通过专家共享、动态路由和潜在变量缓存技术,DeepSeekMoE在保持性能的同时,将计算开销降低了40%,显著提升了训练和推理效率。该模型在语言建模、机器翻译和长文本处理等任务中表现出色,具备广泛的应用前景,特别是在计算资源受限的场景下。
432 29
DeepSeek背后的技术基石:DeepSeekMoE基于专家混合系统的大规模语言模型架构
|
2月前
|
监控 安全 API
使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南
本文详细介绍了PaliGemma2模型的微调流程及其在目标检测任务中的应用。PaliGemma2通过整合SigLIP-So400m视觉编码器与Gemma 2系列语言模型,实现了多模态数据的高效处理。文章涵盖了开发环境构建、数据集预处理、模型初始化与配置、数据加载系统实现、模型微调、推理与评估系统以及性能分析与优化策略等内容。特别强调了计算资源优化、训练过程监控和自动化优化流程的重要性,为机器学习工程师和研究人员提供了系统化的技术方案。
228 77
使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南
|
16天前
|
存储 数据采集 人工智能
AllData数据中台架构全览:数据时代的智慧中枢
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
22天前
|
机器学习/深度学习 算法 文件存储
YOLOv11改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
YOLOv11改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
70 10
YOLOv11改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
|
18天前
|
机器学习/深度学习 算法 文件存储
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
30 4
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
|
1天前
|
存储 监控 算法
公司监控上网软件架构:基于 C++ 链表算法的数据关联机制探讨
在数字化办公时代,公司监控上网软件成为企业管理网络资源和保障信息安全的关键工具。本文深入剖析C++中的链表数据结构及其在该软件中的应用。链表通过节点存储网络访问记录,具备高效插入、删除操作及节省内存的优势,助力企业实时追踪员工上网行为,提升运营效率并降低安全风险。示例代码展示了如何用C++实现链表记录上网行为,并模拟发送至服务器。链表为公司监控上网软件提供了灵活高效的数据管理方式,但实际开发还需考虑安全性、隐私保护等多方面因素。
11 0
公司监控上网软件架构:基于 C++ 链表算法的数据关联机制探讨
|
1月前
|
存储 缓存 关系型数据库
社交软件红包技术解密(六):微信红包系统的存储层架构演进实践
微信红包本质是小额资金在用户帐户流转,有发、抢、拆三大步骤。在这个过程中对事务有高要求,所以订单最终要基于传统的RDBMS,这方面是它的强项,最终订单的存储使用互联网行业最通用的MySQL数据库。支持事务、成熟稳定,我们的团队在MySQL上有长期技术积累。但是传统数据库的扩展性有局限,需要通过架构解决。
69 18
|
1月前
|
监控 JavaScript 数据可视化
建筑施工一体化信息管理平台源码,支持微服务架构,采用Java、Spring Cloud、Vue等技术开发。
智慧工地云平台是专为建筑施工领域打造的一体化信息管理平台,利用大数据、云计算、物联网等技术,实现施工区域各系统数据汇总与可视化管理。平台涵盖人员、设备、物料、环境等关键因素的实时监控与数据分析,提供远程指挥、决策支持等功能,提升工作效率,促进产业信息化发展。系统由PC端、APP移动端及项目、监管、数据屏三大平台组成,支持微服务架构,采用Java、Spring Cloud、Vue等技术开发。

热门文章

最新文章