《数据虚拟化:商务智能系统的数据架构与管理》一 1.7 数据虚拟化的技术优势

简介: 本节书摘来自华章出版社《数据虚拟化:商务智能系统的数据架构与管理》一 书中的第1章,第1.7节,作者:[荷]里克 F. 范德兰斯(Rick F. van der Lans),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.7 数据虚拟化的技术优势

在大多数情况下,直接获取一个数据存储区对于数据使用者来说是很容易的。例如,如果访问SQL数据库中的一个表,数据使用者提供用户ID和密码,数据库的名称,以及一些其他的技术详细信息,它就可以立即通过SQL语句访问数据。这同样适用于数据使用者需要访问XML文档或电子表格的情形。
如果访问数据存储如此容易,那么为什么还需要数据虚拟化呢?用数据虚拟化层提供大量的技术优势,这些优势分成了三个组。如果使用者仅仅访问一个数据存储,那么可以应用第一组的优势:
数据库语言和API转换:也许数据存储库提供的数据库语言和API对数据使用者来说是不理想的,或许不是他们支持的语言。也许数据库服务器通过JDBC API来支持SQL,但数据使用者更喜欢使用MDX、XQuery、CQL语言或一组Java类。数据虚拟化层可以将数据存储支持的语言和API转换为对消费者便利的语言和API。
数据存储独立性:很多SQL数据库服务器支持SQL标准,意味着它们都实现了类似的SQL语言。但是,差异仍然存在。如果需要,数据虚拟化可以隐藏这些差异,可以用另一个服务器来代替当前的数据库服务器。如果正在使用的数据库服务器太贵、太慢,或者不够安全,那么这就是必要的。也可能是非基于SQL(non-SQL-based)的数据存储需要替换为基于SQL(SQL-based)的数据存储。再者,如果数据虚拟化得当,这将不是困难。数据虚拟化使数据使用者独立于特定的数据存储技术,使数据使用者更加方便。在恰当的时间使用恰当的数据存储技术将会让工作变得更加容易。
最小数据存储干扰:数据使用者可能对它访问的数据存储产生干扰(或工作承载竞争)。它的查询可能是资源密集型,以至于其他数据使用者的体验性能退化。大多数数据虚拟化产品提供缓存机制。如果开启此机制,数据虚拟化层将保存数据存储中数据的一个副本并管理它。这样,数据使用者将访问缓存中的数据而不是数据存储中的数据,因此最小化了对源数据存储的干扰。
总结来说,数据虚拟化简化了应用程序开发,因为它减少了以正确方法和格式访问必要数据所需的代码量(如图1-4所示)。

8ae3c60d543154002a39aa64f8fcb146eba09b20

第二组优势与元数据规范有关,例如表格结构、转换和清洗操作、聚合,等等。当使用数据虚拟化时,元数据规范只需要实现一次,且没有必要把它们复制给多个数据使用者。换句话说,数据使用者共享和重复使用这些规范。
简化表格结构:数据存储中实现的表格结构可能是复杂的,这使得数据使用者访问数据变得困难。复杂的表格结构导致检索数据的查询变得复杂,也使应用程序的开发变得复杂。使用数据虚拟化可以定义一个从复杂表结构到更简单适用的表结构的转换。这是通过元数据规范完成的,元数据规范仅定义一次,且可以被多个数据使用者使用。这个更简单的结构简化了应用程序的开发和维护。
集中式数据转换:数据存储中的特殊数据值可能有一些不适合使用者的格式。假设所有使用者都喜欢以纯数字处理电话号码,而不是区号和用户号以破折号分隔开的形式。数据虚拟化层可以实现这一转换,并且所有的数据使用者都可以使用。这些转换规范被视作元数据规范。
集中式数据清洗:数据存储中的一些数据值可能是不正确的。假设一个表格中的Gender一列包含三种不同的值来指代Female,这种情况下,所有的访问这些数据值的使用者都不得不加上转换这些错误值为正确值的代码。如果这个转换在数据虚拟化层进行,并且只向数据使用者显示正确的值,这将会更好。这个解决方案比将数据清洗规则复制给所有数据使用者的方案好。
如果很多数据使用者使用相同的数据虚拟化层,它们共享相同的元数据规则(如图1-5所示)。这简化了应用程序开发,并且带来更一致的应用行为和更一致的结果。

screenshot

第三组优势涉及集成来自多个数据存储的数据。
统一的数据访问:不同的数据存储可能使用不同的存储格式。例如,有些数据可能存储在非处理SQL的数据库中;有些在Excel电子表格中;有些在索引顺序文件中;有些在NoSQL数据库中,如Hadoop和MongoDB;有些在比SQL支持更多其他数据库语言的数据库中;有些在XML文件中;有些甚至隐藏在基于HTML的网页中。数据虚拟化层可以提供一个统一的API和数据库语言去访问所有这些不同的存储格式,因此简化了数据使用者的数据访问。它们仅需要支持一种语言和一种API。
集中式数据集成:如果多个数据使用者访问多个数据存储,每一个数据使用者都得包含负责集成这些数据存储的代码。这样的结果就是很多数据集成方案在数据使用者上重复叠加(如图1-6所示)。数据虚拟化层集中了这些集成代码,并且所有的数据使用者共享集成代码。
一致的报告结果:如果每个数据使用者都用它自己的集成方案,就很难保证数据以相同的方式和规则集成。如果这个难以保证,就会导致数据使用者收到不同的和不一致的结果。如果所有的集成方案由数据虚拟化层实现,那么就增加了结果一致的可能性。

screenshot

高效分布式数据访问:当集成来自多个数据存储的数据时,一个总是被提起的性能问题是这个集成是在哪里及怎样进行的:是所有的数据首先都被运到数据使用者处然后再进行集成,还是数据从一个数据存储转移到另一个数据存储?其他数据存储进行集成,还是使用一些其他的处理策略?开发者不需要考虑诸如此类的问题。因此这个任务由数据虚拟化层来完成。
所有这些优势阻止了数据集成的元数据规范在多个数据使用者上重复叠加(见图1-6)。如图1-7所示,应用数据虚拟化集中了这些规范。

screenshot

相关文章
|
6月前
|
存储 缓存 安全
某鱼电商接口架构深度剖析:从稳定性到高性能的技术密码
某鱼电商接口架构揭秘:分层解耦、安全加固、性能优化三维设计,实现200ms内响应、故障率低于0.1%。详解三层架构、多引擎存储、异步发布、WebSocket通信与全链路防护,助力开发者突破电商接口“三难”困境。
|
7月前
|
数据采集 监控 JavaScript
移动端性能监控探索:鸿蒙 NEXT 探针架构与技术实现
阿里云 ARMS 团队倾力打造的鸿蒙 NEXT SDK,为鸿蒙应用提供了业界领先的全链路监控解决方案。这不仅仅是一个 SDK,更是您洞察用户体验、优化应用性能的智能伙伴。
803 60
|
6月前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
1050 23
|
6月前
|
Java Linux 虚拟化
【Docker】(1)Docker的概述与架构,手把手带你安装Docker,云原生路上不可缺少的一门技术!
1. Docker简介 1.1 Docker是什么 为什么docker会出现? 假定您在开发一款平台项目,您的开发环境具有特定的配置。其他开发人员身处的环境配置也各有不同。 您正在开发的应用依赖于您当前的配置且还要依赖于某些配置文件。 您的企业还拥有标准化的测试和生产环境,且具有自身的配置和一系列支持文件。 **要求:**希望尽可能多在本地模拟这些环境而不产生重新创建服务器环境的开销 问题: 要如何确保应用能够在这些环境中运行和通过质量检测? 在部署过程中不出现令人头疼的版本、配置问题 无需重新编写代码和进行故障修复
534 3
|
7月前
|
Cloud Native API 开发者
Gemini 2.5 Flash 技术拆解:从 MoE 架构到阿里云生态落地指南
2025年9月,谷歌Gemini 2.5 Flash发布,性能提升5%、成本降24%,引发行业关注。其MoE架构、百万上下文与“思考”范式,助力阿里云开发者高效构建云原生应用。本文解析技术内核,结合汽车、物流等案例,提供落地指南与避坑建议,展望大模型与流计算融合前景。
813 6
|
7月前
|
JSON 供应链 监控
1688商品详情API技术深度解析:从接口架构到数据融合实战
1688商品详情API(item_get接口)可通过商品ID获取标题、价格、库存、SKU等核心数据,适用于价格监控、供应链管理等场景。支持JSON格式返回,需企业认证。Python示例展示如何调用接口获取商品信息。
|
6月前
|
存储 人工智能 搜索推荐
拔俗AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教融合大语言模型、教育知识图谱、多模态感知与智能体技术,重构“教、学、评、辅”全链路。通过微调LLM、精准诊断错因、多模态交互与自主任务规划,实现个性化教学。轻量化部署与隐私保护设计保障落地安全,未来将向情感感知与教育深度协同演进。(238字)
675 0
|
7月前
|
数据可视化 前端开发 数据管理
什么是低代码?一文看懂:低代码技术的发展历程及技术架构
低代码开发平台通过可视化界面与组件化设计,大幅降低编程门槛,使开发者无需大量编码即可快速构建应用。它具备可视化开发、预制组件、低技术门槛及全流程支持等核心特征,适用于业务流程自动化、数据管理、客户关系管理等多种场景。自萌芽期至今,低代码不断演进,成为企业数字化转型的重要工具,显著提升开发效率、降低成本,并推动全民开发者时代的到来。
1064 0
什么是低代码?一文看懂:低代码技术的发展历程及技术架构
|
7月前
|
Kubernetes Java 微服务
Spring Cloud 微服务架构技术解析与实践指南
本文档全面介绍 Spring Cloud 微服务架构的核心组件、设计理念和实现方案。作为构建分布式系统的综合工具箱,Spring Cloud 为微服务架构提供了服务发现、配置管理、负载均衡、熔断器等关键功能的标准化实现。本文将深入探讨其核心组件的工作原理、集成方式以及在实际项目中的最佳实践,帮助开发者构建高可用、可扩展的分布式系统。
616 0