《数据虚拟化:商务智能系统的数据架构与管理》一 2.10 传统商务智能系统的劣势

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 本节书摘来自华章出版社《数据虚拟化:商务智能系统的数据架构与管理》一 书中的第2章,第2.10节,作者:[荷]里克 F. 范德兰斯(Rick F. van der Lans),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.10 传统商务智能系统的劣势

基于这一章所阐述的概念,商务智能系统已经发展了很多年。正如预想的一样,这些系统中的大多数都是基于一个链式数据存储和转换过程,此外,很多数据存储还包括衍生数据。图2-15是一个普通的商务智能系统的例子,它基于这样一个包含了数据中转区、ODS、数据仓库、大量的数据集市和一些PDS的结构。在这个系统中,数据从一个存储区被复制到另一个存储区,直到它存储在一个可以被报告工具访问的区为止。因为这些复制,数据仓库、数据集市和PDS中都包含了相当大数目的派生数据。事实上,这样一种结构其内部所有的数据,例如一个数据集市,是由数据仓库衍生而来的。
我们把有这种类型结构的系统叫作传统商务智能系统。如此多的系统以这种模式发展的原因与过去20年中硬件和软件的状况相关。这些技术在性能和扩展性方面有各自的局限性,因此,一方面,报告和分析的工作负担分散在多个数据存储区中,另一方面,转换和清洗不得不分解到众多的步骤中。

screenshot

但是技术与解决方案一如既往,不管被引进的时候多么有价值,它们都有失效日期。就像那些强大的三桅杆船一样,它们在几百年前成功地用来发现了新大陆。不管它们以前如何有影响力,最终还是被轮船取代了。它跟马最终被汽车取代是一个道理,这样的例子还有好多。
传统系统的一些缺陷渐渐明显了。
缺陷1—重复数据:第一个缺陷与系统内存储的大量重复数据相关。大多数数据存储区包括从其他数据存储区派生来的数据。例如,一个数据集市的内容是从数据仓库中派生来的,那么数据集市中的数据100%是冗余的。同样,复制导致PDS中装满冗余的数据。甚至是数据中转区和数据仓库也将会有大量重叠的数据。另外,在一个数据存储区内部,大量的重复数据会被存储。这些重复数据中的大多数存储起来,用于提高查询、报告和ETL脚本的性能,这些重复数据以索引、物化查询表、汇总数据的图表和中转区等方式隐藏。
数据仓库占用了大量的存储空间—事实上,是TB,有时候甚至是PB。但是究竟有多少原始数据呢?基于英国现状的分析师Nigel Pendse做了一项大规模的实验,表明了在最大的商务智能应用中实际可访问的网络数据报告量近似是原始数据中的5GB(见文献[34])。这是数据中的中位数。这个数据听起来是真实的,但是其他很多研究表明数据仓库的平均大小是10TB(或者更多),这两者又是如何匹配的?如果这些都是原始数据,那么根据Pendse的研究,为了得到10TB的数据,2000个不同的且其中没有重复数据元素的商务智能应用将是必须的,这几乎是不可能的。众所周知,数据仓库有时候会包括商务智能应用不能访问到的数据,例如原始细节数据、索引等,但是这还不足以解释它所占用的巨大数据空间的原因。因此,这些数据清楚地说明了大量的重复存储的数据是人们可感知的。
显然,存储这些重复数据是有原因的,这个原因就是性能。为了加速查询,我们需要那些索引、物化查询表、汇总数据的列和派生的数据存储区等。
存储不再是那么昂贵了,那么问题是什么呢?问题就是灵活性。重复数据存储得越多,结构的灵活性就越差。每一个修改都要求对重复数据进行额外的操作。保持重复数据的同步也需要很大的花费。存储重复数据将会导致数据的不一致。通过移除大多数的冗余数据,商务智能系统能够被大大简化。
缺陷2—非共享的元数据规范:传统系统的第二个缺陷可以用非共享的元数据规范来形容。许多报告和分析的工具允许我们使用特定方式,使得报告更加独立于数据资源。例如,在SAP的Business Objects体系的概念中,我们可以定义确定的术语和表格间关系。这对于所有使用这个工具所作的报告来说是完美的,但是如果我们想生成其他的报告,例如用Excel或者用IBM/Cognos的工具,又会是怎样呢?这意味着这些元数据规范必须复制到那些工具中。
总之,很多导入到工具中的规范不是共享的。企业中往往会建立各种各样的环境,在这个环境中,不同的工具用于不同的任务,所以这需要可共享规范的存在。这一不可共享规范的例子与报告和分析工具相关,但是其他的不可共享规范的例子也存在于ETL工具和数据库服务器中。不可共享的元数据规范降低了灵活性,难以管理,将会导致不一致的报告结果。
缺陷3—灵活局限性:关于灵活性的一个重要的弱点。软件工程领域已经教会我们,如果我们设计了一个系统,就需要把内存结构和应用结构分开,因为如果能把它们清晰地分开,存储结构的改变就不会总是需要应用结构的改变,反之亦然。这对于保持性和灵活性都有好处。就像1.5.1节所述的一样,David L. Parnas是首先认识到信息隐藏(别名封装)和抽象化的重要性的人之一。随后,这些概念成为其他概念,诸如面向对象、基于组件的开发、面向服务的体系结构等的基础。
每一个软件工程师都把抽象化和封装视作非常基本的概念,但是似乎商务智能专家不是这样。大多数商务智能系统完全没有基于这两个概念。几乎所有的报告都与一个特别的数据库服务技术相联系。我们来看一个简单的例子:设想我们都使用报告工具,可以写出自己的SQL语句来访问数据库,我们使用所有的所有权的钟声和数据库服务的口哨来获得最佳的性能。如果我们想要用另一个支持略有不同的SQL语言的数据库服务来代替这个数据库服务将会发生什么呢?或者我们想要选择一个基于MDX的数据库服务呢?或者也许我们想要访问一个外部数据库,它不会返回一个表格而是一个XML文件呢?在所有这些可能的情形中,我们需要极大程度地改变报告的定义。
在商务智能系统中采用抽象化和封装的概念,对于提高自身的灵活性、更容易地实现改变和采纳新的工程技术非常重要。
缺陷4—数据质量的下降:当各种相同数据的副本存在时,数据就会有不一致性的风险。换句话说,存储复制数据,正如我们所想的一样,在传统商务智能系统中广泛存在,就包含了数据质量的风险。David Loshin将它规定如下(见文献[35]):
每次复制数据时,它也受限于数据转换的次数,它们都可能会导致数据错误。越后来的副本与原始的数据相差越大。复制的数据只会导致熵和不一致性。
在每一个商务智能系统中,目标之一应当是最小化数据的复制以达到最小化数据质量的风险。
缺陷5—有局限的运营报告支持:另一个与运营报告和分析相关联的缺陷。越来越多的企业对支持这些新的商务智能的挑战形式感兴趣。运营的商务智能系统决定着报告必须包括最新的数据。每天更新一次数据资源对他们来说是不够的。非常接近商务进程的决策者,像运营经理,尤其需要100%全新的数据。但是这如何做到呢?一个人不需要成为技术巫师也可以理解,如果为了从生产数据库中获取资源到报告中,一个数据必须从一个存储区内复制4~5次到达另一个存储区,在几微秒内完成这些工作几乎是不可能的。大多数商务智能系统没有按照运营报告与运营数据相关联的方式来设计。我们不得不简化结构来支持运营的商务智能系统。最根本的是,可以通过移除数据存储区和最少化复制步骤来简化结构。
缺陷6—基于无结构的外部数据的报告支持的局限性:在无结构化的外部的数据的分析和报告上日益增加的兴趣导致了最后一个缺陷。大多数的数据仓库中都装着来自生产数据库中的结构化数据,但是我们很少在里面找到无结构化的外部的数据。为了允许使用新的数据资源报告,许多专家提议用与内部产生数据相同的处理方式来处理这两种数据:如果它是无结构的,则使其结构化并把它复制到数据仓库中,它就可以被分析和报告所使用。换言之,这一提议是基于复制数据。他们想要改造这些数据资源使其适应传统的商务智能结构。
但是为什么不直接分析无结构化数据资源和外部数据资源本身呢?在某种程度上,那是互联网风格的解决方案。如果在互联网上搜索某些东西,我们不会首先将需要的所有的网页都复制到自己的数据库中。不,数据就在它原本的地方。所以,越来越多的文件管理系统将允许我们直接分析他们的数据库,减少了将数据复制到数据仓库中这种需求。不幸的是,许多商务智能工具不支持访问他们的系统。至于外部数据,在互联网上做有关外部数据的商务智能,在今天可以运用混搭的工具以复杂的方式完成(见1.13节)。
注意:我们想强调的是这一节提到的涉及商务智能系统的不足之处,并不是结构本身。例如,很多商务智能系统基于CIF(企业信息工厂)已经得到了发展,其中数据集市用物理的数据存储区来实现。CIF没有控制这些,但是因为软件和硬件技术的可行性,许多企业开始实现这些。数据虚拟化使得虚拟数据集市成为可能(见7.5.2节和7.6.2节)。一个商务智能系统以这种方式发展对于支持CIF仍然是合格的。

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
1月前
|
监控 安全 API
使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南
本文详细介绍了PaliGemma2模型的微调流程及其在目标检测任务中的应用。PaliGemma2通过整合SigLIP-So400m视觉编码器与Gemma 2系列语言模型,实现了多模态数据的高效处理。文章涵盖了开发环境构建、数据集预处理、模型初始化与配置、数据加载系统实现、模型微调、推理与评估系统以及性能分析与优化策略等内容。特别强调了计算资源优化、训练过程监控和自动化优化流程的重要性,为机器学习工程师和研究人员提供了系统化的技术方案。
156 77
使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南
|
25天前
|
机器学习/深度学习 算法 数据可视化
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
本文探讨了在量化交易中结合时序特征和静态特征的混合建模方法。通过整合堆叠稀疏降噪自编码器(SSDA)和基于LSTM的自编码器(LSTM-AE),构建了一个能够全面捕捉市场动态特性的交易系统。SSDA通过降噪技术提取股票数据的鲁棒表示,LSTM-AE则专注于捕捉市场的时序依赖关系。系统采用A2C算法进行强化学习,通过多维度的奖励计算机制,实现了在可接受的风险水平下最大化收益的目标。实验结果显示,该系统在不同波动特征的股票上表现出差异化的适应能力,特别是在存在明确市场趋势的情况下,决策准确性较高。
64 5
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
|
4天前
|
消息中间件 监控 小程序
电竞陪玩系统架构优化设计,陪玩app如何提升系统稳定性,陪玩小程序平台的测试与监控
电竞陪玩系统架构涵盖前端(React/Vue)、后端(Spring Boot/php)、数据库(MySQL/MongoDB)、实时通信(WebSocket)及其他组件(Redis、RabbitMQ、Nginx)。通过模块化设计、微服务架构和云计算技术优化,提升系统性能与可靠性。同时,加强全面测试、实时监控及故障管理,确保系统稳定运行。
|
1月前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】Kernel 层架构
推理引擎的Kernel层负责执行底层数学运算,如矩阵乘法、卷积等,直接影响推理速度与效率。它与Runtime层紧密配合,通过算法优化、内存布局调整、汇编优化及调度优化等手段,实现高性能计算。Kernel层针对不同硬件(如CPU、GPU)进行特定优化,支持NEON、AVX、CUDA等技术,确保在多种平台上高效运行。
92 32
|
1月前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
60 4
【AI系统】计算图优化架构
|
21天前
|
机器学习/深度学习 存储 人工智能
基于AI的实时监控系统:技术架构与挑战分析
AI视频监控系统利用计算机视觉和深度学习技术,实现实时分析与智能识别,显著提升高风险场所如监狱的安全性。系统架构包括数据采集、预处理、行为分析、实时决策及数据存储层,涵盖高分辨率视频传输、图像增强、目标检测、异常行为识别等关键技术。面对算法优化、实时性和系统集成等挑战,通过数据增强、边缘计算和模块化设计等方法解决。未来,AI技术的进步将进一步提高监控系统的智能化水平和应对复杂安全挑战的能力。
|
26天前
|
机器学习/深度学习 前端开发 算法
婚恋交友系统平台 相亲交友平台系统 婚恋交友系统APP 婚恋系统源码 婚恋交友平台开发流程 婚恋交友系统架构设计 婚恋交友系统前端/后端开发 婚恋交友系统匹配推荐算法优化
婚恋交友系统平台通过线上互动帮助单身男女找到合适伴侣,提供用户注册、个人资料填写、匹配推荐、实时聊天、社区互动等功能。开发流程包括需求分析、技术选型、系统架构设计、功能实现、测试优化和上线运维。匹配推荐算法优化是核心,通过用户行为数据分析和机器学习提高匹配准确性。
82 3
|
24天前
|
前端开发 搜索推荐 安全
陪玩系统架构设计陪玩系统前后端开发,陪玩前端设计是如何让人眼前一亮的?
陪玩系统的架构设计、前后端开发及前端设计是构建吸引用户、功能完善的平台关键。架构需考虑用户需求、技术选型、安全性等,确保稳定性和扩展性。前端可选用React、Vue或Uniapp,后端用Spring Boot或Django,数据库结合MySQL和MongoDB。功能涵盖用户管理、陪玩者管理、订单处理、智能匹配与通讯。安全性方面采用SSL加密和定期漏洞扫描。前端设计注重美观、易用及个性化推荐,提升用户体验和平台粘性。
54 0
|
24天前
|
监控 Java 数据中心
微服务架构系统稳定性的神器-Hystrix
Hystrix是由Netflix开源的库,主要用于微服务架构中的熔断器模式,防止服务调用失败引发级联故障。它通过监控服务调用的成功和失败率,在失败率达到阈值时触发熔断,阻止后续调用,保护系统稳定。Hystrix具备熔断器、资源隔离、降级机制和实时监控等功能,提升系统的容错性和稳定性。然而,Hystrix也存在性能开销、配置复杂等局限,并已于2018年进入维护模式。
28 0
|
1月前
|
机器学习/深度学习 人工智能 调度
【AI系统】推理引擎架构
本文详细介绍了推理引擎的基本概念、特点、技术挑战及架构设计。推理引擎作为 AI 系统中的关键组件,负责将训练好的模型部署到实际应用中,实现智能决策和自动化处理。文章首先概述了推理引擎的四大特点:轻量、通用、易用和高效,接着探讨了其面临的三大技术挑战:需求复杂性与程序大小的权衡、算力需求与资源碎片化的矛盾、执行效率与模型精度的双重要求。随后,文章深入分析了推理引擎的整体架构,包括优化阶段的模型转换工具、模型压缩、端侧学习等关键技术,以及运行阶段的调度层、执行层等核心组件。最后,通过具体的开发流程示例,展示了如何使用推理引擎进行模型的加载、配置、数据预处理、推理执行及结果后处理。
101 0

热门文章

最新文章