实时情况下将事务系统中的增量数据加载到数据仓库的技术和优缺点

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介:   对于数据仓库设计来说,在实时情况下加载事务系统中的增量变化数据是最困难的。为了有效捕捉增量数据变化,对已有数据文件的扫描成为必须面对的问题。

 

对于数据仓库设计来说,在实时情况下加载事务系统中的增量变化数据是最困难的。为了有效捕捉增量数据变化,对已有数据文件的扫描成为必须面对的问题。因此,必须设法减少数据的扫描数量。目前有五种技术可以用于减少数据扫描量。
第一种 技术是扫描打上时间戳的数据。当一个应用对记录的最近一次修改打上时间戳时,数据仓库扫描就能够很有效地进行;问题:许多应用数据没有加时间戳。但相对来讲这是比较有效的一种方法。
第二种 技术是扫描增量 (DELTA) 文件。增量文件由应用程序生成,仅记录应用中所发生的改变,有了增量文件,扫描的过程就会非常高效(因为不在扫描集合中的数据不会被涉及)。但是,许多应用程序并没有创建增量文件。
第三种 技术是扫描日志文件或审计文件。日志文件和审计文件记录的内容,本质上是一样的。只不过日志文件用在数据恢复,所以各种操作都要保护日志文件。但是利用日志文件的一个问题就是它的内部格式是针对系统用途构建的,必须使用某种技术手段作为日志文件内容输出的接口。使用日志文件的另外一个缺点就是其中包含的内容远远超出数据仓库开发人员的需要。审计文件和日志文件同样具有相同的缺点。
第四种 技术就是修改以往的应用程序代码,使这些程序做到数据集成。但是,这种方法通常行不通,主要是因为许多的应用程序并无代码或代码陈旧很难修改。
第五种 技术是将“前”,“后”两个映像文件进行比较。使用此方法需要在第一次抽取时就对数据库进行快照 (snapshot) 。进行另外一个抽取时,就进行另外一个快照。然后将两个快照逐次比较来确定数据的修改。这种方法是最可怕的,不仅麻烦、复杂而且还要消耗大量的系统软、硬件资源。
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
10月前
|
机器学习/深度学习 数据可视化 数据挖掘
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
627 0
|
10月前
|
SQL 存储 分布式计算
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
1354 0
|
8月前
|
SQL 分布式计算 Cloud Native
云原生数据仓库使用问题之如何调整事务超时配置
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
6月前
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
248 4
|
5月前
|
存储 数据管理 大数据
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
131 0
|
7月前
|
存储 监控 数据挖掘
【计算机三级数据库技术】第14章 数据仓库与数据挖掘-
文章概述了数据仓库和数据挖掘技术的基本概念、决策支持系统的发展、数据仓库的设计与建造、运行与维护,以及联机分析处理(OLAP)与多维数据模型和数据挖掘技术的步骤及常见任务。
71 3
|
8月前
|
机器学习/深度学习 分布式计算 数据挖掘
数据仓库与数据挖掘技术的结合应用
【7月更文挑战第30天】数据仓库与数据挖掘技术的结合应用是现代企业实现高效决策和精准分析的重要手段。通过整合高质量的数据资源,利用先进的数据挖掘技术,企业可以更好地理解市场、客户和业务,从而制定科学的决策和战略。未来,随着技术的不断进步和应用场景的不断拓展,数据仓库与数据挖掘技术的结合应用将会为企业的发展提供更多机遇和挑战。
|
canal 缓存 otter
数据仓库 、数据中心相关技术知识和生态相关了解
数据仓库 、数据中心相关技术知识和生态相关了解
241 0
|
存储 分布式计算 关系型数据库
|
10月前
|
存储 大数据 数据管理
数据仓库(08)数仓事实表和维度表技术
所谓的事实表和维度表技术,指的就是如何和构造一张事实表和维度表,是的事实表和维度表,可以涵盖现在目前的需要和方便后续下游数据应用的开发
228 1

热门文章

最新文章