数据仓库的工作日记_创纪录的(一)

简介:

  在从事数据仓库几年传统产业(敢写了很多年),离etl发展做建筑师。

由于行业之间的关系的因素是。像银行,电信这些单位(一些体制问题,没有详细说明),这将有自己的IT系。 但IT盛,也就更不会招聘自己的项目团队,这也就养育了我天朝强大的外包事业,而我一直都是这外包大军中的一员。

  准备把文章分成几个主题来写,这个主题是用来记如今刚启动项目的工作笔记的,工作中的一些奇闻轶事就放到其它主题了。

  项目介绍:背景-某地方性商业银行;上线时间-n年前。系统结构-ods,dw,下游系统。

  ods层:源系统的映射层。与源系统同构。仅仅保留当期数据。之所以设计ods层,是为了将数据仓库系统与实时业务系统隔离开。在一些事业单位(朝九晚五从不加班办业务的单位,大家懂的)或类似的项目中,因为下班以后不再产生新的业务。因此数据仓库能够採取简单的形式,如oracle的dblink。在下班以后直接将数据抽取过来。

但像银行,通信这一类的企业。都是24时有业务处理的。直接去大批量地查询核心业务系统的数据,不仅会影响对方的处理效率,同一时候也不能保证数据的准确,这里所说的数据准确,是因为业务系统一直在处理业务,我们不能准确的获取当天24小时内的数据。ods(Operational Data Store)的功能也就体现出来了。当然,这仅仅是ods的一部分功能了

  dw层:轻度汇总层,依照主题汇总,保留历史数据。

在ods数据载入完毕后,dw层開始调度任务。只是,这个项目中的dw层就稍稍有点慘不忍睹了,主题是划分了,但仅仅是依照核心业务系统的表数据内容,大概的分了个类,与ods的表结构基本一样。仅仅是名字都换了。并非数据仓库中真正意义上的划分主题。

当然了,存在即有道理,这个dw层以拉链和当期快照还有全量的形式保存了历史数据。

  调度:有数据仓库就要有相关调度,这个项目中採用的是我国某中字开头公司的调度产品,这个产品,一个字烂。两个字恶心。三个字我艹了,但人家毕竟是产品!

由java来做应用界面。底层功能由shell来实现,详细的分析会在后面的文章中进行刨析。由于我立即就要优化这玩意了。

  讲完背景,下一篇将说明要做的工作。

  

版权声明:本文博主原创文章,博客,未经同意不得转载。







本文转自mfrbuaa博客园博客,原文链接:http://www.cnblogs.com/mfrbuaa/p/4886867.html,如需转载请自行联系原作者


相关文章
|
5月前
|
关系型数据库 MySQL 大数据
DataX:数据同步的超音速英雄!阿里开源工具带你飞越数据传输的银河系,告别等待和故障的恐惧!快来见证这一数据工程的奇迹!
【8月更文挑战第13天】DataX是由阿里巴巴开源的一款专为大规模数据同步设计的工具,在数据工程领域展现强大竞争力。它采用插件化架构,支持多种数据源间的高效迁移。相较于Apache Sqoop和Flume,DataX通过并发写入和流处理实现了高性能同步,并简化了配置流程。DataX还支持故障恢复,能够在同步中断后继续执行,节省时间和资源。这些特性使其成为构建高效可靠数据同步方案的理想选择。
406 2
|
5月前
|
数据采集 监控 关系型数据库
CDC 与 Oceanbase 的激情碰撞:实时采集数据的震撼之旅,颠覆数据世界的神秘冒险!
【8月更文挑战第7天】在数据处理领域,实时采集变得至关重要。OceanBase是一款高性能、可扩展的分布式数据库。通过变更数据捕获(CDC)技术实时采集其数据是一项关键技术。利用如Debezium等工具,可以实现OceanBase的数据变动捕捉。示例代码展示了如何配置Debezium以监听OceanBase的数据变更。实际应用中需按业务需求定制数据处理逻辑,并实施监控与错误管理以保障采集的准确性和稳定性,从而为业务提供实时数据支持,推动创新发展。
124 1
|
5月前
|
数据采集 SQL DataWorks
【颠覆想象的数据巨匠】DataWorks——远超Excel的全能数据集成与管理平台:一场电商数据蜕变之旅的大揭秘!
【8月更文挑战第7天】随着大数据技术的发展,企业对数据处理的需求日益增长。DataWorks作为阿里云提供的数据集成与管理平台,为企业提供从数据采集、清洗、加工到应用的一站式解决方案。不同于桌面级工具如Excel,DataWorks具备强大的数据处理能力和丰富的功能集,支持大规模数据处理任务。本文通过电商平台案例,展示了如何使用DataWorks构建数据处理流程,包括多源数据接入、SQL任务实现数据采集、数据清洗加工以提高质量,以及利用分析工具挖掘数据价值的过程。这不仅凸显了DataWorks在大数据处理中的核心功能与优势,还展示了其相较于传统工具的高扩展性和灵活性。
156 0
|
存储 SQL 关系型数据库
细谈数据仓库
细谈数据仓库
162 1
|
存储 传感器 SQL
谈谈数据资产理念下构数据湖的喜与忧
最近,数据湖成为大家关注的数据资产存储新架构,那么数据在现实中都有哪些应用场景呢,下面举几个典型的应用案例。
谈谈数据资产理念下构数据湖的喜与忧
|
存储 数据采集 敏捷开发
DMBOK 读书笔记系列 数据仓库和商务智能
数据仓库赋能组织将不同来源的数据整合到公共的数据模型中去,整合后的数据能为业务运营提供洞察,为企业决策支持和创造组织价值开辟新的可能性。
DMBOK 读书笔记系列 数据仓库和商务智能
|
存储 数据采集 数据可视化
千字干货带你入门数据仓库,跑通数据建模全流程(附视频)
个推资深大数据研发工程师为大家深入浅出地介绍了数据仓库的前世今生以及数据建模的常用方法。
593 0
千字干货带你入门数据仓库,跑通数据建模全流程(附视频)
|
数据采集 分布式计算 监控
数据仓库之数据质量建设(深度好文)(二)
数仓建设真正的难点不在于数仓设计,而在于后续业务发展起来,业务线变的庞大之后的数据治理,而数据治理的范围非常广,包含数据本⾝的管理、数据安全、数据质量、数据成本等。在这么多治理内容中,大家想下最重要的治理是什么?当然是数据质量治理,因为数据质量是数据分析结论有效性和准确性的基础,也是这一切的前提。所以如何保障数据质量,确保数据可用性是数据仓库建设中不容忽视的环节。
391 0
数据仓库之数据质量建设(深度好文)(二)
|
数据采集 存储 算法
数据仓库之数据质量建设(深度好文)(一)
数仓建设真正的难点不在于数仓设计,而在于后续业务发展起来,业务线变的庞大之后的数据治理,而数据治理的范围非常广,包含数据本⾝的管理、数据安全、数据质量、数据成本等。在这么多治理内容中,大家想下最重要的治理是什么?当然是数据质量治理,因为数据质量是数据分析结论有效性和准确性的基础,也是这一切的前提。所以如何保障数据质量,确保数据可用性是数据仓库建设中不容忽视的环节。
642 0
数据仓库之数据质量建设(深度好文)(一)
|
SQL 供应链 Oracle
数据仓库 | 从买菜这件小事来聊聊数据仓库
数据仓库 | 从买菜这件小事来聊聊数据仓库