数据集成在ODS项目的应用模式

简介:   ODS(The operational data store),也叫运营数据存储,是用于支持企业日常的全局应用的数据集合,它是介于DB和DW 之间的一种数据存储技术。
  ODS(The operational data store),也叫运营数据存储,是用于支持企业日常的全局应用的数据集合,它是介于DB和DW 之间的一种数据存储技术。从专家给出的定义上来讲,它是一个面向主题的、集成的、当前的并且是可"挥发"的数据集合,它反映了在某一个时间切片瞬间,经营分析系统和外围系统用以相互交换数据的集合,主要用于经营分析系统与外围系统关键数据一致性校验、以及经营分析系统对其它外围系统的决策支持数据的回馈,回馈数据包括以客户扩展属性为主体的详细资料等。从ODS的作用和实现来说,ODS将各个孤立的业务系统的运营数据集成起来,现成全企业的统一数据视图,同时可实现ODS的数据共享。

    数据集成是什么呢?它是指异构数据之间的同步。所谓异构数据是指不同种类,不同版本的数据库、文件、Mail等之间的同步。异构数据的同步前提是要能够准确获取数据源的元数据结构以及异构数据之间的映射方式:包括语法和语义上的映射。数据集成可以认为是ETL(BI上的定义为:抽取-转换-清洗-过滤-加载);但更强调自动化过程管理。

    在实现机制上,应包括常见的集成模式:Split/Merge/Route/PS等;另外还应该具备建模(元数据管理)和治理(Governace)功能。

    数据集成有什么意义呢?主要是实现数据中心,例如企业级SID;或者遗留系统在数据层面的集成。在建立全局SID的基础上,可以构建很多有意义的东西:例如Portal/CMS,报表,数据搜索,挖掘等等,这些可以概括地称为BI,即商业智能。因此,数据集成有两个层面的意义:1)操作层面 2)分析层面。

    目前,数据集成的产品有Oracle/BEA的Aqulogic DSP,Vitria的BW,还有就是开源的emule/ServiceMIX/Spring Integration等。不过据我所知,开源的东西还没有支持RDBMS Adapter的,而且还有某些重要功能的缺失例如监控、建模等。

    一般来讲,数据集成的实现方式可以分为一下四个步骤:

    1.界定数据交互的项别与内容,如:PDM系统和ERP系统之间的BOM数据;

    2.指定数据交互周期,一天一次,还是一周一次;

    3.选择交互方式,通过数据库,还是中间件技术来交互;

    4.由ODS数据交互调度程序实现数据上载或是由外围系统自行实现数据下载,从而实现数据的集成。

相关文章
|
8月前
|
数据挖掘
离线数仓(十)【ADS 层开发】(2)
离线数仓(十)【ADS 层开发】
|
8月前
|
SQL 分布式计算 Java
离线数仓(八)【DWD 层开发】(5)
离线数仓(八)【DWD 层开发】
|
8月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用问题之ods层离线同步任务,数据源的一张表新增了字段。如何更改可以不影响当前节点和下游任务的运行
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
7月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之如何在DataWorks中实现离线同步多个分表到MC的多级分区表
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8月前
|
SQL 关系型数据库 MySQL
实时计算 Flink版产品使用问题之是否支持异构数据源之间的数据映射关系
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
8月前
|
SQL JSON DataX
离线数仓(六)【ODS 层开发】
离线数仓(六)【ODS 层开发】
|
8月前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之数据集成如何按照分表导入多分区
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
77 0
|
8月前
|
SQL 分布式计算 大数据
MaxCompute产品使用问题之如何查看ODS层生产环境有多少表正在使用
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8月前
|
消息中间件 存储 Kafka
Flink 实时数仓(二)【ODS 层开发】
Flink 实时数仓(二)【ODS 层开发】

热门文章

最新文章