数据集成主要是用来做数据同步的,支持多种数据源,如 redis ,mysql,hbase 等。
选择数据集成>新建数据集成节点>数据同步时,数据源选择自己的数据源和埋点表,
阿里云DataWorks数据集成是DataX团队在阿里云上的商业化产品,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动能力,以及繁杂业务背景下的数据同步解决方案。
目前已经支持云上近3000家客户,单日同步数据超过3万亿条。
DataWorks数据集成目前支持离线50+种数据源,可以进行整库迁移、批量上云、增量同步、分库分表等各类同步解决方案。2020年更新实时同步能力,支持10+种数据源的读写任意组合。提供MySQL,Oracle等多种数据源到阿里云MaxCompute,Hologres等大数据引擎的一键全增量同步解决方案。
数据集成在整个大数据数仓建设中的角色和地位简单概括为6个模块,第一个是数据源,里面包含了各种关系型数据库、文件存储、大数据存储、消息队列等。这些异构的数据源可以通过统一的数据集成平台来将异构网络的异构数据源统一抽取到数据仓库平台,在数据仓库平台中完成数据汇聚,进行统一的数据分析。分析后的结果数据仍可以通过数据集成回流到在线数据库,为在线业务、在线应用提供数据查询。除此之外,还可以利用一个承上启下的产品-数据服务,对接数据应用,制作相关报表、大屏、应用等。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。