阿里云大数据开发平台,数据集成平台使用教程-阿里云开发者社区

开发者社区> 上云活动指导> 正文

阿里云大数据开发平台,数据集成平台使用教程

简介: 数据集成(Data Integration)是阿里集团对外提供的可跨异构数据存储系统的、可靠、安全、低成本、可弹性扩展的数据同步平台,为20+种数据源提供不同网络环境下的离线(全量/增量)数据进出通道,是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。
+关注继续查看

数据集成(Data Integration)是阿里集团对外提供的可跨异构数据存储系统的、可靠、安全、低成本、可弹性扩展的数据同步平台,为20+种数据源提供不同网络环境下的离线(全量/增量)数据进出通道,是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。
关于阿里云数据集成平台更多内容:阿里云数据集成平台使用教程

离线(批量)数据同步简介
离线(批量)的数据通道主要通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(称之为 Reader)、数据写入插件(称之为 Writer),并基于此框架设计一套简化版的中间数据传输格式,从而达到任意结构化、半结构化数据源之间数据传输的目的。
9171

支持数据源类型
数据集成提供丰富的数据源支持,如下所示:
文本存储(FTP / SFTP / OSS / 多媒体文件等)。
数据库(RDS / DRDS / MySQL / PostgreSQL 等)。
NoSQL(Memcache / Redis / MongoDB / HBase 等)。
大数据(MaxCompute / AnalyticDB / HDFS 等)。
MPP 数据库(HybridDB for MySQL 等)。
更多详情请参见 支持数据源类型
注意:
由于每个数据源的配置信息差距较大,需要根据使用情况详细查询参数配置信息。所以在数据源配置、作业配置页面提供了详细描述,请您根据自身情况进行查询使用。

同步开发说明
同步开发提供两种开发模式:向导模式和脚本模式。
1.向导模式:提供向导式的开发引导,通过可视化的填写和下一步的引导,帮助快速完成数据同步任务的配置工作。向导模式的学习成本低,但无法享受到一些高级功能。
2.脚本模式:您可以通过直接编写数据同步的 JSON 脚本来完成数据同步开发,适合高级用户,学习成本较高。脚本模式可以提供更丰富灵活的能力,做精细化的配置管理。

注意:
向导模式生成的代码可以转换为脚本模式,此转换为单向操作,转换完成后无法恢复到向导模式。因为脚本模式能力是向导模式的超集。
代码编写前需要完成数据源的配置和目标表的创建。
网络类型说明
网络类型分为:经典网络、专有网络(VPC)、本地 IDC 网络(规划中)。
1.经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理由阿里云负责,更适合对网络易用性要求比较高的客户。
2.专有网络:基于阿里云构建出一个隔离的网络环境。您可以完全掌控自己的虚拟网络,包括选择自有的 IP 地址范围,划分网段,以及配置路由表和网关。
3.本地 IDC 网络:您自身构建机房的网络环境,与阿里云网络是隔离不可用的。
4.经典网络和专有网络相关问题请参见 经典网络和VPC常见问题FAQ

补充说明:
1.网络连接可以支持公网连接,网络类型选择经典网络即可。需要注意公网带宽的速度和相关网络费用消耗。无特殊情况不建议使用。
2.规划中的网络连接,进行数据同步,可以使用本地新增运行资源 + 脚本模式的方案进行数据同步传输。或者使用 SHELL + DataX 方案,此方案请参见 使用shell执行datax任务
3.专有网络 VPC 是构建一个隔离的网络环境,可以自定义 IP 地址范围、网段、网关等随着专有网络安全性提高,专有网络运用越来越广,所以数据集成提供了 RDS-MySQL、RDS-SQL Server、RDS-PostgreSQL,在专有网络下不需要购买一台跟 VPC 同网络的 ECS,系统通过反向代理会自动检测从而网络能够互通。对于阿里云其他的数据库 PPAS、OceanBase、Redis、MongoDB、Memcache、TableStore、HBase 等,后续也会提供支持。所以非 RDS 的数据源在专有网络下配置数据集成的同步任务需要购买同网络的 ECS,这样可以通过 ECS 连通网络。

约束与限制
1.支持且仅支持结构化(例如 RDS、DRDS 等)、半结构化、无结构化(OSS、TXT 等,要求具体同步数据必须抽象为结构化数据)的数据同步。换言之,Data Integration 支持传输能够抽象为逻辑二维表的数据同步,其他完全非结构化数据,例如 OSS 中存放的一段 MP3,Data Integration 暂未支持将其同步到 MaxCompute,这个功能会在后期实现。
2.支持单个和部分跨 region 地域内数据存储相互同步、交换的数据同步需求。
3.部分地域通过经典网络是可以传输的,不能保证。如果必须使用且测试经典网络不通,可以考虑使用公网方式连接。
4.仅完成数据同步(传输),本身不提供数据流的消费方式。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
我为什么要写:新书《离线和实时大数据开发实战》
新书《离线和实时大数据开发实战》 购买链接(机械工业出版社官方淘宝店铺) 感谢@薛奎 和@空无 大大写推荐书评。 空无和薛奎的书评 大数据技术一直是个领先互联网公司的必备核心技术,阿里巴巴最近10年一直在持续加大投入,并将大数据处理技术用于大量的大规模业务场景。每年双十一对实时、离线技术也都是极限的考验,而作者就是在这样的环境下成长起来,基于真实业务场景钻研相关的技术,既有实战也有
3114 0
微信程序开发系列教程(三)使用微信API给微信用户发文本消息
微信程序开发系列教程(三)使用微信API给微信用户发文本消息
9 0
iOS开发中 关于阿里云服务器的使用与安全策略 韩俊强的博客
使用背景:         云服务已经很多年了,早期没能加入使用云大军中的一员,后来后悔莫及。2015年记得当时没办法租用的虚拟主机三天两天挂了,导致我认认真真的考虑了一次,觉得还是要使用云服务器! 从免费的主机屋学习版到各种虚拟机的实验,再到之前是用300元左右买的别人的虚拟主机,空间有几G,感觉还行,正好又值他们搞活动,买两年送一年!预存还有返还!心动了,就没有任何考虑就预存了一千块! 开始的几个月感觉还行,速度什么的还过得去,就没去管网站的事了。
1425 0
基于大数据开发套件的增量同步策略
因为近期遇到用户在做ETL操作导入数据到MaxCompute的时候,对如何设置数据同步策略有疑惑,所以今天第一波我们来聊一下数据的同步策略,根据数据的特性,看看哪些数据适合增量同步,哪些适合全量同步,又是如何实现的?请认真看完下面的介绍,这些问题都不是事儿。
4343 0
开启数据智慧,阿里云大数据团队调研高新区
随着“云计算”、“互联网”、“物联网”的快速发展,大数据(Big Data)也吸引了越来越多的人关注,成为社会热点之一。大街小巷不论是技术人员、咨询人士以及各行各业的精英达人都在探讨着“大数据”,“大数据”显然已经成为新一代“网红”。
2014 0
阿里云短信使用入门/开发接口文档一篇文章全搞定
阿里云短信提供秒级触达到达率99%,国际/港澳台短信覆盖200多个国家和地区,阿里云短信接入简单
3383 0
首次曝光 | 阿里数万名开发者都在使用的数据库开发工具到底长什么样?
数据管理DMS(Data Management Service)是阿里巴巴自研图形化的数据库开发工具,已服务阿里巴巴及阿里云上几十万开发者实现安全便捷的数据库访问开发工作。用户可以通过DMS实现25种常见数据库的访问研发。
906 0
首次曝光 | 阿里数万名开发者都在使用的数据库开发工具到底长什么样?
数据管理DMS(Data Management Service)是阿里巴巴自研图形化的数据库开发工具,已服务阿里巴巴及阿里云上几十万开发者实现安全便捷的数据库访问开发工作。用户可以通过DMS实现25种常见数据库的访问研发。
1347 0
FFMPEG音频开发: Linux下采集摄像头(使用V4L2框架)数据录制成MP4视频保存到本地
FFMPEG音频开发: Linux下采集摄像头(使用V4L2框架)数据录制成MP4视频保存到本地
22 0
+关注
上云活动指导
最新阿里云.代金券 https://www.aliyun.com/minisite/goods?userCode=se6p9xeg
200
文章
3
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载