阿里云大数据开发平台,数据集成平台使用教程

本文涉及的产品
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS AI 助手,专业版
简介:


数据集成(Data Integration)是阿里集团对外提供的可跨异构数据存储系统的、可靠、安全、低成本、可弹性扩展的数据同步平台,为20+种数据源提供不同网络环境下的离线(全量/增量)数据进出通道,是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。
关于阿里云数据集成平台更多内容:阿里云数据集成平台使用教程


离线(批量)数据同步简介
离线(批量)的数据通道主要通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(称之为 Reader)、数据写入插件(称之为 Writer),并基于此框架设计一套简化版的中间数据传输格式,从而达到任意结构化、半结构化数据源之间数据传输的目的。
9171


支持数据源类型
数据集成提供丰富的数据源支持,如下所示:
文本存储(FTP / SFTP / OSS / 多媒体文件等)。
数据库(RDS / DRDS / MySQL / PostgreSQL 等)。
NoSQL(Memcache / Redis / MongoDB / HBase 等)。
大数据(MaxCompute / AnalyticDB / HDFS 等)。
MPP 数据库(HybridDB for MySQL 等)。
更多详情请参见 支持数据源类型

注意:
由于每个数据源的配置信息差距较大,需要根据使用情况详细查询参数配置信息。所以在数据源配置、作业配置页面提供了详细描述,请您根据自身情况进行查询使用。


同步开发说明
同步开发提供两种开发模式:向导模式和脚本模式。
1.向导模式:提供向导式的开发引导,通过可视化的填写和下一步的引导,帮助快速完成数据同步任务的配置工作。向导模式的学习成本低,但无法享受到一些高级功能。
2.脚本模式:您可以通过直接编写数据同步的 JSON 脚本来完成数据同步开发,适合高级用户,学习成本较高。脚本模式可以提供更丰富灵活的能力,做精细化的配置管理。



点我领取阿里云2000元代金券,(阿里云优惠券的作用:购买阿里云产品,最后支付结算的时候,阿里云优惠券可抵扣一部分费用。
注意:
向导模式生成的代码可以转换为脚本模式,此转换为单向操作,转换完成后无法恢复到向导模式。因为脚本模式能力是向导模式的超集。
代码编写前需要完成数据源的配置和目标表的创建。
网络类型说明
网络类型分为:经典网络、专有网络(VPC)、本地 IDC 网络(规划中)。
1.经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理由阿里云负责,更适合对网络易用性要求比较高的客户。
2.专有网络:基于阿里云构建出一个隔离的网络环境。您可以完全掌控自己的虚拟网络,包括选择自有的 IP 地址范围,划分网段,以及配置路由表和网关。
3.本地 IDC 网络:您自身构建机房的网络环境,与阿里云网络是隔离不可用的。
4.经典网络和专有网络相关问题请参见 经典网络和VPC常见问题FAQ


补充说明:
1.网络连接可以支持公网连接,网络类型选择经典网络即可。需要注意公网带宽的速度和相关网络费用消耗。无特殊情况不建议使用。
2.规划中的网络连接,进行数据同步,可以使用本地新增运行资源 + 脚本模式的方案进行数据同步传输。或者使用 SHELL + DataX 方案,此方案请参见 使用shell执行datax任务

点我领取阿里云2000元代金券,(阿里云优惠券的作用:购买阿里云产品,最后支付结算的时候,阿里云优惠券可抵扣一部分费用。
3.专有网络 VPC 是构建一个隔离的网络环境,可以自定义 IP 地址范围、网段、网关等随着专有网络安全性提高,专有网络运用越来越广,所以数据集成提供了 RDS-MySQL、RDS-SQL Server、RDS-PostgreSQL,在专有网络下不需要购买一台跟 VPC 同网络的 ECS,系统通过反向代理会自动检测从而网络能够互通。对于阿里云其他的数据库 PPAS、OceanBase、Redis、MongoDB、Memcache、TableStore、HBase 等,后续也会提供支持。所以非 RDS 的数据源在专有网络下配置数据集成的同步任务需要购买同网络的 ECS,这样可以通过 ECS 连通网络。


约束与限制
1.支持且仅支持结构化(例如 RDS、DRDS 等)、半结构化、无结构化(OSS、TXT 等,要求具体同步数据必须抽象为结构化数据)的数据同步。换言之,Data Integration 支持传输能够抽象为逻辑二维表的数据同步,其他完全非结构化数据,例如 OSS 中存放的一段 MP3,Data Integration 暂未支持将其同步到 MaxCompute,这个功能会在后期实现。
2.支持单个和部分跨 region 地域内数据存储相互同步、交换的数据同步需求。
3.部分地域通过经典网络是可以传输的,不能保证。如果必须使用且测试经典网络不通,可以考虑使用公网方式连接。
4.仅完成数据同步(传输),本身不提供数据流的消费方式。

阿里云服务器:活动地址

购买可领取:阿里云代金券

目录
相关文章
|
6月前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
3586 166
|
8月前
|
弹性计算 运维 安全
云迁移最佳实践:HyperMotion助中小企业高效上云,阿里云工具集深度集成三方迁移工具
中小企业上云需求强烈,但面临缺乏了解、无合适方案及成本过高等挑战。为解决这些问题,推出“云迁移HyperMotion阿里云集成版”,提供三步上云、自助迁移、自动适配等能力,助力企业高效、低成本完成迁移。
254 0
|
11月前
|
人工智能 安全 Shell
Jupyter MCP服务器部署实战:AI模型与Python环境无缝集成教程
Jupyter MCP服务器基于模型上下文协议(MCP),实现大型语言模型与Jupyter环境的无缝集成。它通过标准化接口,让AI模型安全访问和操作Jupyter核心组件,如内核、文件系统和终端。本文深入解析其技术架构、功能特性及部署方法。MCP服务器解决了传统AI模型缺乏实时上下文感知的问题,支持代码执行、变量状态获取、文件管理等功能,提升编程效率。同时,严格的权限控制确保了安全性。作为智能化交互工具,Jupyter MCP为动态计算环境与AI模型之间搭建了高效桥梁。
725 2
Jupyter MCP服务器部署实战:AI模型与Python环境无缝集成教程
|
SQL 关系型数据库 MySQL
【亲测有用】数据集成平台能力演示(支持国产数据库DaMeng与KingBase)
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
【亲测有用】数据集成平台能力演示(支持国产数据库DaMeng与KingBase)
|
缓存 运维 监控
Anolis OS深度集成运维利器 阿里云操作系统控制台上线
阿里云在百万服务器运维领域的丰富经验打造。
Anolis OS深度集成运维利器 阿里云操作系统控制台上线
|
缓存 前端开发 API
(网页系统集成CAD功能)在线CAD中配置属性的使用教程
本文介绍了Mxcad SDK在线预览和编辑CAD图纸的功能及配置方法。通过Vite、CDN或Webpack实现集成,用户可自定义设置以满足项目需求。主要内容包括:1)`createMxCad()`方法的初始属性配置,如画布ID、WASM文件路径、字体加载路径等;2)`MxFun.setIniset()`方法提供的更多CAD初始配置;3)`McObject`对象API用于动态调整视图背景色、浏览模式等。此外,还提供了在线Demo(https://demo2.mxdraw3d.com:3000/mxcad/)供用户测试实时效果。
|
NoSQL 大数据 关系型数据库
AllData数据中台核心菜单十一:数据集成平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
AllData数据中台核心菜单十一:数据集成平台
|
机器学习/深度学习 人工智能 自然语言处理
企业级API集成方案:基于阿里云函数计算调用DeepSeek全解析
DeepSeek R1 是一款先进的大规模深度学习模型,专为自然语言处理等复杂任务设计。它具备高效的架构、强大的泛化能力和优化的参数管理,适用于文本生成、智能问答、代码生成和数据分析等领域。阿里云平台提供了高性能计算资源、合规与数据安全、低延迟覆盖和成本效益等优势,支持用户便捷部署和调用 DeepSeek R1 模型,确保快速响应和稳定服务。通过阿里云百炼模型服务,用户可以轻松体验满血版 DeepSeek R1,并享受免费试用和灵活的API调用方式。
829 12
|
安全 持续交付 云计算
课时5:阿里云容器服务:最原生的集成Docker和云服务
阿里云容器服务以服务化形式构建容器基础设施,大幅提升开发效率,简化应用部署流程。通过Docker容器和DevOps工具(如Jenkins),实现自动化部署与迭代,优化企业内部复杂部署问题。该服务支持GPU调度、混合云架构无缝迁移,并与阿里云产品体系无缝集成,提供安全防护、网络负载均衡等多重功能支持。凭借微服务架构,帮助企业突破业务瓶颈,提高资源利用率,轻松应对海量流量。
457 0
课时5:阿里云容器服务:最原生的集成Docker和云服务
|
人工智能 自然语言处理 搜索推荐
阿里云 AI 搜索开放平台集成 DeepSeek 模型
阿里云 AI 搜索开放平台最新上线 DeepSeek -R1系列模型。
669 2