基于DataIDE数据集成实现香港ECS上的MySQL数据同步到数加MaxCompute

简介: 最近有朋友问,客户在香港ECS上搭建的MySQl,大概有100GB以上的数据,能否通过MaxCompute做海量数据分析,我的回答是YES! 但客户担心香港与大陆之前数据连通性问题,我的回答依然是YES! 为了让更多个客户不再困扰,笔者做了一份教程,可以通过大数据开发套件中的经典网络进行同步数据

最近有朋友问,客户在香港ECS上搭建的MySQl,大概有100GB以上的数据,能否通过MaxCompute做海量数据分析,我的回答是YES!

但客户担心香港与大陆之间数据连通性问题,我的回答依然是YES!

为了让更多个客户不再困扰,笔者做了一份教程,可以通过大数据开发套件中的经典网络进行同步数据,有图为证!


准备工作

1、注册并开通阿里云账号、Access id、Access Key;开通方法:https://help.aliyun.com/document_detail/47703.html?spm=5176.doc30266.6.544.NLgOin

2、购买并开通香港区域经典网络ECS;购买地址:https://ecs.console.aliyun.com/#/create/prepay/?data=eyJkYXRhIjp7InZtX3JlZ2lvbl9ubyI6ImNuLWhvbmdrb25nLWFtNC1jMDQifX0%3D

3、下载并搭建MySQL 5.7 ;下载地址:https://dev.mysql.com/downloads/windows/installer/5.7.html

4、购买并开通MaxCompute、大数据开发套件;开通方法:https://help.aliyun.com/document_detail/30263.html?spm=5176.doc30262.6.546.El4j9u


跨区域数据同步

1、设置ECS安全组

进入ECS管控台->ECS管理,设置安全组,添加外网3306 IP访问权限;

 

 f7501526b478741cca22874302e833fc6b47c67d

 

2、添加数据源


通过控制台进入大数据开发套件;


ff5c1472379417d231e14b1bb1ee283b61c1f786


点击数据集成->左侧列表"数据源"页面->点击右上交“新增数据源”;

输入数据源MySQL57_hk,选择MySQL 经典网络,MySQL的JDBC地址、账号信息;

点击连通性验证网络;如果不通,请参照本文常见问题;

bdd8210dc59e5aadef68e7cf737f718dcfb90851


3、创建并设置同步任务

点击进入同步任务,选择需要导入的源表;

数据源MySQL57_hk,选择或通过搜索框查找"movie_info_mysql_hk",点击下一步;


df1526a0b37c79b3b39e424888ff29139c9e248e


选择目标数据库opds_first,点击快速建表,同步表结构,修改脚本中的表名,改为movie_info,点击提交;


28177f3a3c70d6a3aad1a539025657335733a9bd



分区信息默认为时间变量,点下一步;

a1f4b5e978a929b172a2e068212e55ddd55d1124


字段自动映射,跳过即可;


b79ea84c0c6552095b42a48488dfc6acb0f3db69


通道控制默认,点击下一步;


dba3675343ee87b23ec5d46e2c49ad0ee9e5d21a


预览后,点击保存;


51168c6cff4076afab9946c9619e48b2ebbad9e7

点击保存后,命名数据同步任务名称hk_mysql_data1;


4e435607d0dd6b3730033f1575e1d91a24f26313


4、执行并验证数据

手动执行数据同步,点击运行,选择当天时间戳;


dcc275e50bd4e456c5e0d3b4f16b977ecf3c21a8


 执行完成后,我们去验证一下数据;


035d1363c518548ae9cd11584c22c04e92ef9dbf



进入大数据开发套件->数据开发;


5eea9708a60af6bc47f519f73d796dd1b5323568

 


验证导入的数据;

 

 


29f764b8e3c082425cdb7cc571f850b90010a7af


实验遇到的问题 


Q:大数据开发套件(数据集成)中连接不上ECS上的MySQL ,提示:测试连接失败,测试数据源连通性失败:连接数据库失败数据库连接串:jdbc:mysql://47.90.89.23:3306/MySQL57-hk, 用户名:root, 异常消息:Communications link failure The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server.


A进入ECS安全组规则->设置网络入口访问权限,测试的话可以设置为0.0.0.0/0;

f7501526b478741cca22874302e833fc6b47c67d


Q:大数据开发套件(数据集成)中连接不上ECS上的MySQL ,提示:测试连接失败,测试数据源连通性失败:连接数据库失败数据库连接串:jdbc:mysql://47.90.89.23:3306/mysql, 用户名:root, 异常消息:null, message from server: "Host '121.43.110.160' is not allowed to connect to this MySQL server"


A:MySQL设置远程访问权限,参照:http://kouss.com/aliyun-ecs-mysql-allow-navicat.html


c35f8419f39373be2b6c7b53c4b6c38757999e8b

 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2天前
|
消息中间件 关系型数据库 MySQL
MySQL 到 Kafka 实时数据同步实操分享(1),字节面试官职级
MySQL 到 Kafka 实时数据同步实操分享(1),字节面试官职级
|
2天前
|
机器学习/深度学习 关系型数据库 MySQL
MySQL 到 Greenplum 实时数据同步实操分享,2024年最新【Python面试题
MySQL 到 Greenplum 实时数据同步实操分享,2024年最新【Python面试题
|
2天前
|
SQL Oracle 关系型数据库
实时计算 Flink版产品使用合集之从MySQL到Flink 1.16.2 Flink-SQL的数据同步工作出现了一个异常如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
14 0
|
2天前
|
SQL 分布式计算 关系型数据库
实时计算 Flink版产品使用合集之MySQL CDC Connector是否需要在Flink服务器上单独部署
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
11 0
|
4天前
|
关系型数据库 MySQL Linux
服务器Linux系统配置mysql数据库主从自动备份
这是一个基本的配置主从复制和设置自动备份的指南。具体的配置细节和命令可能因您的环境和需求而有所不同,因此建议在操作前详细阅读MySQL文档和相关资源,并谨慎操作以避免数据丢失或不一致。
16 3
|
4天前
|
定位技术 数据安全/隐私保护 数据中心
香港vps服务器
当选择香港VPS服务器时,需要考虑提供商的信誉、技术支持、价格、服务协议等因素,以确保选择最适合您需求的服务。此外,还需要评估您的应用程序和用户的地理位置,以确定香港是否是最佳的服务器位置。
34 0
|
4天前
|
存储 固态存储 安全
阿里云服务器香港地域租用收费标准参考
阿里云有香港云服务器吗?当然是有的,香港地域云服务器即可满足外贸型企业用户需求,也可以满足部分国内用户的需求,本文为大家展示2024年阿里云服务器香港地域的最新收费标准,以供参考。
阿里云服务器香港地域租用收费标准参考
|
4天前
|
弹性计算 关系型数据库 MySQL
|
4天前
|
SQL JSON 分布式计算
DataWorks产品使用合集之DataWorks一键maxcompute数据同步的操作步骤是什么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
26 0
|
4天前
|
DataWorks Shell 对象存储
DataWorks产品使用合集之在 DataWorks 中,有一个 MySQL 数据表,数据量非常大且数据会不断更新将这些数据同步到 DataWorks如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
33 3

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute