大数据搬站step by step

简介: IDC,ECS自建和云数据库之间的数据搬站 1 IDC -> MaxCompute / EMR **【方案】:使用“独享数据集成资源组”,绑定可以连通用户IDC的用户VPC,然后提工单,由阿里云数据集成开发人员在独享数据集成资源组上配置路由,使独享数据集成资源组可以访问IDC内数据源。

IDC / ECS自建和云数据库之间的数据搬站

1 IDC -> MaxCompute / EMR

【方案】:使用“独享数据集成资源组”,绑定可以连通用户IDC的用户VPC,然后提工单,由阿里云数据集成开发人员在独享数据集成资源组上配置路由,使独享数据集成资源组可以访问IDC内数据源。

1.1 IDC Hadoop(HDFS / Hive)-> EMR

【HDFS读取】:https://help.aliyun.com/knowledge_detail/137721.html
【HDFS写入】https://help.aliyun.com/knowledge_detail/137759.html

1.12  前期准备

  • 创建好EMR集群,详细文档请参见:E-MapReduce集群创建
  • 现在自建Hadoop迁移到E-MapReduce可以通过OSS进行过度,或者使用阿里云高速通道产品建立线下IDC和线上E-MapReduce所在VPC网络的连通。
  • 配置DataWorks独享数据集成资源组,详细文档请参见:独享资源模式

本文以在华北2(北京)区域创建项目为例,同时启动Dataworks的相关服务。

2.12  数据准备

IDC集群测试数据准备,本例中HIVE建表语句如下:

CREATE TABLE IF NOT EXISTS test(
id INT,
name STRING,
hobby STRING,
region STRING
)
PARTITIONED BY(pt string)
row format delimited
fields terminated by ','
lines terminated by '\n'
;

插入测试数据:

insert into
test PARTITION(pt =1) values(1,'xiaoming','book','beijing'),(2,'lilei','TV','nanjing'),(3,'lihua','music','hebei'),(4,'xiaoma','draw','henan'),(5,'laoli','piano','heinan');

2.13 IDC自建Hadoop数据源连接
Dataworks数据集成-数据源管理-新增数据源-HDFS
1
   
使用“独享数据集成资源组”,绑定可以连通用户IDC的用户VPC,然后提工单,由阿里云数据集成开发人员在独 享数据集成资源组上配置路由,使独享数据集成资源组可以访问IDC内数据源。

EMR的Hadoop数据源连接
Dataworks数据集成-数据源管理-新增数据源-HDFS
2

3

2.14 在EMR的Hadoop上创建目录来存放ECS集群同步过来的数据

hadoop fs -mkdir /emr_test

2.15 在DataWorks中创建数据同步节点
    配置数据同步节点并点击转换为脚本模式,配置MaxCompute Reader 和 HDFS Writer 脚本可参考官方文档:配置HDFS Reader 和 配置HDFS Writer
本文档中配置如下:

{                                                           
    "type": "job",
    "steps": [
        {
            "stepType": "hdfs",
            "parameter": {
                "path": "/user/hive/warehouse/gitdatabase.db/test/",
                "datasource": "IDC_EMR",
                "column": [
                    "*"
                ],
                "encoding": "UTF-8",
                "fieldDelimiter": ",",
                "fileType": "text"
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "hdfs",
            "parameter": {
                "path": "/emr_test/",
                "fileName": "emr_test",
                "datasource": "IDC_EMR",
                "column": [
                    {
                        "name": "id",
                        "type": "int"
                    },
                    {
                        "name": "name",
                        "type": "string"
                    },
                    {
                        "name": "hobby",
                        "type": "string"
                    },
                    {
                        "name": "region",
                        "type": "string"
                    },
                    {
                        "name": "col5",
                        "type": "date"
                    }
                ],
                "writeMode": "append",
                "encoding": "UTF-8",
                "fieldDelimiter": ",",
                "fileType": "text"
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "version": "2.0",
    "order": {
        "hops": [
            {
                "from": "Reader",
                "to": "Writer"
            }
        ]
    },
    "setting": {
        "errorLimit": {
            "record": ""
        },
        "speed": {
            "concurrent": 2,
            "throttle": true,
            "mbps": "10"
        }
    }
}

配置独享资源组:
4

2.16 脚本按需求配置并保存,运行节点:
5

查看EMR集群hdfs数据是否同步成功:hadoop fs -cat /emr_test/*
6

1.2 IDC Kafka -> EMR Kafka

【Kafka读取】:https://help.aliyun.com/knowledge_detail/137745.html
【Kafka写入】https://help.aliyun.com/knowledge_detail/145510.html

1.21  环境准备

  • 已完成阿里云EMR服务自动化搭建Kafka集群,详细文档请参见:E-MapReduce
  • 数据工场DataWorks,详细文档请参见:DataWorks
  • 购买独享数据集成资源,使独享资源组可以访问您的云资源,详细文档请参见:独享资源组模式
    IDC自建需要与线上E-MapReduce所在网络的连通。

为保证您可以顺利登录EMR集群Header主机,及DataWorks可以顺利和EMR集群Header主机通信,请您首 先配置EMR集群Header主机安全组,放行TCP 22及TCP 9092端口。
本文中在华北2(北京)区域创建项目,同时启动DataWorks相关服务。通过独享集成资源组绑定到与Kafka对应的VPC,点击专有网络绑定,选择与Kafka对应的交换机进行连接。

1.22  准备IDC kafka测试数据
创建测试Topic
执行如下命令创建测试所使用的Topic testkafka。

[root@emr-header-1 ~]# kafka-topics.sh --zookeeper emr-header-1:2181/kafka-1.0.1 --partitions 10 --replication-factor 3 --topic testkafka  --create
Created topic "testkafka".

执行如下命令查看已创建的Topic。

[root@emr-header-1 ~]# kafka-topics.sh  --list --zookeeper emr-header-1:2181/kafka-1.0.1
__consumer_offsets
_emr-client-metrics
_schemas
connect-configs
connect-offsets
connect-status
testkafka

写入测试数据
您可以执行如下命令,模拟生产者向Topic testkafka中写入数据。由于Kafka用于处理流式数据,您可以持续不断的向其中写入数据。为保证测试结果,建议您写入10条以上的数据。

[root@emr-header-1 ~]# kafka-console-producer.sh --broker-list emr-header-1:9092 --topic testkafka
>123
>abc
>

为验证写入数据生效,您可以同时再打开一个SSH窗口,执行如下命令,模拟消费者验证数据是否已成功写入Kafka。当数据写入成功时,您可以看到已写入的数据。

[root@emr-header-1 ~]# kafka-console-consumer.sh --bootstrap-server emr-header-1:9092 --topic testkafka --from-beginning
123
abc

1.23  在EMR kafka创建topic来放同步过来的数据:

[root@emr-header-1 ~]# kafka-topics.sh --zookeeper emr-header-1:2181/kafka-1.0.1 --partitions 10 --replication-factor 3 --topic emrkafka  --create
Created topic "testkafka".

 
1.24  数据同步
       a. 在您的业务流程中右键单击数据集成,选择新建 > 数据集成 > 离线同步。
       b. 新建数据同步节点后,您需要选择数据来源的数据源为kafka,数据去向的数据源为kafka,完成上述配置后,请单击下图框中的按钮,转换为脚本模式
       c. 完成脚本配置后,请首先切换任务资源组为您创建的独享资源组,然后单击运行。

1.25  确认数据导入    
       a. 完成运行后,您可以在运行日志中查看运行结果,如下为成功运行的日志。
       b. 查看EMR Kafka数据是否成功写入。

1.3 IDC MySQL -> MaxCompute

【MySQL读取】
https://help.aliyun.com/knowledge_detail/137725.html  
【MaxCompute写入】
https://help.aliyun.com/knowledge_detail/137466.html

1.31  环境准备

  • 大数据计算服务MaxCompute,详细文档请参见:MaxCompute
  • 数据工场DataWorks,详细文档请参见:DataWorks
  • 购买独享数据集成资源,使独享数据资源可以访问您IDC的数据源,详细文档请参见:独享资源模式

1.32  数据采集
本文通过开通数据网关资源,使用DMS来管理IDC的MySQL。通过数据集成-数据源-新增数据源MySQL JDBC Url连接。

1.33 在MaxCompute中创建数据表存放同步过来的数据。本实例建表:idc_my。

1.34  数据同步
配置MySQL数据同步节点
7

配置数据集成任务时,将默认资源组配置为需要的独享数据集成资源。
通过向导模式配置任务时,在通道控制 > 任务资源组下拉框中,选择相应的独享数据集成资源。
8

9

确认当前节点的配置无误后,单击左上角的保存。
关闭当前任务,返回业务流程配置面板。

1.35 运行业务流程
右键单击rds_数据同步节点,选择查看日志。
当日志中出现如下字样,表示同步节点运行成功,并成功同步数据。
10
然后在数据开发页面,单击左侧导航栏中的临时查询,进入临时查询面板,再确认数据是否已经导入MaxCompute中。

2 云上ECS自建 -> MaxCompute / EMR

【方案】:使用“独享数据集成资源组”,绑定可以自建数据源所在用户VPC,然后提工单,由阿里云数据集成开发人员在独享数据集成资源组上配置路由,使独享数据集成资源组可以访问ESC内数据源。

2.1 ECS Hadoop(HDFS / Hive)-> EMR

2.11  前提条件

  • 配置DataWorks独享数据集成资源组,详细文档请参见:独享资源模式
  • 创建好EMR集群。
  • 由于 VPC 实现用户专有网络之间的逻辑隔离,E-MapReduce 建议使用 VPC 网络。
  • 经典网络与 VPC 网络打通
    如果 ECS 自建 Hadoop,需要通过 ECS 的classiclink的方式将经典网络和 VPC 网络打通,参见建立 ClassicLink 连接
  • VPC 网络之间连通
    数据迁移一般需要较高的网络带宽连通,建议新旧集群尽量处在同一个区域的同一个可用区内。

本文以在华北2(北京)区域创建项目为例,同时启动Dataworks的相关服务。

2.12  数据准备
ECS集群测试数据准备
本例中HIVE建表语句如下:

CREATE TABLE IF NOT EXISTS test(
id INT,
name STRING,
hobby STRING,
region STRING
)
PARTITIONED BY(pt string)
row format delimited
fields terminated by ','
lines terminated by '\n'
;

插入测试数据:

insert into
test PARTITION(pt =1) values(1,'xiaoming','book','beijing'),(2,'lilei','TV','nanjing'),(3,'lihua','music','hebei'),(4,'xiaoma','draw','henan'),(5,'laoli','piano','heinan');

2.13 ECS自建Hadoop数据源连接
Dataworks数据集成-数据源管理-新增数据源-HDFS
11

使用“独享数据集成资源组”,绑定可以自建数据源所在用户VPC,然后提工单,由阿里云数据集成开发人员在独享数据集成资源组上配置路由,使独享数据集成资源组可以访问ESC内数据源。

EMR的Hadoop数据源连接
Dataworks数据集成-数据源管理-新增数据源-HDFS
12
13

2.14 在EMR的Hadoop上创建目录来存放ECS集群同步过来的数据

hadoop fs -mkdir /emr_test

2.15 在DataWorks中创建数据同步节点
配置数据同步节点并点击转换为脚本模式, 配置MaxCompute Reader 和 HDFS Writer 脚本可参考官方文档:配置HDFS Reader 和 配置HDFS Writer
本文档中配置如下:

{                                                           
    "type": "job",
    "steps": [
        {
            "stepType": "hdfs",
            "parameter": {
                "path": "/user/hive/warehouse/gitdatabase.db/test/",
                "datasource": "IDC_EMR",
                "column": [
                    "*"
                ],
                "encoding": "UTF-8",
                "fieldDelimiter": ",",
                "fileType": "text"
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "hdfs",
            "parameter": {
                "path": "/emr_test/",
                "fileName": "emr_test",
                "datasource": "IDC_EMR",
                "column": [
                    {
                        "name": "id",
                        "type": "int"
                    },
                    {
                        "name": "name",
                        "type": "string"
                    },
                    {
                        "name": "hobby",
                        "type": "string"
                    },
                    {
                        "name": "region",
                        "type": "string"
                    },
                    {
                        "name": "col5",
                        "type": "date"
                    }
                ],
                "writeMode": "append",
                "encoding": "UTF-8",
                "fieldDelimiter": ",",
                "fileType": "text"
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "version": "2.0",
    "order": {
        "hops": [
            {
                "from": "Reader",
                "to": "Writer"
            }
        ]
    },
    "setting": {
        "errorLimit": {
            "record": ""
        },
        "speed": {
            "concurrent": 2,
            "throttle": true,
            "mbps": "10"
        }
    }
}

配置独享资源组:
14

2.16 脚本按需求配置并保存,运行节点:
15

查看EMR集群hdfs数据是否同步成功:hadoop fs -cat /emr_test/*
16

2.2 ECS MySQL -> MaxCompute

【MySQL读取】
https://help.aliyun.com/knowledge_detail/137725.html
【MaxCompute写入】
https://help.aliyun.com/knowledge_detail/137466.html

2.21 环境准备

  • 大数据计算服务MaxCompute,详细文档请参见:MaxCompute
  • 数据工场DataWorks,详细文档请参见:DataWorks
  • 购买独享数据集成资源,使Dataworks可以访问您的云资源,详细文档请参见:独享资源组模式
    本文以在华北2(北京)区域创建项目为例,同时启动Dataworks的相关服务。经典网络ECS上自建的数据源和DataWorks在同已区域为例。

2.22 数据采集
(1)以项目管理员身份登录DataWorks控制台,单击相应工作空间后的进入数据集成。
(2)单击左侧导航栏中的数据源,即可跳转至工作空间管理 > 数据源管理页面。
(3)单击数据源管理页面右上角的新增数据源。
(4)在新增数据源对话框中,选择数据源类型为MySQL。
(5)填写MySQL数据源的各配置项。 
MySQL数据源类型需要用连接串模式。
17
(6)单击测试连通性。
(7)连通性测试通过后,单击完成。

2.23 在MaxCompute中建立数据表,存放数据同步过来的数据。本次同步建表:test_tab。

2.24 新建数据同步任务
在DataWorks上新建数据同步节点,详情请参见数据同步节点。
18

19

配置数据集成任务时,将默认资源组配置为需要的独享数据集成资源。
20

完成上述配置后,单击运行即可。运行成功日志示例如下所示。
21

2.25  确认数据是否成功导入MaxCompute
22

3 云上DB  -> MaxCompute / EMR

【方案】直接创建云上DB数据源,然后向导模式配置同步任务即可

3.1 RDS / Mongo -> MaxCompute

【创建RDS数据源】:https://help.aliyun.com/knowledge_detail/137690.html
【创建MongoDB数据源】:https://help.aliyun.com/knowledge_detail/137675.html
【MaxCompute写入】
https://help.aliyun.com/knowledge_detail/137466.html

3.11  环境准备

  • 大数据计算服务MaxCompute,详细文档请参见:MaxCompute
  • 数据工场DataWorks,详细文档请参见:DataWorks
    3.12 数据采集

新增MySQL数据源
(6) 以项目管理员身份登录DataWorks控制台,单击相应工作空间后的进入数据集成。
(7) 单击左侧导航栏中的数据源,即可跳转至工作空间管理 > 数据源管理页面。
(8) 单击数据源管理页面右上角的新增数据源。
(9) 在新增数据源对话框中,选择数据源类型为MySQL。
(10) 填写MySQL数据源的各配置项。
MySQL数据源类型包括阿里云实例模式和连接串模式。
以新增MySQL > 阿里云实例模式类型的数据源为例。
23
24

(6)  单击测试连通性。
(7)  连通性测试通过后,单击完成。

新增MongoDB数据源
(1) 单击左侧导航栏中的数据源,即可跳转至工作空间管理 > 数据源管理页面。
(2) 单击数据源管理页面右上角的新增数据源。
(3) 在新增数据源对话框中,选择数据源类型为MongoDB。
(4) 填写MongoDB数据源的各配置项。

MongoDB数据源类型包括实例模式(阿里云数据源)和连接串模式。
实例模式(阿里云数据源):通常使用经典网络类型,同地区的经典网络可以连通,跨地区的经典网络不保证可以连通。
连接串模式:通常使用公网类型,可能产生一定的费用。
以新增MongDB > 实例模式(阿里云数据源)类型的数据源,经典网络为例。
25
26

(5) 单击测试连通性。
(6)测试连通性通过后,单击完成。

3.13 登录MongoDB的DMS控制台,本示例使用的数据库为admin,集合为abc。
27

3.14 新建表
(1)在数据开发页面打开新建的业务流程,右键单击MaxCompute,选择新建 > 表。
(2)在新建表对话框中,输入表名,单击提交。
此处需要创建2张表(msl_maxc和mon_maxc),分别存储同步过来的MySQL日志数据和MongoDB日志数据。

3.15 新建数据同步任务
在DataWorks上新建数据同步节点,详情请参见数据同步节点。
28

配置MySQL数据同步节点
29

配置MongoDB的数据同步节点。(不支持向导模式,此例为脚本模式)

  {
"type": "job",
"steps": [
{
"stepType": "mongodb",
"parameter": {
"datasource": "mon_maxc",
"column": [
{
"name": "store.bicycle.color",
"type": "document.string"
}
],
"collectionName": "abc"
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "odps",
"parameter": {
"tableType": null,
"partition": "",
"truncate": true,
"datasource": "odps_first",
"column": [
"*"
],
"guid": null,
"emptyAsNull": false,
"table": "mon_maxc"
},
"name": "Writer",
"category": "writer"
}
],
"version": "2.0",
"order": {
"hops": [
{
"from": "Reader",
"to": "Writer"
}
]
},
"setting": {
"errorLimit": {
"record": ""
},
"speed": {
"concurrent": 2,
"throttle": false
}
}
}

3.15 完成上述配置后,单击运行即可。运行成功日志示例如下所示。
30

确认数据是否成功导入MaxCompute
31

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
消息中间件 NoSQL Java
别再用 Redis List 实现消息队列了,Stream 专为队列而生
别再用 Redis List 实现消息队列了,Stream 专为队列而生
437 0
|
人工智能 自然语言处理 监控
蓝耘智算:开启智能算力新时代
蓝耘智算作为智能算力领域的新兴平台,为AI应用提供强大计算支持。它通过异构算力重构、丰富模型库与低代码工具,降低使用门槛,助力中小企业发展。其应用场景涵盖内容创作、金融、医疗、教育、制造及智慧城市等领域,以高效算力与军工级安全体系推动行业创新。未来,蓝耘智算将融合更多前沿技术,持续拓展应用边界,为数字化时代注入新动力。
|
自然语言处理 前端开发
收藏级5款免费wordpress主题分享
本文分享了5款值得收藏的免费WordPress主题:1. OceanWP,现代多功能主题,适合电商;2. Divi,高级主题带页面构建器,功能丰富;3. Breakthrough Pro,基于Genesis框架的企业主题;4. Neve,时尚主题支持多语言;5. Ultra,商业主题搭配Themify构建器。每款主题均附有预览图,方便选择。更多主题可访问http://ztmao.com。
564 1
|
安全 C# 开发者
Windows Forms 应用开发:一分钟浅谈
本文将带领您从零开始,逐步掌握使用 C# 进行 Windows Forms 开发的技巧,包括创建首个应用、处理常见问题及优化方法。首先介绍如何搭建环境并编写基础代码,接着深入探讨控件使用与布局管理,解决控件重叠和响应式布局难题。最后讲解事件处理与多线程技术,确保长时间任务不阻塞界面,并安全更新 UI 状态,助您开发流畅的应用程序。
710 63
|
人工智能 安全 搜索推荐
《盘古大模型——鸿蒙NEXT的智慧引擎》
华为HarmonyOS NEXT发布,将AI与操作系统深度融合,开启智能新时代。其中,盘古大模型为核心,赋予小艺智能助手超强的记忆、推理和规划能力,支持23类记忆类型及万亿token知识量,实现复杂功能如图片转表格、邮件规划导航等,极大提升用户操作效率。同时,盘古大模型助力开发者快速开发智能应用,降低开发门槛,推动智能生态发展。系统还通过星盾安全架构保障数据安全与隐私,确保用户体验更智能、更安全。
1566 18
|
存储 算法 测试技术
【C++数据结构——线性表】求集合的并、交和差运算(头歌实践教学平台习题)【合集】
本任务要求编写程序求两个集合的并集、交集和差集。主要内容包括: 1. **单链表表示集合**:使用单链表存储集合元素,确保元素唯一且无序。 2. **求并集**:遍历两个集合,将所有不同元素加入新链表。 3. **求交集**:遍历集合A,检查元素是否在集合B中存在,若存在则加入结果链表。 4. **求差集**:遍历集合A,检查元素是否不在集合B中,若满足条件则加入结果链表。 通过C++代码实现上述操作,并提供测试用例验证结果。测试输入为两个集合的元素,输出为有序集合A、B,以及它们的并集、交集和差集。 示例测试输入: ``` a c e f a b d e h i ``` 预期输出:
478 7
|
存储 分布式数据库 数据处理
未来数据库技术发展趋势及挑战
【2月更文挑战第2天】 传统的数据库技术面临着越来越多的挑战,如数据规模的爆炸性增长、实时性和可扩展性要求的提升等。本文将探讨未来数据库技术的发展趋势,包括分布式数据库、无服务器数据库、区块链技术在数据库领域的应用等,并分析这些新技术带来的机遇和挑战。
|
机器学习/深度学习 PyTorch 编译器
PyTorch 与 TorchScript:模型的序列化与加速
【8月更文第27天】PyTorch 是一个非常流行的深度学习框架,它以其灵活性和易用性而著称。然而,当涉及到模型的部署和性能优化时,PyTorch 的动态计算图可能会带来一些挑战。为了解决这些问题,PyTorch 引入了 TorchScript,这是一个用于序列化和优化 PyTorch 模型的工具。本文将详细介绍如何使用 TorchScript 来序列化 PyTorch 模型以及如何加速模型的执行。
914 4
|
SQL 安全 关系型数据库
关系型数据库SQL server DELETE 语句
【8月更文挑战第3天】
578 10

热门文章

最新文章