开发者学堂课程【阿里云 DataHub 使用教程: 通过 Connector 同步到 Odps】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/429/detail/5365
通过 Connector 同步到 Odps
通过 Data Hub 向 Odps 离线表同步数据
首先,进入 Data Hub 控制台,点击创建 Topic,其中一个选项是导入Maxcompute 表结构,也就是可以导入 Odps 表结构来直接创建 topic。
MaxCompute 项目名称为 datahub_test1,MaxCompute 表名称为 test_dh_replica,选中自动创建 DataConnector,会在创建 topic 的同时创建一个同步任务,点击导入表结构,表的结构会映射到 DataHub 中,会创建 test_dh_replica 名称的 Topic,类型为强 Schema 格式,Schema 有三个字段,即f1、f2以及 pt ,Shard 数量为1,生命周期为3天,点击创建。
创建成功后,在 Topic 列表中可看到 topic,(如下两图)点击查看,进入到 topic详情,可以看到目前有一个没有数据的通道,在 Connector 页面,可看到 topic 对应同步的任务目的地名称,目的地 ops project 是 datahub_test1,目的表是 test_dh_replica,
最新的写入时间和已归档时间都是初始值,因为还没有写入数据。
通过数据采集向 topic 中上传数据。
上传成功后,点击项目管理查看 topic ,Shards 中显示已写入10条数据量,查看Connector 详情,最新写入时间为当前时间,已归档时间是根据目前最新的一条记录时间确定的,查看 Connector 详情,向 odps 离线表同步的任务是默认64M 一次,或五分钟就会强行写入,可以保证的是五分钟以内,数据一定会同步到odps 离线表中,可以不断刷新查看到 Connector 的最新详情(如下图),
包括已经写入的时间和当前的一些点位,当前点位是0,说明还没有到最后的 Connector 一步,运行状态为 RUNNING。
可以不断刷新 Connector 状态,当前点位已经从0变成9,(如下图)运行状态为RUNNING, 当前点位就代表目前已经复制的点位,从0开始,复制10条数据,所以现在是9。
复制完后,到ops 控制台进行查看,先查看下分区,再扫描表里的数据,可以看到pt=test 分区已经创建成功,10条数据也可以看到,以上为 Connector 整个流程,流失的数据也通过这样的方式不断同步到离线表中。