新老DataHub迁移手册

简介: 原Odps版内测DataHub,于2016年11月21日起已经处于维护状态,新版DataHub届时已经开启公测,公测至今已有一年时间,我们决定开始逐步下线老DataHub服务,老版部分用户需要迁移至新版DataHub。

DataHub服务用户迁移文档

前言

原Odps版内测DataHub(下文统称为老DataHub服务),于2016年11月21日起已经处于维护状态,新版DataHub届时已经开启公测,公测至今已有半年以上时间,我们决定开始逐步下线老DataHub服务,老版部分用户需要迁移至新版DataHub。

新版本具有更多的特性,性能功能都有不少提升,可以同时支持数据一份数据同步到Odps、OSS、ElasticSearch等多个不同服务中,且提供WebConsole控制台进行更简单的操作。

准备工作

本文档针对使用Logstash、Fluentd、Flume以及使用SDK写入老DataHub服务的用户,提供迁移到新服务的指引,过程中遇到任何困难可以联系我们

dingtalk

新版DataHub相关文档

DataHub产品使用文档

DataHub控制台

创建新datahub project

新版DataHub中存在项目空间-Project概念,与Odps中Project类似,但是不等于Odps中的Project,为了方便管理,我们建议迁移时在DataHub中创建与Odps Project同名的Project(不同名称也可以)

  • 登录DataHub官网控制台,使用阿里云账号登录;
  • 点击创建Project,输入名称及描述,点击创建(Project描述中建议携带Project用处及Owner的邮箱或联系方式)

创建新DataHub topic

新版DataHub存在主题-Topic的概念,与Odps的Table类似,但是不等于Odps的Table,通常如果是需要导入数据到Odps的话,需要为每张表创建一个Topic,且字段类型、顺序与名称需要一致,Odps中的分区字段当做普通的Topic字段处理,新版DataHub会根据该分区字段再DataHub中的数据值,将数据同步到Odps离线表中。

例如:

MaxCompute表: table_test(f1 string, f2 string, f3 double) partitioned by (ds string, pt string)
对应Topic应为如下的Schema:
Topic: topic_test(f1 string, f2 string, f3 double, ds string, pt string)

创建Topic可以通过以下方式:

  • 若Topic数量较少,可以再WebConsole控制台,进入Project页面后点击创建Topic按钮,选择从MaxCompute导入,输入配置信息后勾选“自动创建DataConnector”,点击“导入表结构”即可导入odps表对应的格式,确认格式无误后选择Shard数量及生命周期, Shard数量建议与老服务一样,生命周期建议3天,点击创建即可。
  • 若Topic过多,可以使用迁移工具DataHub表结构迁移工具,工具将对列表中的所有表创建对应Topic及Connector。

DataHub与MaxCompute字段类型对应表

MaxCompute表中的类型 DataHub Topic中的类型
STRING STRING
DOUBLE DOUBLE
BIGINT BIGINT
DATETIME TIMESTAMP (注:以微秒为度量单位)
BOOLEAN BOOLEAN
DECIMAL 不支持
MAP 不支持
ARRAY 不支持

映射Odps分区

老DataHub在写入数据时需要直接指定分区,如果是通过fluend或logstash等插件写入的用户是需要配置分区信息或者通过某个时间字段转为固定格式作为分区

新版DataHub在这一行为上有所改变,Odps表的分区字段再DataHub中将会变成一个普通字段,后台Connector同步任务在同步数据到Odps表时会根据分区字段比如pt具体每条记录的值写入Odps对应分区中。

例如:

MaxCompute表: table_test(f1 string, f2 string, f3 double) partitioned by (ds string, pt string)
对应Topic应为如下的Schema:
Topic: topic_test(f1 string, f2 string, f3 double, ds string, pt string)
数据1: ("test", "test", "0.14", "a1", "20170405")
数据2: ("test", "test", "0.14", "aa", "20170406")
则数据1将会同步到odps分区ds=a1,pt=20170405
则数据2将会同步到odps分区ds=a2,pt=20170406
  • 若使用插件导入,并且是通过字符串转换为固定格式的分区值的用户,新的插件需要使用fluentd/logstash的filter功能,对分区字段的值进行转换,具体使用方式可以参考这些开源工具的官方文档

不同类型接入方式迁移

使用Java SDK

需要换成新版本DataHub的SDK,Mvn依赖变化

原依赖

<dependency>
    <groupId>com.aliyun.odps</groupId>
    <artifactId>odps-sdk-core</artifactId>
    <version>0.xxx</version>
</dependency>

新依赖

<dependency>
    <groupId>com.aliyun.datahub</groupId>
    <artifactId>aliyun-sdk-datahub</artifactId>
    <version>2.3.0-public</version>
</dependency>

Client初始化

原Client初始化步骤

Account account = new AliyunAccount(accessId, accessKey);
odps = new Odps(account);
odps.setDefaultProject(project);
odps.setEndpoint(odpsEndpoint);
DatahubClient client = new DatahubClient(odps, project, table, datahubEndpoint);
client.loadShard(shardNumber);
client.waitForShardLoad();

新Client初始化步骤

AliyunAccount account = new AliyunAccount(accessId, accessKey);
DatahubConfiguration conf = new DatahubConfiguration(account, datahubEndpoint);
DatahubClient client = new DatahubClient(conf);

获取Shard列表

原获取Shard列表及状态方式

HashMap<Long, DatahubClient.ShardState> shardStatus = client.getShardStatus();

新方式

ListShardResult listShardResult = client.listShard(projectName, topicName);

写入数据

原写入方式

DatahubWriter writer = client.openDatahubWriter(shardId);
TableSchema schema = client.getStreamSchema();
DatahubRecordPack recordPack = new DatahubRecordPack(schema);

/* Write another 20 records recordPack into another partition */
for (int i = 0; i < 20; i++) {
    Record record = makeRecord(schema);
    recordPack.append(record);
}

partSpec = "pt='20150809'";
packId = writer.write(new PartitionSpec(partSpec), recordPack)
    .getPackId();
System.out.println("record append to the pack: " + packId);

新写入方式

List<RecordEntry> recordEntries = new ArrayList<RecordEntry>();
RecordEntry entry = new RecordEntry(schema);
entry.setString(0, "Test");
entry.setBigint(1, 5L);
entry.setShardId(shardId);
recordEntries.add(entry);
PutRecordsResult result = client.putRecords(projectName, topicName, recordEntries);
if (result.getFailedRecordCount() != 0) {
    List<ErrorEntry> errors = result.getFailedRecordError();
    // deal with result.getFailedRecords()
}

完整写入新DataHub示例代码

使用Fluentd

通过Fluend插件写入数据的用户,迁移除了上述准备工作外,还需进行三个步骤

  • 更换,安装新插件包
  • 根据配置文件对比,修改现有配置文件
  • 使用新配置文件重新启动fluend进程

插件包更换

新版Fluentd插件使用文档

原安装语句

gem install fluent-plugin-aliyun-odps

新安装语句(也可按照新版文档提供的一键安装包安装logstash)

gem install fluent-plugin-datahub

配置对比

部分配置不需更改,更改match 部分配置即可。

老服务配置项 新服务配置项 备注
type type 需要从aliyun_odps改为dataHub
aliyun_access_id access_id 云账号accessid
aliyun_access_key access_key 云账号accesskey
aliyun_odps_hub_endpoint endpoint Datahub服务域名,需要改为新服务的域名
aliyun_odps_endpoint 不再需要
buffer_chunk_limit buffer_chunk_limit 不需要变化,但是新配置不能超过3MB
buffer_queue_limit buffer_queue_limit 不需要变化
flush_interval flush_interval 不需要变化
project project_name datahub的Project,非odps project
table topic_name datahub的topic,非odps table
fields column_names 指定需要采集的列
partition 不再需要
time_format 不再需要
shard_number 不再需要
enable_fast_crc 不再需要
retry_time retry_time 重试次数
retry_interval retry_interval 重试间隔
abandon_mode 不再需要

新增配置

新服务配置项 备注
dirty_data_continue true/false遇到增数据是否继续,若为true 遇到脏数据会重试,重试次数用完,会将脏数据写入脏数据文件
dirty_data_file 指定脏数据文件的位置
put_data_batch_size 每1000条record写一次DataHub
shard_id 指定shard_id写入,默认round-robin方式写入
shard_keys 指定用作分区key,用key值hash后作为写入shard的索引

[TODO] 能否放一个新老的diff文件example

使用Logstash

通过Logstash插件写入数据的用户,迁移除了上述准备工作外,还需进行三个步骤

  • 更换,安装新插件包
  • 根据配置文件对比,修改现有配置文件
  • 使用新配置文件重新启动Logstash进程

插件包更换

新版Logstash插件使用文档

配置对比

input部分配置不需更改,更改output部分配置即可。

老服务配置项 新服务配置项 备注
type type 需要从aliyun_odps改为dataHub
aliyun_access_id access_id 云账号accessid
aliyun_access_key access_key 云账号accesskey
aliyun_odps_hub_endpoint endpoint Datahub服务域名,需要改为新服务的域名
aliyun_odps_endpoint 不再需要
value_field 不再需要
project project_name datahub的Project,非odps project
table topic_name datahub的topic,非odps table
partition 不再需要
partition_time_format 不再需要
shard_number 不再需要
batch_size 通过logstash启动参数设置 logstash -f <上述配置文件地址> -b 256 (256即为每次batch大小)
batch_timeout 不再需要

新增配置

新服务配置项 备注
dirty_data_continue true/false遇到增数据是否继续,若为true 遇到脏数据会重试,重试次数用完,会将脏数据写入脏数据文件
dirty_data_file 指定脏数据文件的位置
put_data_batch_size 每1000条record写一次DataHub
shard_keys 数组类型,数据落shard的字段名称,插件会根据这些字段的值计算hash将每条数据落某个shard, 注意shard_keys和shard_id都未指定,默认轮询落shard
shard_id 所有数据落指定的shard,注意shard_keys和shard_id都未指定,默认轮询落shard
retry_times 重试次数,-1为无限重试、0为不重试、>0表示需要有限次数, 默认值为-1
retry_interval 下一次重试的间隔,单位为秒,默认值为5

使用Apache Flume

通过Flume工具写入数据的用户,迁移除了上述准备工作外,还需进行三个步骤

  • 更换,安装新Flume工具插件
  • 根据配置文件对比,修改现有配置文件
  • 使用新配置文件重新启动Flume进程

插件更新

新版Flume工具文档

配置对比

老服务配置项 新服务配置项 备注
a1.sinks.k1.type a1.sinks.k1.type 从com.aliyun.odps.flume.sink.OdpsSink改为com.aliyun.datahub.flume.sink.DatahubSink
a1.sinks.k1.accessID a1.sinks.k1.datahub.accessID 云账号accessid
a1.sinks.k1.accessKey a1.sinks.k1.datahub.accessKey 云账号accesskey
a1.sinks.k1.odps.endPoint a1.sinks.k1.datahub.endPoint Datahub服务域名,需要改为新服务的域名
aliyun_odps_endpoint 不再需要
a1.sinks.k1.odps.project a1.sinks.k1.datahub.project datahub的Project,非odps project
a1.sinks.k1.odps.table a1.sinks.k1.datahub.topic datahub的topic,非odps table
a1.sinks.k1.odps.partition 不再需要
a1.sinks.k1.batchSize a1.sinks.k1.batchSize 批次大小
a1.sinks.k1.serializer a1.sinks.k1.serializer 无变化
a1.sinks.k1.serializer.delimiter a1.sinks.k1.serializer.delimiter 无变化
a1.sinks.k1.serializer.fieldnames a1.sinks.k1.serializer.fieldnames 无变化
a1.sinks.k1.serializer.charset a1.sinks.k1.serializer.charset 无变化
a1.sinks.k1.serializer.delimiter a1.sinks.k1.serializer.delimiter 无变化
a1.sinks.k1.shard.number 不再需要
a1.sinks.k1.shard.maxTimeOut a1.sinks.k1.shard.maxTimeOut 无变化
a1.sinks.k1.autoCreatePartition 不再需要

使用OGG

通过OGG工具写入数据的用户,迁移除了上述准备工作外,还需进行三个步骤

  • 更换,安装新OGG工具插件
  • 根据配置文件对比,修改现有配置文件
  • 使用新配置文件重新启动OGG进程

插件更新

新版OGG工具文档

配置对比

老服务配置项 新服务配置项 备注
gg.handlerlist gg.handlerlist 不需修改,仍然为ggdatahub
gg.handler.ggdatahub.type gg.handler.ggdatahub.type 不需修改,仍然为com.aliyun.odps.ogg.handler.datahub.DatahubHandler
gg.classpath gg.classpath YOUR_DATAHUB_HANDLER_DIRECTORY/datahub_lib/改为{YOUR_HOME}/datahub-ogg-plugin/lib/

除以上配置外,其他DataHub相关配置均独立到configure.xml文件配置,具体含义请参看新版OGG工具文档

相关实践学习
实时数据及离线数据上云方案
本实验通过使用CANAL、DataHub、DataWorks、MaxCompute服务,实现数据上云,解决了数据孤岛问题,同时把数据迁移到云计算平台,对后续数据的计算和应用提供了第一步开山之路。
相关文章
|
11天前
|
SQL DataWorks 关系型数据库
DataWorks产品使用合集之DataWorks目前支持ES数据库的分表同步如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
34 1
|
11天前
|
运维 DataWorks 关系型数据库
DataWorks产品使用合集之DataWorks还有就是对于mysql中的表已经存在数据了,第一次全量后面增量同步的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
28 2
|
12天前
|
DataWorks 关系型数据库 MySQL
DataWorks产品使用合集之在DataWorks中,要实现MySQL数据源的增量同步如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
37 2
|
SQL 分布式计算 数据处理
图文详解:DataHub产品概述
阿里云流数据处理平台DataHub是流式数据(Streaming Data)的处理平台,提供对流式数据的发布 (Publish),订阅 (Subscribe)和分发功能,让您可以轻松构建基于流式数据的分析和应用。
2452 0
|
12天前
|
DataWorks Shell 对象存储
DataWorks产品使用合集之在 DataWorks 中,有一个 MySQL 数据表,数据量非常大且数据会不断更新将这些数据同步到 DataWorks如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
29 3
|
11天前
|
数据采集 运维 DataWorks
DataWorks产品使用合集之DataWorks提供了整库实时同步解决方案如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
21 0
|
11天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
24 0
|
12天前
|
分布式计算 DataWorks NoSQL
DataWorks产品使用合集之在 DataWorks 中,离线同步的一键生成目标表结构功能不能识别 MongoDB 数据源如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
27 0
|
11天前
|
分布式计算 DataWorks MaxCompute
DataWorks产品使用合集之在DataWorks中,将数据集成功能将AnalyticDB for MySQL中的数据实时同步到MaxCompute中如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
24 0
|
12天前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之在DataWorks中,从Elasticsearch同步数据到ODPS时同步_id字段的如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
24 0