Datax迁移Cassandra表级别TTL的数据

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
简介: 使用datax迁移cassandra的表级别的ttl的数据步骤和配置 以及注意事项

摘要    

参考文章datax迁移Cassandra数据,我们可以使用datax离线迁移Cassandra 到Cassandra数据库以及mysql 到Cassandra的数据迁移,本文介绍如何使用Datax进行离线迁移Cassandra的表级别的TTL数据。


快速入门

使用datax的步骤很简单,分别如下:


1.通过官方链接下载datax运行包;

2.目标集群构建好需要迁移的表(表结构需要完全一样);

2.配置下同步作业配置(json文件);

4.在datax bin目录下执行如下命令:

python datax.py {作业配置.json}


注:因为是使用python运行,所以需要事先部署好python环境。


Cassandra 表级别TTL 数据离线迁移

假设用户的keyspace名字是:ks,表名是:tb,且用户的表的列包含pk, cn1,cn2,其中pk为主键(PRIMARY KEY),cn2,cn2 为regular column,表的ttl时间是10000秒,那么用户在进行迁移前需要按照上述步骤的1和2准备好迁移的基础环境;

这里给出用户同步的json作业配置文件:

{
"job": {
"setting": {
"speed": {
"channel": 3      }
    },
"content": [
      {
"reader": {
"name": "cassandrareader",
"parameter": {
"host": "源集群地址",
"port": 9042,
"useSSL": false,
"keyspace": "ks",
"table": "tb",
"column": [
"c1",
"c2",
"writetime(c2)"            ]
          }
        },
"writer": {
"name": "cassandrawriter",
"parameter": {
"host": "目标集群地址",
"port": 9042,
"useSSL": false,
"keyspace": "ks",
"table": "tb",
"column": [
"c1",
"c2",
"writetime()"            ]
          }
        }
      }
    ]
  }
}

按照上述配置生成json配置文件后,点击执行,最终结果如下:

20210324114458.jpg


注意事项

1.datax主要将源集群的数据全表读出,然后写入到目标集群,所以运行datax的的节点cpu和内存配置越高,对整个datax迁移速度会有较大帮助;

2.cassandra源集群如果TTL过期数据过多,会造成tombstone过多,最终迁移过程可能出现读操作abort。如遇到这个问题,可以将源集群的tombstone进行清理,清理流程主要是:全集群做repair,调整gc_grace_seconds时间(时间需要调的相对合理,否则影响较大),全量数据做compact或者garbagecollect。

目录
相关文章
|
3天前
|
Java 数据处理 调度
Dataphin常见问题之离线管道同步数据datax就报连接超时如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
3天前
|
SQL DataWorks NoSQL
DataWorks报错问题之datax mongodb全量迁移报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
3天前
|
SQL 消息中间件 数据处理
DataX读取Hive Orc格式表丢失数据处理记录
DataX读取Hive Orc格式表丢失数据处理记录
139 0
|
3天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
25 0
|
3天前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之在DataWorks中,查看ODPS表的OSS对象如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
29 1
|
3天前
|
分布式计算 DataWorks MaxCompute
DataWorks产品使用合集之在DataWorks中,将数据集成功能将AnalyticDB for MySQL中的数据实时同步到MaxCompute中如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
26 0
|
3天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在使用 DataWorks 数据集成同步 PostgreSQL 数据库中的 Geometry 类型数据如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
28 0
|
3天前
|
分布式计算 DataWorks Java
DataWorks常见问题之数据集成导出分区表的全量数据如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
49 0
|
3天前
|
DataX
datax数据推送,汉字乱码
datax数据推送,汉字乱码.
189 1
|
3天前
|
DataWorks 关系型数据库 MySQL
DataWorks的数据集成实时同步mysql数据吗?
DataWorks的数据集成实时同步mysql数据吗?
122 0