Datax迁移Cassandra表级别TTL的数据-阿里云开发者社区

开发者社区> 玄陵> 正文

Datax迁移Cassandra表级别TTL的数据

简介: 使用datax迁移cassandra的表级别的ttl的数据步骤和配置 以及注意事项
+关注继续查看

摘要    

参考文章datax迁移Cassandra数据,我们可以使用datax离线迁移Cassandra 到Cassandra数据库以及mysql 到Cassandra的数据迁移,本文介绍如何使用Datax进行离线迁移Cassandra的表级别的TTL数据。


快速入门

使用datax的步骤很简单,分别如下:


​1.通过官方链接下载datax运行包;

2.目标集群构建好需要迁移的表(表结构需要完全一样);

2.配置下同步作业配置(json文件);

4.在datax bin目录下执行如下命令:

python datax.py {作业配置.json}


注:因为是使用python运行,所以需要事先部署好python环境。


Cassandra 表级别TTL 数据离线迁移

假设用户的keyspace名字是:ks,表名是:tb,且用户的表的列包含pk, cn1,cn2,其中pk为主键(PRIMARY KEY),cn2,cn2 为regular column,表的ttl时间是10000秒,那么用户在进行迁移前需要按照上述步骤的1和2准备好迁移的基础环境;

这里给出用户同步的json作业配置文件:

{
  "job": {
    "setting": {
      "speed": {
        "channel": 3
      }
    },
    "content": [
      {
        "reader": {
          "name": "cassandrareader",
          "parameter": {
            "host": "源集群地址",
            "port": 9042,
            "useSSL": false,
            "keyspace": "ks",
            "table": "tb",
            "column": [
              "c1",
              "c2",
              "writetime(c2)"
            ]
          }
        },
        "writer": {
          "name": "cassandrawriter",
          "parameter": {
            "host": "目标集群地址",
            "port": 9042,
            "useSSL": false,
            "keyspace": "ks",
            "table": "tb",
            "column": [
              "c1",
              "c2",
              "writetime()"
            ]
          }
        }
      }
    ]
  }
}

按照上述配置生成json配置文件后,点击执行,最终结果如下:

20210324114458.jpg


注意事项

1.datax主要将源集群的数据全表读出,然后写入到目标集群,所以运行datax的的节点cpu和内存配置越高,对整个datax迁移速度会有较大帮助;

2.cassandra源集群如果TTL过期数据过多,会造成tombstone过多,最终迁移过程可能出现读操作abort。如遇到这个问题,可以将源集群的tombstone进行清理,清理流程主要是:全集群做repair,调整gc_grace_seconds时间(时间需要调的相对合理,否则影响较大),全量数据做compact或者garbagecollect。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Discord 公司如何使用 Cassandra 存储上亿条线上数据
Discord 是一款国外的类似 YY 的语音聊天软件。Discord 语音聊天软件及我们的 UGC 内容的增长速度比想象中要快得多。随着越来越多用户的加入,带来了更多聊天消息。2016 年 7 月,每天大约有 4 千万条消息;2016 年 12 月,每天超过亿条。
4305 0
Python之pandas:数据类型变换之object、category、bool、int32、int64、float64以及数据类型标准化之详细攻略
Python之pandas:数据类型变换之object、category、bool、int32、int64、float64以及数据类型标准化之详细攻略
45 0
自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察
客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云Databricks数据洞察集群之后,涉及到数仓数据和元数据的迁移以及Hive版本的订正更新。
137 0
离线数据同步神器:DataX,支持几乎所有异构数据源的离线同步到MaxCompute
概述 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
5830 0
使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎
Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。 Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。
2829 0
Cassandra 最佳实践系列(1) - CQL 基本数据类型
Cassandra cql基本数据类型介绍
1260 0
+关注
29
文章
0
问答
来源圈子
更多
阿里云数据库:帮用户承担一切数据库风险,给您何止是安心!支持关系型数据库:MySQL、SQL Server、PostgreSQL、PPAS(完美兼容Oracle)、自研PB级数据存储的分布式数据库Petadata、自研金融级云数据库OceanBase支持NoSQL数据库:MongoDB、Redis、Memcache更有褚霸、丁奇、德哥、彭立勋、玄惭、叶翔等顶尖数据库专家服务。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载