开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks中MySQL如何同步到hologres脏数据排查?

DataWorks中MySQL如何同步到hologres脏数据排查?

展开
收起
真的很搞笑 2023-08-07 18:51:08 73 0
2 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    可以采取以下步骤:

    在DataWorks中设置MySQL数据库为源端,HoloGres数据库为目标端。

    配置同步任务,实现MySQL到HoloGres的实时同步。

    开启binlog功能在MySQL端,记录所有DML操作。

    同步任务以binlog作为同步数据源,保证同步全量和增量数据。

    同步一段时间后,需要检查HoloGres端是否有脏数据产生:

    查询HoloGres表中数据完整性,比对实际业务需求。

    查找orphan records,即仅存在于HoloGres而MySQL中不存在的记录。

    查找missing records,即MySQL有但HoloGres中没有同步的记录。

    2023-08-10 16:32:50
    赞同 展开评论 打赏
  • 1.同步emoji报错脏数据需要修改编码格式:
    1.1 jdbc形式添加数据源:

    例如:jdbc:mysql://xxx.x.x.x:3306/database?&com.mysql.jdbc.faultInjection.serverCharsetIndex=45,

    1.2 实例id形式添加数据源:

    在数据库名后拼接:数据库名?com.mysql.jdbc.faultInjection.serverCharsetIndex=45

    1. 同步数据乱码
      可能原因:

    源端的数据本身就是乱码。

    数据库和客户端的编码不一样。

    浏览器编码不一样,导致预览失败或乱码。

    针对产生乱码的不同原因,选择相应的解决方法:

    如果您的原始数据乱码,需首先处理好原始数据,再进行同步任务。

    数据库和客户端编码格式不一致,需先修改编码格式。

    浏览器编码和数据库或客户端编码格式不一致,需先统一编码格式,然后进行数据预览。
    可以先参考百问百答脏数据篇排查看下,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-08-07 19:29:40
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    实时数仓Workshop(广州站)- 李佳林 立即下载
    阿里云实时数仓Hologres技术揭秘2.0 立即下载
    实时数仓Hologres技术实战一本通2.0版(下) 立即下载

    相关镜像