开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks同步脚本报错 怎么搞 ?

DataWorks同步脚本报错This error often occurs when a lot dirty data exists in the source data. Please carefully check the dirty data log information reported by DataX, or you can tune up the dirty data threshold value. ]. 怎么搞 ?image.png

展开
收起
真的很搞笑 2023-12-03 17:10:36 99 0
4 条回答
写回答
取消 提交回答
  • 写入报错https://help.aliyun.com/zh/dataworks/support/batch-synchronization?spm=a2c4g.11186623.0.i7

    问题现象:

    写入数据时,报错如下:Caused by: java.util.concurrent.ExecutionException: ERR-CODE: [TDDL-4614][ERR_EXECUTE_ON_MYSQL] Error occurs when execute on GROUP 'xxx' ATOM 'dockerxxxxx_xxxx_trace_shard_xxxx': Communications link failure The last packet successfully received from the server was 12,672 milliseconds ago. The last packet sent successfully to the server was 12,013 milliseconds ago. More...

    可能原因:

    慢查询导致SocketTimeout。TDDL默认连接数据的SocketTimeout是12秒,如果一个SQL在MySQL端执行超过12秒仍未返回,会报4614的错误。当数据量较大或服务端繁忙时,会偶尔出现该错误。

    解决方法:

    建议数据库稳定后,重新运行同步任务。

    联系数据库管理员调整该超时时间。

    2023-12-05 11:05:51
    赞同 展开评论 打赏
  • 这个错误通常发生在源数据中存在大量脏数据时。请仔细检查DataX报告的脏数据日志信息,或者调整脏数据阈值。

    解决方法:

    1. 检查DataX报告的脏数据日志信息,找出脏数据的具体原因。
    2. 根据脏数据的原因,调整脏数据阈值。在DataWorks同步脚本中,可以通过设置dirty_data_threshold参数来调整脏数据阈值。例如,将阈值设置为0.5,表示当脏数据的占比超过50%时,DataX会报错。修改后的同步脚本如下:
    {
        "job": {
            "setting": {
                "speed": {
                    "channel": 1
                }
            },
            "content": [
                {
                    "reader": {
                        "name": "odpsreader",
                        "parameter": {
                            "accessId": "your_access_id",
                            "accessKey": "your_access_key",
                            "project": "your_project",
                            "table": "your_table",
                            "partition": "your_partition",
                            "endpoint": "your_endpoint",
                            "dirty_data_threshold": 0.5,  # 设置脏数据阈值为0.5
                            ...
                        }
                    },
                    "writer": {
                        "name": "hdfswriter",
                        "parameter": {
                            "defaultFS": "hdfs://your_hdfs_host:your_hdfs_port",
                            "fileType": "text",
                            "path": "your_hdfs_path",
                            ...
                        }
                    }
                }
            ]
        }
    }
    
    1. 根据实际情况,调整脏数据阈值后,重新运行DataWorks同步脚本,看是否还会出现相同的错误。
    2023-12-04 17:52:44
    赞同 展开评论 打赏
  • 看下百问百答脏数据篇 https://developer.aliyun.com/article/748252?spm=a2c6h.12873581.0.dArticle748252.1ec43740LqNDlu&groupCode=dataworks ,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-12-03 23:23:23
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    这个错误通常发生在源数据中存在大量脏数据时。请仔细检查DataX报告的脏数据日志信息,或者调整脏数据阈值值。

    解决方法:

    1. 检查DataX报告的脏数据日志信息,找出具体的脏数据来源和数量。
    2. 根据脏数据的来源和数量,调整脏数据阈值值。在DataWorks控制台中,找到ODPS SQL节点的配置页面,修改脏数据阈值值。例如,将阈值设置为一个较小的值,以便在同步过程中忽略较少的脏数据。
    3. 保存配置更改并重新运行同步任务。如果问题仍然存在,可以尝试进一步调整脏数据阈值值,或者联系DataWorks技术支持团队寻求帮助。
    2023-12-03 18:06:31
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载