DataWorks操作报错合集之同步脚本报错This error often occurs when a lot dirty data exists in the source data. 是什么原因-阿里云开发者社区

DataWorks操作报错合集之同步脚本报错This error often occurs when a lot dirty data exists in the source data. 是什么原因

2024-06-11 179

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

大数据开发治理平台DataWorks，Serverless资源组抵扣包300CU*H

简介： DataWorks是阿里云提供的一站式大数据开发与治理平台，支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中，可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

问题一：DataWorks用集成脚本读达梦的数据源，源表表名是小写，就会报错，该怎么识别？

DataWorks用集成脚本读达梦的数据源，源表表名是小写，就会报错，该怎么识别？

参考回答：

如果源表名是小写，而DataWorks的数据集成脚本中使用的是大写表名，就会导致报错。为了解决这个问题，可以尝试以下方法：

修改源表名为大写字母。将源表中的表名全部改为大写字母，这样可以避免大小写不匹配的问题。
在数据集成脚本中使用双引号将表名括起来。在SQL语句中，可以使用双引号将表名括起来，这样可以让DataWorks将表名作为字符串处理，而不是当作变量来处理。例如：

SELECT * FROM "my_table" WHERE ...

使用DataWorks提供的函数进行大小写转换。DataWorks提供了一些函数，可以用来进行字符串的大小写转换。例如，可以使用LOWER()函数将表名转换为小写字母，或者使用UPPER()函数将表名转换为大写字母。例如：

SELECT * FROM LOWER("my_table") WHERE ...

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/574822

问题二：DataWorks数据源连接报这个错误，白名单已经配置了？

DataWorks数据源连接报这个错误，白名单已经配置了？

参考回答：

重新添加白名单https://help.aliyun.com/zh/dataworks/user-guide/configure-an-ip-address-whitelist-1?spm=a2c6h.13066369.question.7.5dc6167aCZqmds

保障资源组与数据源之间网络连通后，您还需保障资源组与数据源之间不会因为白名单的限制而无法进行数据访问，例如，部分数据源设置白名单后会不允许白名单外的IP访问，您需要将资源组的IP添加至数据源的白名单中。本文为您介绍白名单相关问题。

前提条件

您需保障数据源与数据集成资源组间的网络时连通状态：

如果您目前需要连通的数据库网络较复杂（不是同步同阿里云账号下同Region的数据库），您需要根据数据集成资源组网络能力来选择合适的方案访问您特殊场景下的数据库，详情可参见配置资源组与网络连通。

如果您用独享数据集成资源组同步同阿里云账号，同Region下的VPC环境数据库，您购买添加独享数据集成资源组后，还需完成网络配置和工作空间绑定，操作详情可参见新增和使用独享数据集成资源组。

如果您已完成网络连通配置，但资源组仍然无法访问您的数据库，则数据库可能开启了白名单配置，限制了数据集成资源组的访问。此时您需要将资源组的相应IP地址段添加至数据库白名单中。

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/574818

问题三：DataWorks中odps到容器部署starrocks的单表同步，请教接下来如何排查解决？

DataWorks中odps到容器部署starrocks的单表同步，同域下调度资源组配置了vpc绑定，安全组放开了8030映射的端口，目前仍无法写入，请教接下来如何排查解决？

参考回答：

您好，根据您描述的情况，DataWorks中odps到容器部署starrocks的单表同步遇到写入问题。首先，确保您已经在DataWorks中配置了正确的源和目标参数，包括数据库类型、地址、端口、用户名和密码等。以下是一些建议的排查步骤：

检查DataWorks中的调度任务实例状态。DataWorks中调度任务每次运行前都先将任务实例化，实例会处于不同的状态，如未运行、运行中、运行成功、运行失败等。请确保任务实例处于“运行中”或“运行成功”状态。
检查您的网络连接是否正常，确保您的服务器可以访问数据源。
确保您使用的用户名和密码是正确的。
检查数据源的端口是否被正确配置。
检查数据源的IP地址是否在白名单中，并且配置正确。
如果使用自建数据库，请确保自建数据库的服务已经启动并正常运行。
检查防火墙设置，确保没有阻止DataWorks与数据源之间的通信。同时，确保安全组已经放开了8030映射的端口。
查看DataWorks的任务日志，以获取更多关于错误的详细信息。这可能会为您提供更多关于问题的线索。

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/574817

问题四：DataWorks同步脚本报错怎么搞？

DataWorks同步脚本报错This error often occurs when a lot dirty data exists in the source data. Please carefully check the dirty data log information reported by DataX, or you can tune up the dirty data threshold value. ]. 怎么搞？

参考回答：

写入报错https://help.aliyun.com/zh/dataworks/support/batch-synchronization?spm=a2c4g.11186623.0.i7

问题现象：

写入数据时，报错如下：Caused by: java.util.concurrent.ExecutionException: ERR-CODE: [TDDL-4614][ERR_EXECUTE_ON_MYSQL] Error occurs when execute on GROUP 'xxx' ATOM 'dockerxxxxx_xxxx_trace_shard_xxxx': Communications link failure The last packet successfully received from the server was 12,672 milliseconds ago. The last packet sent successfully to the server was 12,013 milliseconds ago. More...

可能原因：

慢查询导致SocketTimeout。TDDL默认连接数据的SocketTimeout是12秒，如果一个SQL在MySQL端执行超过12秒仍未返回，会报4614的错误。当数据量较大或服务端繁忙时，会偶尔出现该错误。

解决方法：

建议数据库稳定后，重新运行同步任务。

联系数据库管理员调整该超时时间。

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/574813

问题五：DataWorks这个报错是为啥呀？

DataWorks这个报错是为啥呀？

参考回答：

这个报错可能是由于以下原因导致的：

数据库连接问题：请检查DataWorks中配置的StarRocks数据库连接信息是否正确，包括主机名、端口、用户名、密码等。
表结构问题：请确保要写入的表在StarRocks数据库中存在，并且表结构与DataWorks中的配置相匹配。
权限问题：请检查DataWorks中的用户是否具有足够的权限来写入指定的表。
网络问题：请检查DataWorks和StarRocks数据库之间的网络连接是否正常。
StarRocks版本问题：请检查DataWorks中使用的StarRocks版本是否与目标数据库版本兼容。如果不兼容，可能需要升级或降级StarRocks版本。
数据格式问题：请检查DataWorks中的数据格式是否符合StarRocks数据库的要求。如果不符合，可能需要对数据进行转换或清洗。

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/574796

DataWorks操作报错合集之同步脚本报错This error often occurs when a lot dirty data exists in the source data. 是什么原因