请仔细检查DataX报告的脏数据日志信息,或者调整脏数据阈值。

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 请仔细检查DataX报告的脏数据日志信息,或者调整脏数据阈值。

这个错误通常发生在源数据中存在大量脏数据时。请仔细检查DataX报告的脏数据日志信息,或者调整脏数据阈值。

解决方法:

  1. 检查DataX报告的脏数据日志信息,找出脏数据的具体原因。
  2. 根据脏数据的原因,调整脏数据阈值。在DataWorks同步脚本中,可以通过设置dirty_data_threshold参数来调整脏数据阈值。例如,将阈值设置为0.5,表示当脏数据的占比超过50%时,DataX会报错。修改后的同步脚本如下:
{
   
    "job": {
   
        "setting": {
   
            "speed": {
   
                "channel": 1
            }
        },
        "content": [
            {
   
                "reader": {
   
                    "name": "odpsreader",
                    "parameter": {
   
                        "accessId": "your_access_id",
                        "accessKey": "your_access_key",
                        "project": "your_project",
                        "table": "your_table",
                        "partition": "your_partition",
                        "endpoint": "your_endpoint",
                        "dirty_data_threshold": 0.5,  # 设置脏数据阈值为0.5
                        ...
                    }
                },
                "writer": {
   
                    "name": "hdfswriter",
                    "parameter": {
   
                        "defaultFS": "hdfs://your_hdfs_host:your_hdfs_port",
                        "fileType": "text",
                        "path": "your_hdfs_path",
                        ...
                    }
                }
            }
        ]
    }
}
  1. 根据实际情况,调整脏数据阈值后,重新运行DataWorks同步脚本,看是否还会出现相同的错误。
目录
相关文章
|
14天前
|
存储 数据采集 分布式计算
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
31 1
|
1月前
|
Java
日志框架log4j打印异常堆栈信息携带traceId,方便接口异常排查
日常项目运行日志,异常栈打印是不带traceId,导致排查问题查找异常栈很麻烦。
|
19天前
|
存储 缓存 网络协议
搭建dns服务常见报错--查看/etc/named.conf没有错误日志信息却显示出错(/etc/named.conf:49: missing ‘;‘ before ‘include‘)及dns介绍
搭建dns服务常见报错--查看/etc/named.conf没有错误日志信息却显示出错(/etc/named.conf:49: missing ‘;‘ before ‘include‘)及dns介绍
|
2月前
|
Kubernetes 数据安全/隐私保护 容器
【Azure APIM】APIM Self-Hosted网关中,添加网关日志以记录请求头信息(Request Header / Response Header)
【Azure APIM】APIM Self-Hosted网关中,添加网关日志以记录请求头信息(Request Header / Response Header)
|
2月前
|
Go 开发者
【应用服务 App Service】App Service发生错误请求时,如何查看IIS Freb日志,从中得知错误所发生的模块,请求中所携带的Header信息
【应用服务 App Service】App Service发生错误请求时,如何查看IIS Freb日志,从中得知错误所发生的模块,请求中所携带的Header信息
|
2月前
|
监控 安全 Linux
在Linux中,某个账号登陆linux后,系统会在哪些日志文件中记录相关信息?
在Linux中,某个账号登陆linux后,系统会在哪些日志文件中记录相关信息?
|
2月前
|
数据挖掘 语音技术
3D-Speaker说话人任务的开源项目问题之语义说话人信息模块在说话人日志系统中的问题如何解决
3D-Speaker说话人任务的开源项目问题之语义说话人信息模块在说话人日志系统中的问题如何解决
|
2月前
|
API
【Azure 服务总线】查看Service Bus中消息多次发送的日志信息,消息是否被重复消费
【Azure 服务总线】查看Service Bus中消息多次发送的日志信息,消息是否被重复消费
|
2月前
|
存储 API C#
【Azure API 管理】在APIM 中添加 log-to-eventhub 策略,把 Request Body 信息全部记录在Event Hub中
【Azure API 管理】在APIM 中添加 log-to-eventhub 策略,把 Request Body 信息全部记录在Event Hub中
|
2月前
|
存储 安全 Java
【事件中心 Azure Event Hub】Event Hub日志中发现的错误信息解读
【事件中心 Azure Event Hub】Event Hub日志中发现的错误信息解读