DataHub常见问题之同步篇

简介: 介绍DataHub同步的常见问题

DataHub同步问题

  • DataHub同步到opds没有同步进去?

    • 检查同步状态是否为EXECUTING,EXECUTING表示同步状态正常,一般情况下为数据没有写入导致,点击shard页面查看数据写入情况进行确认
  • 检查同步状态为HANG,请点击问号按钮查看错误详情,会有详细的原因解释

  • 检查同步状态为ERROR,请点击问号查看原因,尝试重启归档

  • DataHub同步到下游数据量不一致

    • 点击同步详情,查看同步点位脏数据量,各个shard的同步点位之和代表同步到下游的数据量,脏数据量代表没有同步到下游的数据量
  • DataHub同步延迟很大,不符合5min/64m归档一次

    • 检查数据同步状态,若为EXECUTING代表同步任务正常
    • 可能原因:数据同步点位设置有误,页面创建默认从当前时间创建
    • 如何解决:创建同步时指定时间为数据最早写入时间
  • Odps partition not in partition config. partition:

    • MaxCompute中对应的分区信息不在DataHub的分区信息中。这个多见于使用SystemTime或者EventTime模式同步的方式,这种方式,需要MaxCompute中固定存在三级分区分别是ds/hh/mm,分区类型为String,如果匹配不上,就会报这个错误。
  • maxcompute新加字段流程

  • 数据同步脏数据会自动清理的吗

    • 脏数据指的是在datahub里,写不到下游的数据下游产品无法接收,同步时候会自动跳过
  • datahub里面在配置数据同步的页面的时候,出现了字段信息太多的问题,导致后面的页面无法上翻

    • 全屏即可下翻
相关实践学习
实时数据及离线数据上云方案
本实验通过使用CANAL、DataHub、DataWorks、MaxCompute服务,实现数据上云,解决了数据孤岛问题,同时把数据迁移到云计算平台,对后续数据的计算和应用提供了第一步开山之路。
相关文章
|
3月前
|
存储 监控 Apache
Flink整库同步 如何把数据丢入到 datahub 中
Flink整库同步 如何把数据丢入到 datahub 中
|
5月前
|
SQL 关系型数据库 数据管理
Datahub实践——Sqllineage解析Sql实现端到端数据血缘
Datahub实践——Sqllineage解析Sql实现端到端数据血缘
704 1
|
7月前
|
数据采集 JSON 关系型数据库
将 MySQL 数据抽取并写入 DataHub,您可以按照以下步骤进行
将 MySQL 数据抽取并写入 DataHub,您可以按照以下步骤进行
299 2
|
5月前
|
数据采集 大数据 数据挖掘
企业级数据治理工作怎么开展?Datahub这样做
企业级数据治理工作怎么开展?Datahub这样做
|
7月前
|
数据采集 JSON 关系型数据库
将 MySQL 数据抽取并写入 DataHub
将 MySQL 数据抽取并写入 DataHub
175 3
|
9月前
|
Java API Maven
Fink在处理DataHub数据源时无法正确识别RecordData类的字段
Fink在处理DataHub数据源时无法正确识别RecordData类的字段
77 1
|
JSON 物联网 数据格式
物联网平台数据流转到datahub时报错
记录一次物联网平台数据流转到datahub时的报错
390 0
物联网平台数据流转到datahub时报错
|
SQL 消息中间件 NoSQL
数据治理方案技术调研 Atlas VS Datahub VS Amundsen
数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要。而适合于Hadoop大数据生态体系的数据治理就非常的重要了。 大数据下的数据治理作为很多企业的一个巨大的难题,能找到的数据的解决方案并不多,但是好在近几年,很多公司已经进行了尝试并开源了出来,本文将详细分析这些数据发现平台,在国外已经有了十几种的实现方案。
1350 0
数据治理方案技术调研 Atlas VS Datahub VS Amundsen
|
存储 消息中间件 SQL
DataHub——实时数据治理平台
DataHub——实时数据治理平台
4545 0
DataHub——实时数据治理平台
|
Java 测试技术 Ruby
基于LogStash插件采集数据到阿里云Datahub
DataHub服务基于阿里云自研的飞天平台,具有高可用,低延迟,高可扩展,高吞吐的特点,原生支持对接阿里云的多项服务,相关功能特点与Kafka类似。本身主要介绍如何使用LogStash采集数据写入Datahub。
927 0
基于LogStash插件采集数据到阿里云Datahub