开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

数据集成配置表规则?

数据集成配置表规则?

展开
收起
十一0204 2023-04-04 23:04:20 214 0
2 条回答
写回答
取消 提交回答
  • 意中人就是我呀!

    "数据质量以数据集(DataSet)为监控对象。目前,数据质量支持EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute数据表和DataHub实时数据流的监控。当离线数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量支持管理历史校验结果,您可以对数据质量进行分析和定级。 【DQC配置】

    您可以在“监控规则”中通过匹配表分区表达式,给表添加“模板规则”或“自定义规则”校验数据产出是否符合预期,通过“规则强弱”,“异常程度”决定规则是否阻塞下游任务执行,避免下游数据受到污染。 规则创建完成后,您可以通过“试跑”来测试表规则是否符合预期。 规则创建完成后,您需要“关联调度”,为规则关联调度节点后,调度节点执行便会触发数据质量监控规则校验。 如果您需要第一时间知道数据质量校验异常情况,您可以点击“订阅管理”,选择手机,邮箱,或者钉钉告警,第一时间接受报警信息,之后的规则触发情况,您可以在“我的订阅”中看到。 如果您需要查看某张表或者某个节点历史数据质量校验情况,您可以选择“任务查询”面板进行查询。

    【相关文档】 配置DataHub数据源规则 配置ODPS数据源规则 离线规则内置模板说明 【相关语料】 钉钉告警 此回答整理自钉群“DataWorks交流群(答疑@机器人)”"

    2023-04-05 13:42:40
    赞同 展开评论 打赏
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    在DataWorks数据集成中,配置表是指用于存储集成任务相关配置信息的表。配置表的规则如下:

    1、配置表必须以“ods_”或“config_”开头,例如“ods_mytable”或“config_mytask”。

    2、配置表的表结构需要满足以下要求:

    必须包含一个名为“bizdate”的日期类型字段,用于存储任务执行的日期。

    必须包含一个名为“taskid”的字符串类型字段,用于存储任务的ID。

    可以包含其他自定义的字段,用于存储任务的配置信息。

    3、配置表的数据可以由开发人员手动维护或自动更新。

    4、配置表可以存储在MaxCompute或者MySQL等数据库中。

    在使用DataWorks进行数据集成时,可以使用配置表存储任务相关的配置信息,例如任务调度频率、数据源信息、目标表信息等。在任务执行过程中,可以通过读取配置表的信息,动态调整任务的配置和参数,以实现任务的自动化管理和调度。

    需要注意的是,配置表的规则并非强制要求,具体的表结构和命名规则可以根据实际需求进行调整。但是,为了保持代码的可读性和易于维护,建议在开发过程中遵循一定的规范和标准。

    2023-04-05 09:23:56
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关电子书

更多
集成智能接入网关APP:优化企业级移动办公网络 立即下载
《DataWorks 数据集成实时同步》 立即下载
云效助力企业集成安全到DevOps中 立即下载