开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks数据质量,怎么支持udf?

DataWorks数据质量,怎么支持udf?

展开
收起
真的很搞笑 2023-12-03 16:58:18 60 0
3 条回答
写回答
取消 提交回答
  • DataWorks支持使用UDF(用户自定义函数)来提升数据质量。首先,需要登录DataWorks控制台,选择数据建模与开发 > 数据开发,然后选择对应的工作空间。

    为了实现UDF,DataWorks推出了在线开发UDF的产品Function Studio。您无需下载和安装本地IDE、配置环境变量等步骤,仅需要一个浏览器即可完成应用程序的编写、运行和调试,体验效果与本地IDE无异。在Python UDF中,需要通过annotate指定函数签名并实现evaluate方法。

    除此之外,DataWorks的数据质量模块可以支持对常见的大数据存储进行质量校验,如MaxCompute、E-MapReduce Hive、Hologres等。您可以从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度出发,配置质量监控规则。当任务完成后,系统会自动触发质量规则校验,帮助您及时发现问题数据。同时,您可以按需设置规则的强弱来控制任务是否因质量问题而失败退出,从而避免脏数据扩大影响,有效降低数据恢复处理的时间成本和费用成本。

    2023-12-05 09:23:53
    赞同 展开评论 打赏
  • 对MaxCompute表监控 使用自定义sql ,函数创建还是在数据开发界面创建好,已有的函数尝试在自定义sql中使用 ,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-12-03 23:01:23
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    DataWorks数据质量支持使用UDF(用户自定义函数)进行数据处理和分析。首先,需要利用Function Studio,这是一个在线开发UDF的阿里云产品,可以在浏览器中编写、运行和调试应用程序,省去了下载和配置本地IDE等繁琐工作。

    在编写UDF时,Python UDF必须通过annotate指定函数签名,并且必须实现evaluate方法。编写完成后,可以直接将UDF函数应用于SELECT语句,对查询结构做格式化处理后再输出内容。

    此外,DataWorks数据质量还提供内置的表级别和字段级别的监控模板,帮助您第一时间感知源端数据的变更与ETL过程中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。例如对于SQL任务表行数,可以设置波动率检测规则,样本是当天采集的具体的样本的值,基准值可以是历史样本的对比值或者前n天的平均值。如果发现数据质量问题,系统会及时告警,确保数据的准确性和有效性。

    2023-12-03 18:25:54
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多