DataWorks数据质量，怎么支持udf？

展开

收起

真的很搞笑 2023-12-03 16:58:18 162 版权

3 条回答

写回答

取消提交回答

sunrr

DataWorks支持使用UDF（用户自定义函数）来提升数据质量。首先，需要登录DataWorks控制台，选择数据建模与开发 > 数据开发，然后选择对应的工作空间。

为了实现UDF，DataWorks推出了在线开发UDF的产品Function Studio。您无需下载和安装本地IDE、配置环境变量等步骤，仅需要一个浏览器即可完成应用程序的编写、运行和调试，体验效果与本地IDE无异。在Python UDF中，需要通过annotate指定函数签名并实现evaluate方法。

除此之外，DataWorks的数据质量模块可以支持对常见的大数据存储进行质量校验，如MaxCompute、E-MapReduce Hive、Hologres等。您可以从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度出发，配置质量监控规则。当任务完成后，系统会自动触发质量规则校验，帮助您及时发现问题数据。同时，您可以按需设置规则的强弱来控制任务是否因质量问题而失败退出，从而避免脏数据扩大影响，有效降低数据恢复处理的时间成本和费用成本。

2023-12-05 09:23:53

赞同展开评论
芯在这

对MaxCompute表监控使用自定义sql ，函数创建还是在数据开发界面创建好，已有的函数尝试在自定义sql中使用，此回答整理自钉群“DataWorks交流群(答疑@机器人)”

2023-12-03 23:01:23

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

DataWorks数据质量支持使用UDF（用户自定义函数）进行数据处理和分析。首先，需要利用Function Studio，这是一个在线开发UDF的阿里云产品，可以在浏览器中编写、运行和调试应用程序，省去了下载和配置本地IDE等繁琐工作。

在编写UDF时，Python UDF必须通过annotate指定函数签名，并且必须实现evaluate方法。编写完成后，可以直接将UDF函数应用于SELECT语句，对查询结构做格式化处理后再输出内容。

此外，DataWorks数据质量还提供内置的表级别和字段级别的监控模板，帮助您第一时间感知源端数据的变更与ETL过程中产生的脏数据，自动拦截问题任务，有效阻断脏数据向下游蔓延。例如对于SQL任务表行数，可以设置波动率检测规则，样本是当天采集的具体的样本的值，基准值可以是历史样本的对比值或者前n天的平均值。如果发现数据质量问题，系统会及时告警，确保数据的准确性和有效性。

2023-12-03 18:25:54

赞同展开评论

DataWorks数据质量，怎么支持udf？

大数据开发治理DataWorks

相关文章

热门讨论

热门文章