DataWorks支持使用UDF(用户自定义函数)来提升数据质量。首先,需要登录DataWorks控制台,选择数据建模与开发 > 数据开发,然后选择对应的工作空间。
为了实现UDF,DataWorks推出了在线开发UDF的产品Function Studio。您无需下载和安装本地IDE、配置环境变量等步骤,仅需要一个浏览器即可完成应用程序的编写、运行和调试,体验效果与本地IDE无异。在Python UDF中,需要通过annotate指定函数签名并实现evaluate方法。
除此之外,DataWorks的数据质量模块可以支持对常见的大数据存储进行质量校验,如MaxCompute、E-MapReduce Hive、Hologres等。您可以从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度出发,配置质量监控规则。当任务完成后,系统会自动触发质量规则校验,帮助您及时发现问题数据。同时,您可以按需设置规则的强弱来控制任务是否因质量问题而失败退出,从而避免脏数据扩大影响,有效降低数据恢复处理的时间成本和费用成本。
对MaxCompute表监控 使用自定义sql ,函数创建还是在数据开发界面创建好,已有的函数尝试在自定义sql中使用 ,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
DataWorks数据质量支持使用UDF(用户自定义函数)进行数据处理和分析。首先,需要利用Function Studio,这是一个在线开发UDF的阿里云产品,可以在浏览器中编写、运行和调试应用程序,省去了下载和配置本地IDE等繁琐工作。
在编写UDF时,Python UDF必须通过annotate指定函数签名,并且必须实现evaluate方法。编写完成后,可以直接将UDF函数应用于SELECT语句,对查询结构做格式化处理后再输出内容。
此外,DataWorks数据质量还提供内置的表级别和字段级别的监控模板,帮助您第一时间感知源端数据的变更与ETL过程中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。例如对于SQL任务表行数,可以设置波动率检测规则,样本是当天采集的具体的样本的值,基准值可以是历史样本的对比值或者前n天的平均值。如果发现数据质量问题,系统会及时告警,确保数据的准确性和有效性。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。