如何使用Dataphin助力高效业务研发-阿里云开发者社区

开发者社区> 开发与运维> 正文
登录阅读全文

如何使用Dataphin助力高效业务研发

简介:

作者:彭静 更多内容详见数据中台官网 https://dp.alibaba.com
导语:Dataphin·通用研发-实时&离线技能介绍
随着企业业务的不断扩展,程序员GG们通常会遇到老板提出的各种各样的需求--
• 老板A:“这个任务的计算逻辑比较复杂,但是结果我要快速拿到,排个最高优先级吧。“
• 老板B:“你这个任务非常重要,上线之前先把测试文档给我写一份看看,要保证上线的任务绝对正确!”
• 老板C:“脚本写完了要定期运维啊,还需要做到定时触发,我明天早上9点要准时看到数据!“

还在为各种开发和运维需求苦恼吗?同学,好日子来了!Dataphin·通用研发助力高效业务研发,开发、测试、运维一站式搞定!

——————————————————————————————————————————————
Dataphin支持丰富的脚本形态
复杂任务可能会涉及到多层业务逻辑,还会调取到其他函数功能、资源包等,纯SQL模式下几千行代码,在Dataphin中通通简化!

我们支持用户自定义UDX引入函数功能,支持Jar、Py、Files等多种资源包类型,程序员GG们可以轻松实现函数资源的管理、复用、引用,让复杂任务简单化!我们支持的离线脚本形式包括:SQL、MR、Spark、Shell、Python、Virtua;同时我们还支持实时脚本Flink_SQL以及Flink_Template_SQL
image
image

示例1:如何在Dataphin中优雅的调用Python功能包?
1、 新建资源文件
资源管理中新建资源,选择类型为Python,填写名称、描述,上传对应的资源包,选择目录后,单击提交。这里新建资源文件名称定为“test.py”。
image

2、Python文件语法规范
由于Python UDF必须通过annotate指定函数签名才可使用,且必须实现evaluate方法。新建的Python资源内固定语法如下:
image

其中前三行为固定语句,其中”MyPlus”可自定义命名。MyPlus类里定义的方法名必须为“evaluate”。@annotate的string代表定义的函数填入的数据类型,bigint代表输出值的数据类型(应用时,输入与输出数据的字段类型不同,需要在文件中增加转换语句,否则报错)。

3、新建函数引用该新建资源
函数管理中新建函数,填写名称,选择对应的资源(这里为test.py),填入类名、类型、命名格式、使用文档、选择目录后,单击提交。这里新建资源文件名称定为“test_function”。
image

4、验证该函数是否生效且满足预期,您可以新建SQL任务,执行该函数进行查询。示例如下:
image

示例2:如何在Dataphin中给任务排优先级,保障高优先级的任务的资源充足不受影响?

1、在Shell任务中,支持自定义分配资源,调度的CPU、内存都可以自己写入,力求保障任务稳定高效调度!
image

2、同时,可以给任务设置调度优先级,保障高优先级的任务调度不受影响。
怎么样!Dataphin的通用研发功能是不是很吸引人呢!这还只是强大功能的一小部分呢,快来亲自体验一下吧,效果超乎你想象!
image

————————————————————
阿里巴巴数据中台团队,致力于输出阿里云数据智能的最佳实践,助力每个企业建设自己的数据中台,进而共同实现新时代下的智能商业!
阿里巴巴数据中台解决方案,核心产品:
· Dataphin,以阿里巴巴大数据核心方法论OneData为内核驱动,提供一站式数据构建与管理能力;
· Quick BI,集阿里巴巴数据分析经验沉淀,提供一站式数据分析与展现能力;
· Quick Audience,集阿里巴巴消费者洞察及营销经验,提供一站式人群圈选、洞察及营销投放能力,连接阿里巴巴商业,实现用户增长。
欢迎志同道合者一起成长! 更多内容详见数据中台官网 https://dp.alibaba.com

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
开发与运维
使用钉钉扫一扫加入圈子
+ 订阅

集结各类场景实战经验,助你开发运维畅行无忧

其他文章