DataWorks中基本概念资源、函数是什么?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks中的基本概念:
资源:
资源是DataWorks中进行分析的原始数据源,包括关系型数据库、数据库表、OSS文件、数据流等。DataWorks支持多种类型的资源:
RDBMS:MySQL、PostgreSQL等关系型数据库。
NoSQL:MongoDB等NoSQL数据库。
数据仓库:ODPS AnalyticDB 等。
数据湖:OSS文件。
数据流:Kafka、Flume等实时数据源。
函数:
函数是DataWorks中提供的一种计算逻辑,可以实现数据转换、清洗、统计等任务。主要有以下类型:
SQL函数:内置的SQL函数,如COUNT、SUM、AVG等。
UDF函数:用户自定义的SQL函数。
本地函数:实现Java、Python逻辑的函数。
系统函数:DataWorks内置的函数。
流:
流代表的是一条从一个或多个资源读取数据,进行计算和转换,输出结果到一个或多个资源的逻辑管道。
流主要包括:
离线流:处理历史数据,慢速计算。
实时流:实时处理新入的数据,快速计算。
报表:
报表代表的是数据分析的结果展示,可以以表格、图表等形式展现出来。报表可以配置刷新规则,实现实时展示结果。
资源、函数均为MaxCompute的概念,详情请参见资源和函数。您可以在DataWorks中,通过界面管理资源和函数。如果通过MaxCompute的其它方式进行资源、函数管理,则无法在DataWorks中进行相关的查询。
https://help.aliyun.com/document_detail/73017.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。