文档备案控制台

开发者社区问答正文

使用 UDJ 自定义SQL的Join操作是什么？

使用 UDJ 自定义SQL的Join操作是什么？

展开

收起

芯在这 2021-12-12 23:31:00 650 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

广义上我们通常用UDF（User Defined Function）来描述用户代码框架。现有的UDF/UDTF/UDAF接口主要是针对在单个数据表上的操作而设计。但是一旦涉及多表的用户自定义操作，用户经常需要依赖于内置join + 各种UDF/UDTF, 并且配合比较复杂的SQL语句来完成。甚至在一些多表操作的场景上，用户不得不放弃SQL而转向传统的完全自定义MR，才能完成所需的计算。

这两种方式对于用户的门槛都比较高。而且对于计算平台而言，多个复杂的join和散布在SQL语言各处的用户代码揉合在一起，带来的是多处的“逻辑黑盒”，并不利于产生最优的执行计划。而使用MR，不仅更大程度上剥夺了系统进行执行优化的可能性，而且由于MR绝大部分代码由Java完成，在执行效率上会远低于MaxCompute基于LLVM 代码生成器产生的深度优化native运行时。

MaxCompute 2.0的全面上线，为计算平台框架的发展提供了更大的灵活度，在这个基础上，我们提出了建设NewSQL生态的目标。NewSQL通过一个扩展的SQL框架，让用户能使用描述性的语言表达其主体逻辑流程，而仅在与分布系统执行流程无关的地方，才引入用户代码。这样的设计，能让用户对计算逻辑从“HOW”（怎样具体完成一个分布式计算流程），转变成“WHAT”（用户从逻辑上描述其想完成的事情和数据操作）。这样的转变，能让用户把更多的精力集中在“WHAT”上面，优化自己的商业处理逻辑上，而把“HOW”交给计算平台，让计算平台进行复杂的系统优化，产生最优的执行计划来完成具体流程。

在这个大背景下，我们在UDF框架中引入了UDJ这种全新的，针对多表数据操作的扩展机制。希望借由这种新的机制，减少用户之前不得不通过MR等方式对分布式系统底层细节的操作，从而达到用户可用性以及系统优化的双赢。

2021-12-12 23:31:25

赞同展开评论

问答分类：

SQL

问答标签：

SQL JOIN 自定义SQL SQL自定义 SQL操作自定义SQL join

问答地址：

开发者社区 > 数据库 > 问答

相关问答

既然自定义SQL能实现多表关联，为什么还单独提供一个模块支持手工关联操作？

196

0

0

使用自定义SQL写Where过滤条件进行DTS同步链路的数据过滤时是否支持多表Join的SQL

249

1

0

自定义SQL的时候，只能对一张表进行操作，还是可以对多张表进行操作关联？

143

0

0

如何配置和使用自定义的 Maven 插件 mybatis-sql-scan 来扫描 SQL？

295

1

0

如何使用dataworks完成自定义SQL在mc中提取数据写入到holo内？

519

12

0

DataWorks数据集成模块，MySQL的数据同步可以按照脚本模式自定义sql来进行数据继承吗？

257

1

0

DataWorks数据质量的自定义sql如何传分区参数进去？

254

1

0

DataWorks数据质量自定义sql，这里的采样值一直为0，想问下什么原因？

198

0

0

DataWorks sql中看到用到了一个自定义的udf，能搜到注册了这个函数，如何解决？

207

1

0

机器学习PAI自定义udtf，在sql中，不能用表字段传参给udtf函数吗？

224

0

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

矩阵账号批量直播，单套软件最多能同时运营几个账号？

能不能靠谱点？每天更新，自己发现不了问题？测试人员都栽了吗？

完全没有直播经验，上手 AI 直播需要多久？

动态变量话术引擎对直播有什么作用？

在vs code安装Qoder CN，登录并订阅了个人专业版，无法使用，急急急

相关文章

代码提速10倍，交付只快18%：AI编程的效率悖论到底卡在哪

团队里没人敢动的那段 100 行 SQL，我用 7 步拆透了

多模数据库是什么？支持哪些数据模型、能不能用 SQL 查询？阿里云 Lindorm 解析

当 PostgreSQL 坐稳数据底座，Agent 还差什么才能真正跑起来？

DCMM 2.0 L4 级 AI 能力技术架构：从数据治理底座到智能体闭环的演进路径

还有其他疑问?