文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

在推断整个执行流程中，每一步产生的中间数据可能符合什么样的特性时，容易有什么挑战？

已解决

在推断整个执行流程中，每一步产生的中间数据可能符合什么样的特性时，容易有什么挑战？

展开

收起

游客lmkkns5ck6auu 2022-08-10 11:07:05 355 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

·实际输入数据的 statistics 的缺失：即便是 SQL 作业处理的结构化数据，也无法保证其源表数据特性拥有很好的统计。事实上今天因为数据落盘方式多样化，以及精细化统计方式的缺失，大部分的源表数据都是没有完整的 statistics 的。此外对于集群内部和外部需要处理的非结构化数据，数据的特性的统计更加困难；

分布式作业中存在的大量用户逻辑黑盒：作为一个通用的大数据处理系统，不可避免的需要支持用户逻辑在系统中的运行。比如 SQL 中常用的UDF/UDTF/UDJ/Extractor/Outputer 等等，这些使用 Java/Python 实现的用户逻辑，计算引擎和分布式系统并无法理解，在整个作业流程中是类似黑盒的存在。以 MaxCompute 为例，线上有超过 20% 的 SQL 作业，尤其是重点基线作业，都包含用户代码。这些大量用户代码的存在，也造成了优化器在很多情况下无法对中间产出数据的特性进行预判；

·优化器预判错误代价昂贵：在优化器选择执行计划时，会有一些优化方法，在数据符合一定特殊特性的时候，被合理选中能带来性能优化。但是一旦选择的前提假设错误（比如数据特性不符合预期），会适得其反，甚至带来严重的性能回退或作业失败。在这种前提下，依据静态的信息实现进行过多的预测经常得不到理想的结果。

以上内容摘自《“伏羲”神算》电子书，点击https://developer.aliyun.com/topic/download?id=873

2022-08-10 18:10:51

赞同展开评论

问答分类：

云原生大数据计算服务 MaxCompute

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

访问ECS服务器的网站提示“由于你访问的URL可能对网站造成安全威胁，您的访问被阻断”，这是什么原因？

134121

16

0

#支付宝授权提示请在支付宝客户端打开链接

18006

19

0

#支付宝身份验证失败（人气大爆发，一会再试试）？

10306

2

0

通过www和不带www的网址输入最终都指向www.我的域名.com，求指教

141624

46

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

265621

11

0

购买阿里国外的云服务器是否可以访问谷歌？

86369

49

0

this xml file does not appear to have any style in

53979

11

0

轻量级应用服务器端口问题（打不开）

31491

21

0

今天刚刚买的阿里云香港服务器，国内无法访问，坑啊

34661

17

0

com/action/joingroup?code=v1是什么意思

220825

21

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

收录在圈子:

阿里巴巴大数据计算

347744

+ 订阅

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库，以 Serverless 架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析，将数据高效转换为业务洞察。

相关文章

【跨国数仓迁移最佳实践8】MaxCompute Streaming Insert：大数据数据流写业务迁移的实践与突破

网站代码网站源代码网页源代码网页代码网站

MaxCompute SQL AI 实操：业务员外呼备注有效性判断

寻找 AI 全能王——阿里云 Data+AI 工程师全球大奖赛正式开启

金融行情系统中，API 接入常见的 5 个工程问题

相关解决方案

更多

基于数据闪回，快速恢复数据

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

数据守护：防勒索攻击数据保障

高效存储和处理多媒体数据

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

请问下大数据计算MaxCompute dataworks是否有全局变量？

DataWorks 智能数据建模-业务痛点有哪些？

请教个大数据计算MaxCompute问题，有什么方法可以解决这个问题呢?

Jdbc连接查询表时这个extended字段怎么添加的单纯使用show tables发送请求是

MaxCompute有没有参数突破呢？

请教个大数据计算MaxCompute问题，报这个错误是啥情况？

今天用实时同步同步了 RDS 数据到 MaxCompute，任务运维上显示成功，看日志也没有问

大数据计算MaxCompute的group by 时合并array , 用什么方法？

大数据计算MaxCompute报这个错怎么解决？

展开全部

大数据环境下该如何优雅地设计数据分层

odps是什么?

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

吴刚专访--大数据和 MaxCompute 技术和故事

【转载】时隔一年多，我又用起了 Superset

品《阿里巴巴大数据实践-大数据之路》一书（上）

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

干货：解码OneData，阿里的数仓之路。

阿里云MaxCompute 2019-5月刊

展开全部

还有其他疑问?