备案控制台

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

在推断整个执行流程中，每一步产生的中间数据可能符合什么样的特性时，容易有什么挑战？

已解决

在推断整个执行流程中，每一步产生的中间数据可能符合什么样的特性时，容易有什么挑战？

展开

收起

游客lmkkns5ck6auu 2022-08-10 11:07:05 313 0

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

·实际输入数据的 statistics 的缺失：即便是 SQL 作业处理的结构化数据，也无法保证其源表数据特性拥有很好的统计。事实上今天因为数据落盘方式多样化，以及精细化统计方式的缺失，大部分的源表数据都是没有完整的 statistics 的。此外对于集群内部和外部需要处理的非结构化数据，数据的特性的统计更加困难；

分布式作业中存在的大量用户逻辑黑盒：作为一个通用的大数据处理系统，不可避免的需要支持用户逻辑在系统中的运行。比如 SQL 中常用的UDF/UDTF/UDJ/Extractor/Outputer 等等，这些使用 Java/Python 实现的用户逻辑，计算引擎和分布式系统并无法理解，在整个作业流程中是类似黑盒的存在。以 MaxCompute 为例，线上有超过 20% 的 SQL 作业，尤其是重点基线作业，都包含用户代码。这些大量用户代码的存在，也造成了优化器在很多情况下无法对中间产出数据的特性进行预判；

·优化器预判错误代价昂贵：在优化器选择执行计划时，会有一些优化方法，在数据符合一定特殊特性的时候，被合理选中能带来性能优化。但是一旦选择的前提假设错误（比如数据特性不符合预期），会适得其反，甚至带来严重的性能回退或作业失败。在这种前提下，依据静态的信息实现进行过多的预测经常得不到理想的结果。

以上内容摘自《“伏羲”神算》电子书，点击https://developer.aliyun.com/topic/download?id=873

2022-08-10 18:10:51

赞同展开评论打赏

问答分类：

云原生大数据计算服务 MaxCompute

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

Lambda 表达式代码量过于庞大如何解决？

302

1

0

智能字段绑定依赖于语义化层，语义会依据经验为节点做类型标注，为了提高准确度，可以怎么做？

363

1

0

未来，算法扩展将会优化到什么程度？

350

1

0

在调用算法平台的预测接口之前，加入了哪些逻辑上的过滤？

477

1

0

三点布光法中的主光有什么作用？

415

1

0

三点布光法中的辅助光有什么作用？

419

1

0

对业务场景的历史数据进行模型训练，提供包含业务含义的代码片段的意义在哪里？

505

1

0

如何利用结果类实现参数的输入输出功能的理论依据？

1022

1

0

逻辑代码生成思考的理想状态？

990

1

0

规范性分析是什么意思?

300

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

热门讨论

热门文章

解析并获取大json，是否更推荐json_tuple()？

在大数据计算MaxCompute，硅谷什么时候可以申请使用呀？

ODPS-0130071:[22,10] Semantic analysis exception

DataWorks中DBeaver查询MaxCompute，默认是UTC时区，这个要怎么修改呢？

大数据计算MaxCompute中如果说我这边的程序接收到用户上传文件的请求，应该调用哪个API接口？

MaxCompute + DataWorks 会将转换后的文件保存至 OSS 对象存储？

大数据计算MaxCompute这是什么问题？

大数据计算MaxCompute的maxFrame费用明细有吗？

将用户上传的文件信息及上传记录保存到 MaxCompute 表中上传记录？

MaxCompute中执行SQL报错ODPS-0130071

展开全部

美柚：最懂女性App背后的混合云架构与大数据服务

空格App亿元A轮融资背后：云上多场景技术架构实践与经验

干货：解码OneData，阿里的数仓之路。

阿里数据仓库实践分享

【逐云】阿里“水电煤”背后的人物故事

MySQL超时参数以及相关数据集成、DataX数据同步案例分享

MaxCompute/DataWorks权限问题排查建议

倒计时1天！相约杭州云栖，相遇数据智能

PyOdps DataFrame来临，数据分析从未如此简单！

展开全部

相关课程

更多

模型融合方法概述

89

1

去学习

【开眼界】大模型时代的个人应对策略

146

1

去学习

函数计算的功能与使用入门

5

9

去学习

相关电子书

更多

为并行图数据处理提供高层抽象／语言 立即下载

阿里巴巴代码缺陷检测探索与实践 立即下载

快速变化背景下，组织如何保持过程的稳定性？ 立即下载

相关实验场景

更多