MaxCompute产品使用合集之是否可以对OSS文件进行谓词下推-阿里云开发者社区

MaxCompute产品使用合集之是否可以对OSS文件进行谓词下推

2024-06-10 394

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： MaxCompute作为一款全面的大数据处理平台，广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践，可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集，涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

问题一：大数据计算MaxCompute还有个疑问，理论上不是应该比读1个更快一些吗？

大数据计算MaxCompute还有个疑问，5个文件的分了5个M instance去读，理论上不是应该比读1个更快一些吗？这其中哪里不同导致了比读1个慢呢？

参考答案：

需要具体看下。我理解是5个M把数据读到MaxCompute的时间有差距。导致整体慢了

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/574945

问题二：大数据计算MaxCompute这是谓词下推可以推到OSS文件上？

大数据计算MaxCompute这是谓词下推可以推到OSS文件上？

参考答案：

是的。比如oss的目录文件叫ds=20231130，MaxCompute table分区也是20231130，查询时就可以只查20231130的数据，不会访问其他oss目录的数据，实现数据过滤，提高性能。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/574944

问题三：咨询下大数据计算MaxCompute，我简单测试了一下：这个是因为底层IO的问题吗？

咨询下大数据计算MaxCompute，我简单测试了一下：同一个结构的数据，字段都一样，仅仅总行数有微小差异，他们最大的不同是一个底层分5个文件，一个全部在1个文件，都是同一个SQL(select ctl_are_cod, cny_cod from xxx where collect_dt_oss = '99999999')。

但是底层1个文件的读取速度居然比5个的要快40%，5个文件的启动了5个M instance，1个文件的是1个，这个是因为底层IO的问题吗？我其实想确认下存储文件是放到一个大文件好还是多个均衡的文件好呢？

参考答案：

推荐放到5个文件（按照MaxCompute分区放）里面，因为MaxCompute读取可以按照分区来做剪裁。如果放到一个文件里面，MaxCompute会先全部读过来，再做过滤。

放到不同的文件里面，可以单独读取某一个文件的数据。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/574943

问题四：大数据计算MaxCompute logview怎么好像显示不出来?

大数据计算MaxCompute logview怎么好像显示不出来?读取OSS外部表

参考答案：

dag应该是有的 ,简单的SQL，需要等logview运行完。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/574942

问题五：大数据计算MaxCompute默认分隔符能在上传是指定不?

大数据计算MaxCompute默认分隔符能在上传是指定不? 我刚看了数据风格符是空格，如果能指定辛苦给下命令示例

参考答案：

-fd " "

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/574941

MaxCompute产品使用合集之是否可以对OSS文件进行谓词下推

问题一：大数据计算MaxCompute还有个疑问，理论上不是应该比读1个更快一些吗？

问题二：大数据计算MaxCompute这是谓词下推可以推到OSS文件上？

问题三：咨询下大数据计算MaxCompute，我简单测试了一下：这个是因为底层IO的问题吗？

问题四：大数据计算MaxCompute logview怎么好像显示不出来?

问题五：大数据计算MaxCompute默认分隔符能在上传是指定不?

大数据计算 MaxCompute

热门文章

最新文章

相关产品

相关课程

相关电子书