问题一:大数据计算MaxCompute还有个疑问,理论上不是应该比读1个更快一些吗?
大数据计算MaxCompute还有个疑问,5个文件的分了5个M instance去读,理论上不是应该比读1个更快一些吗?这其中哪里不同导致了比读1个慢呢?
参考答案:
需要具体看下。 我理解是5个M把数据读到MaxCompute的时间有差距。 导致整体慢了
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/574945
问题二:大数据计算MaxCompute这是谓词下推可以推到OSS文件上?
大数据计算MaxCompute这是谓词下推可以推到OSS文件上?
参考答案:
是的。 比如oss的目录文件叫ds=20231130,MaxCompute table分区也是20231130,查询时就可以只查20231130的数据,不会访问其他oss目录的数据,实现数据过滤,提高性能。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/574944
问题三:咨询下大数据计算MaxCompute,我简单测试了一下:这个是因为底层IO的问题吗?
咨询下大数据计算MaxCompute,我简单测试了一下:同一个结构的数据,字段都一样,仅仅总行数有微小差异,他们最大的不同是一个底层分5个文件,一个全部在1个文件,都是同一个SQL(select ctl_are_cod, cny_cod from xxx where collect_dt_oss = '99999999')。
但是底层1个文件的读取速度居然比5个的要快40%,5个文件的启动了5个M instance,1个文件的是1个,这个是因为底层IO的问题吗?我其实想确认下存储文件是放到一个大文件好还是多个均衡的文件好呢?
参考答案:
推荐放到5个文件(按照MaxCompute分区放)里面,因为MaxCompute读取可以按照分区来做剪裁。如果放到一个文件里面,MaxCompute会先全部读过来,再做过滤。
放到不同的文件里面,可以单独读取某一个文件的数据。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/574943
问题四:大数据计算MaxCompute logview怎么好像显示不出来?
大数据计算MaxCompute logview怎么好像显示不出来?读取OSS外部表
参考答案:
dag应该是有的 ,简单的SQL,需要等logview运行完。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/574942
问题五:大数据计算MaxCompute默认分隔符能在上传是指定不?
大数据计算MaxCompute默认分隔符能在上传是指定不? 我刚看了 数据风格符是空格, 如果能指定 辛苦给下命令示例
参考答案:
-fd " "
关于本问题的更多回答可点击进行查看: