MaxCompute问答整理之2020-04~05月-阿里云开发者社区

开发者社区> 阿里巴巴大数据计算> 正文

MaxCompute问答整理之2020-04~05月

简介: 飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。

本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区钉群里的一些问题,进而整理成文。希望对大家有所帮助。

问题一、MaxCompute SQL支持with as语句吗?
支持,MaxCompute支持SQL标准的CTE,提高SQL语句的可读性与执行效率。具体语法可参考官网文档:
https://help.aliyun.com/document_detail/73788.html

问题二、MaxCompute Spark 如何在本地进行调试?
可以使用IDEA进行MaxCompute Spark进行本地调试。可参考官方文档:https://help.aliyun.com/document_detail/118144.html

问题三、使用MMA工具做数据迁移时,有个job一直处于pending状态,无法删除pending的job,如何删除呢?
目前只能取消迁移succeeded和failed任务。会有一个重试,重试结果任务挂掉就可以删除。
MaxCompute Migration Assist(MMA)是一款MaxCompute数据迁移工具。MMA官方介绍:
https://help.aliyun.com/document_detail/149668.html

问题四、在MaxCompute中,100亿条数据,使用Group by分组查询会不会影响性能?使用Group by对数据量有没有限制?
无影响,无限制。具体Group by分组查询使用规则可参考官网文档:
https://help.aliyun.com/document_detail/73777.html

问题五、创建MaxCompute项目空间,是只能在DataWorks控制台中创建吗?
是的,MaxCompute控制台即为DataWorks控制台,可在DataWorks创建工作空间。可参考官方文档进行操作:
https://help.aliyun.com/document_detail/27815.html

问题六、

select a.*,b.ce from a left join b on a.cente_id = b.id WHERE a.pt='20200518' and b.pt='20200518'

选择a和b表的分区20200518的数据,做left join?不行吗?

可以改成下面这样:

select a1.*,b1.ce
from (select * from a where pt='20200518')a1
left join (select * from b where pt='20200518')b1 on a1.cente_id = b1.id

问题七、开通MaxCompute服务,如何根据本身数据存储量以及计算任务评估开通哪些产品规格?
新用户建议开通MaxCompute按量付费版本,存储和下载都是按量付费,正式跑一段时间之后再评估是否需要变换产品规格。
MaxCompute计费项可参考官方文档:https://help.aliyun.com/document_detail/53056.html

问题八、有什么命令可以查询MaxCompute内表的存储量和记录条数?
单表的存储量可以使用desc命令查看,记录条数可以使用count。

问题九、MaxCompute数据类型版本如何理解?
目前Maxompute一共支持3个数据类型版本:
1、MaxCompute 2.0数据类型
2、MaxCompute 1.0数据类型
3、MaxCompute Hive兼容模式(即部分数据类型和SQL行为兼容Hive)
具体参数设置可参考官方文档:https://help.aliyun.com/document_detail/27821.html

问题十、MaxCompute建表默认有压缩功能吗?可以指定压缩格式和存储格式吗?
目前MaxCompute默认自动压缩,默认存储格式AliORC,不支持自定义。
MaxComptue存储性能可参考官方文档:https://help.aliyun.com/document_detail/162573.html

问题十一、DataWorks中的调度参数如何配置?
目前调度参数支持系统参数和自定义参数两种形式:
• 系统参数可以在代码中直接使用。
• 自定义参数需要在调度参数赋值处,给该变量赋值自定义参数后,在代码中调用变量名。
可参考官方文档:https://help.aliyun.com/document_detail/137548.html

问题十二、使用jdbc方式访问MaxCompute可以向MaxComptue中插入数据吗?
可以执行INSERT,具体可参考官方文档:https://help.aliyun.com/document_detail/161246.html

问题十三、MaxCompute的存储压缩比是多少?
一般压缩比是1:4,如果您有什么具体的表或者分区觉得压缩比不正常可以在MaxCompute社区钉群反馈,我们一起分析一下。

问题十四、数据源连通性测试失败如何解决?
关于数据源连通性常见的问题可参考官方文档:https://help.aliyun.com/document_detail/137671.html

问题十五、PyODPS节点是否支持python 3?
DataWorks在2020.05.21新增PyODPS 3节点,可参考官方文档进行操作:https://help.aliyun.com/document_detail/167964.html

欢迎扫码加入 MaxCompute开发者社区钉钉群,或点击 申请加入。
2群.png

版权声明:本文中所有内容均属于阿里云开发者社区所有,任何媒体、网站或个人未经阿里云开发者社区协议授权不得转载、链接、转贴或以其他方式复制发布/发表。申请授权请邮件developerteam@list.alibaba-inc.com,已获得阿里云开发者社区协议授权的媒体、网站,在转载使用时必须注明"稿件来源:阿里云开发者社区,原文作者姓名",违者本社区将依法追究责任。 如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:developer2020@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
阿里巴巴大数据计算
使用钉钉扫一扫加入圈子
+ 订阅

阿里大数据官方技术圈

官方博客
链接