MaxCompute问答整理之2020-04~05月

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。

本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区钉群里的一些问题,进而整理成文。希望对大家有所帮助。

问题一、MaxCompute SQL支持with as语句吗?
支持,MaxCompute支持SQL标准的CTE,提高SQL语句的可读性与执行效率。具体语法可参考官网文档:
https://help.aliyun.com/document_detail/73788.html

问题二、MaxCompute Spark 如何在本地进行调试?
可以使用IDEA进行MaxCompute Spark进行本地调试。可参考官方文档:https://help.aliyun.com/document_detail/118144.html

问题三、使用MMA工具做数据迁移时,有个job一直处于pending状态,无法删除pending的job,如何删除呢?
目前只能取消迁移succeeded和failed任务。会有一个重试,重试结果任务挂掉就可以删除。
MaxCompute Migration Assist(MMA)是一款MaxCompute数据迁移工具。MMA官方介绍:
https://help.aliyun.com/document_detail/149668.html

问题四、在MaxCompute中,100亿条数据,使用Group by分组查询会不会影响性能?使用Group by对数据量有没有限制?
无影响,无限制。具体Group by分组查询使用规则可参考官网文档:
https://help.aliyun.com/document_detail/73777.html

问题五、创建MaxCompute项目空间,是只能在DataWorks控制台中创建吗?
是的,MaxCompute控制台即为DataWorks控制台,可在DataWorks创建工作空间。可参考官方文档进行操作:
https://help.aliyun.com/document_detail/27815.html

问题六、

select a.*,b.ce from a left join b on a.cente_id = b.id WHERE a.pt='20200518' and b.pt='20200518'

选择a和b表的分区20200518的数据,做left join?不行吗?

可以改成下面这样:

select a1.*,b1.ce
from (select * from a where pt='20200518')a1
left join (select * from b where pt='20200518')b1 on a1.cente_id = b1.id

问题七、开通MaxCompute服务,如何根据本身数据存储量以及计算任务评估开通哪些产品规格?
新用户建议开通MaxCompute按量付费版本,存储和下载都是按量付费,正式跑一段时间之后再评估是否需要变换产品规格。
MaxCompute计费项可参考官方文档:https://help.aliyun.com/document_detail/53056.html

问题八、有什么命令可以查询MaxCompute内表的存储量和记录条数?
单表的存储量可以使用desc命令查看,记录条数可以使用count。

问题九、MaxCompute数据类型版本如何理解?
目前Maxompute一共支持3个数据类型版本:
1、MaxCompute 2.0数据类型
2、MaxCompute 1.0数据类型
3、MaxCompute Hive兼容模式(即部分数据类型和SQL行为兼容Hive)
具体参数设置可参考官方文档:https://help.aliyun.com/document_detail/27821.html

问题十、MaxCompute建表默认有压缩功能吗?可以指定压缩格式和存储格式吗?
目前MaxCompute默认自动压缩,默认存储格式AliORC,不支持自定义。
MaxComptue存储性能可参考官方文档:https://help.aliyun.com/document_detail/162573.html

问题十一、DataWorks中的调度参数如何配置?
目前调度参数支持系统参数和自定义参数两种形式:
• 系统参数可以在代码中直接使用。
• 自定义参数需要在调度参数赋值处,给该变量赋值自定义参数后,在代码中调用变量名。
可参考官方文档:https://help.aliyun.com/document_detail/137548.html

问题十二、使用jdbc方式访问MaxCompute可以向MaxComptue中插入数据吗?
可以执行INSERT,具体可参考官方文档:https://help.aliyun.com/document_detail/161246.html

问题十三、MaxCompute的存储压缩比是多少?
一般压缩比是1:4,如果您有什么具体的表或者分区觉得压缩比不正常可以在MaxCompute社区钉群反馈,我们一起分析一下。

问题十四、数据源连通性测试失败如何解决?
关于数据源连通性常见的问题可参考官方文档:https://help.aliyun.com/document_detail/137671.html

问题十五、PyODPS节点是否支持python 3?
DataWorks在2020.05.21新增PyODPS 3节点,可参考官方文档进行操作:https://help.aliyun.com/document_detail/167964.html

欢迎扫码加入 MaxCompute开发者社区钉钉群,或点击 申请加入。
2群.png

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
SQL 存储 分布式计算
SaaS模式云数据仓库 MaxCompute 问答整理之2020-07~08月
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。
2457 0
|
分布式计算 MaxCompute
MaxCompute问答整理之9月
本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。
9746 0
|
DataWorks 大数据
云上一指禅:大数据产品DataWorks每日问答
每天,阿里巴巴集团数万名数据/算法开发工程师正在使用DataWorks,承载阿里巴巴集团99%数据业务构建。
1659 0
|
分布式计算 MaxCompute DataWorks
MaxCompute问答整理之7月
本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。 问题一、DataWorks V2.0简单模式和标准模式的区别? 公司数仓的数据上云后,在使用MaxCompute计算引擎时,需要一个稳定、可靠的调度系统,将自身数据生产任务(代码)按照所需依赖关系、运行时间来调度运行,那么DataWorks就派上了用场。
3572 0
|
存储 分布式计算 监控
大数据基础知识问答----spark篇,大数据生态圈
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
1768 0
|
大数据 数据挖掘 数据库
大咖直播第三期问答整理:邵汉成讲解驴妈妈基于混合云的OTA行业数据分析、精准运营和大数据用户推荐
3月11日云栖社区在线实时分享顺利结束,本次由驴妈妈技术副总邵汉成讲解驴妈妈基于混合云的OTA行业数据分析、精准运营和大数据用户推荐,本次直播中现场观解众提出了很多技术问题,我们把这些问题和答案整理好分享给大家。
3051 0
|
15天前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
83 14
|
2月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
83 0
|
3月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
98 4
|
16天前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
91 14

相关产品

  • 云原生大数据计算服务 MaxCompute