MaxCompute问答整理之2020-04~05月

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。

本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区钉群里的一些问题,进而整理成文。希望对大家有所帮助。

问题一、MaxCompute SQL支持with as语句吗?
支持,MaxCompute支持SQL标准的CTE,提高SQL语句的可读性与执行效率。具体语法可参考官网文档:
https://help.aliyun.com/document_detail/73788.html

问题二、MaxCompute Spark 如何在本地进行调试?
可以使用IDEA进行MaxCompute Spark进行本地调试。可参考官方文档:https://help.aliyun.com/document_detail/118144.html

问题三、使用MMA工具做数据迁移时,有个job一直处于pending状态,无法删除pending的job,如何删除呢?
目前只能取消迁移succeeded和failed任务。会有一个重试,重试结果任务挂掉就可以删除。
MaxCompute Migration Assist(MMA)是一款MaxCompute数据迁移工具。MMA官方介绍:
https://help.aliyun.com/document_detail/149668.html

问题四、在MaxCompute中,100亿条数据,使用Group by分组查询会不会影响性能?使用Group by对数据量有没有限制?
无影响,无限制。具体Group by分组查询使用规则可参考官网文档:
https://help.aliyun.com/document_detail/73777.html

问题五、创建MaxCompute项目空间,是只能在DataWorks控制台中创建吗?
是的,MaxCompute控制台即为DataWorks控制台,可在DataWorks创建工作空间。可参考官方文档进行操作:
https://help.aliyun.com/document_detail/27815.html

问题六、

select a.*,b.ce from a left join b on a.cente_id = b.id WHERE a.pt='20200518' and b.pt='20200518'

选择a和b表的分区20200518的数据,做left join?不行吗?

可以改成下面这样:

select a1.*,b1.ce
from (select * from a where pt='20200518')a1
left join (select * from b where pt='20200518')b1 on a1.cente_id = b1.id

问题七、开通MaxCompute服务,如何根据本身数据存储量以及计算任务评估开通哪些产品规格?
新用户建议开通MaxCompute按量付费版本,存储和下载都是按量付费,正式跑一段时间之后再评估是否需要变换产品规格。
MaxCompute计费项可参考官方文档:https://help.aliyun.com/document_detail/53056.html

问题八、有什么命令可以查询MaxCompute内表的存储量和记录条数?
单表的存储量可以使用desc命令查看,记录条数可以使用count。

问题九、MaxCompute数据类型版本如何理解?
目前Maxompute一共支持3个数据类型版本:
1、MaxCompute 2.0数据类型
2、MaxCompute 1.0数据类型
3、MaxCompute Hive兼容模式(即部分数据类型和SQL行为兼容Hive)
具体参数设置可参考官方文档:https://help.aliyun.com/document_detail/27821.html

问题十、MaxCompute建表默认有压缩功能吗?可以指定压缩格式和存储格式吗?
目前MaxCompute默认自动压缩,默认存储格式AliORC,不支持自定义。
MaxComptue存储性能可参考官方文档:https://help.aliyun.com/document_detail/162573.html

问题十一、DataWorks中的调度参数如何配置?
目前调度参数支持系统参数和自定义参数两种形式:
• 系统参数可以在代码中直接使用。
• 自定义参数需要在调度参数赋值处,给该变量赋值自定义参数后,在代码中调用变量名。
可参考官方文档:https://help.aliyun.com/document_detail/137548.html

问题十二、使用jdbc方式访问MaxCompute可以向MaxComptue中插入数据吗?
可以执行INSERT,具体可参考官方文档:https://help.aliyun.com/document_detail/161246.html

问题十三、MaxCompute的存储压缩比是多少?
一般压缩比是1:4,如果您有什么具体的表或者分区觉得压缩比不正常可以在MaxCompute社区钉群反馈,我们一起分析一下。

问题十四、数据源连通性测试失败如何解决?
关于数据源连通性常见的问题可参考官方文档:https://help.aliyun.com/document_detail/137671.html

问题十五、PyODPS节点是否支持python 3?
DataWorks在2020.05.21新增PyODPS 3节点,可参考官方文档进行操作:https://help.aliyun.com/document_detail/167964.html

欢迎扫码加入 MaxCompute开发者社区钉钉群,或点击 申请加入。
2群.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
分布式计算 大数据 数据挖掘
大数据计算服务MaxCompute每日问答汇总(持续更新中)
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。
大数据计算服务MaxCompute每日问答汇总(持续更新中)
|
SQL 存储 分布式计算
SaaS模式云数据仓库 MaxCompute 问答整理之2020-07~08月
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。
2401 0
|
分布式计算 MaxCompute
MaxCompute问答整理之9月
本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。
9651 0
|
DataWorks 大数据
云上一指禅:大数据产品DataWorks每日问答
每天,阿里巴巴集团数万名数据/算法开发工程师正在使用DataWorks,承载阿里巴巴集团99%数据业务构建。
1529 0
|
分布式计算 MaxCompute DataWorks
MaxCompute问答整理之7月
本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。 问题一、DataWorks V2.0简单模式和标准模式的区别? 公司数仓的数据上云后,在使用MaxCompute计算引擎时,需要一个稳定、可靠的调度系统,将自身数据生产任务(代码)按照所需依赖关系、运行时间来调度运行,那么DataWorks就派上了用场。
3502 0
|
存储 分布式计算 监控
大数据基础知识问答----spark篇,大数据生态圈
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
1669 0
|
大数据 数据挖掘 数据库
大咖直播第三期问答整理:邵汉成讲解驴妈妈基于混合云的OTA行业数据分析、精准运营和大数据用户推荐
3月11日云栖社区在线实时分享顺利结束,本次由驴妈妈技术副总邵汉成讲解驴妈妈基于混合云的OTA行业数据分析、精准运营和大数据用户推荐,本次直播中现场观解众提出了很多技术问题,我们把这些问题和答案整理好分享给大家。
2959 0
|
28天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
7天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
38 1
|
1天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
9 3

相关产品

  • 云原生大数据计算服务 MaxCompute