MaxCompute问答整理之2020-03月

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。

本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。

问题一、在 MaxCompute SQL执行过程中,报错Table xx has n columns, but query has m columns如何处理?
MaxCompute SQL使用INSERT INTO/OVERWRITE插入数据时,需要保证SELECT查询出 来的字段和插入的表的字段匹配,匹配内容包括顺序、字段类型,总的字段数量。目前 MaxCompute不支持插入表的指定字段,其他字段为NULL或者其他默认值的情况,您可以 在SELECT的时候设置成NULL,例如SELECT ‘a’,NULL FROM XX。

问题二、MaxCompute 中使用什么方法可以实现相同字段连接,将group by产生的同一个分组中的值连接起来,返回一个字符串结果。类似MySql中的group_concat()函数?
MaxCompute可以使用WM_CONCAT函数来实现相同字段连接。具体函数说明可参考:
https://help.aliyun.com/document_detail/48975.html

问题三、如何在MaxCompute Java SDK上使用Logview排错?
MaxCompute Java SDK提供了Logview接口 i = SQLTask.run(odps, sql); String logview = odps.logview().generateLogView(i, 7 * 24);

问题四、如何进行增量数据同步到MaxCompute?
可以尝试两种方式,一种不变的数据进行增量同步,一种是会变的数据进行增量同步(不推荐使用此方式,只有如不支持Delete语句)。

问题五、MaxCommpute中,如何修改表的Hash Clustering属性?
增加表的Hash Clustering属性语句如下:
ALTER TABLE table_name [CLUSTERED BY (col_name [, col_name, ...]) [SORTED BY (col_name [ASC | DESC] [, col_name [ASC | DESC] ...])] INTO number_of_buckets BUCKETS]
去除表的Hash Clustering属性的语法格式如下:
ALTER TABLE table_name NOT CLUSTERED;

问题六、Tunnel上传数据的时候报错信息如下:You cannot complete the specified operation under the current upload or download status
错误原因:Session过期或者已经Commit过,需要重新创建Session上传。Tunnel上传时每个Session的生命周期是一天,如果源表数据太大,导致Session超时任务失败时,建议将源表拆分成2个任务执行。

问题七、如何使用Clone table实现同region不同账号之间的MaxCompute的数据迁移?
使用Clone table进行数据迁移操作,命令格式为CLONE TABLE <[src_project_name.]src_table_name> [PARTITION(spec), ...]TO <[dest_project_name.]desc_table_name> [IF EXISTS (OVERWRITE | IGNORE)] ;
可参考文章:https://developer.aliyun.com/article/748158

问题八、MaxCompute Python UDF如何开启Python 3?
在执行Python 3 UDF的SQL语句前增加set odps.sql.python.version=cp37;语句一起执行,即可开启Python 3。

问题九、MaxCompute中如何禁止/恢复生命周期功能?
可使用禁止/恢复生命周期SQL来设置。具体语法如下:

   ALTER TABLE table_name [partition_spec] ENABLE|DISABLE LIFECYCLE;

问题十、MaxCommpute中,如何查看指定的表或者分区是否存在?
可使用使用函数TABLE_EXISTS,查询指定的表是否存在。
使用函数PARTITION_EXISTS,查询指定的分区是否存在。
具体函数说明可参考:
https://help.aliyun.com/document_detail/48976.html

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
6月前
|
SQL 分布式计算 DataWorks
MaxCompute产品使用合集之该怎么创建MaxCompute的项目
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
SQL 分布式计算 MaxCompute
MaxCompute问答整理之2020-06月
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。
1137 0
MaxCompute问答整理之2020-06月
|
SQL 存储 分布式计算
MaxCompute问答整理之2020-04~05月
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。
797 0
MaxCompute问答整理之2020-04~05月
|
SQL 分布式计算 Cloud Native
MaxCompute问答整理之2020-02月
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。
1252 0
MaxCompute问答整理之2020-02月
|
SQL 存储 分布式计算
MaxCompute问答整理之2020-01月
本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。
1260 0
MaxCompute问答整理之2020-01月
|
SQL 消息中间件 JSON
MaxCompute问答整理之12月
本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。
1485 0
MaxCompute问答整理之12月
|
SQL 分布式计算 Oracle
MaxCompute问答整理之11月
本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。
6823 0
MaxCompute问答整理之11月
|
分布式计算 MaxCompute SQL
MaxCompute问答整理之8月
本文是基于对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。
2630 0
|
SQL Web App开发 分布式计算
MaxCompute使用常见问题总结
Maxcompute常见问题的总结,方便广大用户可以快速排查问题
5300 0
|
SQL 分布式计算 大数据
MaxCompute基础与MaxCompute SQL优化
总论:大数据计算服务 ( MaxCompute,原名 ODPS ) 是一种快速、完全托管的 TB/PB 级数据仓库解决方案 。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全 。
7536 0

相关产品

  • 云原生大数据计算服务 MaxCompute