MaxCompute常见问题总结以及排查方案

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: Maxcompute常见问题汇总

计费相关

存储计费:按照存储在 MaxCompute 的数据的容量大小进行阶梯计费。

计算计费:MaxCompute 分按量后付费和按 CU 预付费两种计算计费方式。

按量后付费:按量后付费方式针对 SQL 任务和 MapReduce 任务进行计费。

SQL 任务按量后付费:即 SQL 任务按 I/O 后付费。

MapReduce 按量后付费:即 MapReduce 任务按量进行计费。

按 CU 预付费:此方式仅在阿里云大数据平台提供。

下载计费: MaxCompute 将按照下载的数据大小进行计费
注意是对公网下载收费,内网下载不收费
参考https://help.aliyun.com/document_detail/27989.html?spm=5176.doc45389.6.560.LYjhcl

SQL语法和标准sql区别

1,无事务控制
2,暂时不支持update/delete
3,不支持修改字段类型,不支持删除字段
4,不支持 select from 多表
5,其他hive对标函数,官方文档没有的暂时不支持
更多参考
https://help.aliyun.com/document_detail/50985.html?spm=5176.doc27862.6.757.lSC74f

SQL限制

select 最大显示10000行
想导出大于10000行参考
https://help.aliyun.com/document_detail/53093.html?spm=5176.7751065.6.751.iLm6hF
2,string字段最大8M
更多其他限制参考
https://help.aliyun.com/document_detail/51823.html?spm=5176.doc53093.6.618.R37r8p

java沙箱限制类问题

用户经常问:
本地测试正常,在提交到odps后失败,代码一毛一样
https://help.aliyun.com/document_detail/27967.html?spm=5176.doc51823.6.647.Rt0efa
原因:
我们处于安全考虑,对一些第三方jar包做了限制
一般是fastjson这个包比较常见,回复口径:

由于java沙箱限制,对一些第三方jar包由限制,fastjson的jar包被限制因为安全沙箱的原因无法使用。
https://help.aliyun.com/document_detail/27967.html
建议用gson
import com.google.gson.Gson;这个包试下
其他的jar的限制用户遇到类似报错可以提交工单咨询

下图是常见报错例子
image.png

没有启用新类型flag

若想使用新数据类型,需在 SQL 语句前加语句:set odps.sql.type.system.odps2=true;
目前情况是需要加这个set,后续会省掉
https://help.aliyun.com/document_detail/27821.html?spm=5176.doc27967.6.546.XhnAGU
新数据类型,以及新函数、函数返回值是新数据类型都需要set
如果没有set,报错现象
com.aliyun.odps.OdpsException: ODPS-0130071:[1,8] Semantic analysis exception - function or view udtf_recom cannot be resolved
找不到函数或者方法

oss和ots外部表创建,查询失败

1,检查是否按照文档授权
https://help.aliyun.com/document_detail/45389.html?spm=5176.doc27821.6.691.5g0yGt
2,报错类似
DDL syntax error:ODPS-0130071:Semantic analysis exception - unrecognized option 'EXTERNAL'.
检查:是否引用了新类型,也需要set
3,如果建表后查询失败
检查用户oss或者ots数据量是否巨大,
oss的object数量是否很多
单个object是否很大
参考文档 https://www.atatech.org/articles/67977 理解
报错例子 没有授权
image

客户端odpscmd 报错

连接客户端/访问域名先看下域名
https://help.aliyun.com/document_detail/34951.html?spm=5176.doc48950.6.572.58H50H
项目名称
Ak信息
如果报错找不到java类什么的
一般是客户端java环境(暂时不支持java9),建议java 7和8

任务运行比较慢

1,如果是按量付费,请提交工单,如果是预付费,可以先看下cu对应的项目是否有大量作业或者比较大的作业,长期没有执行完。
可以使用主账户执行命令: TOP INSTANCE;这种方式查看当前正在运行的任务(在客户端(版本为0.29.0或以上)运行。)
下载最新版本的客户端: https://help.aliyun.com/document_detail/27804.html?
您也可以通过这个工具查看项目下运行任务的状态
https://yq.aliyun.com/articles/247739?spm=5176.8091938.0.0.7Sf007
如果是预付费cu用户可以使用这个工具查看cu使用情况
https://help.aliyun.com/document_detail/66565.html?spm=a2c4g.11186623.6.713.QARDJv
2,数据倾斜
https://help.aliyun.com/document_detail/51020.html?spm=5176.doc34951.6.754.iMKNUT

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
消息中间件 监控 数据可视化
大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle
大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle
103 2
|
4月前
|
运维 算法 数据可视化
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】2 方案设计与实现-Python
文章详细介绍了参加2021高校大数据挑战赛中智能运维异常检测与趋势预测任务的方案设计与Python实现,包括问题一的异常点和异常周期检测、问题二的异常预测多变量分类问题,以及问题三的多变量KPI指标预测问题的算法过程描述和代码实现。
80 0
|
2月前
|
存储 NoSQL 大数据
大数据-51 Redis 高可用方案CAP-AP 主从复制 一主一从 全量和增量同步 哨兵模式 docker-compose测试
大数据-51 Redis 高可用方案CAP-AP 主从复制 一主一从 全量和增量同步 哨兵模式 docker-compose测试
45 3
|
2月前
|
SQL 分布式计算 大数据
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(一)
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(一)
59 0
|
2月前
|
大数据 流计算
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(二)
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(二)
54 0
|
4月前
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的题目——北京移动用户体验影响因素研究,提供了问题一的建模方案、代码实现以及相关性分析,并对问题二的建模方案进行了阐述。
99 0
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
|
4月前
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题二建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的问题二的建模方案和Python代码实现,包括数据预处理、特征工程、模型训练以及预测结果的输出,旨在通过数据分析与建模方法帮助中国移动北京公司提升客户满意度。
81 2
|
4月前
|
机器学习/深度学习 数据采集 算法
【 2021 MathorCup杯大数据挑战赛 A题 二手车估价】初赛复赛总结、方案代码及论文
总结了2021 MathorCup杯大数据挑战赛A题“二手车估价”的初赛和复赛经验,包括题目要求、解题思路、所用方法和结果,提供了详细的数据分析、模型构建、论文撰写和工具使用技巧,并展示了初赛和复赛的论文。
80 2
|
5月前
|
弹性计算 分布式计算 DataWorks
MaxCompute操作报错合集之运行pyodps报错超时,该如何排查
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
5月前
|
分布式计算 自然语言处理 大数据
MaxCompute操作报错合集之使用pyodps读取全表(百万级),然后对其中某列apply自己定义的分词函数,遇到报错,该如何排查
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。