MaxCompute - ODPS重装上阵 第一弹 - 善用MaxCompute编译器的错误和警告

简介: MaxCompute (ODPS) ( __注1__ )是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 ODPS2.0除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力。

MaxCompute (ODPS) ( 注1 )是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 ODPS2.0除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力。

基于ODPS2.0新一代的SQL引擎,MaxCompute显著提升了SQL语言编译过程的易用性与语言的表达能力。
我们在此推出MaxCompute(ODPS2.0)重装上阵系列文章

第一弹 - 善用MaxCompute编译器的错误和警告
第二弹 - 新的基本数据类型与内建函数
第三弹 - 复杂类型
第四弹 - CTE,VALUES,SEMIJOIN

这次首先向您介绍在易用性方面的改进。

  • 场景1
    作为ODPS的开发者,提交了一段SQL脚本,里面两句SQL,等了半天排上队,结果发现第一句里面有个函数的参数类型错误,白等了。。。;修改脚本后再次提交,排队,第一条语句用了两个小时跑完了,然后报告第二个语句漏了半边括号。。。
  • 场景2
    _我的上游数据有个表create table my_upperstream(..., id string) partitioned by (...), 我的项目每天有一个任务要和my_uppertstream在id上join,... join my_upperstream u on id = u.id,过去没有问题,最近总是发现有些数据莫名其妙的丢失,经过几天痛苦的debug,终于发现是因为我的id是bigint,在和u.id比较的时候,都竟然转成了double,因为浮点误差导致某些列join不上_( 注2 );

怒气冲冲在ODPS用户群中中质问,竟然告诉我这个是by design! 。。。

MaxCompute编译器基于ODPS2.0全新自主研发的SQL引擎,尤其配合使用MaxCompute Studio,提供了丰富的错误提示与警告的功能。可完全避免以上问题。

编译器的易用性改进

为了充分发挥MaxCompute编译器的易用性改进,最好配合MaxCompute Studio (D2平台对ODPS2.0的错误与警告的支持正在积极开发中,预计今年9月份上线,敬请期待!)。首先,请安装MaxCompute Studio导入测试MaxCompute项目,创建工程,建立一个新的MaxCompute脚本文件, 如下

screenshot.png

可以看到

  1. 第一个insert语句中wm_concat函数使用有错误
  2. 第二个insert有一个错误和一个警告,错误是列名写错了
  3. 警告则是上面场景二种提到的,ODPS中当比较bigint与double的时候,会隐含的都转为double, 因为从string到double是有可能在运行时导致错误的转换,所以MaxCompute编译器会在此警告要您确定这个是不是您希望的行为
  4. 鼠标停止在错误或者警告( 注3 )上,会直接提示具体错误或者警告信息。

如果我不修改错误,直接提交,会被MaxCompute Studio挡住,如下图
screenshot.png

按照提示修改错误和警告,如下图,

screenshot.png

再次提交,可以顺利的运行,再也不用担心因为语法错误白等了!

事实上,使用MaxCompute Studio可以把所有警告都设定为错误,如下图

screenshot.png

这样就可以保证不会不小心漏掉任何有可能的错误!

MaxCompute团队建议您在提交任何脚本之前,都使用MaxCompute Studio对脚本进行静态编译检查,并强烈推荐将警告设定为错误,在提交前修改所有的警告,这样可以花很少的时间避免大量花费大量计算与人力资源的错误。

除了可以帮助您节省时间外,也可以节省MaxCompute服务器端资源,目前每天MaxCompute SQL服务器花大笔计算资源在编译那些有错误的SQL,连累没有错误的也要跟着排队。

另外您知道吗?提交有错误的脚本会导致扣您的计算健康分,导致以后提交任务的优先级被下调!某些警告报告的问题也会导致扣除健康分,使用MaxCompute Compiler和Studio,可以帮助您避免此类扣分,避免被降级!

警告中很多情况是不安全的隐式类型转换,如果确实是想要的转换,可以用cast (xxx as )的方式消除警告,如果觉得这么写麻烦,MaxCompute 编译器还提供一种简洁的方式(xxx),如上面修改过的脚本所示。具体该用哪种完全取决于您的偏好。MaxCompute还有一系列的SQL语言方面的改进,此系列会向您逐一介绍。

小节

基于ODPS2.0 SQL引擎的MaxCompute新编译器配合MaxCompute Studio,通过完整准确地报告错误于警告,可以显著提高用户的生产力。不过提升生产力不能只靠准确的错误和警告,丰富强大的SQL语言表达能力一样重要,从下一篇开始,我们向您介绍MaxCompute在SQL语言上的各项改进!

标注

  • 注1 MaxCompute就是ODPS,是ODPS在阿里云上的品牌,本系列文章中,MaxCompute与ODPS可以通用。
  • 注2 为什么int = string的时候要转double呢?因为这个是Hive的行为,MaxCompute(原ODPS) 在当初第一版的时候,为了替换当时广泛使用的Hive脚本,不得不兼容。现在有了警告,只要大家按照建议的方式使用MaxCompute,在需要的时候修改提示的问题,就不会再掉进这个坑里了!
  • 注3 对于警告的标注,我的设定是黄色波浪线,可以通过IntelliJ的Settings来修改,如下
    screenshot.png
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6天前
|
分布式计算 DataWorks Java
DataWorks操作报错合集之在使用MaxCompute的Java SDK创建函数时,出现找不到文件资源的情况,是BUG吗
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
29 0
|
6天前
|
分布式计算 DataWorks 数据管理
DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
29 0
|
6天前
|
SQL JSON 分布式计算
DataWorks产品使用合集之DataWorks一键maxcompute数据同步的操作步骤是什么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
27 0
|
6天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在 DataWorks 中,使用Oracle作为数据源进行数据映射和查询,如何更改数据源为MaxCompute或其他类型
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
33 1
|
6天前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之在 MaxCompute 中,有LEAST 的内置函数如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
17 0
|
6天前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之DataWorks maxcompute的自定义资源增加如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
27 0
|
6天前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之DataWorks maxcompute的自定义资源增加如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
29 0
|
6天前
|
分布式计算 DataWorks 大数据
DataWorks产品使用合集之在DataWorks中,在MaxCompute中使用解压缩功能如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
34 0
|
SQL 人工智能 分布式计算
MaxCompute平台非标准日期和气象数据处理方法--以电力AI赛为例
MaxCompute平台支持的日期格式通常是对齐的日期格式诸如20170725或2017/07/25这种,而本次电力AI赛提供的日期格式却是未对齐的非标准的日期格式2016/1/1这种,使得无法直接使用ODPS SQL中的日期函数来进行处理。
5275 0
|
6天前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute