MaxCompute - ODPS重装上阵　第一弹 - 善用MaxCompute编译器的错误和警告-阿里云开发者社区

MaxCompute - ODPS重装上阵　第一弹 - 善用MaxCompute编译器的错误和警告

2017-10-17 4605

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介： MaxCompute (ODPS) ( __注1__ )是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用，支撑了多个BU的核心业务。 ODPS2.0除了持续优化性能外，也致力于提升SQL语言的用户体验和表达能力，提高广大ODPS开发者的生产力。

MaxCompute (ODPS) ( 注1 )是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用，支撑了多个BU的核心业务。 ODPS2.0除了持续优化性能外，也致力于提升SQL语言的用户体验和表达能力，提高广大ODPS开发者的生产力。

基于ODPS2.0新一代的SQL引擎，MaxCompute显著提升了SQL语言编译过程的易用性与语言的表达能力。
我们在此推出MaxCompute(ODPS2.0)重装上阵系列文章

第一弹 - 善用MaxCompute编译器的错误和警告
 第二弹 - 新的基本数据类型与内建函数
 第三弹 - 复杂类型
 第四弹 - CTE，VALUES，SEMIJOIN

这次首先向您介绍在易用性方面的改进。

场景1
作为ODPS的开发者，提交了一段SQL脚本，里面两句SQL，等了半天排上队，结果发现第一句里面有个函数的参数类型错误，白等了。。。；修改脚本后再次提交，排队，第一条语句用了两个小时跑完了，然后报告第二个语句漏了半边括号。。。
场景2
_我的上游数据有个表create table my_upperstream(..., id string) partitioned by (...), 我的项目每天有一个任务要和my_uppertstream在id上join，... join my_upperstream u on id = u.id，过去没有问题，最近总是发现有些数据莫名其妙的丢失，经过几天痛苦的debug，终于发现是因为我的id是bigint，在和u.id比较的时候，都竟然转成了double，因为浮点误差导致某些列join不上_( 注2 )；

怒气冲冲在ODPS用户群中中质问，竟然告诉我这个是by design！。。。

MaxCompute编译器基于ODPS2.0全新自主研发的SQL引擎，尤其配合使用MaxCompute Studio，提供了丰富的错误提示与警告的功能。可完全避免以上问题。

编译器的易用性改进

为了充分发挥MaxCompute编译器的易用性改进，最好配合MaxCompute Studio (D2平台对ODPS2.0的错误与警告的支持正在积极开发中，预计今年9月份上线，敬请期待！)。首先，请安装MaxCompute Studio，导入测试MaxCompute项目，创建工程，建立一个新的MaxCompute脚本文件,　如下

可以看到

第一个insert语句中wm_concat函数使用有错误
第二个insert有一个错误和一个警告，错误是列名写错了
警告则是上面场景二种提到的，ODPS中当比较bigint与double的时候，会隐含的都转为double, 因为从string到double是有可能在运行时导致错误的转换，所以MaxCompute编译器会在此警告要您确定这个是不是您希望的行为
鼠标停止在错误或者警告( 注3 )上，会直接提示具体错误或者警告信息。

如果我不修改错误，直接提交，会被MaxCompute Studio挡住，如下图

按照提示修改错误和警告，如下图，

再次提交，可以顺利的运行，再也不用担心因为语法错误白等了！

事实上，使用MaxCompute Studio可以把所有警告都设定为错误，如下图

这样就可以保证不会不小心漏掉任何有可能的错误！

MaxCompute团队建议您在提交任何脚本之前，都使用MaxCompute Studio对脚本进行静态编译检查，并强烈推荐将警告设定为错误，在提交前修改所有的警告，这样可以花很少的时间避免大量花费大量计算与人力资源的错误。

除了可以帮助您节省时间外，也可以节省MaxCompute服务器端资源，目前每天MaxCompute SQL服务器花大笔计算资源在编译那些有错误的SQL，连累没有错误的也要跟着排队。

另外您知道吗？提交有错误的脚本会导致扣您的计算健康分，导致以后提交任务的优先级被下调！某些警告报告的问题也会导致扣除健康分，使用MaxCompute Compiler和Studio，可以帮助您避免此类扣分，避免被降级！

警告中很多情况是不安全的隐式类型转换，如果确实是想要的转换，可以用cast (xxx as )的方式消除警告，如果觉得这么写麻烦，MaxCompute 编译器还提供一种简洁的方式(xxx)，如上面修改过的脚本所示。具体该用哪种完全取决于您的偏好。MaxCompute还有一系列的SQL语言方面的改进，此系列会向您逐一介绍。

小节

基于ODPS2.0 SQL引擎的MaxCompute新编译器配合MaxCompute Studio，通过完整准确地报告错误于警告，可以显著提高用户的生产力。不过提升生产力不能只靠准确的错误和警告，丰富强大的SQL语言表达能力一样重要，从下一篇开始，我们向您介绍MaxCompute在SQL语言上的各项改进！

标注

注1　MaxCompute就是ODPS，是ODPS在阿里云上的品牌，本系列文章中，MaxCompute与ODPS可以通用。
注2　为什么int = string的时候要转double呢？因为这个是Hive的行为，MaxCompute(原ODPS) 在当初第一版的时候，为了替换当时广泛使用的Hive脚本，不得不兼容。现在有了警告，只要大家按照建议的方式使用MaxCompute，在需要的时候修改提示的问题，就不会再掉进这个坑里了！
注3　对于警告的标注，我的设定是黄色波浪线，可以通过IntelliJ的Settings来修改，如下

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

MaxCompute - ODPS重装上阵　第一弹 - 善用MaxCompute编译器的错误和警告

编译器的易用性改进

小节

标注

大数据计算 MaxCompute

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

MaxCompute - ODPS重装上阵 第一弹 - 善用MaxCompute编译器的错误和警告

编译器的易用性改进

小节

标注

大数据计算 MaxCompute

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

MaxCompute - ODPS重装上阵　第一弹 - 善用MaxCompute编译器的错误和警告