阿里云MaxCompute-Hive作业迁移语法兼容性踩坑记录

2023-09-22 1245

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介： 阿里云MaxCompute-Hive作业迁移语法兼容性踩坑记录

1. MaxCompute兼容模式

背景：CDH Hive作业迁移到MaxCompute，SQL语法多数相同，但是部分函数存在行为差异，使用compatible模式可以以Hive模式运行SQL，达到平迁、最小化改动、快速上云降低成本的目的。

相关hint：set odps.sql.hive.compatible=true;

2. 函数行为不同

2.1. unix_timestamp

【报错】Semantic analysis exception - function unix_timestamp cannot match any overloaded functions with (STRING)
【解决】Hive兼容模式运行或者更改函数的入参类型

2.2. udf

【报错】FAILED: ODPS-0130071:[9,8] Semantic analysis exception - invalid type org.apache.hadoop.io.Text for function UDF definition
【解决】Hive兼容模式运行或者重写udf

2.3. date_format

【报错】FAILED: ODPS-0121125:Not Support DatetimeFunc date_format(string, string) yet, please run in hive compatible mode
【解决】Hive兼容模式运行或者更改函数的入参类型

2.4. 除0溢出

【报错】FAILED: ODPS-0121145:Data overflow - Div result is nan, two params are 0.000000 and 0.000000
【解决】Hive兼容模式返回INF，落表为null，ODPS则会报错如上所示。可以无脑加compatible保持原hive逻辑执行的策略。

2.5. from_unixtime

odps与hive语法参数不同，hive可以通过第二个参数指定format返回string，odps默认ymd-hms的返回，要根据format看下是否要添加date_format(, string )，或者直接无脑compatible模式
odps与hive函数返回类型不同，odps为datetime，hive为string，这个不用管，datetime类型落表会转换为string

-- hivefrom_unixtime(unix_timestamp(concat(translate(order_date,'/','-'),' 00:00:00')),'yyyy-MM-dd')as order_date,-- odpsdate_format(from_unixtime(unix_timestamp(concat(translate(order_date,'/','-'),' 00:00:00'))),'yyyy-MM-dd')as order_date,

2.6. ucase

【报错】FAILED: ODPS-0010000:System internal error - fuxi job failed, caused by: StdException:ScalarFnCall::doCodegen fail, scalar function name: UCASE, funcSig: S_S_
【解决】hive ucase同toupper

-- hive,ucase(t.store_no)-- odps,toupper(t.store_no)

2.7. 正则相关，如：regexp_replace

从报错信息看，} 前面的四个转义符 \\\\，转义之后还有两个\\，实际是不需要4个转义符的，2个即可。如图二所示。原脚本中使用4个转义符，目前判断和set -e方式执行SQL有关系，那种方式相当于转义两次，故需要4个转义符。
MaxCompute正则表达式规范及注意事项参考：https://help.aliyun.com/zh/maxcompute/user-guide/regular-expressions?spm=a2c4g.11186623.0.i14

2.8. substring

hive的起始index是0，odps的起始是1，如果为0，则返回null，sql不会报错，但是数据结果会不符合预期，主要表现在截取字段进行关联时，inner join后input size为0。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

阿里云MaxCompute-Hive作业迁移语法兼容性踩坑记录

1. MaxCompute兼容模式

2. 函数行为不同

2.1. unix_timestamp

2.2. udf

2.3. date_format

2.4. 除0溢出

2.5. from_unixtime

2.6. ucase

2.7. 正则相关，如：regexp_replace

2.8. substring

大数据计算 MaxCompute

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景