自建Hadoop迁移阿里云MaxCompute实践-持续更新2018/9/13

简介: Hadoop迁移MaxCompute的文章教程应该不少,比如前不久刚刚发布的《Hadoop数据迁移到MaxCompute最佳实践》https://help.aliyun.com/video_detail/88429.

Hadoop迁移MaxCompute的文章教程应该不少,比如前不久刚刚发布的

《Hadoop数据迁移到MaxCompute最佳实践》https://help.aliyun.com/video_detail/88429.html  

理论与实践:如何从Hadoop迁移到MaxCompute https://yq.aliyun.com/articles/639294

https://yq.aliyun.com/articles/637482


但用户实际迁移还是会遇到一些问题,我会定期整理一些数据迁移和脚本迁移遇到的问题及解决方案,帮助企业快速拥有阿里巴巴同款数据仓库,构建自己的数据中台,并开展数据业务;


网络问题:

1、自建机房如何连通阿里云MaxCompute

方案:通过物理专线访问VPC中的云服务  

Region名称所在城市开服状态VPC网络EndpointVPC网络Tunnel Endpoint华东1杭州已开服http://service.cn.maxcompute.aliyun-inc.com/apihttp://dt.cn-hangzhou.maxcompute.aliyun-inc.com华东2上海已开服http://service.cn.maxcompute.aliyun-inc.com/apihttp://dt.cn-shanghai.maxcompute.aliyun-inc.com华北2北京已开服http://service.cn.maxcompute.aliyun-inc.com/apihttp://dt.cn-beijing.maxcompute.aliyun-inc.com

3、数据同步慢

方案:建议走VPC专线和经典网络,公网比较慢;另外,如果通过tunnel上传,命令行添加参数 -threads 10 ,数据切片;


数据同步问题:

1、 HDFS-MaxCompute 

方案:自己部署DataX或使用阿里云数据集成(官方版本DataX),DataX还支持DataX-On-Hadoop(提工单申请)

https://yq.aliyun.com/articles/638606

https://help.aliyun.com/document_detail/47677.html


2、同步数据时分区字段里面有月份需要截取

方案:shell+datax自定义资源组(除华东2提工单),在shell中对月份进行处理,如/user/hive/ods/hivetable/op_year=2018/op_month=8/op_day=1



任务迁移问题:

1、每天几百个任务如何批量导入?

方案:使用Dataworks任务同步工具(内测,提工单)


SQL问题:


1、Hadoop库如何映射MaxCompute

方案:简单的话是一对一,或者可以按照合适的纬度(比如业务部门)重新划分整合后再对应到Dataworks/MaxCompute的多个projects,这样方便后续管理。


2、字段类型

兼容date类型

方案:date类型需要set odps.sql.type.system.odps2=true;set odps.sql.hive.compatible=true;

其他需要set flag的字段类型参考https://help.aliyun.com/document_detail/27821.html


3、系统参数

兼容CURRENT_TIMESTAMP

方案:set odps.sql.type.system.odps2=true;set odps.sql.hive.compatible=true;


兼容${hiveconf:ymd}

方案:替换成${bdp.system.bizdate}



4、函数

兼容to_date(SUBSTR('2018-08-24 16:58:21.284',1,10),'yyyy-mm-dd')

方案:需要改写,select cast(cast('2018-08-24 16:58:21.284' as timestamp) as date); 



兼容from_unixtime(unix_timestamp(cast(ds as string),'yyyymmdd'),'yyyy-mm-dd')

方案:ds是date类型,需要set odps.sql.type.system.odps2=true;set odps.sql.hive.compatible=true;


grouping sets/rollup/cube

方案:MaxCompute近期开放


5、表达式

兼容字段值为null时比较大小

方案:set odps.sql.type.system.odps2=true;set odps.sql.hive.compatible=true;


兼容string 与 数值类型直接关联

方案:set odps.sql.type.system.odps2=true;set odps.sql.hive.compatible=true;


兼容map() cnt

方案:null as cnt


插入动态分区数据为空,INSERT OVERWRITE TABLE ods_log partition (ymd) select 20180910 as ymd from ods_log

方案:套一层select,20180910 as ymd 是个常量,会被当成静态分区来处理,改写为INSERT OVERWRITE TABLE ods_log partition (ymd) select * from (select 20180910 as ymd from ods_log) t


DML、DDL区别

方案:https://help.aliyun.com/document_detail/54051.html


与Hive数据类型映射表

参考:https://help.aliyun.com/document_detail/54081.html


相关问题:

1、如何连接Tableau和BDP、QuickBI

方案:通过MaxCompute Lightning (公测),走PostgreSql协议;



未完待续...

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
7月前
|
SQL 缓存 分布式计算
【跨国数仓迁移最佳实践5】MaxCompute近线查询解决方案助力物流电商等实时场景实现高效查询
本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第5篇,解析跨国数仓迁移背后的性能优化技术。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。
328 8
|
8月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
8月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
2533 0
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
8月前
|
SQL 分布式计算 运维
【跨国数仓迁移最佳实践3】资源消耗减少50%!解析跨国数仓迁移至MaxCompute背后的性能优化技术
本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第3篇,解析跨国数仓迁移背后的性能优化技术。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。
390 0
|
8月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
634 0
|
6月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
423 7
|
7月前
|
人工智能 分布式计算 DataWorks
阿里云大数据AI产品月刊-2025年8月
阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
543 2

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 下一篇
    开通oss服务