[MaxCompute MapReduce实践]通过简单瘦身,解决Dataworks 10M文件限制问题

简介: 用户在DataWorks上执行MapReduce作业的时候,文件大于10M的JAR和资源文件不能上传到Dataworks,导致无法使用调度去定期执行MapReduce作业。 解决方案: jar -resources test_mr.

用户在DataWorks上执行MapReduce作业的时候,文件大于10M的JAR和资源文件不能上传到Dataworks,导致无法使用调度去定期执行MapReduce作业。


解决方案:

第一步:大于10M的resources通过MaxCompute CLI客户端上传,

客户端下载地址:https://help.aliyun.com/document_detail/27971.html

客户端配置AK、EndPoint:https://help.aliyun.com/document_detail/27804.html


add jar C:\test_mr\test_ab.jar -f;//添加资源,大于10M

第二步:目前通过MaxCompute CLI上传的资源,在Dataworks左侧资源列表是找不到的,只能通过list resources查看确认资源;


list resources;//查看资源

第三步:瘦身Jar,因为Dataworks执行MR作业的时候,一定要依赖ClassPath,所以要在Dataworks中注册瘦身Jar(保留main就可以),之后提交到MaxCompute集群,系统会找到刚才客户端CLI注册的大于10M的resources资源;


jar 

-resources test_mr.jar,test_ab.jar 
//resources在客户端注册后直接引用

-classpath test_mr.jar  
//瘦身策略:在gateway上提交要有main和相关的mapper和reducer,
额外的三方依赖可以不需要,其他都可以放到resources

com.aliyun.odps.examples.mr.test_mr wc_in wc_out;



通过上述方法,我们可以在Dataworks上跑大于10M的MR作业。


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
相关文章
|
1月前
|
分布式计算 DataWorks MaxCompute
DataWorks中odps到容器部署starrocks的单表同步遇到写入问题
【1月更文挑战第6天】【1月更文挑战第29篇】DataWorks中odps到容器部署starrocks的单表同步遇到写入问题
23 3
|
2天前
|
分布式计算 DataWorks 关系型数据库
DataWorks支持将ODPS表拆分并回流到MySQL的多个库和表中
DataWorks支持将ODPS表拆分并回流到MySQL的多个库和表中
12 4
|
30天前
|
分布式计算 DataWorks API
dataworks100g大小的csv文件怎么上传到odps?
【1月更文挑战第20天】【1月更文挑战第96篇】dataworks100g大小的csv文件怎么上传到odps?
24 1
|
1月前
|
分布式计算 DataWorks MaxCompute
这个错误可能是由于读取CSV文件到ODPS的过程中出现了一些问题
这个错误可能是由于读取CSV文件到ODPS的过程中出现了一些问题【1月更文挑战第10天】【1月更文挑战第50篇】
22 3
|
1月前
|
分布式计算 DataWorks 网络安全
DataWorks中绑定MaxCompute引擎时发生了非法参数异常
【1月更文挑战第6天】【1月更文挑战第27篇】DataWorks中绑定MaxCompute引擎时发生了非法参数异常
27 3
|
1月前
|
存储 DataWorks 大数据
DataWorks小文件产生的原因
【1月更文挑战第4篇】DataWorks小文件产生的原因
111 0
|
2月前
|
分布式计算 DataWorks NoSQL
DataWorks中mongo同步到odps后时间多了8小时?
DataWorks中mongo同步到odps后时间多了8小时?
42 0
|
2月前
|
弹性计算 分布式计算 DataWorks
DataWorks怎么看 odps.asec_comml_adm 的出口ip是多少啊?
DataWorks怎么看 odps.asec_comml_adm 的出口ip是多少啊?
34 1
|
2月前
|
消息中间件 大数据 Apache
【云计算与大数据技术】流计算讲解及集群日志文件实时分析实战(附源码)
【云计算与大数据技术】流计算讲解及集群日志文件实时分析实战(附源码)
27 1
|
2月前
|
存储 分布式计算 DataWorks
DataWorks如何同步SLS日志到odps上?
DataWorks如何同步SLS日志到odps上?
54 0

相关产品

  • 云原生大数据计算服务 MaxCompute