博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[MaxCompute MapReduce实践]通过简单瘦身,解决Dataworks 10M文件限制问题
阅读量:6500 次
发布时间:2019-06-24

本文共 680 字,大约阅读时间需要 2 分钟。

用户在DataWorks上执行MapReduce作业的时候,文件大于10M的JAR和资源文件不能上传到Dataworks,导致无法使用调度去定期执行MapReduce作业。

解决方案:

第一步:大于10M的resources通过MaxCompute CLI客户端上传,

客户端下载地址:

客户端配置AK、EndPoint:

add jar C:\test_mr\test_ab.jar -f;//添加资源,大于10M

第二步:目前通过MaxCompute CLI上传的资源,在Dataworks左侧资源列表是找不到的,只能通过list resources查看确认资源;

list resources;//查看资源

第三步:瘦身Jar,因为Dataworks执行MR作业的时候,一定要依赖ClassPath,所以要在Dataworks中注册瘦身Jar(保留main就可以),之后提交到MaxCompute集群,系统会找到刚才客户端CLI注册的大于10M的resources资源;

jar -resources test_mr.jar,test_ab.jar //resources在客户端注册后直接引用-classpath test_mr.jar  //瘦身策略:在gateway上提交要有main和相关的mapper和reducer,额外的三方依赖可以不需要,其他都可以放到resourcescom.aliyun.odps.examples.mr.test_mr wc_in wc_out;
通过上述方法,我们可以在Dataworks上跑大于10M的MR作业。

转载地址:http://nptyo.baihongyu.com/

你可能感兴趣的文章
vagrant 添加带版本号的 box
查看>>
http和https有何区别
查看>>
微信小程序授权登录、解密unionId出错
查看>>
dockerfile构建flask环境
查看>>
js中的prototype、__proto__、constructor
查看>>
JAVA学习之路 (一) 入门及前期准备
查看>>
自动安装脚本
查看>>
高效编写Dockerfile的几条准则
查看>>
从零写一个Java WEB框架(一)
查看>>
webpack-serve 的使用
查看>>
一张图看懂Apsara Block Storage企业级分布式块存储产品
查看>>
JQuery快速使用之元素查找与操作
查看>>
js查找HTMLCollection对象中的下标
查看>>
PHP的工作原理和生命周期
查看>>
简单教学 apache 配置 Expire/Cache-Control 头
查看>>
深入理解js引擎的执行机制
查看>>
JavaScript高级程序设计笔记之 延迟异步脚本 defer async
查看>>
为什么要使用闭包和如何使用闭包
查看>>
rem / Vender Prefix / CSS extensions
查看>>
【396天】跃迁之路——程序员高效学习方法论探索系列(实验阶段153-2018.03.08)...
查看>>