我在阿里云上搭建了,hadoop/hive官网开源版本的集群,不是使用阿里云提供的E-MapReduce版本,不知道能不能在官方版本的hive中使用阿里云oss作为数据源?如果可以,能否提供一下示例代码。
这个是可以的,目前阿里云E-MapReduce团队把访问oss的code部分共享给了社区,
参见: http://hadoop.apache.org/docs/r3.0.0-alpha2/hadoop-project-dist/hadoop-common/release/3.0.0-alpha2/RELEASENOTES.3.0.0-alpha2.html
凡是事情都有但是:
1、阿里云emapreduce产品,会不断优化hadoop+OSS的性能,目前线上运行的emapreduce比社区版本(hadoop3.0)性能高出至少30%左右,后续(尽量)会把一些优化不断贡献给社区。
2、由于hadoop3.0还没有发布(后续会发布),如果是低版本的,目前还只有emapreduce有的。
3、emapreduce产品会管理用户的id跟key,目前在VPC网络(经典网络下后续会做)下,不需要输入id与key的。在自建的情况下,需要输入,此有一定的安全风险。
由于emapreduce目前产品费用为0折,也就是跟自建hadoop成本一致,但是性能高出不少,推荐使用emapreduce。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。