OSS 数据湖实践 —— 使用EMR JindoFs Cache提升性能-阿里云开发者社区

开发者社区> 大数据> 正文

OSS 数据湖实践 —— 使用EMR JindoFs Cache提升性能

简介: 通过使用JindoFs 的Cache功能,加速作业计算,减小OSS带宽需求,优化作业架构。

通过使用cache缓存机制,减少数据分析处理过程中直读OSS的次数,不仅能够提高性能,更能减少与OSS的交互流量,减少数据分析成本与时间开销。

前提条件

  • 已注册阿里云账号,详情请参见注册云账号。
  • 已开通E-MapReduce服务和OSS服务。
  • 已完成云账号的授权,详情请参见角色授权。
  • 已创建Haoop集群,且带有Hive组件,且配置OSS数据源。

步骤一:设置JindoFs Cache

打开smartdata服务中client配置,
把jfs.cache.data-cache.enable为1, 表示打开JindoFs的cache功能打开

步骤二:进行作业测试

数据分析作业具体可看其他OSS数据湖实践文档功能
OSS Spark 实践文档
OSS Flink 实践文档
OSS Hive 实践文档

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

其他文章