开发者社区大数据文章正文

OSS 数据湖实践 —— 使用EMR JindoFs Cache提升性能

2020-05-26 1434

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 通过使用JindoFs 的Cache功能，加速作业计算，减小OSS带宽需求，优化作业架构。

通过使用cache缓存机制，减少数据分析处理过程中直读OSS的次数，不仅能够提高性能，更能减少与OSS的交互流量，减少数据分析成本与时间开销。

前提条件

已注册阿里云账号，详情请参见注册云账号。
已开通E-MapReduce服务和OSS服务。
已完成云账号的授权，详情请参见角色授权。
已创建Haoop集群，且带有Hive组件，且配置OSS数据源。

步骤一：设置JindoFs Cache

打开smartdata服务中client配置，
把jfs.cache.data-cache.enable为1，表示打开JindoFs的cache功能打开

步骤二：进行作业测试

数据分析作业具体可看其他OSS数据湖实践文档功能
OSS Spark 实践文档
 OSS Flink 实践文档
 OSS Hive 实践文档

文章标签：

对象存储

数据挖掘

流计算

分布式计算

SQL

对象存储

Spark

HIVE

缓存

关键词：

数据湖实践

数据湖性能

对象存储性能

emr数据湖

emr oss

相关实践学习

对象存储OSS快速上手——如何使用ossbrowser

本实验是对象存储OSS入门级实验。通过本实验，用户可学会如何用对象OSS的插件，进行简单的数据存、查、删等操作。

huangchuang

阿里云基础设施.

存储 Kubernetes 对象存储

StrmVol存储卷：如何解锁K8s对象存储海量小文件访问性能新高度？

如何提升海量文件的数据读取速率，对于AI训练集管理、量化回测、时序日志分析等场景尤为重要。阿里云容器服务（ACK)）支持StrmVol类型存储卷，基于底层虚拟块设备及内核态文件系统,显著降低海量小文件访问延迟。

阿里云基础设施.

429 41 42

阿里云云原生

存储 Kubernetes 对象存储

StrmVol 存储卷：解锁 K8s 对象存储海量小文件访问性能新高度

本文介绍了阿里云容器服务（ACK）支持的StrmVol存储卷方案，旨在解决Kubernetes环境中海量小文件访问性能瓶颈问题。通过虚拟块设备与内核态文件系统（如EROFS）结合，StrmVol显著降低了小文件访问延迟，适用于AI训练集加载、时序日志分析等场景。其核心优化包括内存预取加速、减少I/O等待、内核态直接读取避免用户态切换开销，以及轻量索引快速初始化。示例中展示了基于Argo Workflows的工作流任务，模拟分布式图像数据集加载，测试结果显示平均处理时间为21秒。StrmVol适合只读场景且OSS端数据无需频繁更新的情况，详细使用方法可参考官方文档。

阿里云云原生

2409 145 154

阿里云大数据

存储运维 Serverless

千万级数据秒级响应！碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践

碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构，解决了海量数据处理中的资源利用率低、并发能力不足等问题，显著降低了硬件和运维成本。实时查询性能提升8倍，查询出错率减少30倍，集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验，还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。

阿里云大数据

1359 69 69

阿里云云原生

消息中间件监控数据挖掘

【有奖实践】轻量消息队列（原 MNS）订阅 OSS 事件实时处理文件变动

当你需要对对象存储 OSS（Object Storage Service）中的文件变动进行实时处理、同步、监听、业务触发、日志记录等操作时，你可以通过设置 OSS 的事件通知规则，自定义关注的文件，并将 OSS 事件推送到轻量消息队列（原 MNS）的队列或主题中，开发者的服务即可及时收到相关通知，并通过消费消息进行后续的业务处理。

阿里云云原生

403 102 136

阿里云大数据

存储分布式计算 OLAP

百观科技基于阿里云 EMR 的数据湖实践分享

百观科技为应对海量复杂数据处理的算力与成本挑战，基于阿里云 EMR 构建数据湖。EMR 依托高可用的 OSS 存储、开箱即用的 Hadoop/Spark/Iceberg 等开源技术生态及弹性调度，实现数据接入、清洗、聚合与分析全流程。通过 DLF 与 Iceberg 的优化、阶梯式弹性调度（资源利用率提升至70%）及倚天 ARM 机型搭配 EMR Trino 方案，兼顾性能与成本，支撑数据分析需求，降低算力成本。

阿里云大数据

948 59 59

探索云世界

弹性计算人工智能数据管理

AI场景下的对象存储OSS数据管理实践

本文介绍了ECS和OSS的操作流程，分为两大部分。第一部分详细讲解了ECS的登录、密码重置、安全组设置及OSSUTIL工具的安装与配置，通过实验创建并管理存储桶，上传下载文件，确保资源及时释放。第二部分则聚焦于OSSFS工具的应用，演示如何将对象存储挂载为磁盘，进行大文件加载与模型训练，强调环境搭建（如Conda环境）及依赖安装步骤，确保实验结束后正确清理AccessKey和相关资源。整个过程注重操作细节与安全性，帮助用户高效利用云资源完成实验任务。

探索云世界

1325 161 166

数据库知识分享者小北

关系型数据库数据库对象存储

Dify实践｜Dify on DMS+对象存储OSS，实现多副本部署方案

本文介绍了在DMS上部署Dify的详细步骤，用户可选择一键购买资源或基于现有资源部署Dify，需配置RDS PostgreSQL、Redis、AnalyticDB for PostgreSQL等实例，并设置存储路径和资源规格。文中还提供了具体配置参数说明及操作截图，帮助用户顺利完成部署。

数据库知识分享者小北

2468 7 7

探索云世界

消息中间件对象存储

轻量消息队列（原 MNS）订阅 OSS 事件实践

使用轻量消息队列订阅OSS事件，实时处理文件变动，赢取ins风U型枕（限量500个）。访问活动页面，完成实操并上传截图即可参与领奖。活动时间：即日起至2025年2月28日16:00。奖品数量有限，先到先得，快来报名吧！

探索云世界

429 2 3

穿过生命散发芬芳

弹性计算数据管理应用服务中间件

活动实践 | 借助OSS搭建在线教育视频课程分享网站

本教程指导用户在阿里云ECS实例上搭建在线教育网站，包括重置ECS密码、配置安全组、安装Nginx、创建网站页面、上传数据至OSS、开通OSS传输加速、配置生命周期策略及清理资源等步骤，实现高效、低成本的数据管理和网站运营。

穿过生命散发芬芳

550 1 1

探索云世界

存储人工智能开发工具

AI场景下的对象存储OSS数据管理实践

本文介绍了对象存储（OSS）在AI业务中的应用与实践。内容涵盖四个方面：1) 对象存储作为AI数据基石，因其低成本和高弹性成为云上数据存储首选；2) AI场景下的对象存储实践方案，包括数据获取、预处理、训练及推理阶段的具体使用方法；3) 国内主要区域的默认吞吐量提升至100Gbps，优化了大数据量下的带宽需求；4) 常用工具介绍，如OSSutil、ossfs、Python SDK等，帮助用户高效管理数据。重点讲解了OSS在AI训练和推理中的性能优化措施，以及不同工具的特点和应用场景。

探索云世界

1277 10 11

OSS 数据湖实践 —— 使用EMR JindoFs Cache提升性能

前提条件

步骤一：设置JindoFs Cache

步骤二：进行作业测试

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

OSS 数据湖实践 —— 使用EMR JindoFs Cache提升性能

前提条件

步骤一：设置JindoFs Cache

步骤二：进行作业测试

热门文章

最新文章

相关课程

相关电子书