JindoFS 提供了一个计算侧的分布式缓存系统,可以有效利用计算集群上的本地存储 资源(磁盘或者内存)缓存 OSS 上的热数据,从而减少对 OSS 上数据的反复拉取,消耗 网络带宽。
内存缓存
对于深度学习,我们可以选择计算能力更强的 GPU 机型,来获取更快的训练速度。此时需 要高速的内存吞吐,才能让 GPU 充分跑满。此时我们可以使用 JindoFS 基于内存搭建分 布式高速缓存。当整个集群的所有内存加起来足以支撑整个数据集时(除去任务本身所需内存量),我们就可以利用内存缓存以及本地高速网络,来提供高的数据吞吐,加快计算 速度。
磁盘缓存
对于一些机器学习场景,训练数据的规模超过了内存所能承载的大小,以及训练所需的 CPU/GPU 能力要求没有那么高,而要求数据访问有较高的吞吐。此时计算的瓶颈会受限 于网络带宽压力。因此我们可以搭建使用本地 SSD 作为缓存介质的 JindoFS 分布式缓存 服务,利用本地存储资源缓存热数据,来达到提高训练速度的效果。
FUSE 接口
JindoFS 包含了 FUSE 客户端,提供了简便的、熟悉的数据访问方式。通过 FUSE 程序将 JindoFS 集群实例映射到本地文件系统,就可以像访问本地磁盘文件一样,享受到 JindoFS 带来的加速效果。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。