JindoFS - 分层存储

本文涉及的产品
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: JindoFS 存储内部我们是通过分层存储来降低这部分冷数据的存储成本,提高热数据的访问性能。

作者:殳鑫鑫,花名辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。


JindoFS 概述

JindoFS概述:云原生的大数据计算存储分离方案

JindoFS解析 - 云上大数据高性能数据湖存储方案

JindoFS - 分层存储背景

JindoFS 分层主要解决客户冷热数据存储成本问题,对于大多数用户数据可以简单的分为冷数据和热数据

  • 热数据:业务需要访问的数据往往是业务数据集的一部分,这种经常被访问的数据我们通常称为热数据,这部分数据在存储主要关注数据的存储性能,因此热数据主要存放在一些高性能的介质上。
  • 冷数据:另外很大一部分数据很长时间内不会被访问,这部分长期不被访问的数据我们通常称为冷数据,冷数据因为很少被业务访问,在数据存储上主要考虑存储成本的问题,常见的做法如采用EC 算法代替三副本存储策略或者将数据存放在磁带或者SMR磁盘等低成本的存储介质上来降低存储成本

JindoFS 存储内部我们是通过分层存储来降低冷数据的存储成本,提高热数据的访问性能。

JindoFS - 分层存储

JindoFS 无论是Cache 模式还是Block 模式都提供数据本地备份来加速业务数据的访问,而数据的可靠性和可用性主要由后端存储OSS 提供,JindoFS 分层存储中冷数据存放主要依赖OSS 提供存储类型来提供,OSS 可以提供存储类型分为三种类型:标准存储类型,低频访问存储类型,归档存储类型。

  • 标准存储类型:提供高可靠、高可用、高性能的对象存储服务,能够支持频繁的数据访问, 无数据取回费用,实时访问,毫秒延迟
  • 低频存储类型:提供高可靠性、较低存储成本的对象存储服务。有最低存储时间(30天)和最小计量单位(64 KB)要求。支持数据实时访问,访问数据时会产生数据取回费用,适用于较低访问频率(平均每月访问频率1到2次)的业务场景
  • 归档存储类型:提供了高可靠性、极低存储成本的对象存储服务。有最低存储时间(60天)和最小计量单位(64 KB)要求。数据需解冻(约1分钟)后访问,解冻会产生数据取回费用。适用于数据长期保存的业务场景。

JindoFS 内部可以将数据分为以下集中,热数据,温数据,冷数据,低频数据,归档数据。
截屏2020-07-02 下午5.59.16.png

JindoFS 分层存储支持存储数据在上述各种数据类型之间进行转换,用户可以根据自己业务的数据类型来确定数据的存储类型,从而为数据的存储提供一种最优的存储方案, 用户可以使用cache/uncache/archive/unarchive等命令来操作存储的文件或者目录进行数据类型转换。

结语

JindoFS 主要支持计算存储分离的场景,提供两种不同的模式支持用户不同的场景,两种模式各有优缺点,用户可以根据业务类型选用不同的模式或者同时选择两种不同模式,分层存储功能同时支持这两种模式,用户可以在性能以及存储成本方面考虑,选择不同存储类型,该功能预计会在下一个EMR主版本中发布支持。


EMR钉钉产品交流群
产品群.JPG

对开源大数据和感兴趣的同学可以加小编微信(下图二维码,备注“进群”)进入技术交流微信群。

image.png

Apache Spark技术交流社区公众号,微信扫一扫关注

image.png

相关文章
|
SQL 存储 弹性计算
阿里云EMR 2.0:重新定义新一代开源大数据平台
本次分享主要介绍了阿里云E-MapReduce的开发历程,EMR 2.0的新特性、产品架构,以及EMR 2.0在平台体验、数据开发、资源形态及分析场景等方面的全面突破与创新,重新定义新一代开源大数据平台。
3200 0
阿里云EMR 2.0:重新定义新一代开源大数据平台
|
11月前
|
测试技术 开发者 Python
自动化测试之美:从零构建你的软件质量防线
【10月更文挑战第34天】在数字化时代的浪潮中,软件成为我们生活和工作不可或缺的一部分。然而,随着软件复杂性的增加,如何保证其质量和稳定性成为开发者面临的一大挑战。自动化测试,作为现代软件开发过程中的关键实践,不仅提高了测试效率,还确保了软件产品的质量。本文将深入浅出地介绍自动化测试的概念、重要性以及实施步骤,带领读者从零基础开始,一步步构建起属于自己的软件质量防线。通过具体实例,我们将探索如何有效地设计和执行自动化测试脚本,最终实现软件开发流程的优化和产品质量的提升。无论你是软件开发新手,还是希望提高项目质量的资深开发者,这篇文章都将为你提供宝贵的指导和启示。
|
12月前
|
存储 运维 虚拟化
虚拟化数据恢复——Hyper-V虚拟化故障导致虚拟机文件丢失的数据恢复案例
在Windows Server上部署的Hyper-V虚拟化环境中,因存储中虚拟机数据文件丢失导致服务瘫痪。北亚企安数据恢复工程师通过物理检测、操作系统及文件系统检测,确定为人为格式化造成,并通过镜像硬盘、重组RAID、分析并恢复文件索引项等步骤,成功恢复数据,最终在新Hyper-V环境中验证并迁移所有虚拟机,确保用户业务恢复正常运行。
|
弹性计算 分布式计算 运维
迟来的EMR Serverless Spark评测报告
本文是一篇关于阿里云EMR Serverless Spark产品评测的文章,作者分享了使用体验和理解。EMR Serverless Spark是阿里云提供的全托管、一站式的Spark数据计算平台,简化了大数据处理流程,让用户专注于数据分析。文章提到了产品的主要优势,如快速启动、弹性伸缩、高资源利用率和低成本。
470 8
|
Ubuntu Linux Shell
10-11|linux如何修改时区
10-11|linux如何修改时区
|
存储 文件存储 对象存储
使用OSS快速搭建个人网盘
通过本实验,用户可学会如何创建OSS bucket,并利用oss自有的图形化工具来作为个人网盘进行上传下载等操作,帮助用户0代码文件上云。
|
存储 机器学习/深度学习 人工智能
通义语音AI技术问题之传统的VAD模型的局限性定义如何解决
通义语音AI技术问题之传统的VAD模型的局限性定义如何解决
249 0
|
存储 安全 编译器
C语言中的共用体(Union)技术详解
C语言中的共用体(Union)技术详解
379 0
|
运维 架构师 算法
全球仅通过不到 2000 位的 Elastic 认证工程师,到底难不难?
全球仅通过不到 2000 位的 Elastic 认证工程师,到底难不难?