数据湖实操讲解【OSS 访问加速】第十一讲:打开 OSS 多版本-合规和分析两不误

简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【OSS 访问加速】第十一讲


主题:打开 OSS 多版本-合规和分析两不误


讲师:辰石,阿里巴巴计算平台事业部 EMR 技术专家


内容框架:

  • 背景介绍
  • 主要功能
  • 具体演示


直播回放链接:(11讲)

https://developer.aliyun.com/live/246915



一、背景介绍

阿里云对象存储 OSS

  • 一种海量、安全、低成本、高可靠的云存储服务
  • 适合存放任意类型的文件
  • 提供容量和处理能力弹性扩展
  • 提供多种存储类型供选择
  • 数据设计持久性不低于99.9999999999%(12个9),服务可用性(或业务连续性)不低于99.995%


二、主要功能

OSS 支持功能

  • 数据的上传以及下载
  • OSS 对象生命周期的管理
  • 同城/异地的数据容灾
  • OSS 对象数据保留合规
  • 数据的加密解密
  • 数据的多版本管理


参考网址:

https://help.aliyun.com/?spm=a2c4g.11174283.6.538.70a37da2T4gFyT


OSS 对象数据多版本管理

功能介绍

  • 单份数据在 OSS 上存在多个版本

使用场景

  • 数据误删除:当前 OSS 不提供回收站,如果要恢复已删除的数据可以使用 OSS 多版本
  • 文件被覆盖:对于网盘、在线协作类产品,文件会被频繁修改,针对文件的编辑会产生大量的临时版本。您可以使用版本控制功能找回某个时间点的版本


OSS 对象数据多版本状态

未开启状态

  • 默认情况下 OSS 版本状态为未开启的状态,一旦开启,无法退回到未开启状态


开启状态

  • 当 OSS 版本控制处于开启状态,OSS 将为新上传的对象生成全局唯一的版本 ID


暂停状态

  • OSS 将为新上传的 Object 生成特殊字符串为“null”的版本 ID


开启/暂停 OSS 多版本

1.png


使用注意事项

功能互斥

  • 同一 Bucket 中,版本控制与合规保留策略或镜像回源无法同时配置
  • 如果 Bucket 已开启版本控制,上传文件时附加的覆盖同名文件请求头 x-oss-forbid-overwrite 将不生效


使用注意事项

  • 开启多版本本身不会产生任何费用,但是由于开启多版本,同一对象会存在多个版本的历史数据,会增加数据的存储成本
  • OSS 多版本历史版本过多可能导致 List 过慢的问题,建议配置生命周期定期清理


查看对象的多版本

控制台查看

2.png

Ossutil64 命令行查看

3.png

JindoFS OSS SDK 的优化

存在问题

  • 由于 Hive/Spark 任务在任务执行过程中会产生临时数据,在任务执行成功后这些临时数据会被删除,因此会产生很多历史版本数据,导致后续任务 List 过慢,后续任务性能会受到影响。


JindoFS OSS SDK 优化

  • JindoFS 对于这种情况存在优化, 对于 committer 产生的临时数据的历史版本信息可以通过设置 fs.oss.committer.magic.clean.versions.enabled 为 true 可以清理临时数据历史版本。


三、实例演示


点击回放链接,直接观看第11讲视频回放,获取讲师实例讲解:

https://developer.aliyun.com/live/246915




Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

4.png

相关文章
|
12月前
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
293 0
|
监控 安全 BI
使用日志服务SLS进行OSS可观测分析
本场景主要介绍如何使用SLS提供的CloudLens for OSS功能针对对象存储OSS进行可观测分析,包括资源用量、访问分析、安全分析、异常检测等角度。
|
SQL 分布式计算 监控
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程,包括数据开发和生产调度以及交互式查询等场景。
56989 7
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
253 1
|
存储 对象存储 SQL
【获奖名单公示】Hologres实时湖仓分析挑战赛
5分钟快速使用Hologres实时湖仓能力,无需移动数据,直接加速读取存储于数据湖OSS上的Hudi、Delta、Paimon等格式类型的数据
【获奖名单公示】Hologres实时湖仓分析挑战赛
|
存储 分布式计算 关系型数据库
实时数仓 Hologres产品使用合集之是否提供相应的功能接口和指令,可以将数据从OSS存储同步到Hologres中进行分析
实时数仓Hologres的基本概念和特点:1.一站式实时数仓引擎:Hologres集成了数据仓库、在线分析处理(OLAP)和在线服务(Serving)能力于一体,适合实时数据分析和决策支持场景。2.兼容PostgreSQL协议:Hologres支持标准SQL(兼容PostgreSQL协议和语法),使得迁移和集成变得简单。3.海量数据处理能力:能够处理PB级数据的多维分析和即席查询,支持高并发低延迟查询。4.实时性:支持数据的实时写入、实时更新和实时分析,满足对数据新鲜度要求高的业务场景。5.与大数据生态集成:与MaxCompute、Flink、DataWorks等阿里云产品深度融合,提供离在线
|
SQL 存储 分布式计算
Hologres实时湖仓能力增强,挑战5分钟加速分析OSS数据
5分钟快速使用Hologres实时湖仓能力,无需移动数据,直接加速读取存储于数据湖OSS上的Hudi、Delta、Paimon等格式类型的数据
|
存储 运维 监控
OSS生命周期管理与访问行为分析实践
认证考试:OSS生命周期管理与访问行为分析实践
|
存储 分布式计算 关系型数据库
AnalyticDB MySQL — Spark 助力在OSS上构建低成本数据湖
阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高可靠的云存储服务。通过和OSS团队的深入合作,AnalyticDB MySQL 的Spark能力 更好发挥了云原生数据湖方案的优势,本文为你详细解读!
|
存储 Kubernetes 对象存储
Kubernetes版本对接对象存储几种方案
Kubernetes版本对接对象存储几种方案