数据湖实操讲解【OSS 访问加速】第十一讲:打开 OSS 多版本-合规和分析两不误

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【OSS 访问加速】第十一讲


主题:打开 OSS 多版本-合规和分析两不误


讲师:辰石,阿里巴巴计算平台事业部 EMR 技术专家


内容框架:

  • 背景介绍
  • 主要功能
  • 具体演示


直播回放链接:(11讲)

https://developer.aliyun.com/live/246915



一、背景介绍

阿里云对象存储 OSS

  • 一种海量、安全、低成本、高可靠的云存储服务
  • 适合存放任意类型的文件
  • 提供容量和处理能力弹性扩展
  • 提供多种存储类型供选择
  • 数据设计持久性不低于99.9999999999%(12个9),服务可用性(或业务连续性)不低于99.995%


二、主要功能

OSS 支持功能

  • 数据的上传以及下载
  • OSS 对象生命周期的管理
  • 同城/异地的数据容灾
  • OSS 对象数据保留合规
  • 数据的加密解密
  • 数据的多版本管理


参考网址:

https://help.aliyun.com/?spm=a2c4g.11174283.6.538.70a37da2T4gFyT


OSS 对象数据多版本管理

功能介绍

  • 单份数据在 OSS 上存在多个版本

使用场景

  • 数据误删除:当前 OSS 不提供回收站,如果要恢复已删除的数据可以使用 OSS 多版本
  • 文件被覆盖:对于网盘、在线协作类产品,文件会被频繁修改,针对文件的编辑会产生大量的临时版本。您可以使用版本控制功能找回某个时间点的版本


OSS 对象数据多版本状态

未开启状态

  • 默认情况下 OSS 版本状态为未开启的状态,一旦开启,无法退回到未开启状态


开启状态

  • 当 OSS 版本控制处于开启状态,OSS 将为新上传的对象生成全局唯一的版本 ID


暂停状态

  • OSS 将为新上传的 Object 生成特殊字符串为“null”的版本 ID


开启/暂停 OSS 多版本

1.png


使用注意事项

功能互斥

  • 同一 Bucket 中,版本控制与合规保留策略或镜像回源无法同时配置
  • 如果 Bucket 已开启版本控制,上传文件时附加的覆盖同名文件请求头 x-oss-forbid-overwrite 将不生效


使用注意事项

  • 开启多版本本身不会产生任何费用,但是由于开启多版本,同一对象会存在多个版本的历史数据,会增加数据的存储成本
  • OSS 多版本历史版本过多可能导致 List 过慢的问题,建议配置生命周期定期清理


查看对象的多版本

控制台查看

2.png

Ossutil64 命令行查看

3.png

JindoFS OSS SDK 的优化

存在问题

  • 由于 Hive/Spark 任务在任务执行过程中会产生临时数据,在任务执行成功后这些临时数据会被删除,因此会产生很多历史版本数据,导致后续任务 List 过慢,后续任务性能会受到影响。


JindoFS OSS SDK 优化

  • JindoFS 对于这种情况存在优化, 对于 committer 产生的临时数据的历史版本信息可以通过设置 fs.oss.committer.magic.clean.versions.enabled 为 true 可以清理临时数据历史版本。


三、实例演示


点击回放链接,直接观看第11讲视频回放,获取讲师实例讲解:

https://developer.aliyun.com/live/246915




Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

4.png

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
10天前
|
存储 应用服务中间件 开发工具
对象存储OSS-Python设置代理访问请求
通过 Python SDK 配置 nginx 代理地址请求阿里云 OSS 存储桶服务。示例代码展示了如何使用 RAM 账号进行身份验证,并通过代理下载指定对象到本地文件。
55 15
|
2月前
|
存储 人工智能 缓存
AI助理直击要害,从繁复中提炼精华——使用CDN加速访问OSS存储的图片
本案例介绍如何利用AI助理快速实现OSS存储的图片接入CDN,以加速图片访问。通过AI助理提炼关键操作步骤,避免在复杂文档中寻找解决方案。主要步骤包括开通CDN、添加加速域名、配置CNAME等。实测显示,接入CDN后图片加载时间显著缩短,验证了加速效果。此方法大幅提高了操作效率,降低了学习成本。
5477 16
|
2月前
|
存储 网络安全 对象存储
缺乏中间证书导致通过HTTPS协议访问OSS异常
【10月更文挑战第4天】缺乏中间证书导致通过HTTPS协议访问OSS异常
144 4
|
4月前
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
|
5月前
|
分布式计算 DataWorks 数据处理
MaxCompute操作报错合集之UDF访问OSS,配置白名单后出现报错,是什么原因
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
5月前
|
域名解析 Serverless API
函数计算产品使用问题之如何配置自定义域名访问OSS中的内容
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
分布式计算 DataWorks MaxCompute
MaxCompute操作报错合集之在Spark访问OSS时出现证书错误的问题,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
6月前
|
存储 分布式计算 大数据
MaxCompute产品使用合集之是否支持创建OSS外部表为分区表,并访问OSS上以分区方式存储的数据
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
存储 运维 Serverless
Serverless 应用引擎产品使用合集之如何访问相同地域的OSS
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
|
6月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI操作报错合集之在ODPS的xxx_dev项目空间调用easyrec训练,需要访问yyy项目空间的OSS,出现报错,是什么导致的
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。